OpenAudio

기존의 Fish Speech인데 OpenAudio로 리브렌딩 됨. 오픈 소스 TTS로는 괜찮은 선택인 듯 하다. 목소리 샘플을 사용해서 다른 언어로 표현하는 것도 가능. 감정과 관련한 것도 된다는데 한국어는 조금 미묘하더라. 영어는 잘 표현함. 일본어 목소리 샘플을 가져와도 어조랑 피치 60%~70% 정도는 비슷하게 만들어준다. 웹에서 해보기 가능하고, 구매해서 사용할 수 있다.

이것저것 해보면 아쉬운 부분도 있긴 한데 이정도면 대 만족. 매뉴얼은 여기. 설치 환경이고 뭐고 귀찮은 사람은 Pinokio로 손쉽게 사용해볼 수 있다. 쭉 둘러보고 레딧도 보고 하는데 TTS는 대게 유로 모델들이 당연하겠지만 성능이 더 좋은 편. Fish가 TTS의 경우 GPT-SoVITS보다 더 나은 말소리를 보여주는 듯.

보컬 분리는 MSST, 그 외 툴은Kokoro(espeak-ng), RVC, Applio(피노키오로도 가능), xtts-2 등이 있고 wav 파일 등으로 음성을 만들어 낼 수 있음. 일본어 공개 음성으로 한국어 목소리를 만들어 낸다던가...하고 싶어서 해봤는데 잘 안되서 고민중. 생각보다 다국어 지원되는 게 많지는 않고, 일본어로 학습을 하면 한국어 발음이 일본어 스러워진다... 한구루, 바르무, 이런식으로...으으...

아무튼 목표로 하던 거로 쓰기에는 나쁘지 않아서 이리저리 만져보다가 음성 생성해봄. Gemini한테 사람들이 듣고 싶어하는 말 몇 가지 추려서 해달라고 해봤다. 생각보다 오래 걸리더라.

audio.wav

2.76MB

'Web.World > Ai.ML.SD' 카테고리의 다른 글

Anime Pop Cute 외 SDXL 모델 (0)	2025.06.25
yoyo - ai 버전 관리 (0)	2025.06.22
Autodraw - 스케치를 인식해서 아이콘으로 변환 (0)	2025.06.22

OpenAudio

'Web.World > Ai.ML.SD' 카테고리의 다른 글

댓글

이 글 공유하기

티스토리툴바

'Web.World > Ai.ML.SD' 카테고리의 다른 글

댓글

이 글 공유하기

다른 글

Google, 오픈 소스 AI 에이전트 Gemini CLI 공개

Anime Pop Cute 외 SDXL 모델

yoyo - ai 버전 관리

Autodraw - 스케치를 인식해서 아이콘으로 변환

티스토리툴바