GPT-SoVITS, 목소리 훈련 가능한 TTS 툴
반응형
비교적 낮은 사양과 CPU에서도 구동 가능한 TTS툴. 깃헙은 여기. 자신의 목소리를 트레이닝시킬 수 있습니다. 윈도에서도 잘 돌아가고요. 하나의 언어에서 한국어, 영어, 일본어, 중국어, 광동어 등의 음성을 생성할 수 있다고 하네요. 억양이나 감정을 좀 더 조절할 수 있는 음성 합성이라고 하면 Style-Bert-VIST2도 괜찮은 선택이라고 하니(단, 일본어만 가능) 참조하세요.
.....해보니까 윈도에서의 완성이 올바르지 않은 것 같습니다. 우분투에서 하는게 맞지 않나...싶네요. 일본어 목소리 샘플은 여러곳이 있는데 무료로 사용할 수 있는게 꽤 되는 것 같습니다.
우분투를 사용한다면 도커로도 사용할 수 있다고 합니다. PC.WATCH에 사용법이 상세하게 나와 있네요. 목소리 데이터 세트는 여러가지...있겠지만 일본어는 무료로 배포되는 츠쿠요미짱의 데이터를 학습에 사용해봐도 괜찮지 않나 싶습니다.

반응형
'Web.World > Ai.ML.SD' 카테고리의 다른 글
Perplexity, Deep Research 공개 (0) | 2025.02.17 |
---|---|
Zonos - 고품질 음성 합성 모델 (0) | 2025.02.14 |
포니 디퓨전(Pony Diffusion), ILXL (0) | 2025.02.02 |
댓글
이 글 공유하기
다른 글
-
Anthropic, 클로드 3.7(Sonnet)출시
Anthropic, 클로드 3.7(Sonnet)출시
2025.02.25안트로픽이 클로드 3.7 소넷을 출시했습니다. 하이브리드 추론 모델로, 즉각적인 응답과 단계별 사고 과정 모두 제공 가능하다고 하네요. 코딩과 프론트엔드 웹 개발 관련하여 성능향상이 있었고, 수학, 물리학 등의 명령 이행 능력이 향상되었다고 합니다. -
Perplexity, Deep Research 공개
Perplexity, Deep Research 공개
2025.02.17퍼플렉시티에서 AI가 사용자의 질문에 답하기 위해 웹을 조사하고, 분석을 진하는 Deep Research 기능을 출시했습니다. 유료 사용자는 하루 최대 500회, 무료 사용자는 하루 최대 5회라고 하네요. -
Zonos - 고품질 음성 합성 모델
Zonos - 고품질 음성 합성 모델
2025.02.14오픈웨이 텍스트 음성 변환 모델이라고 합니다. 음정 변화와 말하기 속도, 기분 등의 반영을 쉽게 할 수 있고 44kHz를 지원한다고 합니다. 3000시리즈 이상의 NVIDIA GPU가 탑재된 우분투 시스템에서 사용할 수 있다고 하니 참조하세요. -
포니 디퓨전(Pony Diffusion), ILXL
포니 디퓨전(Pony Diffusion), ILXL
2025.02.02SDXL 체크포인트 중에서 비교적 성능이 좋다는 포니 기반의 모델을 사용하는 경우에는 여러 체크포인트 설명에 나와있지만 전용 VAE 를 사용해야(SDXL)하고, 개인적으로 찍먹해볼 정도에 하드웨어 성능이 크게 좋지 않다면 Fooocus나 ComfyUI에서 하는 걸 추천. 이거 기본 설정이 잘 되어 있어서 이런저런 설정하는 시간을 줄여줌. VAE는 필요한 거 맞춰서 설정해주도록 하자(A1111기준 Settings > VAE > sdxl_vae 받은거.safetensors 로 설정 후 Apply Settings 눌러 적용). 샘플링은 받은 파일 설명을 따르면 되고, 대게 Euler a / dpm++ 2m 등을 사용하면 됨. CIVITAI에서 애니메이션 이미지 생성으로 처음 쓰기 괜찮은 포니 기반의 체크포인트…
댓글을 사용할 수 없습니다.