Voicebox - Qwen3 TTS 기반의 오픈 소스 음성 복제 도구

알리바바의 Qwen3 TTS 음성 생성 AI 모델을 기반으로 하는 Voicebox 앱이 출시되었습니다. Python 설치 등의 필요 없이 사용 가능하다고 합니다. 윈도 버전의 경우 CUDA 가속이네요. CPU로도 느리지만 사용할 수 있습니다. 혹시 모델 다운로드에서 에러가 뜬다면 작업관리자를 열고 자세히 탭에서 voicebox-server 프로세스가 두 개 열려 있다면 모두 닫고, voicebox 프로세스도 닫고 앱을 재시작 한 번 해보세요. 참 모델 다운로드는 하나 끝나면 다른 거 클릭해서 받아야 합니다. 그리고 모델 다운로드 중에 트랜스크립션이나 이런 거 누르지 말고 모델 다운로드가 끝다고 사용하시는게 문제가 적습니다.

어...이리저리 써보는데 영어는 괜찮은데 한국어는 좀 미묘하네요.....아직까지 써본 것들 중에서 음성 생성 AI 모델 중에 짧은 음성 클립으로 음성 생성해주는 건 톤이나 음질 등을 보면 fish audio가 가장 무난한 것 같습니다. 저용량에서도 잘 동작하고요.

Voicebox 사용법은 간단합니다. 음성 생성 > 녹음 또는 wav 입력 > 트랜스크립션 > 목소리 설정 > 완료 후 사용할 목소리 선택한 뒤, 타이핑해서 음성 생성이 가능합니다. 근데 최신 빌드에서 GPU 인식을 올바르게 하지 못하는 버그가 있는 것 같네요. 음성 가져와서 하는 경우엔 Whisper 모델도 다운로드가 되어 있어야 트랜스크립션이 가능합니다. 용량 꽤 먹네요. 음정이나 기쁨 같은 것도 표현이 되기는 하는데...으음....영어는 훌륭한 편이고, 한국어도 무난하게 쓸 수 있어 보이긴 하네요.

'Web.World > Ai.ML.SD' 카테고리의 다른 글

Google, NotebookLM에서 동영상 개요 업데이트 (0)	2026.03.06
Google, Gemini 3.1 Flash-Lite 발표 (0)	2026.03.05
OpenAI, GPT‑5.3 Instant 출시: 더 자연스럽고 유용한 일상 대화 (0)	2026.03.05

Voicebox - Qwen3 TTS 기반의 오픈 소스 음성 복제 도구

'Web.World > Ai.ML.SD' 카테고리의 다른 글

댓글

이 글 공유하기

티스토리툴바

'Web.World > Ai.ML.SD' 카테고리의 다른 글

댓글

이 글 공유하기

다른 글

Kling Video 3.0 모션 제어 기능 업데이트

Google, NotebookLM에서 동영상 개요 업데이트

Google, Gemini 3.1 Flash-Lite 발표

OpenAI, GPT‑5.3 Instant 출시: 더 자연스럽고 유용한 일상 대화

티스토리툴바