Cartesia에서 새로운 TTS 모델 Sonic 3를 공개했습니다. 낮은 지연시간으로 실시간 음성 생성이 가능하고, 다양한 언어 지원과 웃음 등의 감정 표현도 가능하다고 하네요.
어....근데 웹에서는 영어는 잘 되는데 일본어랑 한국어는 선택해도 올바르게 안되네요; 스튜디오에서는 잘 되고요. 우후훗, 응하하하... 같은 느낌으로 웃는게 큰 차이는 없고 다 비슷하긴 하지만요. 이모션을 넣어주고 말고는 전체적인 톤의 변화가 중심인 것 같고요. 어, 벌써... 어우, 벌써, 어와, 벌써....
강약이나 올라감 내려감....이 좀 더 명확해서 사람이 말하는 것 같은 느낌이 들긴 합니다만은, 역시 어딘가에서 들어본 듯한 TTS 목소리 느낌은 어쩔 수 없는 것 같네요.
좀 더 파고 들어봐야겠습니다. 무료 플랜으로도 월간 크레딧이 주어져서 찍먹도 괜찮고, 프로도 월 $5 정도로 시작해볼 수 있어 비교적 괜찮은 선택이 아닌가 싶습니다.