Whisper-standalone-win

Whisper cpp를 사용하면 종종 일본어 전사시에 같은 말만 반복되는....현상이 있다. Whisper를 그냥 쓰려면 라지 모델에 필요한 VRAM이 좀 커서 어찌 써먹으려면 최소한 3060 12GB나 4060Ti 16GB같은 거 필요하다. 내 오래된 3060 6GB 모바일 모델 달린 노트북에서 쓰기엔 어렵더라(라지 모델 기준). 영문은 미디엄 써도 크게 문제 없는것 같은데 일본어가....으음...

그래서 자막 만들기에 실행 속도랑, 타임 스탬프 등을 좀 더 상세하게 표현해주는 거 없나 하고 찾아보다 발견하고 사용중. Stabilizing Timestamps for Whisper. 이름부터 휘스퍼용 타임스탬프 안정화....다. 그래서 그냥저냥 괜찮아서 그냥 타협하고 미디엄 모델을 쓰는데, 조금 빠르게 손쉽게 구동할 수 있는 방법 없나 찾아보다 발견. 꽤나 오래전에 나왔는데 왜 난 이제 봤냐..하고 생각해보니 내가 그동안 데탑에서 메인으로 AMD 글카를써서(....) 였지 않나 싶다.

아무튼 이번에 발견한 건 Wisper Standalone win이다. WhisperX나 faster whisper를 기반으로 하는것 같고, 덕분에 6GB VRAM에서 Laege v3 모델을 구동할 수 있다. 좋아요...헤응... cpp 버전 보다 빠르고. 무엇보다 이제 똑같은 말 반복하지 않아서 좋다. 파이썬 같은 거 설치 안되어 있어도 잘 동작한다. 이후에 Subtitle Edit같은 걸로 정리 및 번역, 또는 TXT로 내보내기 하면 작업이 훨씬 쉬워진다. 초벌 번역은 Gemini 사용하면 여러모로 도움...이...되나? 그거까진 잘 모르겠는데(말투 보정이나 뭐 이런게 좀 아직 잘 안되서), 자막을 보면서 작업할 수 있고 없고의 차이는 꽤 크니까.

아무튼 명령줄로 사용해도 되고, 그냥 전사하고픈 영상/음성을 bat 파일에 드래그 앤 드롭해도 사용할 수 있다. CMD로 한다면 관리자 권한으로 실행하고, 실행 파일(.exe)이 있는 폴더가서,

faster-whisper-xxl.exe "동영상 파일 경로" --language 언어 --model large-v3 --model_dir "모델경로" --output_dir "출력 파일 저장 경로" --output_format srt

같은 느낌으로 쓰면 된다. 깃헙 페이지에서 제공하는 사용 예시는 다음과 같다: 참고로 --help 입력해보면 좀 더 상세한 설정이 가능하다. SRT 출력 설정이라든가.

faster-whisper-xxl.exe "D:\videofile.mkv" --language English --model medium --output_dir source
faster-whisper-xxl.exe "D:\Folder" -l en -m turbo --sentence --batch_recursive
faster-whisper-xxl.exe "D:\videofile.mkv" -l ja -m medium --task translate --standard -o source
faster-whisper-xxl.exe --help

좀 더 쉽게 쓰려면 batch 파일을 하나 만들어도 되고, 그냥 f탭 "파일명 탭" -l 언어 -m large-v3 -o source 같은 형식으로 쓰면 되니 참조합시다. exe 파일이 있는 곳에다 영상 파일 넣으면 경로 길게 안 적어도 되고, 탭으로 선택 가능하니 그렇게 써도 무방하다. 라지 모델이라도 6GB VRAM에서도 잘 된다.

처음 구동할 때 보면 large-v3 보다 large-v2의 결과가 더 좋다는 메세지 띄워주던데, v2로 사용해보도록 합시다. 개인적인 경험상 출력물의 큰 차이는 없는 거 같고, v3을 사용하면 종종 전사한 거랑 비교해서 들어보면 어? 이게 이 말이야?하는 전사가 보이는데 그거 때문에 그렇지 않나 싶다. 이게 v2가 적은 건 맞는 듯. 속도도 조금 더 빠르고.

'Web.World > Ai.ML.SD' 카테고리의 다른 글

Claude 모바일 앱에 음성 모드 도입 (0)	2025.05.29
Comet 브라우저 - AI 기반의 브라우저 (0)	2025.05.25
Google의 비디오 생성 AI, Flow(플로우) (0)	2025.05.23

Whisper-standalone-win

'Web.World > Ai.ML.SD' 카테고리의 다른 글

댓글

이 글 공유하기

티스토리툴바

'Web.World > Ai.ML.SD' 카테고리의 다른 글

댓글

이 글 공유하기

다른 글

Opera, 생성형 AI를 통합한 Opera Neon 브라우저 발표

Claude 모바일 앱에 음성 모드 도입

Comet 브라우저 - AI 기반의 브라우저

Google의 비디오 생성 AI, Flow(플로우)

티스토리툴바