loading

Web.World/Ai.ML.SD

Whisper-WebUI 사용하기

나에+ 2023. 5. 31. 02:18
반응형

스테이블 디퓨전 설치하는 거 해뒀으면 딱히 해둘 것 없지 않나 싶음. FFMPEG만 받아서 압축푼 뒤, 대충 폴더 정렬해서 bin폴더를 윈도의 path에 넣어주자(검색에서 고급 시스템 설정 보기 입력 > 시스템 속성, 고급탬에서 환경 변수(N)... 클릭 > 시스템 변수(S) 부분에서 Path 찾은 뒤 편집(I) > 새로 만들기(N) 누르고 찾아보기 눌러서 bin폴더 위치 찾아주면 OK).

요구하는 파이썬 버전도 동일하다. 음성 인식 라지 모델 기준으로 VRAM 10G정도 필요하다고. 내 메인 PC는 라데온이라 이게 안되서(....) 거실 컴터로 미디엄해봤는데 2070S 정말 열일한다(....);

 

번역은 몇개 써봤는데 개인적으론 DeepL이 많이 나은 거 같다. 하지만 개인 PC로 이정도 할 수 있는 건 정말 굉장한 듯.

 

흠흠. 아무튼 설치는 간단하다. git bash창에서 해도 되고, Git 페이지가서 초록색 Code 누르면 나오는 부분에서 Download Zip 받아서 적당한 위치에 압축 풀어서 install.bat 실행하고 다운로드 끝날 때까지 기다리자. 용량이 이것저것 하다보면 모델 다운로드하고 작업하느라 40~60GB정도는 먹으니까 용량도 넉넉하게 확보해 둡시다. 참고로 번역 모델 nllb-200-3.3b의 경우 VRAM 16GB를 요구한다고 적혀있더라(....).

 

이후 설치가 끝나면 start-webui.bat 실행하고 창 띄워두면 됨.

Ctrl 키 누르고 위의 127.0.0.1:7860 클릭하면 브라우저가 뜨는데, 잘 만들어진 UI라 딱보면 알 수 있다.

 

자기가 사용하는 글카의 VRAM이 10GB가 안되면 Medium 정도만 합시다. 다국어 모델의 경우 10GB의 VRAM이 필요하다고 함. 뉴스나 녹음한 목소리는 잘 알아듣는데 노래는 조금 미묘하다. 아모르 파티해봤는데 어...암호를 받지마....라고 함. 미디엄 모델이라서 그런거고 라지모델로 하니까 정확하게 인식함; 실행할 때마다 조금씩 다르게 인식하는 것도 있지만 영어 공부하는데에는 정말 문제 없을 거 같다. 최고다;

 

참 비교적 저사양과 다양한 시스템에서 빠른 성능으로 사용할 수 있는 윈도 데스크톱용으로는 이런것도 있으니까 참조합시다. 번역 기능은 사용할 수 없지만 음성 인식은 사용할 수 있음. 모델 다운로드는 프로그램 실행에서도 가능하지만 여기서 가능하다. 고마워요 OpenAI랑 개발자 분들!

 

반응형