Stable-diffusion.cpp : 손쉽게 Z-Image Turbo 구동
Z-image를 쉽게 구동할 수 있는 방법에는 Comfy....가 있고, Z-Image에서 소개하고 있는 Cache-dit, Koboldcpp, Stable-diffusion.cpp, LeMiCa, ComfyUI-ZImageLatent 같은 게 있다. 개인적으로 다른 사람에게 Z-Image 로컬로 구동해보는 거 어때요? 하고 손쉽게 알려줄 수 있는 건 ComfyUI 템플릿이긴 하더라(....). ComfyUI 만세.
그리고 이건 내 경험인데 생각보다 영상 생성이 메모리 엄청 끌어쓰고, 그에 맞춰 가상 메모리 사용도 큰 만큼 AI 영상 업스케일링이나 AI 영상 제작을 로컬로 한다면 SSD 수명을 종종 체크해보도록 하자. CDI 오랜만에 켜보고 SSD 마모된 거에 놀랄 수도 있음; 내가 로컬로는 이미지 생성 정도만 하는 건 시간이나 속도도 속도지만 SSD 수명이 생각보다 빨리 소모되서....임.;ㅅ; 나도 고성능 PC 가지고 싶다....특히 영상을 이어 붙이거나 시간을 늘리거나하면 글카도 글카지만 128, 256GB 메모리의 필요성이 절실해지더라고요....
아무튼 일단 쉽게, 비교적 저사양에서도 구동되는 Z-Image의 장점을 최대한 써볼 수 있는 건 Koboldcpp와 Stable-diffusion.cpp 두개다. 설명 잘 나와 있어서 참조하면 쉽게 구동해볼 수 있다. 파일 받고, 모델 받고 할 수 있음. 개인적으로 프롬프트 준수는 꽤 괜찮은 편이고. 텍스쳐 생성은 조금 미묘한 편이다. 나쁘진 않은데 나노바나나급을 기대해서는 안 됨. 그리고 중국 검열 받음(대만 어쩌구 하면 이거 생성 안됨).
Koboldcpp쓴다면 설정 파일(Kcppt) 받으면 알아서 적용되고, 크게 어려운 건 아니니 텍스트 인코더, 모델, VAE받아 구동하면 됨(http://localhost:5001/sdui). 다만 ComfyUI만큼 빠르진 않고 결과가 좀 별로라 Stable-diffusio.cpp로 해봄. master-win-cuda 받고, 모델들 받아 넣어주고, 예제 코드 기반으로 만들어서 실행하면 된다. 레딧 등에서는 SDXL 이후 엄청난 인기를 구가하는 듯해서 좀 더 찾아보다 이것저것 해봄.
.\bin\Release\sd.exe --diffusion-model z_image_turbo-Q3_K.gguf --vae ..\..\ComfyUI\models\vae\ae.sft --llm ..\..\ComfyUI\models\text_encoders\Qwen3-4B-Instruct-2507-Q4_K_M.gguf -p "A cinematic, melancholic photograph of a solitary hooded figure walking through a sprawling, rain-slicked metropolis at night. The city lights are a chaotic blur of neon orange and cool blue, reflecting on the wet asphalt. The scene evokes a sense of being a single component in a vast machine. Superimposed over the image in a sleek, modern, slightly glitched font is the philosophical quote: 'THE CITY IS A CIRCUIT BOARD, AND I AM A BROKEN TRANSISTOR.' -- moody, atmospheric, profound, dark academic" --cfg-scale 1.0 -v --offload-to-cpu --diffusion-fa -H 1024 -W 512
내용으로 미루어보아 필요한 건 z_image_turbo-Q3_K.gguf, ae.sft, Qwen3-4B-Instruct-2507-Q4_K_M.gguf 정도. 필요한 버전 받아서 사용합시다. 파일 다운로드에 허깅페이스 로그인 및 엑세스 요청 필요. 위에 예제 코드 기반으로 수정해서, 대충 bat로 저장한 뒤 관리자 권한으로 수정하고 실행하면 된다. 내 경우에는 exe 파일 있는 거 전부 때려넣고 ae.stf로 이름도 바꿔줬다.
sd.exe --diffusion-model z_image_turbo-Q6_K.gguf --vae ae.sft --llm Qwen3-4B-Instruct-2507-Q4_K_M.gguf -p "A cinematic, melancholic photograph of a solitary hooded figure walking through a sprawling, rain-slicked metropolis at night. The city lights are a chaotic blur of neon orange and cool blue, reflecting on the wet asphalt. The scene evokes a sense of being a single component in a vast machine. Superimposed over the image in a sleek, modern, slightly glitched font is the philosophical quote: 'THE CITY IS A CIRCUIT BOARD, AND I AM A BROKEN TRANSISTOR.' -- moody, atmospheric, profound, dark academic" --cfg-scale 1.0 -v --offload-to-cpu --diffusion-fa -H 1024 -W 512 -s -1
대충 이렇게 수정함. -p 이후는 프롬프트로, qwen 모델이 작은거라 한글보다는 영문으로 작업하는 게 맞음. 한글 표현 안되기도 하고. 일단 노트북에서도(3060 6GB)잘 되고, 무엇보다 빠른 속도를 보여줌. Comfy보다 용량도 적게 잡아먹고. 다만 출력이 output.png로 나오는데 이거 매번 덮어쓰기 되니까 미리미리 빼 둡시다. 프롬프팅 가이드는 여러곳 찾아보면 나오지 않나 싶은데, 기존 SDXL 프롬프트로도 해볼 수 있다. 근데 이건 Gemini에게 부탁하면 잘 뽑아줌.
Z-Image가 자연어 인식 성능이 좋은 편이라 관사나 이런 거 까지도 구분해서 잘 인식하니까 SDXL보다는 뭔가를 하기 편하긴 하다. 근데 이것저것 하기 귀찮은 사람은 그냥 ComfyUI쓰세욥. 용량이랑 속도에서 조금 아쉽지만 훨씬 편함. 참 Stable-diffusion.cpp의 프롬프트 가이드는 깃헙을 참조합시다.


'Web.World > Ai.ML.SD' 카테고리의 다른 글
| LeMiCa로 Z-Image 사용하기 (0) | 2025.12.09 |
|---|---|
| Ultimate TTS Studio SUP3R Edition (0) | 2025.12.07 |
| Nexa - Hyperlink AI (0) | 2025.12.07 |
댓글
이 글 공유하기
다른 글
-
Longcat Image edit 공개
Longcat Image edit 공개
2025.12.09 -
LeMiCa로 Z-Image 사용하기
LeMiCa로 Z-Image 사용하기
2025.12.09 -
Ultimate TTS Studio SUP3R Edition
Ultimate TTS Studio SUP3R Edition
2025.12.07 -
Nexa - Hyperlink AI
Nexa - Hyperlink AI
2025.12.07