개선된 디퓨전 트랜스포머(Next-DiT)기반의 모델이라고. 얼마전에 ComfyUI 노드로 등록되었던데 이미지 생성이 올바르게 안되서 여기저기 구글링하면서 시도해보다가 괜찮아서 포스팅. 깃헙. 허깅페이스, 공식 가이드. 애니메이션 이미지 생성 모델이고, 데모는 이제 초대된 사람들만 사용해볼 수 있는 듯하다.
프롬프트, 자연어를 지원하고(Gemma3-4B-it/Jina CLIP v2) - 영문, XML 방식으로도 사용할 수 있다고 함. 일단 꽤 무거운 편이라 3070에서는 생각보다 오래 걸리더라. 그냥 걸어두고 와서 얼마나 걸렸는지는 정확하게 모르겠음. SDXL보다는 확실히 오래 걸렸다.
참 RTX 20시리즈는 BF16 연산을 지원하지 않으니 중고로 저렴한 30시리즈 하나 업어와야 하지 않나 싶고, NSFW모델이더라. 자연어로도 잘 인식해서 문장 적어도 그려주지만 빛 효과나 카메라 제어, 눈동자 상세, 보케 제어 등등은 XML로 하는 게 맞는 것 같다.
SDXL 생각하고 돌리면 결과에 실망하는데, 예제 프롬프트 정도만 나왔으면 해서 프롬프트 템플릿이랑 예제 보면서 되게 상세하게 적으니 그럭저럭 이쁘게 그려주긴 하더라. 단 손가락 발가락은 예외. 얄짤없이 뭉개거나 헉 이게 뭐야 싶은 경우 종종 있고, 이 모델 역시 머리 위로 물을 붓는 걸 이쁘게 표현하지는 못하더라.
아무튼 상세한 자연어 및 프롬프트...로 제어해야 하고, 내 영어단어 실력 어쩔... Exp1.0이 나올지 모르겠지만 기대됨.