전체 글
포즈 기반 생성형 AI 모델 프레임워크 One-to-Animation
포즈 기반 생성형 AI 모델 프레임워크 One-to-Animation
2025.12.18이미지 한 장만으로 자유자재로 움직일 수 있게 만들어주는 프레임워크 One to Animation이 공개되었습니다. 정렬이 필요하지 않고, 사진 속 인물의 비율이나 구도에 상관없이 다른 영상의 동작에 맞춰 춤추게 하거나 포즈를 바꿀 수 있다고 하네요. 긴 영상 생성도 가능하고, 프롬프트를 사용해 영상의 요소를 수정할 수 있다고 합니다. 이거 용량이 꽤 크고 Wan 같이 VRAM 8,90GB는 정도는 되야 잘 돌아가는 편이라 아직 저는 못 돌려봤네요...
Ai2, 비디오 이해 및 추적 AI Molmo 2 출시
Ai2, 비디오 이해 및 추적 AI Molmo 2 출시
2025.12.18Ai2에서 오픈 소스 비디오 인식 모델 Molmo를 출시했습니다. 영상에서 필요한 장면으로 넘어갈 수 있고, 영상 속 객체가 시간의 흐름에 따라 어떻게 움직이는지(Tracking)를 짚어낼 수 있는 모델이라고 하네요. 플레이그라운드에서 체험해 볼 수 있습니다.
Decart, Lucy Motion 기능 추가
Decart, Lucy Motion 기능 추가
2025.12.18Decart에 사진의 객체에 움직임을 지정할 수 있는 기능 Lucy Motion이 추가되었습니다. 여타 중국발 생성형 이미지 AI에서 제공되는 것 같은데, Decart에서 제공하네요. 다만 움직이는 부분(손, 발, 바퀴 등)은 조금 어색한 면이 없잖아 있네요.
BFL, FLUX.2 MAX 출시
BFL, FLUX.2 MAX 출시
2025.12.18Black Forest Labs에서 FLUX.2 MAX를 출시했습니다. API를 통해 사용할 수 있고요. 날씨 반영, 향상된 문자 일관성, 공간 추론(원근감, 카메라 각도 등), 텍스트 렌더링, 물리 법칙 등을 지원한다고 하네요. 크레딧 비용의 차이는 없는 것 같습니다. 굳이 별다른 스튜디오 아니어도 BFL 플레이그라운드에서 해볼 수 있습니다.
Google, Gemini 3 Flash 공개
Google, Gemini 3 Flash 공개
2025.12.18구글(Google)이 자사 AI 제미나이(Gemini)의 경량이면서도 저렴한 모델인 Gemini 3 Flash를 공개했습니다. Pro/Deep Think 모델 다음으로 추가되며 멀티모달, 비전 이해, 바이브 코딩 등의 성능을 빠르고 비용 효율적으로 사용할 수 있게 해준다고 하네요. GAS나 챗봇 앱 등으로 사용할 수 있다고 하니 참조하세요.
ARCTIC, MX-7 써멀 페이스트 출시
ARCTIC, MX-7 써멀 페이스트 출시
2025.12.17아틱에서 MX-7 써멀을 출시했습니다. 2/4/8g으로 출시된다고 하네요.
텐센트, HY Wolrd 1.5 공개
텐센트, HY Wolrd 1.5 공개
2025.12.17텐센트에서 자사의 월드 AI 모델 HY World 1.5를 오픈 소스로 공개했습니다. 실시간 상호 작용을 지원하는 일관성 유지가 높은 모델이라고 하네요. 예제가 많지 않아서 제공되는 영상들 보고 있는데, 이런저런 상상력을 자극하는 것들이 보이네요.
Microsoft, TRELLIS.2 공개
Microsoft, TRELLIS.2 공개
2025.12.17Microsoft가 이미지에서 3D 모델을 생성하는 최첨단 모델 TRELIS 2를 공개했습니다. PBR 텍스처 생성까지 지원(곧 출시 예정)한다고 합니다. 개인이 일반 데탑이나 웍스에서 돌리긴 힘들지 않나 싶고, Vast나 Runpod 등의 대여 서비스를 사용해봐야 하지 않나 싶네요. 예제 영상을 보면 되게 섬세하게 만들어주는 것 같은데, 이거 아직 구동은 못해봤습니다;ㅅ; 이게 정말이라면 개쩌는데요.....
새로운 ChatGPT Image 공개
새로운 ChatGPT Image 공개
2025.12.17OpenAI가 자사의 새로운 이미지 모델 ChatGPT Image를 공개했습니다. 1.5버전이고요. 훨씬 좋아진 일관성 유지와 더불어 사진 편집, 텍스트 이미지 생성 등이 훨씬 더 빠르게 가능해진다고 하네요. API 역시 20% 정도 저렴한 가격으로 이용할 수 있다고 하고요. 이것저것 해보고 구경하는데 여전히 좀 바나나 프로보다는 부족한 감이 있지 않나 싶지만 필터 하나 먹인 듯한 느낌은 많이 사라져서 그럭저럭 실사용에 쓰기에도 괜찮은 것 같네요. 속도가 크게 차이나는 건 아니지만 확실히 조금 빨라졌습니다. 4컷 만화 생성에서 한글 렌더링도 개선되었긴 한데, 으음...음....음... 불닭게티 맛있게 끓이는 법 4컷 만화로 해달라고 했느데 아래처럼(.....) 그려주네요; 아마 불닭게티가 뭔지 몰라서 ..
알리바바, Wan 2.6공개
알리바바, Wan 2.6공개
2025.12.17알리바바에서 자사의 비디오 생성형 AI 모델 Wan 2.6 버전을 공개했습니다. 오픈 소스는 아니고 API 구매방식이네요. 참조 이미지의 일관성을 유지하고, 캐릭터의 목소리도 지원한다고 합니다. 스토리를 생성하고, 좀 더 시네마틱한(정밀한 질감, 극적인 카메라 워크 등) 영상 생성이 가능하고, 다중 이미지 제어도 제공한다고 하고요. 적당히 $5/월(1년 구독 기준)에 300크레딧 정도 제공되는 만큼 찍먹으로 괜찮습니다. Kling AI와 더불어 영상 이것저것 해본다면 Wan 구독도 같이 하는게 여러모로 AI 월세비용을 분담할 수 있는 방법이 아닐까 싶네요. **WAN 2.6으로 만들어진 영상 구경하고 있는데 여전히 어 이거 AI구나 싶은 부분들 꽤 있는데 오, 이거 재밌겠다...싶은 것들이 가능해지네..
Meta, SAM Audio 공개
Meta, SAM Audio 공개
2025.12.17Meta가 SAM(Segment Anything Model) Audio를 공개했습니다. 배경 소리와 음성 및 지정 효과를 분리 및 추출하고, 음악에서 악기고 분리할 수 있다고 하네요. 다양한 소리가 혼합된 현실에서 녹음된 소리를 사용해 내용을 좀 더 명확히 확인하는게 가능해지겠네요. 깃헙에서 저장소 복제 등으로 사용해보시거나 메타의 플레이그라운드에서 사용해볼 수 있습니다. 다만 전체적인 음질이 조금 열화되는 건 아쉽네요. 목소리 분리는 충분히 좋아서 보청기 등에 유용할 것 같습니다. 좋아요...
Microsoft Visual C++ 재배포 가능 패키지 다운로드
Microsoft Visual C++ 재배포 가능 패키지 다운로드
2025.12.17여기서 받을 수 있다. 자동으로 업데이트가 되는 건 아니고, 필요한 앱 설치하다보면 받아지거나 하는 듯. 요즘엔 잘 쓸 일 없다가도 한번씩 설치해야 할 일이 생기더라고요. 미리미리 설치해둬서 나쁠 거 없으니 설치해둡시다.