IT정보/AI

구글(Google)의 Dreamix 소개

지식의 힘1 2023. 5. 7.

구글(Google)의 Dreamix 소개

 

 Google의 Dreamix은 텍스트를 비디오로 변환하는 모델로, 구글에서 공개한 생성형 AI 모델 중 하나입니다. 이 모델은 비디오 확산 모델로, 일반적인 비디오 편집을 위한 최초의 확산 모델입니다. 이 모델은 2023년에 구글과 HUJI에서 발표되었으며, 이미지와 문자를 동영상으로 변환하는 기능을 가지고 있습니다.

 

 확산 모델은 이미지 편집에 성공적으로 적용되어 왔지만, 동영상 편집에 적용된 것은 이번이 처음입니다. 이 접근 방식은 비디오 확산 모델을 사용하여 원본 비디오의 저해상도 시공간 정보와 안내 텍스트 프롬프트에 응답하여 합성된 고해상도 정보를 결합하는 것입니다. 원본 비디오에 대한 높은 충실도를 달성하기 위해 텍스트 기반 확산을 적용하기 전에 원본 비디오에서 모델을 미세 조정합니다.

 

 이 접근 방식에는 모션 편집 가능성을 개선하기 위해 전체 시간적 주의와 시간적 주의 마스킹을 미세 조정하는 혼합 목표도 포함됩니다. 또한 이미지를 거친 입자의 비디오로 변환한 다음 일반 비디오 편집기를 사용하여 애니메이션을 적용하는 이미지 애니메이션을 위한 새로운 프레임워크가 도입되었습니다. 이 접근 방식은 주제 중심 비디오 생성에도 사용할 수 있습니다. 이 방법은 광범위한 정성적 및 수치적 실험을 통해 기본 방법보다 성능이 우수한 것으로 나타났습니다. 

 

Dreamix_이미지 샘플
Dreamix_이미지 샘플

 

 이미지 설명 : 비디오와 텍스트 프롬프트가 주어졌을 때, Dreamix는 컬러, 포즈, 개체 크기 및 카메라 포즈에 대한 일관성을 유지하면서 비디오를 편집하여 시간적에 따라 일관된 비디오를 생성합니다. 프롬프트는 Dreamix는 "곰이 춤을 추고 경쾌한 음악에 맞춰 점프하며 온몸을 움직인다"가 주어졌으며, 이 명령에 의해 원숭이(왼쪽)를 춤추는 곰(오른쪽)으로 바꿉니다.

 

 

댓글