중국판 '소라' 등장...최대 16초짜리 AI 영상 생성

성수커지+칭화대 협력 개발

인터넷입력 :2024/04/29 08:59

중국에서 미국 오픈AI의 텍스트투비디오 생성 모델 '소라(Sora)'를 벤치마킹한 인공지능(AI) 영상 생성 모델을 발표했다.

27일 중국 성수커지(ShengShu)가 칭화대와 협력해 개발한 중국  AI 초거대 모델 '비두(Vidu)'를 발표했다. 이 모델은 장시간, 높은 일치성, 높은 동태성 등 특징을 가지는 모델로서, 중국 언론과 업계 관계자들은 이 모델이 중국 최초의 '소라'급 영상 모델이라고 평가하고 있다.

이 모델은 '중관춘포럼미래인공지능선봉포럼'에서 처음 공개됐다.

VIDU에서 생성된 영상 (사진=비두 영상)
VIDU는 칭화대와 성수커지가 협력해 개발했다. (사진=비두 영상)

비두는 원클릭으로 최대 16초 길이와 최대 1080p 해상도의 영상 생성을 지원하는 독창적 '유빗(U-ViT)' 아키텍처를 사용했다고 설명했다.

U-ViT은 소라처럼, 디퓨전(이미지 데이터에 노이즈를 추가 및 제거하며 이미지를 생성)과 트랜스포머(텍스트 맥락을 통해 이미지를 생성) 방식을 결합해 구성된 아키텍처다.

회사측에 따르면 U-ViT 아키텍처는 소라가 채택한 DiT 아키텍처보다 먼저 2022년 9월 개발팀이 제안한 것으로 디퓨전과 트랜스포머를 통합한 세계 최초의 아키텍처다.

개발팀은 앞서 U-ViT 융합 아키텍처를 기반으로 한 세계 최초 다중 모드 확산 모델인 유니디퓨저(UniDiffuser)를 오픈소스화하고 U-ViT 아키텍처의 대규모 확장성 검증을 완료했다고도 설명했다.

관련기사

비두에 따르면 비두는 실제 물리적 세계를 시뮬레이션 할 수 있을뿐 아니라 창의력과 높은 시공간적 일관성 등을 갖추고 있다.

성수커지는 칭화대 인공지능연구원 출신 인력이 지난해 3월 설립한 AI 스타트업으로 알리바바, 텐센트, 바이트댄스 등 출신 인력으로 구성됐다.