TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation
최근 연구자들이 TANGO라는 새로운 AI 시스템을 공개했습니다. TANGO는 사람의 실제와 가까운 전신 영상 생성이 가능하며, 이를 통해 합성 미디어 제작 기술의 발전을 실감할 수 있게 했습니다. TANGO의 기능을 보여주는 여러 영상이 웹사이트와 유튜브에 공개되었으며, 이를 통해 음성 녹음에 맞춰 인물의 움직임을 자연스럽게 연출하는 방법을 시연합니다.
예를 들어, 10명의 서로 다른 인물이 동일한 대사를 반복하는 영상에서 자연스러운 손동작을 볼 수 있으며, 이 동작들이 실제처럼 보이도록 표현됩니다. 연구팀은 이 AI 도구를 Hugging Face 커뮤니티에 추가하여 사람들이 직접 9개의 데모 영상을 체험할 수 있도록 했습니다.
TANGO의 작동 방식은 ‘제스처 비디오 재연(Gesture Video Reenactment)’에 기반하여, 영상을 그래프 구조로 분리 및 추출하는 과정을 거칩니다. 이후, 오디오와 모션의 불일치와 GAN 기반 전환 프레임에서의 가상 아티팩트 발생 문제를 해결하여 더욱 정교한 결과를 얻었습니다. TANGO는 언어와 움직임을 교차 정렬하여 사실적이고 음성에 동기화된 영상을 생성할 수 있도록 설계되었습니다.
연구팀은 이번 프로젝트가 “CLIP과 같은 대조 학습을 오디오와 모션에 적용한 최초의 사례”이며, 오픈 소스 모션 그래프 및 오디오 기반 영상 생성 파이프라인을 공개한 첫 번째 연구라고 강조했습니다. 앞으로 TANGO의 활용 범위를 확장하여 춤, 스포츠 등의 콘텐츠에도 응용할 수 있도록 개선할 계획입니다.
한편, 이 AI 프로젝트는 비디오 콘텐츠 생성에서 AI 사용에 대한 논의가 활발해지는 가운데 발표되었습니다. 현재 여러 비디오 편집 소프트웨어에 생성형 AI 기능이 도입되고 있으며, 유튜브도 올해 3월부터 크리에이터 스튜디오에 공개된 ‘합성 미디어 공개 도구’를 통해 사실적인 콘텐츠가 합성 미디어로 제작되었는지 여부를 알리도록 요구하고 있습니다.
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation
최근 연구자들이 TANGO라는 새로운 AI 시스템을 공개했습니다. TANGO는 사람의 실제와 가까운 전신 영상 생성이 가능하며, 이를 통해 합성 미디어 제작 기술의 발전을 실감할 수 있게 했습니다. TANGO의 기능을 보여주는 여러 영상이 웹사이트와 유튜브에 공개되었으며, 이를 통해 음성 녹음에 맞춰 인물의 움직임을 자연스럽게 연출하는 방법을 시연합니다.
예를 들어, 10명의 서로 다른 인물이 동일한 대사를 반복하는 영상에서 자연스러운 손동작을 볼 수 있으며, 이 동작들이 실제처럼 보이도록 표현됩니다. 연구팀은 이 AI 도구를 Hugging Face 커뮤니티에 추가하여 사람들이 직접 9개의 데모 영상을 체험할 수 있도록 했습니다.
TANGO의 작동 방식은 ‘제스처 비디오 재연(Gesture Video Reenactment)’에 기반하여, 영상을 그래프 구조로 분리 및 추출하는 과정을 거칩니다. 이후, 오디오와 모션의 불일치와 GAN 기반 전환 프레임에서의 가상 아티팩트 발생 문제를 해결하여 더욱 정교한 결과를 얻었습니다. TANGO는 언어와 움직임을 교차 정렬하여 사실적이고 음성에 동기화된 영상을 생성할 수 있도록 설계되었습니다.
연구팀은 이번 프로젝트가 “CLIP과 같은 대조 학습을 오디오와 모션에 적용한 최초의 사례”이며, 오픈 소스 모션 그래프 및 오디오 기반 영상 생성 파이프라인을 공개한 첫 번째 연구라고 강조했습니다. 앞으로 TANGO의 활용 범위를 확장하여 춤, 스포츠 등의 콘텐츠에도 응용할 수 있도록 개선할 계획입니다.
한편, 이 AI 프로젝트는 비디오 콘텐츠 생성에서 AI 사용에 대한 논의가 활발해지는 가운데 발표되었습니다. 현재 여러 비디오 편집 소프트웨어에 생성형 AI 기능이 도입되고 있으며, 유튜브도 올해 3월부터 크리에이터 스튜디오에 공개된 ‘합성 미디어 공개 도구’를 통해 사실적인 콘텐츠가 합성 미디어로 제작되었는지 여부를 알리도록 요구하고 있습니다.
--------------------------------------------------------
바로가기 (새창) : https://pantomatrix.github.io/TANGO/
도큐멘토에서는 일부 내용만을 보여드리고 있습니다.
세부적인 내용은 바로가기로 확인하시면 됩니다.