구글 딥마인드가 개발한 신규 AI 영상 생성 기술, 오디오 통합과 물리 법칙 구현으로 기존 한계 극복
구글이 지난 5월 구글 I/O 2025에서 차세대 AI 영상 생성 모델 ‘Flow Veo 3’를 공개했다고 26일 발표했다. 이 기술은 간단한 텍스트 입력만으로 전문가 수준의 영상을 제작할 수 있는 것이 특징이다.
Flow Veo 3는 기존 AI 영상 생성 도구들과 달리 영상과 오디오를 동시에 생성하며, 실제 물리 법칙을 적용한 자연스러운 영상을 만들어낸다. 특히 입술 움직임과 대사가 정확히 일치하는 립싱크(lip-sync) 기능을 제공한다.
오디오와 영상의 완벽한 통합 구현
Flow Veo 3의 가장 큰 특징은 영상과 오디오를 별도로 제작하여 결합하는 기존 방식에서 벗어나, 처음부터 두 요소를 함께 생성한다는 점이다. 이는 마치 오케스트라 지휘자가 여러 악기를 조율하듯 모든 요소가 조화롭게 작동한다.
구체적으로 실시간 대사 생성, 장면 분위기에 맞는 배경음악 자동 작곡, 대사와 배경음, 효과음 등 여러 오디오 층의 완벽한 조화 등을 지원한다.
구글 딥마인드 개발팀은 “Flow는 단순히 영상을 만드는 도구가 아니라 창작자의 상상력을 현실로 변환시키는 역할을 한다”고 설명했다.
물리 법칙 적용한 사실적 영상 제작
Flow Veo 3는 실제 세계의 물리 법칙을 이해하고 적용한다. 공이 떨어질 때 중력에 따른 자연스러운 낙하나 물의 흐름 등을 정확히 구현한다. 또한 최대 1080p 해상도로 영화 수준의 화질을 제공하며, 기존 AI 영상에서 나타났던 어색함이나 끊김 현상을 크게 개선했다.
영상 전체의 일관성도 뛰어나다. 카메라가 움직이거나 시점이 바뀌어도 모든 장면이 자연스럽게 연결되어 하나의 완성된 세계처럼 느껴진다.

통합 영화 제작 도구 ‘Flow’ 동시 출시
구글은 Flow Veo 3와 함께 AI 영화 제작 도구 ‘Flow’도 함께 공개했다. 이 도구는 Veo, Imagen, 언어 모델 Gemini가 통합된 종합 영상 제작 플랫폼이다.
Flow는 창작자가 영상 제작의 모든 과정을 세밀하게 제어할 수 있도록 설계됐다. 스크린샷 기반 스토리보드 제작, 팬(Pan), 줌(Zoom), 틸트(Tilt), 돌리(Dolly) 등 전문적인 카메라 워크 지시, 실시간 편집 등이 가능하다.
특히 생성된 영상을 즉시 수정하거나 길이를 조절할 수 있으며, AI가 자동으로 영상 자료를 분류하고 태그를 생성하는 스마트 자산 관리 시스템도 제공한다.
교육·마케팅 등 다양한 분야 활용 기대
전문가들은 Flow Veo 3가 영화 제작뿐만 아니라 교육, 마케팅, 광고 등 다양한 분야에서 활용될 것으로 전망했다.
교육 분야에서는 복잡한 과학 개념이나 역사적 사건을 생생한 영상으로 제작해 학습 효과를 높일 수 있다. 예를 들어 세포 분열 과정이나 화산 폭발 원리 같은 추상적 개념을 실제 영상으로 구현할 수 있다.
마케팅 분야에서도 변화가 예상된다. 기존에 광고 제작사에 의뢰해야 했던 광고 영상을 마케터가 직접 제작할 수 있게 되면서, 개인화된 마케팅과 실시간 콘텐츠 제작이 가능해질 전망이다.
소상공인들도 전문적인 홍보 영상을 직접 제작할 수 있어 마케팅 비용 부담이 크게 줄어들 것으로 기대된다.
현재 미국에서만 이용 가능, 한국 출시는 미정
Flow Veo 3는 현재 구글 AI Pro 및 Ultra 구독자에게 베타 서비스로 제공되고 있다. 미국에서는 Gemini 앱, Flow 도구, 기업용 Vertex AI 플랫폼을 통해 이용할 수 있다.

Ultra 구독자는 모든 기능과 확장된 사용량 한도를 이용할 수 있으며, Pro 구독자는 기본 기능을 제한적으로 사용할 수 있다.
한국에서의 정식 서비스 시작 시기는 아직 발표되지 않았다. 구글은 사용자 피드백에 따라 기능을 지속적으로 업데이트할 예정이라고 밝혔다.
구글은 생성된 영상의 상업적 이용 시 이용약관을 반드시 확인하도록 당부했다.