모델 릴리즈

Google Veo 3.1 공개 — 영상에 대사·효과음까지 함께 만든다

Google Veo 3.1이 4K 60fps 영상에 대사·효과음·BGM을 동기화해 단일 생성으로 출력한다. OpenAI Sora가 3월 종료된 직후 시장 주도권을 가져갔다. "AI 영상 = 무성 영상" 시대가 끝났다.

2026-05-27

Google이 Veo 3.1을 공개하면서 영상 AI의 기본 사양이 바뀌었다. 고화질 영상에 대사·효과음·배경음악이 입 모양·동작과 딱 맞춰 한 번에 나온다. 추가 편집 없이 그대로 쓸 수 있는 첫 모델이다.

기존 영상 모델의 한계는 셋이었다. 화질(대부분 1080p에서 멈춤), 길이(보통 10초·길어야 30초), 사운드(영상만 나오고 소리는 별도 도구로 합성). Veo 3.1은 셋 다 갈아치웠다.

해상도 3840×2160(4K UHD), 프레임 60fps, 최대 길이 1분. 여기에 영상의 입 모양·발걸음·물체 충돌에 맞춘 대사·효과음·배경 음악이 같은 생성 과정에서 한 번에 나온다. OpenAI Sora도 도달하지 못했던 사양이다.

2026년 3월 OpenAI가 Sora를 단종했다(별도 기사 참조). 영상 AI 최강자 자리가 비어 있던 상황에서 Google이 6주 만에 Veo 3.1을 정식 출시. 시장 주도권이 자연스럽게 넘어왔다.

기술 측면에서는 사운드와 영상을 같은 모델에서 동시 생성하는 multimodal 통합이 결정적. 기존 방식(영상 생성 → 별도 사운드 합성 → 수동 동기화)에서 발생하던 lip-sync 어긋남·효과음 타이밍 오차가 사라졌다.

화면·소리·길이가 한 번에 — 영상 생성의 다음 표준.

Lip-sync: 영상 속 인물의 입 모양과 음성이 일치하도록 맞추는 작업. 기존에는 영상·사운드 따로 만들고 수동 조정해 어색함이 남았다.
4K 60fps: 가로 3840 × 세로 2160 픽셀(4K UHD) 해상도, 초당 60 프레임. 영화는 24fps, 일반 TV는 30fps. 60fps는 게임·스포츠 방송 수준의 부드러움.
Multimodal 단일 생성: 영상·음성·효과음을 별도 모델로 합성하지 않고 하나의 모델 안에서 동시에 출력. 각 요소의 타이밍 정합성이 핵심 우위.