华游娱乐牛津、微软等发布音视频智能综述: 梳理大模子时间AVI接头全景

发布日期：2026-05-24 22:39 作者：admin 来源：未知点击：109

GPT-4o 一边看屏幕一边和你语音对话；Veo-3、MovieGen、Seedance 2.0 平直把原生音轨纳入视频生成链路；HappyHorse 这类近期模子也开动探索音视频连合生成；OpenVLA 让机器东谈主” 听音辨物”—— 音视频大模子，正在从” 加在视觉模子傍边的一个 ASR”，进化成 omni-modal 基础模子的中枢才调之一。

NUS 连合牛津、多伦多、UTD、HKUST、QMUL、微软接头院、罗切斯特大学等共 9 家机构最近推出据作家所知第一份系统的音视频智能（AVI）大模子综述，用一张演化树串起十年发展，给出长入 taxonomy、三条干线与六大将来接头轴，把 AVI 在大模子时间的变装与待解问题摆到了合并张舆图上。

一、9 机构、首份” 音视频大模子” 综述

频年来，AI 圈最显赫的变化之一，是” 模子不再只看图”。

2024 年 GPT-4o 把语音、视觉、文本塞进合并个 backbone，2025 年 Google Veo-3、Meta MovieGen 把” 原生带音轨的视频生成” 作为长入想法，2026 年字节 Seedance 2.0 和 HappyHorse 等使命进一步把文本、图像、视频、音频要求与同步音视频输出放进合并代视频生成叙事中；Qwen-Omni 把多模态对话推到流式及时层面，OpenVLA、π0、GR00T 这一线 VLA 模子则开动让机器东谈主同期处理语音教唆、视觉、动作以致环境声响。

但与此同期，总共这个词领域的学术舆图却仍然高度分布。ASR、数字东谈主 / 话语头（talking head）、Foley（拟音）合成、视频配音（V2A）、音频驱动视频生成（A2V）、音画编著、音视频问答（AVQA）、空间音频推理、AV 导航、AV 操作…… 每一个子标的都有我方的范式、benchmark 与评测口径。

恰是在这一布景下，新加坡国立大学（NUS）连合牛津大学、多伦多大学、UTD、HKUST、QMUL、微软接头院、罗切斯特大学等机构，推出了据作家所知第一份挑升针对” 音视频大模子（AVI in Large Foundation Models）“的系统综述。

论文标题：Audio-Visual Intelligence in Large Foundation Models: AComprehensiveSurvey

论文：https://arxiv.org/abs/2605.04045

HF Paper：https://huggingface.co/papers/2605.04045

GitHub（Awesome-AVI，抓续更新）：https://github.com/JavisVerse/Awesome-AVI

表情主页：https://javisverse.github.io/

论文把畴昔十年里洒落在十几个子社区的 AV 使命，再行组织成和会宇宙（Understanding the World）/ 创造宇宙（Creating the World）/ 与宇宙交互（Interacting with the World）三条干线，给出长入的 taxonomy、基础本事拆解、运用邦畿、以及面向将来 1–3 年的六轴接头道路。

论文自己的立意，是把 AVI 看成大模子时间下、与单模态语言模子同等病笃的一支基础才调来梳理：从音视频对皆、到连合音视频生成、再到及时闭环交互，应该造成一个连贯的接头框架，而不是被 ASR、Foley（拟音）、数字东谈主 / 话语头、AVQA 各自的范式不息切碎。

二、十年 AVI” 进化树”：从” 对得上” 到” 听 - 看 - 说 - 动一体”

通达 paper 第一页，先映入眼帘的即是这张 2016–2026 AVI 进化树：

论文把总共这个词 AVI 的发展分红 4 个时间：

Era 1（2016–2018）：AV Alignment——L3-Net、AVTS、Wav2Lip、Audio2Head，加上”ASR + LLM + TTS” 的级联式语音对话。问题鸠合在” 对得上”。

Era 2（2019–2022）：Scaled Representations——XDC、AVID、VATT 这些大领域对比学习轮番登场，AudioLDM、MusicGen 等单模态生成开动爆发，SpeechGPT、SALMONN、Qwen-Audio 一齐走出 audio-native LLM。

Era 3（2023–2024）：AV Creation——MBT、AV-HuBERT、Diff-Foley、MMAudio、FoleyCrafter、MusicInfuser、AudioGPT、Mini-Omni、NExT-GPT，把” 以一种模态生成另一种模态” 和”AV 戒指器” 推到舞台中央。

Era 4（2024–2026）：Omni / VLA——ImageBind、Qwen-Omni、JavisDiT、MovieGen、Veo-3、Seedance 2.0、HappyHorse、GPT-4o、OpenVLA、Audio-VLA，原生交融的 AV 大模子、同步音视频生成模子与 VLA 一皆走向前台。

更病笃的是，论漂后确指出，从 Era 1 到 Era 4，6686体育官方网站入口有 6 条瓶颈链接永恒：音画同步、时序一致性、可控生成、评测体系、及时延长、安全处置与数据合规。这些问题不会因为模子变大就自动脱色，反而会跟着场景升级（短视频 → 长视频 → 及时 omni → agentic）反复出现。

三、长入 Taxonomy：感知 / 生成 / 交互三条干线

论文给出的长入 taxonomy 是中枢委用物之一，它把 AVI 拆成三条干线：

和会宇宙（Understanding the World，Perception）：包括音视频语音识别（AV-ASR）、唇语识别（lip reading）、活跃话语东谈主检测（ASD）、声源定位与分离、音视频事件和会、跨模态检索、音视频问答（AVQA）这些经典任务，加上越来越多基于 AV-LLM 的长视频和会与因果推理任务。

创造宇宙（Creating the World，Generation）：被进一步拆成” 要求生成 / 跨模态生成 / 连合音视频生成 / 音画编著” 四类，遮掩视频配音（V2A）、音频驱动视频生成（A2V）、joint AV 生成等代表标的。论文特别指出，真确” 原生连合” 的音视频生成才刚刚开动 ——MovieGen、Veo-3、Seedance 2.0、JavisDiT，以及 HappyHorse 这类近期模子照旧能从文本或多模态要求生成带原生音轨的视频，但跨身份、跨时长、跨场景物理合感性的音画同步生成，以及局部、可控的音画编著，仍是开放问题。

与宇宙交互（Interacting with the World，Interaction）：包含两条线，华游娱乐(中国)官方IOS|Android手机app下载一条是” 音视频对话”（从级联 ASR + LLM + TTS，到 audio-native LLM，再到 GPT-4o / Qwen-Omni 这类原生 omni-modal 及时音视频对话），另一条是” 具身智能与机器东谈主”（AV 导航、AV 场景和会、AV 操作，对应 SoundSpaces、AVLMaps、OpenVLA、Audio-VLA）。

论文强调：交互不是一次性输出，而是带景色的闭环 —— 感知 → 推理 → 反应 / 行径，要在延长、反馈和用户意图的敛迹下抓续运行。这亦然为什么 omni-modal 与 VLA 类模子会在 Era 4 同期出现。

四、基础本事：示意、生成、LLM-centric

要是说三条干线组织的是” 作念什么”，基础本事这一章组织的即是” 若何作念”。论文把 AVI 的本事栈拆成三块：

Representation（示意）：音频与视觉特征抽取、VAE / 重建式压缩、翻脸化 tokenization、跨模态对皆与交融。在大模子语境下，重要问题已从” 特征对分歧得上” 升级为” 用哪种 token 把音视信号塞进 LLM 才最高效”。

Generation（生成）：系统梳理 VAE / GAN / Diffusion / 自回想（AR）/ Masked Autoregressive（MAR）五类生成范式各自的才调范畴与组合样貌，特别遮掩了 diffusion /flow matching 的演化、AR 模子在视觉与音频上的剖释、以及 hybrid AR + Diffusion 的最新标的。

LLM-centric 系统范式：论文把现时 AV 大模子按结构归成几种典型范式 ——Encoder + LLM、LLM + Generator、长入感知生成模子（unified Encoder + LLM + Decoder）、以及 Agentic 系统与 VLA 模子。这亦然工业界搭” 音视频版 GPT-4o” 时最平直对应的架构遴荐。

对正在搭” 音视频版 GPT-4o” 的工程团队来说，这张图大体特等于一份 AV 大模子架构选型的速查表，不错拿来对照我方现时的 backbone /encoder/decoder 分辨。

凤凰彩票APP官方网站

五、运用邦畿：从短视频 AIGC 到具身机器东谈主

论文用一整章梳理了 AVI 的下贱运用邦畿：

围绕音视频基础模子张开，作家把运用归纳为 6 大标的：

1.AIGC 与创意本色：视频配音 / Foley（拟音）合成、跨语言唇形同步、配乐与音画编著，再到一次性出” 带原生音轨短场景” 的 JavisDiT、Veo-3、Seedance 2.0、HappyHorse 等连合音视频生成模子；

2. 数字东谈主与酬酢交互：从 Wav2Lip 的 2D 唇形同步、到 GaussianTalker 的 3D 神经渲染、再到 EmoGene、EMAGE、Stereo-Talker 的高保真全身数字东谈主；

3. 东谈主本就业：以 Qwen-Audio、SALMONN 等 audio LLM 为中枢的对话助手 / 会议转写 / AI 素养 / 无扼制辅助；

4. 千里浸式体验与 Metaverse：空间音频推理、AV-NeRF、AVLMaps，以及20 ms 级别的低延长硬敛迹；

5. 具身 AI 与机器东谈主：从 SoundSpaces 一脉的 AV 导航，到 OpenVLA / π0 / GR00T / SmolVLA 的长入 VLA 战术；

6. 泛在感知与安全处置：机灵城市、工业 IoT、深伪检测、声学格外检测、水印与数据合规、诡秘与边际部署。

六、将来六大接头轴：高出” 更长清单”，给出结构性才调

AVI 发展道路图：前三阶段缔造起” 对应 / 感知 / 生成” 的才调基础，当下处于交互式 omni-modal 与具身模子这一前沿，再往后是因果 - 高下文 AVI 与可考据的 agentic AVI—— 下文六大主轴正对应道路图右侧两段需要补皆的重要才调。

论文临了给出六条将来接头主轴，遮掩音画同步、因果事件 grounding、空间音频推理、长程高下文缅念念、可控生成、安全处置、水印与数据合规等重要问题，并强调这六轴不是更长的待办清单，而是把 AVI 与” 通用多模态学习” 区分开的结构性才调：

1. 因果事件 - 声源 grounding：建模延长、遮盖、画外音、多源搀杂下的源级 / 事件级 / 因果对皆，把音画同步推向因果可阐述层面；

2.AV 宇宙模子：把音视频看成几何、材质、能源学、可供性、用户 / 酬酢景色的互补字据，并以空间音频推理作为重要才调；

3. 长程 AV 高下文缅念念：构建流式 / 情景 / 语义多层、可遴荐、可溯源的 AV 缅念念，而不是简便加长高下文窗口；

4. 因果 AV 打扰与可控生成：让生成与编著援手对物体、声息、身份、情谊、空间、时期的局部、因果、同步打扰；

5.Verifier 与 Reward 生态：高出 FAD / FVD / CLIP / SyncNet 这些代理方针，发展面向 grounding、物理合感性、音频不可替代性、长程一致性、任务服从的考据器；

6. 交互式与负背负 AVI：在低延长、诡秘、版权、水印与数据合规等安全处置敛迹下，把 AV 模子变成可被信任的及时息争者。

这六条主轴，每一条都的确对应着某条工业界正在追的居品线：

因果事件 - 声源 grounding ↔ 视频和会 / 视频搜索；

AV 宇宙模子 ↔ 宇宙模子 / Sora 系列；

AV 高下文缅念念 ↔ 长会议、长直播、长游戏伴随的 omni assistant；

因果 AV 打扰 ↔ AI 视频后期 / 影视殊效；

VerifierReward 生态 ↔ AI 视频质料评估、自动裁剪；

交互式与负背负 AVI ↔ omni 助手 / 及时陪练 / 具身机器东谈主。

七、对行业意味着什么

临了作念一个梗概的产业向解读：

1. 论文给出了” 音视频大模子” 研发的长入坐标系。不论你是在作念视频生成、数字东谈主 / 话语头、omni 助手，照旧 AV 智能体或具身机器东谈主，都能在这张全景图里找到我方的位置，进而判断链接本事栈在那里、可模仿的轮番是什么。

2. 它明确指出了 omni-modal 模子的下一波竞争点不在” 能不成听 / 能不成看”，而在” 能不成在长入 backbone 或长入生成链路下作念长程 AV 高下文推理 + 原生音画同步生成 + 及时闭环交互”。 GPT-4o、Veo-3、Seedance 2.0、Qwen-Omni、OpenVLA，以及 HappyHorse 这类近期连合音视频生成尝试，都在从不同侧面鼓吹这一趋势。

3. 评测体系正在重塑。论文对 FAD / FVD / CLIP / SyncNet 这类代理方针在音画同步与音频不可替代性维度上的局限作念了系统扣问，并明确把 verifierreward 生态列为将来主轴之一。不错预期将来一年，AV 评测会从” 主不雅打分 + 代理方针”，走向” 任务服从 + 物理合感性 + 安全可溯源” 的多维评测体系。

4. 安全处置照旧从惜墨若金走向基础轮番层面。深伪、版权、诡秘、水印与数据合规、及时糜费，将成为部署侧不可绕过的硬敛迹。

对任安在作念 AV 大模子、omni-modal 模子、视频生成、数字东谈主 / 话语头、AV 智能体、具身机器东谈主、空间音频或深伪检测的团队，这篇综述长文都值得圆善通读一次。

配套的 Awesome-AVI 仓库会抓续更新轮番、数据集与 benchmark华游娱乐，接头者不错围绕它追踪最新剖释。

华游娱乐 牛津、微软等发布音视频智能综述: 梳理大模子时间AVI接头全景

华游娱乐牛津、微软等发布音视频智能综述: 梳理大模子时间AVI接头全景