
AI 能像东说念主类相似意会长视频开云kaiyun官方网站。
港理工、新加坡国立团队推出 VideoMind 框架,中枢立异在于变装化推理(Role-based Reasoning)和链式 LoRA(Chain-of-LoRA)政策。
关联论文已上传 arXiv,代码和数据一齐开源。

跟着视频数据量的激增,如何意会和推理长视频中的复杂场景和事件成为了多模态东说念主工智能预计的热门。不同于静态图像,视频不仅包含视觉信息,还包含技能维度上的动态变化,这条款模子防备会视频时不仅要识别画面中的物体和场景,还要意会这些物体和场景如何随技能变化和相互作用。
传统的基于文本和图像的推理模子(如 OpenAI o1, DeepSeek R1 等)频频无法叮咛这种复杂的技能维度推理任务。
VideoMind 框架
区别于文本和图片,长视频意会难以用传统的单次感知 + 纯翰墨推理结束。
比较之下,东说念主类防备会长视频(如教育视频、故事类视频)往昔日会寻找关联片断并反复不雅看,以此获取更可靠的论断。
受该景况启发,作家把柄视频意会所需要的 4 种中枢智商(制定谋划、搜索片断、考证片断、回答问题),为 VideoMind 界说了 4 个变装,并构建了一个变装化的责任流,灵验地处理了长视频中的时序推理问题。
谋划者(Planner)
把柄问题动态制定谋划,决定如何调用其他变装(如先定位,再考证,临了回答问题);
定位器(Grounder)
把柄给定的问题或查询,精笃定位与之关联的视频片断 ;
考证器(Verifier)
对定位得到的多个技能片断进行考证,确保其准确性 ;
回答者(Answerer)
基于采纳的视频片断进行意会,生成最终谜底。

△图 1:传统纯翰墨推理和 VideoMind 的变装化推理
为了高效整合以上变装,作家进一步忽视了链式 LoRA(Chain-of-LoRA)政策,在一个息争的 Base 模子(如 Qwen2-VL)上同期加载多个轻量的 LoRA Adapter,并在推理时把柄需要进步履态切换,以结束不同变装间的颐养。该政策仅需要在 Base 模子上添加少许可学习参数,即可结束多个变装 / 功能间的无缝切换,既赢得了比单一模子显赫更优的性能,也幸免了多模子并行带来的操办支拨,从而在确保性能的同期大幅提高了操办效果。

△图 2: VideoMind 的举座架构和推理经由 VideoMind 推理经由
如图 2 所示,模子领受一个视频和一个用户忽视的问题当作输入,通过切换多个变装来推理出最终谜底。其中,Planner 最初对视频和问题进行分析,推行后续推理的谋划,其为止以 JSON list 的格式呈现。推理谋划主要可分为以下三种:

△图 3:VideoMind 的三种推理模式
其中(i)主要针对长视频问答任务(Grounded VideoQA),需要使用 Grounder + Verifier + Answerer 三个变装进行功课;(ii)针对视频时序定位任务(Video Temporal Grounding),使用 Grounder + Verifier 来进行关联片断的精确查找;(iii)针对短视频问答,该场景下由于视频较短,无需对其进行剪辑,故径直使用 Answerer 进行推理。

△图 4:Timestamp Decoder 模块
Grounder 矜重领受一个当然言语查询,并在视频中定位关联片断。针对这一复杂任务,预计团队忽视了 Timestamp Decoder 模块,将粉碎的 Token 瞻望任务和连气儿的技能纪念任务解耦开来,并使 LLM 通过 Special Token 进行调用,结束了纷乱的 Zero-shot 时序定位性能。

△图 5:Verifier 的考证政策
为保证技能别离率,Grounder 频频责任在较低的空间别离率下,因此赢得的技能片断可能会不准确。针对此问题,作家遐想了 Verifier 变装来对每个片断进行放大考证,并从多个候选片断中及第置信度最高的当作概念片断。检会确认该政策不错进一步显赫提高 Temporal Grounding 任务的性能。

△表 1:VideoMind 的西宾数据集
为西宾 VideoMind,作家针对不同变装相聚 / 制作了多个数据集,揣摸包含接近 50 万个样本。不同变装使用不同数据集进行西宾,并在推理时归拢加载,以确保每个变装的性能最大化。所有这个词西宾数据(包括前期探索使用的更无数据集)一齐公开可用。
实验与评估
为了考证 VideoMind 的灵验性,作家在14 个公开基准测试集上进行了庸碌的实验,涵盖了长视频定位 + 问答(Grounded VideoQA)、视频时序定位 ( Video Temporal Grounding ) 和正常视频问答 ( General VideoQA ) 等任务。

△表 2:用于 VideoMind 评测的基准测试集
(1)视频定位 + 问答(Grounded VideoQA)
在 CG-Bench、ReXTime、NExT-GQA 等长视频基准上,VideoMind 在谜底精确度和时序定位准确性方面进展出了逾越上风。十分的,在平均视频长度约为 27 分钟的 CG-Bench 中,较小的 VideoMind-2B 模子在时序定位和问答任务上高出了 GPT-4o、Gemini-1.5-Pro 等起先进的模子。

△表 3:CG-Bench 数据集的测试为止

△表 4:NExT-GQA 数据集的测试为止
(2)视频时序定位(Video Temporal Grounding)
VideoMind 的 Grounder 通过立异的 Timestamp Decoder 和 Temporal Feature Pyramid 遐想,显赫提高了视频时序定位的准确性。Verifier 的遐想进一步种植了高精度定位的性能。VideoMind 在 Charades-STA、ActivityNet-Captions、QVHighlights 等基准上齐取得了最好性能。此外,VideoMind 亦然首个赞助多片断 grounding 的多模态大模子,因此不错在 QVHighlights 数据集上跟现存模子公正对比。

△表 5:Charades-STA 数据集的测试为止

△表 6:ActivityNet Captions 数据集的测试为止

△表 7:QVHighlights 数据集的测试为止
(3)一般视频问答(General VideoQA)
关于通用的视频意会问题,VideoMind 也进展出了纷乱的泛化智商。在 Video-MME、MVBench、MLVU、LVBench、LongVideoBench 等基准上,VideoMind 成绩于其 Planner 的遐想,不错自适当地决定是否需要 grounding,其性能高出了好多先进的视频问答模子,流露了其在不同视频长度下的优胜进展。

△表 8:Video-MME、MLVU 和 LVBench 数据集的测试为止

△表 9:LongVideoBench 数据集的测试为止
以下例子展现了 VideoMind 在执行场景中的推理经由。给定一个视频和一个问题,该模子不错拆解问题、指定谋划、搜索片断、考证为止,并把柄获取的片断推理最终谜底。该政策比较传统的纯翰墨推理(左下部分)愈加妥贴东说念主类步履,为止也愈加可靠。

△图 6:VideoMind 的推理经由可视化总结
VideoMind 的忽视不仅在于视频意会性能的败坏,更在于忽视了一个模块化、可彭胀、可解释的多模态推理框架。该框架初次结束了近似东说念主类步履的"指定谋划、搜索片断、考证为止、回答问题"经由,信得过让 AI 能"像东说念主类相似意会视频",为畴昔的视频意会和多模态智能系统界限奠定了基础。
姿色主页:https://videomind.github.io/
论文连续:https://arxiv.org/abs/2503.13444
开源代码:https://github.com/yeliudev/VideoMind
开源数据:https://huggingface.co/datasets/yeliudev/VideoMind-Dataset
在线 Demo:https://huggingface.co/spaces/yeliudev/VideoMind-2B
一键三连「点赞」「转发」「注重心」
宽容在指摘区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 姿色主页连续,以及磋商样式哦
咱们会(尽量)实时回应你

� � 点亮星标 � �
科技前沿进展逐日见开云kaiyun官方网站
