这项由清华大学洪文轶、程烨安等斟酌者与智谱AI团队合作完成的斟酌,发表于2025年1月6日的arXiv预印本平台(论文编号:arXiv:2501.02955v1),有风趣真切了解的读者不错通过论文标题"MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models"搜索获取完整论文。
你是否也曾酷好,那些大要描摹视频内容、回复视频问题的AI模子,究竟能多准确地"看懂"视频?当咱们看到一个东谈主朝上、两个棒球通顺员在空中相撞庆祝时,这些看似浮浅的手脚,关于当今起初进的AI视频流露模子来说,果然是极大的挑战。清华大学的斟酌团队通过一项冲突性斟酌发现,即使是GPT-4o、Qwen2-VL这样的顶级模子,在流露视频中的缜密手脚时,准确率竟然连60%齐够不上。
这个发现让东谈主不测,因为咱们平常看到的AI视频分析似乎仍是终点出色。斟酌团队真切分析后发现,现有的视频流露评估体系存在一个遍及的盲区——险些悉数现有的视频评估基准齐专注于故事情节流露和事件识别,却忽略了最基础的手脚层面流露。就像咱们评估一个东谈主的阅读才智时,只测试他能否流露整本书的主题想想,却从未测试过他是否意识每个字一样。
为了填补这个重要空缺,斟酌团队设备了MotionBench——一个有益测试AI模子缜密手脚流露才智的全新评估体系。这套评估系统包含了8052个用心缱绻的问答对,粉饰5385个视频片断,这些视频开头极其丰富:从集合平台Pexels和Panda-70M数据汇注集的日常活命视频、从MedVid医学视频数据库获取的医疗造就片断、从SportsSloMo取得的体育慢镜头、从Ha-ViD集合的工业场景视频,以致包括斟酌团队使用Unity引擎有益制作的虚构场景视频。
MotionBench的评估维度缱绻得极其小巧,涵盖了六个重要的手脚流露类别。第一类是手脚识别,测试模子能否准确识别视频中出现的具体手脚类型。第二类是位置磋磨手脚,测验模子是否能流露物体或东谈主物在空间中的转移轨迹和位置变化。第三类是手脚章程,评估模子能否正确流露复杂手脚的先后章程。第四类是重迭计数,这可能是最贫乏的一类,条件模子准确计较某个手脚重迭了若干次。第五类是手脚磋磨物体,测试模子能否识别参与手脚的小物件。第六类是录像机通顺,评估模子对镜头转移的流露才智。
当斟酌团队用这套评估体系测试面前起初进的视频流露模子时,收尾令东谈主畏怯。即使是业界公认阐述最佳的Qwen2-VL-72B模子,在MotionBench上的概述阐述也仅达到58%的准确率。更令东谈主担忧的是,在重迭计数这个类别中,险些悉数模子的阐述齐接近当场预计的水平,准确率耽搁在25%掌握。这意味着当你问一个AI"视频中的东谈主跳了几次"时,它的回复可能还不如抛硬币来得准确。
为了真切流露这个问题的根源,斟酌团队进行了详备分析。他们发现,缜密手脚流露的贫乏主要来自两个方面。最初是时间遏抑:要准确捕捉手脚细节需要高帧率的视频输入,但高帧率意味着遍及的计较资本。当今的视频流露模子受限于计较资源,只可处理相等有限的帧数。以Intern-VL2为例,它只可处理16到64帧,这意味着关于一个5分钟的视频,它只不错0.2帧每秒的极低采样率进行处理——终点于每5秒钟只看一张图片,想模范略其中的缜密手脚变化险些是弗成能的。
第二个压根原因是现有模子枯竭缜密手脚流露的基础才智。斟酌发现,即使提供更高的帧率输入,模子的阐述提高也终点有限,这标明问题不单是在于"看得不够多",更在于"看了也不懂"。
针对这些发现的问题,斟酌团队提议了一个更始的管理决策——通过编码器和会时间(Through-Encoder Fusion,简称TE Fusion)。传统的视频压缩圭臬就像是先把每张图片分别流露,然后再试图找出它们之间的磋磨,这种"浅层和会"的形式很难捕捉到手脚的畅通性和细节变化。TE Fusion则弃取了一种"深度和会"的计谋,让相邻的视频帧在处理的通盘经过中齐保捏紧密的信休止流,就像一个团队在合营完成任务时保捏实时换取一样。
具体来说,TE Fusion将相邻的k帧视频构成一个群组,在视觉编码的通盘经过中,这些帧之间会进行群组级别的自持重力计较,使得模子大要在更深头绪上流露帧间的时辰依赖关系。这种圭臬的上风在于大要在一样的计较资源敛迹下,已毕更好的视频特征暗示,终点是在高压缩比的场景下阐述尤为卓绝。
执行收尾证明了TE Fusion的有用性。在MotionBench上,使用TE Fusion的模子达到了58%的准确率,不仅在悉数六个手脚流露类别中齐有显耀提高,况兼在其他视频流露基准测试(如MVBench、LVBench、VideoMME)中也阐述出色。终点值得持重的是,TE Fusion在处理高压缩比视频时的上风最为彰着,当压缩比达到16倍时,其性能下落幅度远小于其他圭臬。
为了进一步鼓励这个范畴的发展,斟酌团队还发布了一个包含5000个视频的缜密手脚描摹数据集。这些视频齐经过了东谈主工标注,提供了详备的手脚信息描摹,标注密度达到每秒12.63个单词,为斟酌者提供了顾惜的老师资源。
斟酌团队对悉数测试失败的案例进行了真切分析,发现了一些真谛的模式。在手脚识别方面,失败案例中最大的比例波及缜密手脚的分别,证实某些手脚偏激磋磨描摹在老师数据中可能存在不及。从视频时长的角度分析,即使是0到4秒的短视频,悉数模子齐答错的问题仍占11%到14%,这凸显了模子在分别某些手脚时的固有贫乏。跟着视频时长的加多,失败率显耀飞腾,18秒以上的视频失败率达到18%。
一个典型的失败案例很好地证实了问题所在:在一个视频中,一只手从汽车顶部转移到左下方,但大大齐模子齐觉得这是"轻拍汽车名义"的手脚。从单帧图像的角度看,这种判断似乎合理,但在视频时序中,手骨子上是滑过汽车名义而不是拍打,这个例子好意思满展示了单帧掂量与时序流露之间的互异,也证实了创建专注于手脚层面评估基准的价值。
这项斟酌的道理道理远不啻于揭示现有模子的不及。在骨子讹诈中,缜密手脚流露关于格外检测、通达域手脚分析、详备视频字幕生成等任务齐至关紧迫。在医疗造就中,准确流露手术手脚的细节关系到医学生的学习成果;在体育分析中,对通顺员时间手脚的精准识别影响着老师成果的评估;在工业安全监控中,对危机手脚的实时识别可能关系到工东谈主的人命安全。
斟酌团队也坦诚地指出了这项使命的局限性。最初,尽管他们勉力包含了千般化的视频内容,但数据集可能仍然存在地舆、文化和情境方面的偏见,这可能遏抑了斟酌收尾在不同环境下的普适性。其次,固然进行了大限制的标注使命,但由于东谈主工标注和自动化用具的遏抑,偶尔的不准确或不一致在所未免。
从更繁密的视角来看,这项斟酌为视频流露范畴指明了一个紧迫的发展场地。面前的AI视频流露斟酌大多暄和于高头绪的语义流露,而忽略了基础的手脚感知才智。就像建树高堂大厦需要坚实的地基一样,要已毕真确智能的视频流露,咱们必须最初管理最基础的手脚流露问题。
MotionBench的发布为这个范畴提供了一个紧迫的评估用具和斟酌起始。通过这个基准测试,斟酌者们不错更准确地评估和转换我方的模子,鼓励通盘范畴向愈加缜密、愈加准确的场地发展。同期,TE Fusion时间的提议也为管理视频流露中的计较遵循和准确性均衡问题提供了新的想路。
归根结底,这项斟酌告诉咱们,在AI视频流露的谈路上,咱们还有很长的路要走。固然现有的模子在某些高头绪任务上阐述出色,但在最基础的手脚流露方面仍然存在遍及的转换空间。这个发现不仅让咱们更明晰地意识到面前时间的局限,也为将来的斟酌指明了场地。跟着MotionBench这样的专科评估用具的出现,以及TE Fusion这样更始时间的发展,咱们有根由确信,AI模子在缜密手脚流露方面的才智将会得到显耀提高,最终已毕真确智能的视频流露。
Q&A
Q1:MotionBench是什么?它和其他视频评估有什么不同?
A:MotionBench是清华大学设备的有益测试AI模子缜密手脚流露才智的评估体系,包含8052个问答对和5385个视频。与其他主要暄和故事情节和事件流露的视频评估不同,MotionBench专注于最基础的手脚层面流露,就像测试AI是否真是"看懂"了东谈主朝上、物体转移这些基本手脚。
Q2:为什么顶级AI模子在MotionBench上阐述这样差?
A:主要有两个原因。最初是时间遏抑:流露缜密手脚需要高帧率输入,但现有模子受计较资源遏抑只可处理很少帧数,终点于每5秒只看一张图片。其次是基础才智缺失:即使提供更多帧数,模子的阐述提高也有限,证实它们枯竭流露手脚畅通性和细节变化的压根才智。
Q3:通过编码器和会时间TE Fusion是如何转换视频流露的?
A:TE Fusion弃取"深度和会"计谋,让相邻视频帧在通盘处理经过中保捏紧密信休止流,而不是传统的先分别流露再寻找磋磨的"浅层和会"。这就像团队合营时保捏实时换取一样,能更好地捕捉手脚的畅通性,终点在高压缩比场景下上风彰着。