剪辑:LRST金发大奶
【新智元导读】多模态大模子在听觉上,竟然也出现了「9.11>9.8」的风景,音量大小这种通俗问题王人识别不了!港汉文、斯坦福等大学连合发布的AV-Odyssey基准测试,包含26个视听凭务,消散了7种声息属性,跳跃了10个不同范围,确保测试的深度和广度。
在东说念主工智能范围,咱们一直认为顶尖的多模态大模子照旧无所不成,GPT-4o在ASR(音频转笔墨)任务上照旧达到了97%的正确率,更是突显了刚劲的音频会通才气。
然则,最近一项来自香港汉文大学、斯坦福大学、伯克利大学和耶鲁大学的磋商服从却透顶颠覆了这一领略——GPT-4o、Gemini 1.5 Pro、Reka Core等起始进的多模态大模子竟然无法正确鉴识显然不同的声息大小!
底下是一个例子:
落幕让东说念主难以置信:这些顶尖的AI模子王人未能准确判断出音量的各异!关于东说念主类来说,这种问题果真是「傻瓜级」任务,然则这些大模子却纷纷失手,暴清晰其在基本听觉才气上的严重盘曲。
这一发现引发了磋商团队的念念考:为什么如斯先进的模子在听觉辨识方面如斯薄弱?为了填补这一空缺,磋商团队首度建议了一个全新的测试器具——DeafTest,它稀薄用来测试多模态大模子的基础听觉才气。
不仅如斯,磋商团队还建议了首个全面的多模态大模子视听才气评估基准——AV-Odyssey。这一基准旨在激动改日AI模子在听觉、视觉的会通整合才气上迈向新高度。
激情与放荡论文怒放:https://arxiv.org/pdf/2412.02611
名目地址:https://av-odyssey.github.io/
代码地址:https://github.com/AV-Odyssey/AV-Odyssey
DeafTest:多模态大模子的「听力盲点」
为了测试多模态大模子最基础的听觉才气,磋商团队领先建议DeafTest,该测试包括四项基础任务:数音频中的声息次数、相比两个音频的响度、相比两个音频的音高、相比两个音频的时长。
这些任务王人被筹划为对东说念主类来说极其通俗的判断题,各异显然,举例:
在响度相比任务中金发大奶,一个音频的响度在70-100分贝之间,而另一个音频则在30-60分贝之间。
然则,测试落幕却令东说念主惶恐——这些顶尖的AI模子在大大宗任务中的推崇,果真与立时筹划无异,准确率和立时聘任的50%差未几,无疑走漏了多模态大模子在音频感知上的雄伟短板。
AV-Odyssey Bench:全面评估多模态大模子的视听才气
为了更全面地评估AI在视听才气上的推崇,磋商团队还推出了一个全新的评估基准——AV-Odyssey。
AV-Odyssey包含26个任务,消散了7种声息属性——音色、语调、旋律、空间感知、时序、幻觉、抽象感知,况且跳跃了10个不同范围,确保测试的深度和广度。
为了确保评估的隆重性和公说念性,统共任务均吸收四选一的多项聘任题神志,每个问题王人交融了视觉、听觉等多模态信息,全面检修模子的抽象处理才气。
此外,为了避免因输入法规或要津导致的偏差,统共输入(包括文本、图片/视频和音频片断)王人会以交错的形势输入到多模态大模子中。问题的神志如下图所示:
AV-Odyssey中包含了由东说念主类民众全新标注的4555个问题,确保题目莫得在其他任何数据聚首出现过,任务散布以及统计信息如底下图表所示:
同期,为了进一步适度质地,磋商团队把握5个视觉言语模子和4个音频大言语模子,过滤出包含冗余图像或音频片断的问题。
在这个过程中,2.54%的问题同期被统共视觉言语模子或统共音频大言语模子科罚,磋商团队去除了这些问题。
AV-Odyssey 实际落幕
从实际落幕中,不错发现:
AV-Odyssey的挑战性:
大大宗现存的多模态大言语模子平均推崇仅略高于25%,这与四选一问题的立时筹划准确率绝顶。值得珍藏的是,即使是AV-Odyssey中的推崇最好的模子——GPT-4o,也仅获得了34.5%的准确率。
这一落幕突显了AV-Odyssey所带来的高挑战性,远远超出了面前模子素质数据的散布范围。
通过设定严格的范例,AV-Odyssey基准测试为评估多模态大模子在音频视觉任务中的才气提供了一个蹙迫器具,突显了现存模子的局限性,并为改日的改良指明了场合。
开源多模态大模子素质的局限性:
同期,即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通过引入Audiocaps等音频-文本匹配数据集,尝试增强音频会通才气,并勾搭图像-文本配对数据素质视觉会通,这些模子在AV-Odyssey的测试中仍然推崇欠安。
这标明,现在的素质经过并不及以果真弥合音频与视觉模态之间的界限,也未能灵验地学习音视频信息的整合与深度会通。
AV-Odyssey 相当分析:音频感知仍是瓶颈
磋商团队对Gemini 1.5 Pro在AV-Odyssey中的相当进行潜入分析,对每个任务立时抽取了4个相当案例进行东说念主工标注,最终得到104个相当案例,并对其进行统计。相当的散布如下图所示:
这一分析落幕揭示了一个蹙迫趋势:63%的相当王人聚首在音频会通上!
举例,在某些任务中,天然模子正确会通了视觉信息,但是音频片断的本色识别相当,导致了相当谜底的生成。一个例子如下图所示:
这一发现再次印证了DeafTest的初步论断:面前多模态大模子在基础的听力才气上存在显然短板金发大奶,音频感知依然是多模态任务中的最大瓶颈。