你的位置:开云官网切尔西赞助商(2024已更新(最新/官方/入口) > 新闻动态 > 开云体育还在通用视频领悟基准上(Video-MME-开云官网切尔西赞助商(2024已更新(最新/官方/入口)

开云体育还在通用视频领悟基准上(Video-MME-开云官网切尔西赞助商(2024已更新(最新/官方/入口)

时间:2024-12-19 09:03 点击:139 次

会通物理知识的大型视频言语模子PhysVLM,开源了!

它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频领悟基准上(Video-MME, VCG)弘扬出向上的性能。

在这项商榷之前,思让 AI 像东谈主类儿童同样,通过不雅察寰球领悟基本的物理知识,是一个主要挑战。

关于本质寰球的视频来说,全面掩饰和流露扫数泛泛的物理表象既清苦又无谓要。

比较之下,游戏视频(gameplay videos)时时包含违背物理知识的"故障表象"(glitches),这有助于简化物理知识领悟的界说和评估,即专注于流露物理知识的违背表象,而不是试图列举扫数存在的泛泛物理表象。

为此,PhysVLM 在成心整理的一套数据集上考试,包括用于评估的 PhysGame benchmark、用于监督微调的 PhysInstruct 数据集和用于偏好对皆的 PhysDPO 数据集。

PhysGame benchmark 假想

如图所示, PhysGame包含 880 个含有故障表象的游戏视频,每个视频都配有一个高质地的多项礼聘题,成心针对故障表象的性质进行标注。

△PhysGame 类别漫衍

PhysGame 涵盖了四个关键的物理限制(即力学、领悟学、光学和材料属性),并细分为 12 个具体类别(如重力和速率)。

力学(Mechanics):该类别波及力与力矩偏激对领悟的影响,提供了流露和分析视频中物体领悟的基础旨趣。典型案例包括重力、弹性和摩擦力。

领悟学(Kinematics):该限制商榷不磋商力的情况下的领悟,波及致密分类,如随本事变化的速率和加快度。

光学(Optics):该限制热心光的步履与特点偏激与物资的相互作用,包括反射、折射以及继承与透射。

材料属性(Material properties):该限制指的是物资固有的特点,包括格式、刚性、物体风物以及东谈主体姿态。

PhysGame benchmark 构建

视频网罗和过滤 :

PhysGame 中的视频主要从 Reddit 页面合手取,该页面包含带有额外事件和故障表象的游戏视频。为了均衡不同的类别,团队还通过关键词搜索从 YouTube 增强视频数据。团队把柄以下两项法度进行东谈主工筛查:

选项生成 :

本文以多项礼聘题的风物创建问答对。具体来说,正确选项样子了视频中违背物理知识原则的特定故障表象。为了增强侵犯选项的真正度,本文条款侵犯选项中的故障表象应与视频中不雅察到的个体或动作高度关联,这使视频 LLM 领悟故障实质,而不单是通过识别包含的物体或动作来礼聘谜底。

质地已毕 :  

为了保证数据集的质地,本文进行了一项包括东谈主工检验和自动 LLM 扶助检验在内的双重质地已毕过程:

东谈主工检验:扫数初步标注的问答对都经过不同东谈主工标注东谈主员的严格交叉检验。关于正确选项,检验东谈主员必须评估它们是否全面准确地样子了扫数存在的物理知识违背实例。关于侵犯选项,检验东谈主员需评估它们是否有余具有蛊卦性;

LLM 扶助检验 :  团队去除那些仅凭问题和选项,不需要检讨视频就能由 GPT-4o 正确回答的问答对。

△PhysGame 示例 PhysInstruct&PhysDPO 数据集构建

PhysInstruct:

为了栽植视频 LLM 的物理知识领悟才调,团队设立了 PhysInstruct 数据集用于监督微调。视频网罗过程与 PhysGame 中的进程疏导。为了防患数据露出,团队严格摈斥任何已包含在 PhysGame 中的视频。团队投降 Self-instruct 范式通过领导 GPT-4o 来构建 PhysInstruct。

PhysDPO:

团队构建了偏好对皆数据集 PhysDPO,以提供更真正和可靠的回答。如图 3 所示,团队将 PhysInstruct 数据迫临生成的谜底视为 preferred 回答,而 dis-preferred 回答则通过元信息批改(meta-information hacking)、本事批改(temporal hacking)和空间批改(spatial hacking)生成。团队用误导性的元信息以及减少帧数和镌汰帧分辨率的视频帧来领导 GPT-4o。

以下是 PhysDPO 数据集构建进程图:

模子评估与分析

PhysGame benchmark 实验效果 :

在扫数特有模子中,GPT-4o 和 Gemini-1.5-pro 弘扬最好,分辩达到了 56.1% 和 55.2% 的平均准确率。在扫数细分限制中,GPT-4o 在摩擦和加快度方面弘扬优胜。比较之下,Gemini-1.5-pro 在领悟与重力、弹性、反射、继承与透射、格式和刚性关联的物理知识方面弘扬更强。

现存的开源模子远远过期于特有模子。即就是弘扬最好的开源模子 LLaVA-OneVision,其平均准确率仅为 47.7%。比较之下,本文提议的 PhysVLM 在扫数特有和开源模子中都达到了最先进的性能。与开源措施比较,本文的 PhysVLM 在 12 个评估限制中的 6 个限制达到了最高性能。值得留神的是,PhysVLM-DPO 在平均准确率这一野心上比最好弘扬的特有模子 GPT-4o 超出了 3.4%。

△PhysGame benchmark 实验效果

Video-MME benchmark 实验效果 :

本文的 PhysVLM 模子在扫数 7B 模子中弘扬优胜。令东谈主诧异的是,当作 7B 模子,PhysVLM-SFT 和 PhysVLM-DPO 在合座弘扬上分辩比 34B 模子 LLaVA-NeXT-Video 提高了 3.2% 和 3.8% 的实足值。通过比较 PhysVLM-SFT 和 PhysVLM-DPO,团队发现,使用所提议的 PhysDPO 数据进行 DPO 考试在短视频和长视频上的弘扬都有所栽植,而在中等长度的视频上的弘扬略有下跌。

△Video-MME benchmark 实验效果

VCG benchmark 实验效果 :

在仅使用 SFT 的模子中,本文的 PhysVLM-SFT 在平均得分方面弘扬最好。在四个子类别的评估中,PhysVLM-SFT 在信息正确性和一致性类别上弘扬尤为出色。与使用 DPO 或 PPO 考试的 PPLLaVA 和 LLaVA-Next-Video 比较,本文的 PhysVLM-DPO 也展现出不凡的性能,进一步考证了所提议的 PhysVLM 模子在通用视频领悟中的出色才调。

△VCG benchmark 实验效果

PhysVLM 关联论文、代码、数据均已开源 :

pre-prints:   https://arxiv.org/abs/2412.01800

代码聚积 :   https://github.com/PhysGame/PhysGame

leaderboard:   https://physgame.github.io/#leaderboard

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实质‍

附上论文 / 模样主页聚积,以及联系方式哦

咱们会(尽量)实时陈述你

点这里� � 热心我,铭记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~  

邮箱

6f416fd1@outlook.com

官网

41minsheng.com

地址

新闻动态世界科技园3780号

Powered by 开云官网切尔西赞助商(2024已更新(最新/官方/入口) RSS地图 HTML地图

Powered by站群系统
开云官网切尔西赞助商(2024已更新(最新/官方/入口)-开云体育还在通用视频领悟基准上(Video-MME-开云官网切尔西赞助商(2024已更新(最新/官方/入口)