您的位置:首页 >栏目首页 > 资讯 >

230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷|观点

2025-10-10 12:02:04    来源:量子位

CoreCognition团队 投稿

量子位 | 公众号 QbitAI


(资料图)

一篇被Yann LeCun转发的ICML 2025研究给了多模态大模型当头一棒——

大部分AI在复杂任务上表现很好,但在人类从小就会的基础认知能力上却很拉垮。

研究者建了测评题库CoreCognition,覆盖在人类婴幼儿阶段即出现的12种核心认知能力(如客体永恒、视角采择、直觉物理、知觉恒常等),用来对模型进行系统性测试。

在CoreCognition基准的1503道“经典发展心理学测验”上,230个主流模型系统暴露出对世界常识的“核心知识盲区”。

在归一化准确率对比中,多模态大模型在基础核心认知能力上普遍落后,差距往往达到两位数,即便规模更大也难以弥补。

这是否意味着MLLM(多模态大模型)的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?

也就是说,它们是否缺乏“core knowledge”(核心认知能力)?

构建CoreCognition Benchmark

来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人员,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。

基准围绕发展心理学与皮亚杰分层框架,覆盖从连续性到机械推理12 项核心认知概念,共1503道多模态题目,每类≥95例,含图像与视频。

研究团队在设计题目时遵循以下高标准:

  • 判别性强

    不具备目标核心知识的模型在逻辑上更易选择错误选项。

  • 最小混淆

    题目尽量仅依赖待测概念完成推理,剔除与其他核心知识或外部能力的耦合,避免跨概念干扰。

  • 无文本捷径

    所有题目必须联合利用图像与文本才能得出正确答案。

所有数据由12位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核,经过两轮交叉验证和Amazon Mechanical Turk人工校验。

干预测试揭示“假理解”陷阱

为了进一步验证模型是否真的掌握核心概念,研究团队提出了Concept Hacking(概念干预) 方法:通过构造“对照组”(control)与“干预组”(manipulated),故意在测试任务中反转与核心知识相关的关键特征,但保持其余细节一致,检测模型是否真正理解概念还是走捷径。

例如其中的Intuitive Physics测试:

  • 原版题

    同时释放两颗小球,哪一个会先落地?考察基础直觉物理(相同释放高度、忽略空气阻力时,自由落体等时到地)。

  • 孪生版

    保持大小不变,但改变释放高度,用以检验模型是否真正依据高度差/落地时间推断,而非套用“同时落地”的固定模板。

  • 人类表现

    两题均能作对,能根据高度改变及时更新判断。

  • 模型表现

    原题作对(选C),孪生版仍沿用旧模式选C,直接翻车——暴露出对表面模板的依赖,而非对落体规律的真实理解。

五大关键发现

一、在与人类早期认知直接相关的低层能力(如边界感、连续性、客体永恒、空间性、视角采择等)上,模型显著落后于高层能力(如意向理解、工具使用、机械推理),与人类各层稳定高分的模式明显不同。这表明

当前MLLMs在人类早期即具备的基础“核心知识”上存在系统性短板。

二、关联性矩阵显示,高层能力族内关联较强,底层能力Permanence/Spatiality/Continuity与高层能力相关性普遍偏弱。说明模型缺乏人类由低到高的脚手架式认知发展结构,模型的高级感知与推理并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷。

三、研究团队将三阶段12个核心能力的得分与26个公开基准做相关性分析,结果表明除Perspective和Intuitive Physics外,大多数核心能力与公开基准(除ChartQA)及高层能力显著正相关。这表明核心知识越强,上层任务越稳。而Perspective和Intuitive Physics能力作为人类高级推理的基础展现出的低相关性,与我们之前在关系矩阵里看到的模式一致,这正是现有模型核心知识缺陷的直接证据。

四、基于230个模型拟合“规模—表现”的回归斜率显示,低层能力随规模提升改善显著更少或几乎不变;其中Perspective-taking甚至出现反向规模效应(模型越大越差)。增加模型规模主要利好高层能力,对低层核心能力帮助有限甚至为负。

五、Concept Hacking实验结果显示,大模型相较小模型整体并未取得提升,部分情形甚至更差。这说明单靠扩规模不足以消除对捷径的依赖,也难以获得稳健的核心知识。直观上,模型并非“越大越懂”,而是越大越善于投机。

结合结果图中的信息,模型可归纳为四类:

  • 核心知识型

    控制题与操纵题均表现良好(接近人类水平,但样本占比极少),说明具备稳健的核心概念理解与迁移。

  • 捷径依赖型

    控制题得分高、操纵题显著下降,提示主要依赖表面线索或训练相似性,缺乏对概念要素的因果把握。

  • 核心缺陷型

    控制题即低于或接近偶然水平,操纵题亦无稳定收益,反映基础“核心知识”不足。

  • 偶然型

    控制题与操纵题均近似随机波动,整体不可依赖(更多体现噪声与运气)。

认知指令带来短期增益,但难以弥补底层缺口。

对比推理模型与其对应非推理版本模型性能显示,推理模型多数核心能力任务未见显著提升,症结不在“会不会用推理”,而在底层表征是否具备,即预训练阶段对核心知识的覆盖与结构化不足。

与此同时,研究团队发现,引入认知指令(在题目前明确提示相关概念,如perspective taking)可带来约6%的即刻增益,提示模型内部可能分布式存有相关线索,但缺少有效的检索与调用机制。

然而,此类做法在真实场景中可获得性与可用性受限,实际应用往往无法提供如此明确的概念标签来引导模型。

在引人注目的“能写会画”之外,真正的智能首先取决于对世界最朴素规则的把握。

这项研究说明:参数堆叠并不等于理解,地基是否扎实才是关键。

与其一味追求“更大、更强”,不如换个起点:先把核心知识补齐,让模型学会在变化、多样与噪声中保持一致的常识判断与因果直觉。

简单说就是:先长地基,再长楼层;规模是加法,核心认知是乘法。

论文地址:https://arxiv.org/abs/2410.10855

Website:https://grow-ai-like-a-child.github.io/core-knowledge/

Dataset:https://huggingface.co/datasets/williamium/CoreCognition

标签: 认知 能力 缺陷 核心 模型 婴幼儿 人类

精彩阅读

龙虎榜 | 方新侠4005.02万元、量化基金4365.21万元现身2连板天际股份 当前焦点

商务部回应日方将中企无理列单:立即停止错误做法

国林科技:拟现金购买凯涟捷91.07%的股权 时讯

速讯:因金融借款合同纠纷,无锡银行起诉孙敏伟

晶科科技:公司新增开发储能项目规模达到3.9GWh_看点

恒泰汽车电器取得一种可以保护低压电子元件的高压隔离检测电路专利,有着耐高压,电子器...

即时焦点:温氏股份:公司将延续去年做法预计四季度实施中期现金分红

每日热门:莱芜农商银行雪野旅游区公司业务营销中心:银企携手暖 服务促双赢

豪森智能(688529.SH):2022年度向特定对象发行股票募投项目结项

官渡区途顺道路交通安全器材经营部(个体工商户)成立 注册资本5万人民币

视频|秋季南京中山植物园樱花绽放,让人仿佛看到了“穿越”

开湖了!第一篓阳澄湖大闸蟹由顺丰无人机捞起

全新推出!2025“武网宠粉卡”正式上线!

草酸锰商品报价动态(2025-09-29)-焦点热文

排名第34位 长沙银行上榜“2025年中国银行业100强榜单” 焦点快播

华兰生物:目前未有考虑在周边国家老挝缅甸尼珀尔巴基斯坦等地设立采血浆站|今日热讯

今日看点:樊城区太平店实验幼儿园欢乐庆双节

每日快看:杰富瑞:将英伟达目标价上调至220美元

资讯:内容正在升级改造,请稍后再试!

【播资讯】再创历史新高 去年全国有近15亿人次走进博物馆

当前热议!壹网壹创:公司的主营业务是为品牌提供全域的电子商务服务

银行的客户细分策略如何影响市场定位?|今日报

苹果 iOS 版微信官宣:聊天支持发送实况图、误删对话记录 5 秒内可撤销|热消息

生意社:9月29日鲁西化工异辛醇报价下跌

焦点信息:券商板块持续走强 华泰证券午后涨停

五菱科技取得新型电动汽车后桥总成噪音测试装置专利,有效隔绝周围环境噪音 播资讯

午评:创业板指涨近2%,券商、有色等板块拉升,储能概念等活跃

9月29日午间涨停复盘:52股涨停 万向钱潮11天7板

栾树花开秋意浓 满城风景入画来|热点评

杭州超重力离心模拟与实验装置核心设备正式启用

王健林“限高”措施已取消,其所持4.9亿股权仍被冻结

新动态:南网数字创业板IPO审核状态变更为“提交注册”

每日聚焦:弹无虚发,凯恩德甲18次罚点全中

焦点日报:一汽申请一种全固态电池的制备方法及全固态电池专利,降低界面阻抗

怡亚通中标国家电网办公类物资框架采购项目|今日聚焦

今日快讯:金价再刷新高,黄金相关ETF纷纷走强,有色金属ETF基金(516650)涨2.8%

交运燃气:2025年中期净利润1310.1万元 同比下降14.08%_新动态

独家|多基金公司接到股债恒定ETF系统改造要求 新产品最快或于11月上报 新资讯

纵览视频丨头接肩扛脚踢5米长中幡,一秒唤醒“龙的传人”血脉

亿道信息今起停牌 拟购朗国科技及成为信息控股权|讯息

快播:勇士与56号秀签下4年合约,本周为提供资质报价截止日

中青报聚焦:“3×8”与“8×3”之争的背后

播报:名家荟萃!“百戏入皖·星耀合肥”现场群星璀璨

每日短讯:王健林被限制高消费,万达负债成焦点

SIS INT'L(00529.HK):中期股东应占溢利上升174%至9100万港元|每日热文

创新举措优化房地产市场供需关系巩固止跌回稳态势 前沿热点

长江通信:股东拟减持不超过1%股份-要闻速递

那不勒斯1-2输给米兰,五大联赛仅剩拜仁仍然在联赛保持全胜 焦点快报

即时:占总人口的比重超六成 我国劳动年龄人口红利依然明显

衡水众邦木业有限公司成立 注册资本5万人民币 每日看点

新消息丨正赛上下午开赛时间调整公告

空警-3000再次试飞,有望在2027年服役,届时将领先美国预警机整整两代!_焦点报道

热推荐:暂升中超第五!津门虎1-0河南迎三连胜,王秋明制胜球全场7人染黄

书声远去后,一所鲁西南村小的“重生”

每日速讯:亚太药业:公司控制权或将发生变更,股票自9月29日起停牌

商务部:做好2026年度汽车和摩托车出口许可申报工作

Sirius Therapeutics-B:9月28日向港交所提交上市申请 报资讯

国星光电:向特定对象发行股票申请获深交所受理|速读

焦点滚动:秀我中国|对话何香蓓:做一个和大家一起探路的人

即时看!北海康成-B(01228)完成发行999.6万股 筹资约2259.14万港元

深圳二零二八3-0大胜长春喜都,黎乐航梅开二度,钟文1传1射 热文

潍柴动力:公司全资子公司山东欧润油品有限公司可销售润滑油,本年度销量同比实现小幅增...

研报掘金丨中信建投:维持济川药业“ 买入”评级,关注研发创新进展

焦点信息:星河动力完成24亿元D轮融资

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

多瑞医药(301075.SZ):筹划控制权变更事项 股票停牌 每日播报

线材商品报价动态(2025-09-28) 聚焦

*ST天茂:公司股票将在2025年9月30日摘牌

东吴证券:国庆节的先抑后扬 每日资讯

成功承运欧洲最大钠离子储能柜

襄阳至荆门高铁开通 湖北省内快速铁路环线形成_微动态

焦点速读:柳梧铁路全线54座隧道全部贯通

“大连不赢都不行!”

深华发A:股票交易异常波动_焦点热文

注意!国庆中秋“双节”期间长沙公积金业务办理有调整

交易商协会:做好债务融资工具发行工作_每日快讯

每日简讯:银行的资产配置策略如何帮助客户实现目标?

中网女单第三轮:利斯2-1战胜莱巴金娜,晋级16强

焦点讯息:古灌区精打“水算盘”

医药行业透露转型信号显现,行业结构性变局已至 焦点快看

恢复神速!塔图姆上脚粉色JT4 开始进行有球训练

钱天一横扫卢茨晋级32强!前两局全是极限逆转,第三局压制晋级!|当前热议

当前热讯:2025年9月28日陕西朱雀实业集团有限公司价格行情

今日热文:利物浦输球不冤!先让维尔茨“靠边站” ,不一定非打10号位

中国印记|微缩摄影看新疆:乐器篇

每日消息!公司国庆前补班一天被员工举报,随后取消14天年假福利和所有额外假期

万达知情人士回应王健林被限高:或因执行层面信息不对称导致

城建发展等设立北京建兴丰汇置业 注册资本29亿元

重庆梁平:鸟类保护步入智慧时代

双汇在健康轻食领域发力 旗下高端轻食品牌“简颂”发布新品

为什么孩子经常感冒:艾裕生物为你揭秘儿童体质:被误解的“纯阳之体”

新消息丨忻州市亨祥汽车销售有限公司获准退出,退出日期2025年9月25日

聚焦:新闻周刊丨在树上看“湘超” “挂票”是个什么票?

国家金融监督管理总局绍兴监管分局核准陈嘉烨招商银行绍兴分行行长助理-简讯

晶科科技安徽肥东100MW/200MWh储能项目并网

期货交易中的盈亏管理应如何进行?

iOS26.1发布,新增这几个功能! 最新消息

美媒:76人上赛季用过54套首发和30名球员,均排联盟第一

实时焦点:塔图姆:安芬尼-西蒙斯已打出优异表现 相信他能在绿军大放异彩

播报:国米近12场对阵卡利亚里10胜2平保持不败,近6次做客保持全胜

广州志丝建材有限公司成立 注册资本10万人民币 今日播报

要闻:中越咖啡贸易联盟在云南蒙自成立

每日关注!真想不通!连续6年场均得分20+,摆上货架2年,为什么都不抢他呢

勐劢珂科技取得便于更换滤芯的汽车滤清器专利,便于工作人员后续拆卸更换滤芯本体 播资讯

平遥尚特奥特莱斯品牌盛典暨文旅商业共生论坛圆满落幕 古城商脉焕发新活力

特斯拉陶琳:首批特斯拉在印度交付 全部来自上海超级工厂

上汽王晓秋:预计到2030年我国新能源渗透率上升到70% 热头条

蔚来取得一种分布式框架的实现方法等相关专利