聚焦·人工智能 | 如何判定人工智能的科研能力

人工智能技术飞速发展并持续向科研领域渗透，如何判断AI是否真正具备开展科学研究的能力已成为学界关注的核心议题。当前，各类新型基准测试接连问世，试图从不同维度衡量模型在科学任务中的表现。近日，研究者塞莉娜·赵（Celina Zhao）在《科学》杂志刊发《如何判定人工智能的科研能力？》（How will we know if AI is smart enough to do science?）一文，分析了目前不同评估体系对AI科研能力的考察维度，并提出应构建多元化、互补型评估体系，推动AI向更高阶的科研能力迈进。

原文：《如何判定人工智能的科研能力》

编译 |张译丹杨勇

图片 |网络

长期以来，人工智能领域的研究者一直希望研发出能助力科学研究实现突破的智能工具，这类工具可自主提出创新性研究问题、设计实验方案，甚至独立完成实验操作。最近，大语言模型接连取得多项研究发现，不少人工智能开发者认为，这让行业离上述愿景又近了一步。但问题在于，该如何检验一款AI模型是否真正具备开展科学研究的核心能力？为解答这一问题，研究人员将目光投向基准测试，通过标准化问题与任务评估AI能力、实现模型横向对比，而这也成为当前衡量AI科研能力的核心手段。

多元测试工具各有侧重

过去一年，数十款面向科学研究的新型基准测试应运而生，试图回答这一问题，不过科学界至今尚未就最优评估方法达成共识。

其中最受关注的，是今年1月发表于《自然》期刊的“人类最后考试”（HLE）。该测试选取2500道源自“人类知识前沿”的问题，以此检验大语言模型的能力。该测试由非营利组织人工智能安全中心研发，其研究工程师朗·范（Long Phan）表示：“我们希望打造一套多元数据集，其中的问题只有长期深耕某一领域的专家才能解答。”“人类最后考试”自首次发布后，便成为检验大语言模型的重要试金石，该测试的得分也成为AI企业彰显自身产品能力的重要依据。测试推出之初，行业头部企业OpenAI的人工智能模型虽拔得头筹，但其正确率仅有8.3%；近日，谷歌宣布其最新科学推理模型Gemini 3 Deep Think在该测试中取得48.4%正确率的高分，创下该测试的历史纪录。

不过，有部分科学家质疑，认为其中的诸多问题考察的只是晦涩难懂甚至细枝末节的知识，而非开展有价值科学研究的能力。与“人类最后考试”同期发表的《自然》期刊社论，也认同这一担忧：“我们认为，更多科学家应当思考，想要研发出能真正衡量专家级思维能力的AI基准测试，究竟需要具备哪些条件？”

OpenAI研究团队表示，其新推出的基准测试正朝着这一方向稳步推进。2025年12月发布的前沿科学基准测试（Frontier Science）包含约700道化学、生物、物理领域的问题，旨在检验模型的“专家级科学推理能力”。其中部分题目与数学、科学奥林匹克竞赛题型异曲同工，这类题目以简短场景为背景，答案明确。正如OpenAI研究科学家迈尔斯·王（Miles Wang）所言，这类题目是“衡量纯推理能力的优质参考指标”，比如判断一系列化学反应能生成的产物。另一类题目则围绕复杂的开放性研究问题展开，这类问题正是科研工作者在博士阶段及后续工作中需要攻克的难题，例如推导改变某一分子结构会从哪些方面影响其性质。

迈尔斯·王表示，该基准测试的核心优势在于可验证性，这也是公平合理的测试最关键的特征之一。奥林匹克竞赛类题目评分标准清晰，而针对开放性研究问题，大语言模型若能梳理出完整的中间推理步骤，便可按步计分。截至目前，OpenAI自研的GPT-5.2模型在前沿科学基准测试中表现最佳，不仅答对77%的奥赛类题目，还在研究挑战类题目中取得25%的正确率。

有研究人员认为，两类题目间悬殊的得分差距本身就很能说明问题。他们主张，基准测试的研发应聚焦于直接评估AI开展真实世界研究的能力，这正是段辰儒及其研究团队与前沿科学基准测试同期发布的科学发现评估（SDE）基准测试的核心理念。科学发现评估并未设置难度颇高却互不关联的问题，而是为AI布置了1125项任务，对应43个研究场景，这些场景均来自8个正在开展且相关数据尚未发表的真实科研项目。例如，该测试要求大语言模型设计具体方案，将目标分子拆解为结构更简单且可商业化采购的原料。该评估的评分依据不仅包括答案的准确性，还包括模型整合整个项目的能力，即能否在多步骤研究中提出假设、验证假设并优化假设。段辰儒表示：“我们可以保证，每一道测试题都围绕解决真实科学研究中的问题展开，即便是微小的问题也不例外。”

AI科研能力尚存明显瓶颈

科学发现评估（SDE）的测试结果显示，大语言模型正确回答单个问题的能力，并非总能转化为其在完整科研项目中的优异表现，反之亦然。“把握研究的整体方向，往往比掌握某类分子的精准属性更为重要。”段辰儒说。该测试还发现，来自OpenAI、Anthropic、xAI、深度求索等企业的顶尖模型，往往会在同一类高难度问题上陷入瓶颈。这一现象表明，这些模型或许面临着相同的能力天花板，究其原因，大概率是它们的训练数据均来自相似的科学数据池。

但即便如此，科学发现评估的方法也仅能覆盖科学研究流程的部分环节。另一款新型基准测试LABBench2则聚焦生物领域，由科学智能初创企业Future House研发，其核心目标是检验面向科研的人工智能，是否具备将一个研究项目从最初构想推进至论文成稿的全流程能力。该测试于近日推出，通过近1900项任务评估“代理式AI模型”在文献检索、数据获取、基因序列构建等工作中的表现，这类模型是能自主执行操作、完成多步骤任务的智能系统。

迄今为止，该测试的结果好坏参半。诸多领先的大语言模型在检索专利全文、实验室试验相关论文方面表现良好，但在应对LABBench2中更复杂的任务时却常常力不从心，例如交叉引用多个数据库，或是在内容繁杂的论文中定位并解读特定的图表与数据。Future House 旗下商业公司Edison Scientific的乔恩·洛朗（Jon Laurent）表示，这一现象说明，想要打造真正的AI科学家，其发展进程在一定程度上取决于模型信息检索与信息导航能力的优化。

以基准测试引领未来发展

研究人员表示，值得关注的是，基准测试的价值并非仅在于记录当下各模型的优劣排名。更为严苛的基准测试还能为大语言模型及其他AI工具设定全新发展目标，进而推动行业创新。Future House旗下乔恩·洛朗表示，基准测试的核心目的之一是做好前瞻性布局，衡量模型潜在能力并推动其持续发展，而OpenAI迈尔斯·王也对此深表认同，他以ImageNet大规模视觉识别挑战赛为例，指出该赛事的冠军模型AlexNet极大地推动了卷积神经网络发展，成为现代AI的技术基石，印证了优质基准测试对科技突破的重要引领作用。

事实上，在科研领域，或许并不存在衡量AI是否“擅长开展科学研究”的单一标准。佐治亚理工学院研究认知神经科学与人工智能交叉领域的安娜·伊万诺娃（Anna Ivanova）表示：“这正是当前各类基准测试呈现多样化的根本原因。一个智能系统的绘图可视化能力，与其掌握的分析化学领域事实性知识截然不同，尽管科研工作者需要同时具备这两种能力。”

鉴于科学研究所需的技能范围广泛，AI领域专家认为，科研界最理想的方式是构建一套多元化的测试体系，每项测试都旨在针对性地推动科学研究流程中不同环节的能力提升。正如业内所言：“我们正迈向一个需要多元化评估体系的新时代。”

无论采用何种评估方法，被纳入衡量范畴的指标，往往会成为技术改进的方向。正如行业共识：“唯有可衡量，方能求进步。”

文章为社会科学报“思想工坊”融媒体原创出品，原载于社会科学报第1997期第7版，未经允许禁止转载，文中内容仅代表作者观点，不代表本报立场。

本期责编：程鑫云