如何判断AI是否具备开展科学研究的智能
日期:2026-04-28 09:49:40 / 人气:7

多年来,人工智能(AI)研究者一直致力于开发能通过提出新问题、设计并执行实验来加速科学进程的工具。近期大语言模型(LLM)的多项发现,让这一目标看似更近一步,但如何精准判断AI是否真正具备开展科学研究的智能,仍是尚未解决的核心问题。目前,研究者主要通过各类标准化基准测试来评估AI的科研能力,但因科学本身的复杂性,学界尚未就最佳测试方法达成共识,各类基准测试各有侧重、各存争议。
主流基准测试及核心特点
过去一年,数十项面向科学领域的AI基准测试相继涌现,其中最具代表性的包括以下四类,它们从不同维度切入,试图捕捉AI的科研能力:
1. 人类终极考试(HLE):知识储备的“试金石”
该测试于2026年1月28日发表于《Nature》,核心是通过2500道源自“人类知识前沿”的问题,考验LLM的专业知识储备。这些问题多为晦涩甚至琐碎的领域细节,例如“蜂鸟籽骨支撑多少对肌腱”,开发者旨在构建仅长期深耕该领域的专家才能回答的多样化数据集。
HLE自2025年1月24日以预印本形式发布后,迅速成为LLM能力的重要衡量标准,其得分已成为AI公司彰显产品实力的常见依据。发布初期,OpenAI的o1模型以8.3%的得分位居榜首;2026年3月,Google的Gemini 3 Deep Think创下48.4%的新纪录。
但该测试的争议也十分明显:部分科学家指出,它测试的是孤立的晦涩知识,而非开展有意义科学研究的核心能力。正如AI for Science公司Deep Principle创始人段辰儒所质疑的,“知晓世界上磷同素异形体有多少种颜色,如何助人实现科学发现?”
2. FrontierScience:聚焦专家级科学推理
由OpenAI于2025年12月16日发布,包含700道化学、生物学与物理学问题,核心目标是识别AI的“专家级科学推理”能力,分为两类题型:一类类似数学与科学奥林匹克竞赛题目,基于简短场景、答案明确,被开发者称为“纯推理努力的合理代理”,例如识别系列化学反应的产物;另一类则是博士科学家实际工作中会遇到的复杂开放式研究问题,例如推理修饰特定分子可能影响其性质的多种途径。
该基准测试的核心优势的是可验证性——这是公平测试的关键特征。奥林匹克类题目易于评分,而开放式研究问题则通过识别AI的中间推理步骤来赋分。截至目前,OpenAI的GPT-5.2取得最佳成绩:奥林匹克题目正确率77%,研究挑战得分25%。
3. 科学发现评估(SDE):贴近真实研究场景
由段辰儒及其合作者与FrontierScience同期发布,核心指导原则是“直接衡量AI开展现实世界研究的能力”。与前两类测试不同,SDE不设置孤立的难题,而是向AI呈现8项进行中、数据尚未发表的真实研究项目,包含1125项任务、关联43种研究场景,例如要求LLM推导如何将目标分子分解为更简单、市售可得的组分。
SDE的评估重点并非单个答案的正确性,而是AI整合完整项目的能力——即在多步骤中提出、检验并完善假设,确保每个问题的回答都关联真实科学发现的微小片段。测试结果显示,LLM正确回答单个问题的能力,并不总能转化为完整项目的稳健表现;同时,不同供应商的顶尖模型常在同一最难问题上受阻,这可能是因为它们在相似科学数据池上训练,存在相同的能力局限。
4. LABBench2:覆盖科研全流程的综合考验
由AI for Science初创公司FutureHouse推出,于2026年2月发布,是一款生物学导向的基准测试,核心目标是检验AI能否将科研项目从初始构想推进至完成论文。该测试包含近1900项任务,评估“代理型AI模型”(能独立完成多步骤任务的系统)执行文献检索、数据获取、基因序列构建等工作的能力。
目前测试结果喜忧参半:多数领先LLM在全文专利与实验室试验论文检索方面表现良好,但在更复杂的任务中常遇困难,例如交叉引用多个数据库、在密集论文中定位并解读特定图表或数据。研究者认为,这表明AI迈向“真正的科学家人”,不仅需要提升推理能力,还需改进信息检索与导航的方式。
基准测试的核心争议与共识
核心争议:单一标准无法衡量多元科研能力
当前学界的主要争议在于,科学研究所需的技能具有广泛性,不存在衡量AI是否“擅长”科学的单一标准。美国佐治亚理工学院的Anna Ivanova指出,AI系统绘制数据的能力与其分析化学事实知识截然不同,而科学家开展研究往往需要兼顾多种能力,这也是目前各类基准测试高度异质的原因——不同测试聚焦科研工作流的不同环节,难以全面覆盖所有核心能力。
行业共识:依赖测试组合,以评估驱动创新
尽管存在争议,但研究者已形成普遍共识:单一基准测试无法全面衡量AI的科研智能,研究界应依赖“测试组合”,让每项测试针对并催化科学工作流不同环节的改进。同时,基准测试的价值不仅在于记录当前AI模型的表现,更在于为LLM及其他AI工具提供新目标,驱动技术创新。正如FutureHouse相关研究者Laurent所言,“基准测试的目的之一是领先时代,衡量潜在能力,并推动其发展。”
正如美国伊利诺伊大学厄巴纳-香槟分校计算机科学家Hao Peng所言,“要取得进展,你必须能够衡量它。”各类基准测试的探索与完善,正是AI科研能力评估走向成熟的必经之路,也将持续推动AI向“真正的科学工具”乃至“AI科学家”迈进。
作者:蓝狮娱乐
新闻资讯 News
- 两个“开市客”闹剧幕后的皮省川...04-28
- 西蒙·斯涅克:你做一人公司的方...04-28
- 2026北京车展:汽车公司狂卷全尺...04-28
- 如何判断AI是否具备开展科学研究...04-28

