如何判断AI是否具备开展科学研究的智能

日期：2026-04-28 09:49:40 / 人气：7

多年来，人工智能（AI）研究者一直致力于开发能通过提出新问题、设计并执行实验来加速科学进程的工具。近期大语言模型（LLM）的多项发现，让这一目标看似更近一步，但如何精准判断AI是否真正具备开展科学研究的智能，仍是尚未解决的核心问题。目前，研究者主要通过各类标准化基准测试来评估AI的科研能力，但因科学本身的复杂性，学界尚未就最佳测试方法达成共识，各类基准测试各有侧重、各存争议。
主流基准测试及核心特点
过去一年，数十项面向科学领域的AI基准测试相继涌现，其中最具代表性的包括以下四类，它们从不同维度切入，试图捕捉AI的科研能力：
1. 人类终极考试（HLE）：知识储备的“试金石”
该测试于2026年1月28日发表于《Nature》，核心是通过2500道源自“人类知识前沿”的问题，考验LLM的专业知识储备。这些问题多为晦涩甚至琐碎的领域细节，例如“蜂鸟籽骨支撑多少对肌腱”，开发者旨在构建仅长期深耕该领域的专家才能回答的多样化数据集。
HLE自2025年1月24日以预印本形式发布后，迅速成为LLM能力的重要衡量标准，其得分已成为AI公司彰显产品实力的常见依据。发布初期，OpenAI的o1模型以8.3%的得分位居榜首；2026年3月，Google的Gemini 3 Deep Think创下48.4%的新纪录。
但该测试的争议也十分明显：部分科学家指出，它测试的是孤立的晦涩知识，而非开展有意义科学研究的核心能力。正如AI for Science公司Deep Principle创始人段辰儒所质疑的，“知晓世界上磷同素异形体有多少种颜色，如何助人实现科学发现？”
2. FrontierScience：聚焦专家级科学推理
由OpenAI于2025年12月16日发布，包含700道化学、生物学与物理学问题，核心目标是识别AI的“专家级科学推理”能力，分为两类题型：一类类似数学与科学奥林匹克竞赛题目，基于简短场景、答案明确，被开发者称为“纯推理努力的合理代理”，例如识别系列化学反应的产物；另一类则是博士科学家实际工作中会遇到的复杂开放式研究问题，例如推理修饰特定分子可能影响其性质的多种途径。
该基准测试的核心优势的是可验证性——这是公平测试的关键特征。奥林匹克类题目易于评分，而开放式研究问题则通过识别AI的中间推理步骤来赋分。截至目前，OpenAI的GPT-5.2取得最佳成绩：奥林匹克题目正确率77%，研究挑战得分25%。
3. 科学发现评估（SDE）：贴近真实研究场景
由段辰儒及其合作者与FrontierScience同期发布，核心指导原则是“直接衡量AI开展现实世界研究的能力”。与前两类测试不同，SDE不设置孤立的难题，而是向AI呈现8项进行中、数据尚未发表的真实研究项目，包含1125项任务、关联43种研究场景，例如要求LLM推导如何将目标分子分解为更简单、市售可得的组分。
SDE的评估重点并非单个答案的正确性，而是AI整合完整项目的能力——即在多步骤中提出、检验并完善假设，确保每个问题的回答都关联真实科学发现的微小片段。测试结果显示，LLM正确回答单个问题的能力，并不总能转化为完整项目的稳健表现；同时，不同供应商的顶尖模型常在同一最难问题上受阻，这可能是因为它们在相似科学数据池上训练，存在相同的能力局限。
4. LABBench2：覆盖科研全流程的综合考验
由AI for Science初创公司FutureHouse推出，于2026年2月发布，是一款生物学导向的基准测试，核心目标是检验AI能否将科研项目从初始构想推进至完成论文。该测试包含近1900项任务，评估“代理型AI模型”（能独立完成多步骤任务的系统）执行文献检索、数据获取、基因序列构建等工作的能力。
目前测试结果喜忧参半：多数领先LLM在全文专利与实验室试验论文检索方面表现良好，但在更复杂的任务中常遇困难，例如交叉引用多个数据库、在密集论文中定位并解读特定图表或数据。研究者认为，这表明AI迈向“真正的科学家人”，不仅需要提升推理能力，还需改进信息检索与导航的方式。
基准测试的核心争议与共识
核心争议：单一标准无法衡量多元科研能力
当前学界的主要争议在于，科学研究所需的技能具有广泛性，不存在衡量AI是否“擅长”科学的单一标准。美国佐治亚理工学院的Anna Ivanova指出，AI系统绘制数据的能力与其分析化学事实知识截然不同，而科学家开展研究往往需要兼顾多种能力，这也是目前各类基准测试高度异质的原因——不同测试聚焦科研工作流的不同环节，难以全面覆盖所有核心能力。
行业共识：依赖测试组合，以评估驱动创新
尽管存在争议，但研究者已形成普遍共识：单一基准测试无法全面衡量AI的科研智能，研究界应依赖“测试组合”，让每项测试针对并催化科学工作流不同环节的改进。同时，基准测试的价值不仅在于记录当前AI模型的表现，更在于为LLM及其他AI工具提供新目标，驱动技术创新。正如FutureHouse相关研究者Laurent所言，“基准测试的目的之一是领先时代，衡量潜在能力，并推动其发展。”
正如美国伊利诺伊大学厄巴纳-香槟分校计算机科学家Hao Peng所言，“要取得进展，你必须能够衡量它。”各类基准测试的探索与完善，正是AI科研能力评估走向成熟的必经之路，也将持续推动AI向“真正的科学工具”乃至“AI科学家”迈进。

作者：蓝狮娱乐

如何判断AI是否具备开展科学研究的智能

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →