北京大学的化学考场,迎来了一批特殊考生:GPT、Gemini、DeepSeek等顶尖AI模型,与174名化院大二学子,面对一套名为“SUPERChem”的硬核试卷。这场精心设计的“图灵测试”,其结果却耐人寻味:即便是最先进的模型,其准确率仅与低年级本科生平均水平相当。这并非一场胜负分明的竞赛,而是一次冷静的丈量——丈量当前人工智能在通往“理解物理世界”的漫长征途中,究竟行至何处。
这场测试的非凡之处,首先在于其极高的“防作弊”门槛。团队深知,面对博闻强识、熟读互联网海量数据的大模型,常规题目无异于送分。于是,他们集结奥赛金牌得主在内的近百名师生,从高难度试题与前沿文献中深度改编出500道全新题目。目标直指AI的“阿喀琉斯之踵”:它能否超越一维的“下一个词预测”(next token prediction),去解决化学领域那充满严密逻辑推演与多维空间想象的复杂问题?结果揭示了一个关键瓶颈:面对蕴含核心信息的分子结构图、反应机理图,部分模型的准确率不升反降。这清晰地表明,当前AI在将视觉信息转化为深层化学语义时,存在着显著的“感知隔阂”。化学的奥秘藏在三维结构与动态变化之中,而AI的“眼中”,图形或许仍是一堆有待解读的像素。
更进一步,SUPERChem像一台精密的“显微镜”,洞察AI推理链条的脆弱。团队为每道题标注详细评分规则,发现模型的“崩溃”往往发生在产物结构预测、反应机理识别等需要深度逻辑构建的高阶任务上。它们或许能凭借庞杂的知识库拼凑出看似合理的答案,但其推导过程却可能漏洞百出,经不起严谨推敲。这印证了团队的深层关切:AI是真正“理解”了化学,还是仅仅在“模仿”知识的表象?化学不仅是符号与方程式的集合,更是对微观世界运行规律的深刻洞察。当AI面对需要结合空间想象、能量变化与电子转移进行综合推演的题目时,便暴露了其从“记忆”迈向“理解”的艰难跨越。
然而,这场测试的终极目的,绝非为了证明AI的“短板”。正如团队所言,SUPERChem的发布是一个“路标”,旨在成为推动技术前行的公共财富。它精准地标出了当前技术的前沿与困局:我们拥有了能对话、能生成的强大工具,但要锻造出能真正理解构效关系、推演反应机理的“专业科学助手”,还有漫长的路要走。这条路,是从处理符号到洞察规律的升华,是从拟合数据到理解因果的飞跃。
北大师生的这项开创性工作,其价值正在于此。它填补了化学领域多模态深度推理评测的空白,为AI的发展提供了不可或缺的、高标准的“试金石”。它冷静地提醒我们,人工智能在征服诸如化学这般深邃的科学疆域时,所面临的挑战是何等根本——那不仅是算法的优化或算力的提升,更是如何让机器学会像人类一样,去“理解”并“推理”这个复杂而精妙的物理世界。这场考试没有输家,它是一次宝贵的共同探索,催化着下一次可能改变科学范式的技术爆发。
2025-12-29 08:50:52
海森大数据