Anthropic 让 Claude 学会读懂 NMR 谱图,辅助化学家日常分析

Anthropic 让 Claude 学会读懂 NMR 谱图,辅助化学家日常分析

_

Anthropic 发布了一份白皮书,首次系统评估旗下大模型 Claude 在解读核磁共振谱图(NMR)上的能力。测试结果显示,Claude 不仅能像传统软件一样预测谱图,还能反向从实测谱图推理分子结构——后者正是目前专用软件无法胜任、必须由化学家手动完成的工作。

背景:化学家为何需要 AI“翻译”

化学家日常要在多种表示形式之间切换:白板上的手绘结构、仪器输出的谱图、数据库查询字符串、专利文献中的技术符号。每种形式都承载相同的化学信息,但解读方式截然不同。例如,咖啡因的手绘结构能让化学家一眼看出它与腺苷相似,从而解释其提神原理,但单靠这张图却无法区分结构相似的其他分子。

理解“手里到底是哪个分子”是化学工作的起点。从药物、农药到塑料、涂料,分子结构决定了一切。同样是 C₆H₁₂O₆,葡萄糖和果糖的代谢路径截然不同;镜像分子(对映体)可能将镇静剂变成致畸剂,正如沙利度胺灾难所警示的。化学家必须从任一表示形式中准确读出结构信息。

然而,在不同表示之间转换——从图中提取结构、将仪器读数和预期产物对照、用正确符号查询数据库——极其耗时且难以规模化。美国化学文摘社(CAS)登记了超过 2.9 亿种已公开物质,每天新增约 15000 种。AI 被寄予厚望,但多年以来,机器学习工具在逆合成分析、反应预测、性质估算等领域进展缓慢,主要受限于数据问题:零结果缺乏记录、格式不统一、付费期刊将数据锁在非结构化文档中。

测试:Claude 如何应对化学家最常面对的分析任务

核磁共振谱(NMR)是化学家确定小分子结构最常用、也最耗时的分析手段。每个化合物都需要化学家将谱图中每个峰逐一对应到分子中的某个原子,这一过程通常靠手工完成。

为了测试 Claude 的表现,Anthropic 的研究团队(包括化学家 David Kamber)从 ChemRxiv 预印本中选取了 20 个化合物——这些论文发布于模型训练截止日期之后,可避免数据污染。20 个化合物横跨 4 个结构家族,每个家族包含 5 个化合物,分别代表不同类型的 NMR 解析难点。团队将结构以 SMILES 字符串(化学软件通用的线性文本符号)输入 Claude,要求它预测每个氢原子和碳原子在一维 NMR 谱图中的化学位移(ppm)。同时,团队也用化学家日常使用的两款专业软件 ChemDraw 和 MestReNova 完成同样的正向预测任务。

更进一步,团队还测试了 Claude 反向推理的能力:仅凭实验谱图,让模型反推分子结构。这是更难的任务,也是现有软件完全无法做到、必须交给化学家本人的环节。测试涉及三个 Claude 模型版本:Opus 4.7、Opus 4.6 和 Sonnet 4.6。

研究团队的结论是审慎的:Claude 已经开始在化学家日常的翻译、回忆和信息整合工作中提供有意义的辅助,分担那些需要频繁切换表示形式的体力劳动,但化学家的专业判断仍然是核心。这份白皮书是 Anthropic 旨在加速化学研究的系列工作之一,后续将深入更多实际应用场景。

编注:信源为 Anthropic 研究博客,材料为白皮书介绍,侧重能力验证与测试方法,未涉及具体准确率数据或产品路线图。


代码合并新范式:Weave 按语言结构而非行合并,消除误冲突 2026-06-14
免费开源SQL转ER图工具:浏览器本地运行,数据不传云端 2026-06-14