2024年,人工智能与科学的融合迎来了前所未有的高光时刻,两大诺贝尔奖项的揭晓更是将这一趋势推向了顶点。在化学领域,David Baker、John Jumper和Demis Hassabis三位科学家因在蛋白质设计与结构预测方面的开创性工作荣获诺贝尔化学奖;而在物理学领域,John J. Hopfield和Geoffrey Hinton则因对人工神经网络及其机器学习核心原理的奠基性贡献被授予诺贝尔物理学奖。
这两大奖项不仅是对过去科研成果的肯定,更是对未来科学探索的鼓舞。随着诺奖颁奖典礼上演讲视频的公开,AI与科学交织所开启的新时代画卷正徐徐展开。
回顾2024年,AI for Science领域的发展可谓精彩纷呈。其中,“神经网络缩放定律”的兴起尤为引人注目。这一理论揭示了模型规模、参数量以及计算量变化时,神经网络性能的变化规律。在大语言模型(LLM)的训练中,缩放定律得到了充分验证。GPT-4o、Claude-3.5-Sonnet等商业模型,以及Llama-3.1–140B等开源模型,均在参数规模上实现了飞跃,性能也随之大幅提升。
OpenAI推出的GPT-o1-preview更是在推理阶段引入了新的思路,通过增加计算资源投入,模型在解决高难度数学题目等复杂任务上表现出色。而Hugging Face团队独立开发的类似方案,也在MATH-500基准测试中实现了小参数模型对大型模型的超越,进一步验证了缩放定律的普适性。
在结构生物学领域,AlphaFold3的推出无疑是另一项重大突破。它不仅能够预测蛋白质单体结构,还能精准模拟包含核苷酸、小分子以及离子在内的复杂体系,达到了前所未有的准确度。随着AlphaFold影响力的不断提升,相关数据库也在快速扩容。UCL创建的“The Encyclopedia of Domains”(TED)通过分析海量蛋白质结构,发现了大量新的结构互作关系,为蛋白折叠空间谱系图增添了新篇章。
然而,AlphaFold在实际药物设计中的效用仍存在争议。加州大学旧金山分校的研究表明,尽管AlphaFold预测的蛋白结构与实验测得的真实结构在命中率上相近,但鉴定到的配体却几乎无重叠。这或许意味着AlphaFold提供了另一种真实而未被充分利用的蛋白质构象,为基于结构的药物筛选带来了新的可能性。
在激烈的竞争氛围下,Chai-1、NeuralPLexer3及Boltz-1等新模型相继问世,宣称具备媲美AlphaFold3的性能。这些后起之秀的出现,标志着以原子级精准度为目标的生物分子结构预测正蓬勃发展,为下一代计算机辅助药物设计奠定了坚实基础。
非等变神经架构的兴起也在学界和工业界引发了广泛讨论。AlphaFold3在网络设计中弃用了等变架构,这一做法引发了关于神经网络在建模物理对称性时是否需要显式保留等变性的热议。一方面,大规模分子模拟工作表明,神经网络势能函数已能精确捕捉量子级相互作用;另一方面,“苦涩教训”再次得到印证,即依赖于大规模计算和数据驱动的通用网络往往更具潜力。
加州大学伯克利分校的研究显示,减少对物理对称性的显式嵌入后,架构在推理速度和准确度上均能胜过许多基于对称性的模型。这再次证明了在数据和算力足够的情况下,通用化网络也能自发学习出有效的表示。然而,这并不意味着领域知识和对称性毫无价值,而是提示我们需要在显式嵌入物理先验与模型灵活度之间找到更微妙的平衡。
在数学领域,大语言模型同样大放异彩。DeepMind的AlphaProof与AlphaGeometry2结合了大语言模型与强化学习框架,成功攻克了国际数学奥林匹克中的难题。二者合力在IMO 2024上取得了相当于银牌的成绩,展现了AI在数学领域的巨大潜力。
与此同时,meta也在数学领域取得了突破。其新模型针对动力系统全局稳定性中的李雅普诺夫函数推导问题给出了解决思路,成功拓展到缺乏算法解的非多项式系统上。在其他科学方向,大语言模型同样展现出强大的能力。OpenAI开发的专门用于罕见病基因发现的模型,在稀缺数据场景中表现出色;MOLLEO模型则能甄别高活性分子,性能超越先前各类先进算法。
在科学领域,“基础模型”的兴起与语言模型的发展异曲同工。ESM3、scGPT、UCE、AIDO等模型在生物、物理、化学乃至跨学科中均被视为下一代驱动创新的基石。它们通过高度细化的计算模拟,探寻疾病机理、细胞行为以及跨学科的物理动力学等复杂问题。
最后,小分子药物设计领域也取得了诸多进展。业界与学界在“可合成性”这一关键环节上加速弥合计算设计与实验落地的鸿沟。通过“合成优先”的思路和“分子投影”技术,研究人员成功设计出功能优异且易于合成的小分子药物。
在量子化学领域,Pfau及其合作者提出的自然激发态变分蒙特卡洛(NES-VMC)方法更是将激发态计算的准确度推向了新的高度。该方法在从简单原子到复杂分子体系中都能保持对化学精度的逼近,为研究物质与光的相互作用提供了坚实的理论基础。