面向科学智能新范式的信息基础设施

引用本文

谭光明, 贾伟乐, 孙凝晖. 面向科学智能新范式的信息基础设施[J]. 科学与社会, 2023, 13(3): 1-10, 36.

TAN Guang-ming, JIA Wei-le, SUN Ning-hui. Information Infrastructure for AI-based Scientific Discovery[J]. Science and Society, 2023, 13(3): 1-10, 36. DOI: 10.19524/j.cnki.10-1009/g3.2023.03.001.

作者简介

谭光明，中国科学院计算技术研究所研究员。研究方向为高性能计算;
贾伟乐，中国科学院计算技术研究所副研究员。研究方向为高性能计算;
孙凝晖，中国科学院计算技术研究所研究员，中国工程院院士。研究方向为高性能计算


目录 Contents	摘要 Abstract	全文 Full text	图表 Figures/Tables	PDF PDF

面向科学智能新范式的信息基础设施

谭光明, 贾伟乐, 孙凝晖

中国科学院计算技术研究所

摘要: 探索复杂科学问题已经进入大科学时代，信息技术发挥着越来越关键的作用，并催生了科学计算和科学数据两种以计算技术赋能的科研范式。科学研究在向更基本、更复杂问题的突破上仍然面临着巨大挑战。一是应用基本规则的理论方程导致模型过于复杂而无法求解，二是建模摆脱不了低效的“试错”和“穷举”的研究模式。为了应对上述挑战，国际前沿研究正在探索以数据和智能驱动的科学智能范式。本文探讨从信息技术赋能角度看科研活动中的信息流，阐述发展科学智能范式的挑战性问题，提出建设面向科学智能的新型科研信息基础设施的几点建议。

关键词: 科研范式科学智能第一性原理信息基础设施

中图分类号: G622/G64 文献标识码: A

DOI: 10.19524/j.cnki.10-1009/g3.2023.03.001

一、信息技术是如何赋能科研范式变革的

纵观人类社会的发展，目前为止大致可分为农业社会、工业社会和信息社会三个阶段，从技术角度而言，其标志是获取、传输、处理与使用的核心对象发生转移——分别为物质、能源和信息。如果以计算机的出现为起点，人类进入信息社会时代还不到100年，但得益于信息技术的赋能，相比而言其对社会经济发展的年均增长率是最高的^[1]。信息技术赋能的核心是自动化过程。由于这个世界是由人、机、物组成的，因此赋能的本质是打通人机物之间的信息流^[2]，从而高效率、低成本、广覆盖的实现人类活动（经济、生产和科研等）自动化的过程。信息技术赋能的过程可分为数字化、网络化和智能化：数字化实现信息共享的基础，网络化实现人-机-物三者之间的信息互通，智能化实现自动处理的全过程（见表1）。以城市出行的打车为例，人是乘客，物是出租车，机是调度中心。在互联网兴起的信息技术真正赋能之前，打车的过程是人工离线打通的：乘客在路边等待，出租车随机路过接待乘客，调度中心根据交通信息宏观调度车辆。尽管存在电话预约的情况，但通常要提前数小时甚至数天。今天，有了信息技术在数字化、网络化和智能化的赋能形成统一平台之后（如滴滴），通过在线交互平台赋能，让信息流全过程自动化，中间没有任何人的参与，都是智能手机、GPS算法、调度、智能网约车以信息为介质在紧耦合平台上流动，效率大幅提升（如节省了乘客和司机的大量空闲等待时间）。然而，相比类似打车这样与普通大众生活直接相关的场景，信息技术赋能科研范式还存在鸿沟。

表 1 科研范式的演变

人类从事科学研究的范式一直在随着技术的进步在演变，到目前为止，现代科学活动中存在四种范式^[3]。第一范式是实验观察，发现客观存在的自然现象。如依赖光源等大科学装置，从实验得到的晶体结构出发研究材料和药物设计。第二范式是理论推演，通过理论推导归纳出一般性的规律，形成对客观世界认识探索的理论体系。如薛定谔方程等量子理论的提出。第三范式是科学计算或数值模拟，这是基于现代科学研究需要发展起来的借助强大的计算设备形成的主流方式，比如在高性能计算机系统上开展气候、核聚变等数值计算模拟，同时，也可产生高精度的各种构型的数据（如运用第一性原理计算）。第四范式是科学数据，通过积累的大量已知实验和理论数据，计算得出相关关系，但不是因果关系。毫无疑问，科学计算和科学数据在大科学时代兴起的两种科研范式是在信息技术赋能下出现并发展起来的。

在前计算机时代，人们的主要科研方式一方面依赖实验仪器的长期观测和试错，另一方面只能借助于纸笔类的工具进行数学推演，不断地进行漫长的“假设-实验”的迭代，由一些天才科学家构建了经典物理模型和量子力学体系。然而，正如著名物理学家保罗·狄拉克（Paul Dirac）指出^[4]：“一大部分物理和整个化学的数学理论所需的基本物理定律是完全已知的，而困难的只是这些定律的精确应用导致方程过于复杂，无法求解”。也就是说，缺乏高效计算手段已成为阻碍科学前进的主要障碍之一。

计算机也是在这种时代背景下出现的，进而赋能了人类科研活动在数字化和网络化方面的改造，促成了科学计算和科学数据的范式变革。这样的改造体现在科学家将部分复杂科学问题转换为简单的计算问题实现计算机建模，并在一定程度上减少或替代昂贵的实验。同时这样的改造还体现在对传统大科学装置的数字化和网络化升级上，实验数据的精度和通量有了大幅提升，成为科学数据范式的主要的驱动因素之一。有了信息技术的赋能，在短短的数十年的时间里，人类已经将宏观尺度科学成果大规模应用到航空、汽车、能源和通讯等领域。然而，我们也必须认识到，蕴含着巨大潜力的微观世界探索仍然如黑洞一般横亘在基础科学前进的道路上，其本质上还是前述保罗·狄拉克所指的复杂计算问题，即对微观世界的多尺度探索在传统计算方法上遇到的维度灾难。近年来，利用机器学习对高维函数的有效拟合在处理传统科学计算方法无法解决的个例问题上取得了成功，展示了人工智能技术在面向高精度建模所需的求解高维函数的优势潜力。然而，能否将人工智能技术应用到科学研究中，并系统性解决传统科学研究遇到的维度灾难问题，还存在极大的挑战。也就是说，只有解决了这些挑战性问题，在数字化和网络化赋能的基础上，信息技术进一步对科学研究完成智能化赋能，科学智能才能真正成为一种变革性的科研范式，成为第五范式。

二、发展科学智能面临的主要挑战性问题

提出科研范式概念的托马斯·库恩（Thomas Samuel Kuhn）认为^[5]，每一种新的科研范式的诞生都是在现有科研范式陷入危机的时候、是对“旧思想”的突破。我们认为信息技术在赋能现代科研活动的过程中遇到了重大危机，即人（科学家）-机（计算机）-物（实验设施）的信息流不畅通。我们不能否认理论科学家、实验科学家及其所依赖的计算机、实验装置之间存在一些关联，但这种联系是极其微弱和脆弱的，而且存在步调不一致的现象。如图1所示，他们之间的交流是通过离线的方式，主要是成果发表的载体如Nature/Science/Cell等期刊文献，导致理论和实验相互促进迭代的周期漫长。要打通科研过程中的人-机-物三者之间的信息流，实现智能化自动处理，我们认为存在三个方面的挑战。

图 1 传统范式下的实验和理论研究的离线交互

（1）人-机之间的信息流。在现代科研活动中，超算技术是人和机器之间的信息流联系。算法是科学家与计算硬件交互的“共同语言”，把人的科学思想表达成机器可大规模求解的模型。人就是物理学家、数学家，研究物理模型、计算模型，高性能计算机做并行计算模型，共同解决大规模求解的问题。超算技术的发展推动科学研究问题走向复杂，从单物理问题的大规模并行处理，到多物理问题的异构超算。在现代超级计算机上，计算的空间和时间尺度相比传统的解偏微分方程的方式得到量级的提升。然而，对于实际问题，尤其是生物学中最关心的诸如蛋白质折叠问题，最核心的竞争力仍是第一性原理精度的百万原子微秒级别模拟。在通用超算中，即使采用世界上最快的深度势能算法^[3]，相应的可模拟物理时间仅能达到每天数十纳秒。未来，面向高维复杂问题，需要智能超算，为科学智能系统提供有数量级性能提升的算法和算力（见表2）。

表 2 人-机之间信息流演变

（2）人-物之间的信息流。在大科学时代，大科学装置由于其高精度海量数据的生成能力，成为人-物之间的信息流联系。大科学装置在一定程度上是把人的科学思想表达成装置上可开展的实验，其核心是海量实验数据。由于信息技术在数字化和网络化对大科学装置的赋能，我们见证了大装置产生的海量数据推动了科学实验设计走向开放，科学家围绕其开展科研模式产生出新的需求。科研活动从简单的原始数据文件共享，发展到基于大数据存储技术的数据粗加工形成数据仓储。未来，基于知识数据的协同构建，需要形成实验流程的超级市场，为科学智能系统提供高质量数据和灵活数据反馈能力，实验科学家和理论科学家不应该在期刊上交互，而应该在“超级市场”的科学家工作台上交互。以靶向药物设计为例，首先在实验室中利用冷冻电镜得到病毒（比如COVID-19）的蛋白质结构，进而得到其原子位置文件。将原子位置文件在线的传输到“新范式计算平台”，平台将快速针对这一特定的蛋白结构构建其专有的深度势能面模型^[6]，之后利用这一势能面模型，在海量的小分子药物中采用分子动力学的方法筛选可能的靶向药物。并且将计算结果反馈给实验室以指导实验的方向（见表3）。

表 3 人-物之间信息流演变

（3）机-物之间的信息流。打通信息流离不开网络基础设施，但不仅仅是简单把实验设施和计算设备连成网络。从信息流的角度看，网络是不同时空的科研协同的“信使”，把人的科学思想表达成跨平台上可调控的信息。作为发展智能化的基础，网络融合推动科研基础设施走向一体，从单纯的互联互通支撑数据传输万维网到具备信息简单加工能力的物联网，其互联的对象也发生了变化，从一维到二维。未来将是算力网的时代，形成端-边-云一体化的算力调度系统。算力网是赋能大科学装置与算力中心的融合，数据洪流要从边缘端汇到算力网上来，算力网无限扩张多台算力系统（见表4）。

表 4 机-物之间信息流演变

综上所述，科学智能的本质是把科学家的大脑、计算模型、实验数据所代表的人-机-物在一个信息流的空间里能够高速高效的迭代，形成基于人-机-物信息流的科学研究范式。因此，发展科学智能亟需构建出信息流打通的统一平台（见图2），在该平台上，信息技术实现对科研数字化、网络化和智能化的赋能，支撑理论-实验的在线迭代。这个新范式一旦建立起来，科研就可以大踏步的往前走，在未来产出诺贝尔奖级别的成果。

图 2 科学智能范式下的实验和理论研究的在线迭代数据来源：参考美国能源部（DOE）报告^[7]。

三、应对科学智能范式挑战的主要对策

科学智能是数据和智能驱动的科学发现新范式（见图2），需要类似支撑传统科研范式的基础设施或者装置。从前述科学智能发展基于信息流的分析看，非常依赖于产生海量数据的大科学装置和提供高速计算的超级计算机，属于在实验类科学装置和传统超级计算机基础上为了支撑科学智能新范式而发展出的新型科研信息基础设施。下面，从应用场景、平台建设和关键技术突破给出3个构建科学智能系统的建议：

1.应用场景选择建议。围绕复杂化学（新型催化剂等）、变革性材料（能源材料等）和生命科学（药物设计等）研究中的挑战难题，这些极其复杂且动态变化的科学问题，其基础研究的进一步跨越式突破必然涉及微观科学发现及其机制理解，需要海量高分辨率数据和第一性原理精度计算。以能源材料为例，其设计和筛选是国家双碳目标的关键一环，涉及的关键问题包括材料性能与电子结构关系、界面物种变化及反应机理、材料合成与稳定性等，需要从能源器件工作机制、电子结构实时观测和动态模型三个方面构建紧耦合研究，尤其微观物性实时分析能力对目前存在的结构不清、反应路径复杂、时间尺度长、尺寸尺度大等问题的解决至关重要。比如，锂电池的热失控触发机理和蔓延机制与其自身结构和特性密切相关。只有明确电池的安全临界条件和蔓延特性，才能建立起主动的防护体系和处置措施，确保储能系统的可靠安全。在实验表征方面，电池材料的关键结构，如阳极材料、SEI膜等，需要高分辨率的设备，如光源等提供更有效的观测手段；在计算模拟方面，核心问题（SEI膜的形成等）仍难以从第一性原理精度来准确刻画。然而，现有的大科学设施缺乏支撑三方面紧耦合解决复杂科学问题的能力。

2.平台建设方向建议。由于科学智能范式对大科学装置的依赖，从方法论的视角，我们要基于具有较好普适性的大科学装置。考虑到光源是世界上运行数目最多的、与所有微观结构科研有关的实验表征装置，围绕依托光源的科学发现活动展开具有可泛化性。事实上，过去30年，在历任院领导的持续支持下，中国科学院成为代表中国在国际上同时占据了大科学装置、高性能计算制高点的唯一国家队。近年来，在院领导的前瞻部署和大力推动下，院属各自然科学基础研究队伍正在积极探索数据与智能驱动的科学研究范式。但是，把光源大装置和超级计算设备联合起来解决科学问题是前所未有的事情，而这正是实现科学智能的重要手段。因此，中国科学院已经抓住了引爆新一轮科研范式变革的爆破点：科学智能系统将支撑中国科学院把“集团军”式的科研优势充分发挥出来，先于西方国家抢占重大科学发现智能平台的科技制高点。具体而言，建设专用数据系统，连接分布式的HEPS、SSRF、HALF、CSNS和SHINE的本地数据中心，同时，实现算力网络连接分布式的通用超算中心（包括北京、昆山、成都、郑州、太原等国家级超算中心）和专用计算系统，处理多尺度的计算模拟和AI模型计算。

3.关键技术重点突破建议。科学智能的目标是从微观世界初步探索拓展到微观世界多尺度探索能力，第一性原理计算是关键。第一性原理计算从物质的电子结构出发，以密度泛函理论为基础，不需要经验参数就能计算得到物理体系的能量和力。作为一个普适的物理模型，它的优点是计算精度高，且不需要额外参数，缺点是计算量巨大。第一性原理计算受困于目前超算的算力与算法，因此难以发挥它精度高的优势。在新的计算范式中，这一精确的物理模型和算法作为基础数据的生成器，被用于计算小体系的能量和力等信息，为后面的人工智能模型提供精度的基准线。因此，需要从两方面重点突破：

（1）如何快速的构建特定物理体系的个性化的势能面模型。这需要构建并维护一个针对特定领域（如生物医药）的特有基础模型库，并且配合一个不断充实的第一性原理计算结果数据库。模型库的核心任务是防止每次都是从“造轮子”开始；而第一性原理结果数据库的关键是将已有的“造轮子”的组建归类。对应特定应用，“新范式平台”能够快速响应，完成第一性原理数据的产生、计算、提取、学习、建模等工作，将模型库与数据库有机的结合在一起。目标是能够同时支持数个科技团队。因此它对算力提出了很大的挑战。

（2）能够完成特定物理时间的第一性原理精度分子动力学模拟。这对计算机系统提出了更大的挑战。传统的高性能计算机和智能超算更强调其通用型，即使采用世界上最快的超算，我们距离毫秒这一科学家关心的物理时间模拟仍然存在量级上的差距。虽然专有计算机诸如Anton2^[8]可以完成毫秒级别的全原子分子动力学模拟，但第一性原理精度的分子动力学距离这一目标仍有数量级差距。解决这一世界难题的关键在于构建一台足以完成毫秒模拟的专有机。它将与上述的新范式平台一道，为物理、化学、生物模拟，乃至工程制药领域提供创新的动力。

四、小结

总之，科学智能是革命性技术，是驱动大科学时代发展到新阶段的最主要特征，具备把科学研究拓展到微观世界多尺度探索能力（如DeePMD^[9]）和把科研效率提升百万倍的巨大潜力（如AlphaFold^[10]）。当前，全世界共同的难题是革新技术释放出大科学基础设施的能力，以大幅提升科学发现能力和科研效率。科学智能新范式的关键是重新定义了计算在整个科学设施中的位置，它作为科学研究中的关键一环，与实验科学紧密联系，利用算法、人工智能和计算机技术，以科学智能的方式，将物理模拟提高到一个新的境界。

参考文献

[1]	麦迪森(Angus Maddison). 世界经济千年史. 伍晓鹰、许宪春译. 北京: 北京大学出版社, 2003: 20–28.
[2]	Wiener, Norbert. Cybernetics: Or Control and Communication in the Animal and the Machine. Cambridge, Massachusetts: MIT Press, 1948.
[3]	Tony Hey, Stewart Tansley, Kristin Tolle, et al. The Fourth Paradigm: Data-Intensive Scientific Discovery. Washington: Microsoft Research, 2009.
[4]	Paul Adrien Maurice Dirac. Quantum mechanics of many-electron systems. Proceedings of the Royal Society A, 1929, 123(792): 714-733.
[5]	托马斯·库恩, 伊安·哈金 (导读). 科学革命的结构. 金吾伦、胡新和译. 北京: 北京大学出版社, 2012.
[6]	Linfeng Zhang, Jiequn Han, Han Wang, et al. Deep potential molecular dynamics: A scalable model with the accuracy of quantum mechanics. Physical Review Letters, 2018, 120: 143001. DOI: 10.1103/PhysRevLett.120.143001.
[7]	Rick Stevens, Jeffrey Nichols, Katherine Yelick. AI for Science--Report on the Department of Energy (DOE) Town Halls on Artificial Intelligence (AI) for Science, 2019.
[8]	David E. Shaw, et al. Anton 3: twenty microseconds of molecular dynamics simulation before lunch. SC21: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, 2021, 1–11
[9]	Weile Jia, Han Wang, Mohan Chen, et al. Pushing the Limit of Molecular Dynamics with Ab Initio Accuracy to 100 Million Atoms with Machine Learning. SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, 2020, 1–14.
[10]	Kathryn Tunyasuvunakool, et al. Highly accurate protein structure prediction for the human proteome. Nature, 2021, 596: 590-596. DOI: 10.1038/s41586-021-03828-1.

Information Infrastructure for AI-based Scientific Discovery

TAN Guang-ming, JIA Wei-le, SUN Ning-hui

Insititute of Computing Technology, Chinese Academy of Sciences

Abstract: The exploration of complex scientific problems has entered the era of big science, and information technology is playing an increasingly critical role, and has given birth to two paradigms enabled by computing technology: scientific computing and big data. Scientific research still faces great challenges in breaking through to more basic and complex problems: first, theoretical equations that apply the first principle lead to models that are too complex to be solved, and second, scientific discovery is stucked by inefficient "trial and error" and "exhaustion" research models. To address the above challenges, international cutting-edge research is exploring a paradigm of scientific intelligence driven by data and artificial intelligence. This paper discusses the information flow in scientific research activities from the perspective of information technology empowerment, expounds the challenging problems of developing scientific intelligence paradigm, and puts forward some suggestions on building a new information infrastructure for AI-based scientific discovery.

Keywords: research paradigm scientific intelligence the first principle information infrastructure

作者简介：谭光明，中国科学院计算技术研究所研究员。研究方向为高性能计算;
贾伟乐，中国科学院计算技术研究所副研究员。研究方向为高性能计算;
孙凝晖，中国科学院计算技术研究所研究员，中国工程院院士。研究方向为高性能计算。