——
科研范式是科技工作者科研方法论的集合,它规范了研究路径和评价体系,使科研工作系统化、体系化。而科研范式本身反映了科学家对于科学问题的认知过程、解决方法和实践结果,同时也影响了科研产出的评价、传播与认同的过程。换言之,科研范式是贯穿科研工作始终的一项重要因素,就像远行者手中的罗盘,指导科学家探索前行。
科研范式不是一成不变的,事实上,这个范式本身会随着社会、经济、文化和科技水平的发展而动态演进,甚至发生革命性变化。当新的理论或是新的技术得到广泛认可和应用的时候,整个科学的宫殿将会围绕着新兴技术重新搭建,直至超越旧日的辉煌。因此,探讨科研范式的定义与变革过程具有重要的意义。
图灵奖获得者吉姆·盖瑞(Jim Gary)将科学发现的历史演变归纳为四种范式[1],这四种范式由远及近逐步发展而来,这些变革都是由科学工具或者是科学方法论的革新而产生的。首先是第一科学范式,它是形而上的经验范式,基于科学家对自然现象朴素的观测过程,例如太阳的东升西落,物质的状态变化等等。这些朴素的观察大部分是正确的,然而观察者们并没有完整的系统的方法论来表述和总结这些结果,这一阶段的科学研究是粗糙的。第二科研范式建立在简单的数理模型之上,这些模型依旧是由观测产生,但是用清晰的数学语言进行了描述,使其具有了一定的拓展性。在这一时期,科学逐渐脱离了朴素的观察进而转向从事物中提取抽象的客观实体。牛顿运动定律与开普勒三定律正是这一时期的典型代表,其结论从大量的实验观测中得来,又具有一定的普适性,能够推广到特定的新的实体之上。第三科研范式是基于数值计算的方法。随着高性能计算和数值模拟技术的发展,原本很多难以求得解析的问题具有了获取数值解的能力,有限元方法与计算流体力学是这类方法的典型应用。数值方法的诞生意味着科学家可以用一种纯理论的方式获取想要的实验结果,在计算能力日益增长的21世纪,以数值模拟的方法获取高质量、高精度数据的成本,相较于传统的实验方法而言有很大的优势,其结果就是海量数据催生了数据驱动的第四科研范式。在这一范式下,科学家的需求变成收集、存储与处理大批量数据。机器学习以及深度学习技术的出现极大地促进了第四范式的形成,这类基于统计分析的大数据方法,通过搭建适当的网络框架能够完成在过去看来匪夷所思的计算任务。在某种意义上机器学习与深度学习技术是通过提升数据的维度来获取更全面的信息,就像在纸面上爬行的蚂蚁遇见了莫比乌斯环那样,这类技术的出现给科学家们提供了一套高维处理工具来解决问题。
值得注意的是,有尖锐的批评指出,基于数据驱动的人工智能方法“过于傲慢”地将复杂的科学问题归纳为统计学问题,过分迷信神经网络从而引入大量意义不明的参数,这对于科学发展很难说是有所裨益的。这种批评不无道理,但是我们同样观察到有相当一部分科学家在推进数据驱动智能科学的同时,也在尝试将数据带来的结论反馈在具体的实验中,同时再接收实验返回的新数据,在不失科学合理性的前提下发挥数据驱动方法高效推理智能搜索的优点,最大化提升科研效率。
以上提到的这四类科研范式一直在渐进式发展,螺旋式上升。沉浸在过往科研范式的荣光并不可取,一味追求先进方法则容易落入“技术为王”的陷阱之中,信息时代的科学家们需要思考的是,在海量数据汹涌而来之时,能否乘着数据智能新范式的小船乘风破浪、继续开拓科学的边界。
二、从专家系统到人工智能——数据驱动的科研探索科学是对新鲜知识的追求,是对复杂问题的解决。通常,科学研究需要人类专家提出假设、创建实验、收集和分析数据并得出结论。然而,随着信息技术的飞速发展和数据过剩,一种新的科学模式应运而生:数据驱动的科学研究。数据驱动科学是一种科学研究方法,将数据作为主要证据来源,并利用人工智能(AI)技术来协助或自动完成研究过程的多个方面。
专家系统是科学研究中最早和最有效的人工智能实例之一,是模拟人类科学家推理过程的计算机程序,可以为法律、金融和教育等领域提供指导、咨询、诊断或解决问题。MYCIN和DENDRAL是最著名、功能最强大的专家系统。MYCIN是一个重要的医学专家系统,能有效诊断细菌感染,并根据其内置的庞大医学知识库提出相对应的治疗方案[2]。同样,DENDRAL也是化学专家系统的先驱,可以通过质谱数据,利用启发式搜索和模式匹配方法识别有机化合物的分子组成。通过对专家系统的研究,人们发现这类初步人工智能能够捕捉和应用人类在特定领域的专业知识,并通过提供新的想法和解决方案来补充人类智能[3]。
然而,专家系统也有一定的局限性。首先,这些系统依赖可以用规则或事实表示的结构化的显性知识。显而易见,并非所有类型的知识都能轻易地抽象化或从人类专家那里提取出来,尤其是隐含的、默示的或与上下文强关联的知识。因此,这些类型的知识可能难以被符号化描述。其次,专家系统具有脆弱性和特定领域性。它们仅限于处理既定范围内的问题,无法适应不同的场景或领域。同时,专家系统无法澄清其决策过程,也无法从自身的反馈或经验中学习。第三,创建和维持专家系统既昂贵又耗时,在收集、编码、验证和修订知识库时需要大量人力资源。
随着大数据和机器学习的出现,新一代人工智能技术浮出水面,以解决专家系统遇到的障碍。机器学习是人工智能的一个分支,它允许计算机从数据中学习,可以处理文本、图像、音频、视频等各种类型的数据,并从中提取有益的模式或特征。例如,机器学习可以利用自然语言处理来完成文本任务,包括情感分析、文本摘要和机器翻译;可以利用计算机视觉来分析图像数据,产生图像分割、物体检测和人脸识别等结果;可以利用语音识别来检查音频数据,并完成语音合成、语音翻译、语音情感识别等任务;还可以应用深度学习来检查视频数据,并承担视频分类、视频字幕、视频生成等任务。机器学习能够根据新的数据或条件进行调整,并从反馈或强化中学习,例如利用在线学习来更新模型参数,以应对新的数据流等等。机器学习已被广泛应用于科学研究领域,以支持或自动完成各种任务,包括数据准备、函数构建、模型选择、参数调整、假设检验、结果解释等。
除此之外,机器学习还促进了新形式的科学研究。例如,生成模型是机器学习模型的一种,它可以生成与训练数据分布非常相似的新数据样本。生成模型有多种多样的应用,包括生成艺术、音乐和诗歌,以及生成具有所需特性或功能的新分子、材料和药物。另一个例子是逆分析问题,这类问题的目的是从观察到的结果或输出推断未知的原因或参数。逆分析问题普遍存在于物理学、化学和材料学等多个科学领域,在这些领域中,进行直接测量可能具有挑战性,甚至是不可能的。而机器学习可以通过理解从原因到结果的映射,或通过优化目标函数来衡量输出与结果之间的偏差,从而帮助解决这些逆分析问题。
显而易见的是,以机器学习框架为核心的诸多人工智能工具分支的重点都在于高质量与大批量数据的获取。数据驱动的科学探索不仅是一种新的科学范式,也是人类文明面临的新挑战和新机遇,其不仅需要先进的人工智能技术,还需要伦理原则、社会规范和人类价值观。数据驱动科学也提出了新的问题和议题,如数据质量、数据隐私、数据所有权、数据偏差、数据解释、数据责任等,需要科学界和全社会共同解决。其不是对人类智慧的替代或威胁,而是一种补充和合作伙伴,可以帮助人类克服认知局限,拓展视野,实现目标。数据驱动科学还能激发人类的创造力、好奇心和协作精神。总之,数据驱动科学是了解我们自己和世界的一种新方式,也为我们提供了观察科学的全新视野。
三、小而精的人工智能模型——对特定领域的深度探索小而精的人工智能模型中的“小”指的是具有较少的参数量和简单的模型架构;“精”主要指的是它们往往是为了解决特定的问题而精心搭建的。小而精的人工智能模型需要用准确精致的数据进行训练以达到好的效果,过去很长时间里,人们的研究重心都在精细的小模型上,在科研领域训练精细小模型解决问题已经被很多科研人员认可并应用,并成为科研生活中一个强力的工具。
在化学合成领域,科研人员利用美国专利数据库和Reaxys数据库中的反应数据训练了一个人工智能算法[4],该算法能够为给定分子提供合成路线和反应条件,并评估不同路径的优劣。同时,他们还开发了一个开源软件,该软件通过学习应用逆合成转化,确定合适的反应条件,并评估反应。这个软件利用了数百万个反应的训练数据,从中归纳出了可靠的规则。通过神经网络模型,该算法能够预测出最适合目标分子的规则,成功用于15个化学小分子药物的合成路线设计和自动化合成。科研人员的最终目标是使用这些规则将目标化合物追溯到容易获得且廉价的小分子。这种人工智能小模型的应用为化学合成提供了自动化和智能化的解决方案。
除了化学,人工智能模型在结构生物学领域的应用更是具有巨大的潜力,AlphaFold2就是个很好的例子:AlphaFold2是DeepMind开发的一种深度学习模型,旨在解决蛋白质结构预测问题[5]。通过实验方法来确定蛋白质的三维结构是一项复杂而耗时的任务,传统的实验方法,如X射线晶体学和核磁共振,需要大量的资源和时间。AlphaFold2利用深度学习技术,通过学习和分析大量已知结构的蛋白质序列和结构数据,能够准确地预测未知蛋白质的三维结构。该模型使用了一种名为“多尺度卷积网络”的架构,能够从蛋白质的序列信息中提取出关键的结构特征,并将其转化为具体的三维结构。它能够大大加速蛋白质结构的预测过程,这将极大地推动蛋白质研究的进展,加快药物研发和疾病治疗的速度。
在材料科学领域亦是如此,牛津大学团队开发了一种利用在精确的量子力学计算上训练的原子机器学习方法,对包含十纳米长度尺度硅原子系统的液体-非晶态和非晶态-非晶态转变过程进行了研究,并同时预测了其结构、稳定性和电子性质[6]。该方法成功地描述和解释了与实验观察一致的非晶硅的全部相变过程,直至达到结晶,为我们理解和控制材料相变过程提供了新的工具和方法;在能源领域,人工智能小模型的应用也可以提高能源利用效率、优化能源供应和管理,从而实现可持续发展和能源安全。
虽然单个小型的人工智能模型可能无法涵盖所有科学领域的问题,但是它们具备数据分析、模式识别和预测等能力,可以为解决更复杂的科学问题提供有价值的支持。这些模型可以通过处理大量的数据和学习算法来识别和理解模式,从而提供洞察力和预测能力。尽管它们的规模相对较小,但它们可以在特定领域内进行专业化的分析和推理,为科学研究提供重要的支持。通过结合不同领域的小型人工智能模型,研究人员可以获得更全面、准确和深入的科学见解。因此,即使小型的人工智能模型仍有其局限性,科学家们应该扬长避短,把它放到科学研究中的合适位置,以更好地解决科学问题。
四、AI大模型改变科研认知——海纳百川的通用智能随着算力的发展与数据膨胀,AI模型也在产生更迭。一类具有大规模参数和复杂结构的人工智能模型开始逐渐崭露头角,这类模型被称作AI大模型。他们通常使用深度学习技术在海量数据上进行预训练与参数微调,以实现模型对多个知识领域的泛化能力。AI大模型可以在多个领域和任务上表现出优异的性能,甚至超越人类的水平。这是因为AI大模型可以从大量的数据中学习到通用的知识和规律,并通过微调或零样本学习等方式适应不同的场景和需求。AI大模型的典型代表有GPT系列、BERT、ERNIE、XLNet等。 2022 年年底,基于GPT模型的ChatGPT 一经推出便掀起新一轮人工智能浪潮。以 ChatGPT 为代表的大模型技术影响空前深远,正推动 AI 技术从特定应用和游戏等领域进入人们日常生活,成为切切实实的生产力工具,为人类社会的智能化革命拉开帷幕。
2023年,Omar M.Yaghi课题组的研究成功展示了大型语言模型(LLMs),尤其是GPT模型。在化学研究领域[7],他们提出了一个包括三种不同且相互关联的文本挖掘方法的ChatGPT 化学助手,其中包括ChemPrompt工程:Process 3能够进行搜索和过滤,Processes 2和Processes 3对合成段落进行分类,Processes 1、Processes 2和Processes 3能够将合成条件汇总为结构化数据集。在化学文本处理方面,互动式提示优化策略,通过三个特定于化学文本处理的基本提示工程原则,ChatGPT 助手显著提升了MOF合成文献的提取和分析,其精确度、召回率和F1得分均超过90%。一方面,可以利用这些数据构建预测模型来预测反应结果,从而揭示影响MOF结晶过程的关键实验因素。另一方面,可以创建一个基于文本挖掘的MOF聊天机器人,能够提供准确的答案,从而改善对合成数据集的访问并实现从数据到对话的过渡。这项研究说明了ChatGPT和其他LLMs在概念验证阶段的快速进展潜力。
基于机器学习算法的分子性质预测模型已经成为在药物发现中对候选药物进行挑选的重要工具。分子性质预测包括如生物活性预测、药物相似性预测和毒性预测,通常通过预定义的分子描述符的固定长度特征向量来表征分子。此外,基于图的模型可以自动学习特定任务中分子中每个原子的表示,从而在一定程度上避免了人工提取描述符时与任务相关的信息的损失。侯廷军教授团队在2022年4月提出了一种K-BERT模型[8],它通过Smiles表示来提取化合物结构信息,通过K-BERT来提取分子特征并做性质预测任务,同样比较了K-BERT和其他机器学习方法在15个药物发现相关数据集上的性能。结果表明,K-BERT的性能比其他方法更好,表明K-BERT的预训练策略是有效的,并适用于药物发现中的分子性质预测。此外,可以看出预训练以及对smiles排列方式的数据增强可以提高模型从分子中提取分子特征的能力。此外,通过对原子特征预测任务、分子特征预测任务和对比学习任务,以及手性相关任务中体现了K-BERT在药物研发中分子性质预测的实际应用中的巨大潜力。
AI大模型可以助力传统科学研究,成为科学家们的好帮手。例如,与AI的结合,为新能源材料的评价和表征带来了更高的效率、准确性和创新能力。首先,AI能加速数据处理和分析的过程;其次,从实验的角度来讲,AI技术可以帮助设计智能化的实验方案,提高实验效率和成果的可复现性。与AI相结合的配套机器人化学家平台,正在如火如荼地发展之中。业内专家认为,机器化学家的研究工作脱离了传统试错研究范式的限制,展现出“最强化学大脑”指导的智能新范式的巨大优势,引领化学研究朝着知识理解数字化、实验操作指令化、材料创制模板化的未来趋势前进,确立了我国在智能化学创新领域的全球领跑地位。
随着AI大模型的发展,参数量越来越大,泛化能力也越来越强,使用门槛也越来越低。未来,也许一个对科研一无所知的人,可以通过大模型迅速掌握相关领域内的知识来解决问题。甚至,使用者只需向大模型表达自己意图,大模型就能依据指令,为其完成所有的工作,最后反馈结果。换言之,在大模型的辅助下,科研变为了创新主导的工作,任何人都有能力通过大模型评估自身想法的可行性。
五、人工智能结合自动化——理实交融的科研新范式随着算力算法的不断涌现,科学家们处理大批量数据也逐渐变得得心应手。过去由于数据处理能力的局限,高通量的实验并不能带来高质量的科研产出,在实验科学领域依然是以试错和经验总结为主的科研范式。在化学科学领域,实验数据具有碎片化、标准不统一、格式不统一等特点。研究对象复杂化和高维化,研究效率低和信息丢失的问题变得日益严重。正如前文提到的,人工智能工具具备对高复杂度、高维度数据进行挖掘和分析,能够从海量数据中寻找变量之间的“隐藏”关联,发现物质科学的内在规律的能力,这启发了一批具有前瞻性的科学家们探索自动化科学实验与深度学习人工智能之间的耦合。凭借产生数据可重复性、高效性的特点,人工智能结合自动化的机器科学家应运而生。当前,在机器化学家领域,世界一些知名科研院所与企业取得了重要进展,例如瑞典查尔姆斯大学、英国格拉斯哥大学、英国利物浦大学、美国麻省理工学院、美国伊利诺伊大学以及北京大学、中国科学技术大学等。
2018年英国格拉斯哥大学团队制造了用于有机合成的智能机器人,并于2022年开发了集文献阅读、方案定制、化合物合成和表征于一体的自动化系统Chemputer,可将化学合成抽象为可编程语言,建立了开发和共享化合物配方的新型通用标准,利用计算机系统指导化合物的合成、检测和优化[9]。2020年,英国利物浦大学的Cooper团队设计并制造出了一个可以在实验室内自由移动并操作不同工作站的机器化学家,用来寻找光解水制氢的高活性光催化剂[10]。这个机器人自主运行8天,在10个变量的实验空间中完成了688个实验。通过贝叶斯优化算法的驱动,这个机器人能够基于前一步的实验结果分析,从而确定之后的实验方案,最终找到了活性提高6倍的光催化剂混合物。然而,Cooper也指出了该系统的一些不足,这个机器人在执行贝叶斯优化时是盲目的,无法获取现有的化学知识(包括理论或物理模型),同时也没有计算大脑,因此还不能自主产生和检验科学假设。
机器科学家应当遵循目前公认的科学方法论的四个步骤:大胆假设、小心求证、精确预测、解决问题,实现该流程的全面覆盖并开创解决科学问题的新范式。距离量子力学等微观理论的提出已过去百年,然而将其应用于真实体系时却因过度复杂而求解困难,造成理实脱节的根本原因是珍贵稀疏的实验测量数据难以找到全局最优解;而理论模拟产生的大数据虽能找到全局最优解,但由于存在大量理想近似而过于简化了现实复杂度。实现数据智能驱动的新范式迫切需要用机器智能形成高维物质科学新理论,构建“理实交融”的模型。基于可观测物理量赋予机器人自主构建物质模型的能力,驱使理论模拟产生大数据并产生具备可解释性的预训练智能模型,再依托机器人的高质量实测数据进行二次训练,构建面向实际体系的“理实交融”模型,锁定真实全局最优解。
中国科学技术大学江俊团队在2022年研制出基于此范式的数据智能驱动的全流程机器化学家[11],集成了2台移动操作机器人和15台智能化学工作站,基于自主读取大量化学文献获取的先验化学知识,提出科学假设、设计实验方案; 自主完成多个化学任务的全实验程序;通过理论计算建立具备实验反馈的理论预测模型,并通过机器学习模型和贝叶斯优化算法同时分析实验数据,为下一次迭代提出新的假设,实现理论与实验数据的交融。在此范式的推动下,该系统通过智能阅读海量文献遴选5种非贵金属,融合2万组理论数据和207组实验数据,建立理实交融的智能模型,指导贝叶斯优化从55万种金属配比中找出最佳高熵催化剂组成,将传统遍历搜索所需的1400年缩短为5周,展现出了“最强化学大脑”指导的智能新范式的巨大优势。
理实交融的科研新范式通过智能模型将各学科的底层理论模拟与复杂应用实践结合,充分利用人类知识库和专家经验,结合理论预测与实验求证,实现精准智能预测,高效解决科学问题,真正释放第二次科学革命的潜力,即量子力学第一性原理在第三次工业革命中未被释放的理性指导能力。这种方法有望在各个工业领域颠覆低效的试错研究范式,提速工业发展进程。
全新的科研范式正在全球科学家们的实践中逐步形成并迅猛发展,数据科学与实验科学的鸿沟正在消弭,AI技术也在一点点推动范式革命的到来,势必会辅助科技工作者们形成新理论,发展新方法,创造全新的知识体系,拓展全新的科学边界。
[1] |
Tolle KM, Tansley DSW, Hey AJG. The Fourth Paradigm: Data-Intensive Scientific Discovery.
Proceedings of the IEEE, 2011, 99(8): 1334-7.
DOI: 10.1109/JPROC.2011.2155130. |
[2] |
Lacave C, Diez FJ. A review of explanation methods for heuristic expert systems.
The Knowledge Engineering Review, 2005, 19(2): 133-46.
|
[3] |
AlFarsi G, Tawafak RM, Iqbal Malik S, et al. Heuristic and Meta Dendral Systems: A Review, 2021, 22nd International Arab Conference on Information Technology (ACIT)2021, p. 1–5.
|
[4] |
Coley CW, Thomas DA, Lummiss JAM, et al. A robotic platform for flow synthesis of organic compounds informed by AI planning. Science, 2019, 365(6453).
|
[5] |
Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold.
Nature, 2021, 596(7873): 583-9.
DOI: 10.1038/s41586-021-03819-2. |
[6] |
Deringer VL, Bernstein N, Csanyi G, et al. Origins of structural and electronic transitions in disordered silicon.
Nature, 2021, 589(7840): 59-64.
DOI: 10.1038/s41586-020-03072-z. |
[7] |
Zheng Z, Zhang O, Borgs C, et al. ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis.
J Am Chem Soc., 2023, 145(32): 18048-62.
DOI: 10.1021/jacs.3c05819. |
[8] |
Wu Z, Jiang D, Wang J, et al. Knowledge-based BERT: a method to extract molecular features like computational chemists. Brief Bioinform. , 2022, 23(3).
|
[9] |
Mehr SHM, Craven M, Leonov AI, et al. A universal system for digitization and automatic execution of the chemical synthesis literature.
Science, 2020, 370(6512): 101-8.
DOI: 10.1126/science.abc2986. |
[10] |
Burger B, Maffettone PM, Gusev VV, et al. A mobile robotic chemist.
Nature, 2020, 583(7815): 237-41.
DOI: 10.1038/s41586-020-2442-2. |
[11] |
Zhu Q, Zhang F, Huang Y, et al. An all-round AI-Chemist with a scientific mind.
Natl Sci Rev., 2022, 9(10): nwac190.
DOI: 10.1093/nsr/nwac190. |
——