回到冯·诺依曼！（上）

引用本文

吴焦苏, 李真真. 回到冯·诺依曼！（上）——人工智能的缘起、发展与未来[J]. 科学与社会, 2022, 12(2): 97-120.

WU Jiao-su, LI Zhen-zhen. Back to Von Neumann!——The origin, development and future of artificial intelligence[J]. Science and Society, 2022, 12(2): 97-120. DOI: 10.19524/j.cnki.10-1009/g3.2022.02.097.

作者简介

吴焦苏，中国科学院大学、中国科学院科技战略咨询研究院博士研究生。研究方向为人工智能与社会;
李真真，中国科学院科技战略咨询研究院研究员。研究方向为科学与社会、科技伦理、科技政策

项目资助

科技部“新一代人工智能”重大项目“非完全信息条件下的博弈决策”（2018AAA0101001）；上海市“科技创新行动计划”人工智能科技支撑专项项目“基于随机博弈动力学的大规模分布式人工智能理论与算法”（20511100200）


目录 Contents	摘要 Abstract	全文 Full text	图表 Figures/Tables	PDF PDF

回到冯·诺依曼！（上）
——人工智能的缘起、发展与未来

吴焦苏^1,2, 李真真²

1. 中国科学院大学;
2. 中国科学院科技战略咨询研究院

摘要: 本文通过梳理人工智能的缘起和发展线条，重新认识冯·诺依曼等人在人工智能历史上的重大贡献，试图为人工智能的未来寻找到一条可行的冯·诺依曼道路，即通过发展作为人工自动机的数学基础的博弈动力学，为人工智能特别是为智能机器人的发展提供思路。

关键词: 冯·诺依曼纲领博弈动力学人工自动机

中图分类号: C03 文献标识码: A

DOI: 10.19524/j.cnki.10-1009/g3.2022.02.097

一、引言

近年来，随着人工智能走出实验室，进入全球社会的各个领域，人工智能成为改变世界的重要力量，越来越受到关注。在全球人工智能产业界，机器学习因其深度强化学习在人机对弈、语音识别、图像识别、自动驾驶等场景下取得了蓬勃发展，使人们对人工智能改变整个世界充满了无限的热情和期待。但同时，学界也指出人工智能特别是深度学习发展的局限性。

当前风靡世界的人工智能，基于神经网络的深度学习模型内部的特征表示极其复杂，大部分超参数都是通过“实验出真知”得到的，除了图像模型可以输出每一层的激活结构，各种高超技巧、高权重所对应的特征本身不一定有人类能够理解的可解释性。深度学习建模通常通过黑箱开发进行，算法将数百万个甚至数亿个数据点作为输入，并将特定数据特征关联起来以产生输出。该过程在很大程度上是人工智能自我指导的。人工智能研究人员、程序员和用户通常难以解释。因此，黑盒的机器学习的建模和调参常被人们戏称为21世纪的“炼金术”。

早期简单的机器学习模型，如线性回归（Linear Regression, LR）模型，模型的权重在一定程度上可以表示特征的重要性，其将输入映射为输出的方式，可被人类完全理解，可以看作是白盒。对比早期简单的机器学习模型，黑盒的机器学习模型确实问题不少。针对黑盒的机器学习的建模和调参等“炼金术”问题，科学家们力图对机器学习做出解释，这个领域称为可解释的机器学习（Interpretable machine learning，IML）。

毋庸置疑，当前人工智能正在从通过深度学习等机器学习模型达到“知其然”的阶段，迈向通过对机器学习模型做出解释并找到该模型所揭示的数据中的因果结构之间关系的“知其所以然”的阶段，而要达到知其“必然之理”和“当然之则”的阶段，显然需要破解更多的科学难题。为了解决人工智能中的“炼金术”问题，我们应当回到智能科学的源头去寻找出路。作为计算机科学的一个重要分支，人工智能伴随计算机科学迅速成长，成为改变世界的重要力量。梳理人工智能的缘起和发展线条，进而展望未来，很有必要。

二、人工智能的缘起

1956年夏天在达特茅斯学院召开的会议（Dartmouth Conference）一般被认为是人工智能的起源。随着最新披露的史料，人工智能的起源被发现可能远早于1956年。比如，达特茅斯会议的主要发起人约翰·麦卡锡（John McCarthy）在50年后承认达特茅斯会议有一段前史。^[1]会议的主要发起人和参会者都跟冯·诺依曼有着或近或远的关系。

1955年，冯·诺依曼的门生约翰·克门尼（John Kemeny）邀请麦卡锡等人到达特茅斯学院任教。麦卡锡当年晚些时候在IBM公司（International Business Machines Corporation）访问期间，跟纳撒尼尔·罗彻斯特（Nathaniel Rochester）商量在第二年召开一次会议，得到罗彻斯特的赞同。麦卡锡和罗彻斯特一起，找到马文·明斯基（Marvin Minsky）和克劳德·香农（Claude Shannon），后两人也同意发起会议。正是由于克门尼邀请麦卡锡等人到达特茅斯学院任教，为麦卡锡等人发起所谓的达特茅斯会议准备了必要的条件。

根据麦卡锡的回忆，他受冯·诺依曼1948年在加州理工学院发表的题为《自动机的一般和逻辑理论》^[2]的著名演讲的影响，开始尝试在计算机上模拟人的智能。1949年他跟冯·诺伊曼谈了对智能有限自动机有一些想法。冯·诺伊曼鼓励他写出来，但麦卡锡不满意，也就没有发表文章。

冯·诺依曼是IBM的第一代通用机701的顾问，而罗彻斯特是701的主设计师，对神经网络和博弈论很有兴趣。罗彻斯特以井字游戏（playing tic tac toe）为例讲解创造性，以混合策略讲解随机性，并扩展了冯·诺依曼及其好友斯坦·乌拉姆（Stan Ulam）发明的蒙特卡洛方法来获得近似解析解。在罗彻斯特指导下研究跳棋和象棋并应罗彻斯特之邀参会的阿瑟·塞缪尔（Arthur Samuel）和亚历克斯·伯恩斯坦（Alex Bernstein），跟罗彻斯特一样，受到了冯·诺依曼的博弈论^[3]和神经网络^[4]^[5]思想的影响。

邀请麦卡锡到达特茅斯任教的约翰·克门尼和香农，或听过冯·诺依曼的自动机理论的课，或跟冯·诺依曼讨论过自动机理论。马文·明斯基就更不用说了，根据马文·明斯基在麻省理工学院150周年纪念会议上回忆，是冯·诺依曼和沃伦·麦卡洛克（Warren McCulloch）启发他做了神经网络。马文·明斯基的“神经-模拟强化系统的理论及其在大脑模型问题上的应用”博士论文，^[6]引用了冯·诺依曼的论文，^[5]既讨论了神经网络，又讨论了强化学习的计算方法，^[7]描述了他组装的一台基于模拟信号的机器，他称之为“随机神经模拟计算器”（Stochastic Neural-Analog Reinforcement Calculators, SNARCs）。马文·明斯基在答辩的时候，被答辩委员质疑说神经网络的研究不算数学，但因得到冯·诺依曼的力挺而顺利通过。其他参会者，也都跟冯·诺依曼有着或近或远的关系。如与赫伯特·西蒙（Herbert Simon）一起参会的艾伦·纽厄尔（Allen Newell）在普林斯顿大学数学系读书时的硕士导师是冯·诺伊曼的合作者、博弈论先驱奥斯卡·摩根斯坦（Oscar Morgenstern）。

由此可见，在达特茅斯会议之前，就已经形成了以冯·诺依曼为核心的计算机和人工智能圈子。

1. 冯·诺依曼的自动机理论

冯·诺依曼从20世纪40年代后期开始发展出一套自动机理论，试图从数学和逻辑的角度理解自然系统（天然自动机）和数字及模拟计算机（人工自动机）。冯·诺依曼认为，天然自动机相对于人工自动机，在自我诊断、自我修复方面具有天然的优越性。冯·诺依曼的自动机理论回答了两个基本问题：一是，如何从不可靠的组件构造一个可靠的组织？二是，什么样的逻辑组织对一个可以自我复制的自动机是充分的？

冯·诺依曼1948年9月20日在加州理工学院“行为的大脑机制”Hixon研讨会所做的著名的《自动机的一般和逻辑理论》演讲所表述的人工自动机理论，就是其人工智能理论，包含了人工智能的符号主义和联结主义的最初和最基本的元素。冯·诺伊曼认为，图灵机对于自复制自动机来说太窄了，因此需要拓展。冯·诺依曼的自复制自动机理论（Self-Reproducing Automata Theory，SRA）预言了基于“复制核希尔伯特空间”（Reproducing-Kernel Hilbert Space，RKHS）的统计学习理论——支持向量机——的兴起。RKHS在统计学习理论领域尤为重要，因为RKHS中最小化经验风险函数的每个函数都可以写成在训练点评估的核函数的线性组合，从而有效地简化了从无限维到有限维优化问题的经验风险最小化问题。

在Hixon研讨会上，冯·诺依曼还提出了视觉模式识别，认为可以把人的眼睛和神经系统看成一部确定的有限自动机。冯·诺依曼在会上回应麦卡洛克和沃尔特·皮茨（Walter Pitts）的神经网络^[8]时，甚至从统计角度用到了监督运行（supervised functioning）和无监督运行（unsupervised functioning）。如果将其换成监督学习（supervised learning）和无监督学习（unsupervised learning），就是当今的机器学习的语言。更加神奇的是，冯·诺依曼的这个演讲甚至预言了强化学习的探索（Exploration）和利用（Exploitation）。其中，变异（Mutation）对应了探索（Exploration）和熵（Entropy），而被冯·诺依曼称为复制（Duplication）的选择（Selection）则对应了利用（Exploitation）和能量（Energy）。^{[9] [10] [11]}当时冯·诺伊曼用到的是统计学的热力学熵，而不是香农的信息熵（Information Entropy），因为“信息熵”这个概念是一个月之后才由香农提出来的。冯·诺依曼的前瞻性由此可见一斑。可以说，无论是后来所称的符号主义还是连接主义，都可以从冯·诺依曼的这个演讲找到源头。

冯·诺依曼1946年3月在纽约做了关于“计算机器：它们的形式化行为，包括记忆、学习与记录”的报告。1952年，冯·诺依曼再次应邀在加州理工学院做了名为“由不可靠组件构建可靠组织（Organisms）的概率逻辑”的五场演讲，涉及概率逻辑、神经网络的冗余性和可靠性等问题。1946年和1952年的报告都提到了机器学习，但还不是现在的机器学习的意思。20世纪50年代已从芝加哥大学转到麻省理工学院的麦卡洛克对冯·诺依曼的由不可靠组件构建可靠组织的思想很感兴趣，于是制作了一盘冯·诺依曼在加州理工学院演讲的录音磁盘交给在他的实验室工作的杰克·考恩（Jack Cowan）。此前考恩已经读过冯·诺依曼的《自动机的一般和逻辑理论》，对冯·诺依曼的概率逻辑也很感兴趣，认真研究了冯·诺依曼关于神经网络的冗余性和可靠性的思想。所以，考恩及其合作者^{[12] [13] [14] [15] [16]}在继承和发展冯·诺依曼的思想方面起到了承上启下的作用，不是偶然的。1963年，在麦卡洛克的安排下，塞缪尔·威诺格拉德（Shmuel Winograd）和考恩基于冯·诺依曼的基于局部冗余（local redundancy）的概率逻辑思想，使用分布冗余表示，提供了构造高可靠冗余神经网络的几种有效途径。^[12]考恩在1988年纪念冯·诺依曼的数学和科学贡献的研讨会上发表的“冯·诺依曼与神经网络”一文中表示，Winograd-Cowan模型是20世纪80年代出现的并行分布式处理（PDP）模型^{[17] [18] [19]}的早期例子。^[20]

冯·诺依曼的助手阿瑟·伯克斯（Arthur Burks）和其它合作者们收集到冯·诺依曼的部分手稿，于1966年整理出版了《自复制自动机理论》，^[21]从中可以“一窥冯·诺依曼强大的思考过程”。伯克斯认为，冯·诺依曼的自动机理论包含了有关组织、结构、语言、信息以及控制的一般性原理。按照伯克斯的说法，可以将冯·诺依曼的自动机理论看作是自动机的逻辑理论，或自动机和信息理论，或热力学。

第一部分《复杂自动机的理论与结构》是冯·诺依曼1949年12月在伊利诺伊大学的五场报告的一些不完整的手稿，主要阐述了一般意义上的复杂自动机，但重点还是说明自复制自动机的动力学模型。其中，伯克斯还根据冯·诺依曼在1948年6月普林斯顿大学的三场演讲的听课的笔记和与会者的记忆，还原了冯·诺依曼的一些思想，比如，自复制自动机的几何学-运动学连续模型可能需要三维欧几里得空间，甚至黎曼曲面（多联接的复平面）。

第二部分《自动机理论：构建、复制以及同质性》是冯·诺依曼1952年9月至1953年将近一年间的手稿。第二部分的思路明显比第一部分成熟。冯·诺依曼从一个很特殊、很有局限性的情景开始，详细讨论了自复制自动机的具体逻辑设计：通过神经元的兴奋（excitatory）和抑制（quiescent，inhibitory）两种状态与逻辑学中的真和假，即1和0两个逻辑值的对应关系，采用由神经元构成的自动机表达逻辑结构，由此就可以应用Boolean代数。冯·诺依曼引入“固定延迟时间”（fixed delay time）概念，每一个神经元的运行过程所导致（caused）的时间延迟可以保证一个逻辑系统的有效特征和构造特征。由此，由神经元构成的自动机不仅可以表达逻辑学中的所有命题，还可以表达神经元的运行过程中在时间先后上的因果关系。^[21]

1953年3月，冯·诺依曼在普林斯顿大学Vanuxem讲座做题为“机器与有机体”（Machines and Organisms）的四次演讲，提出了自复制自动机的四种模型：运动学模型（kinematic model）、细胞模型（cellular model）、兴奋-阈值-疲劳模型（excitation-threshold-fatigue model）、连续模型（continuous model）。这四个模型是伯克斯依据冯·诺依曼的手稿命名的。另外，伯克斯根据冯·诺依曼的一贯思想，补充了第五种模型，即自复制自动机和进化的概率模型（probabilistic model of self-reproduction and evolution）。这些内容收入《自复制自动机理论》的第二部分。

伯克斯的命名和解读大体上反映了冯·诺依曼的思想。从理论上讲，这五种模型可以归结为一个模型，即离散或连续、确定性或随机的空间时间博弈动力学模型。

（1）运动学模型

运动学模型处理运动、接触、定位、融合、切割的几何学和运动学问题，但不考虑力和能量。运动学模型的基本元素包括：储存和处理信息的逻辑元素（开关元素）和记忆元素（延迟元素），感知环境中物体的感知元素，使物体运动的运动元素，使物体焊接或断开的连接元素和切割元素，提供结构稳定性的支撑元素。

冯·诺依曼的这些表述，如连接物体（焊接）的连接元素的思想，比机器人正运动学中采用的矩阵表达空间杆件几何关系的一般方法^[22]早了3年，与目前单机器人运动学和单机器人动力学的术语很接近，为基于空间时间博弈动力学的多机器人运动学和多机器人动力学准备了初始条件。

（2）细胞模型

细胞模型是一个理想神经细胞模型，不是真正的神经系统。可能是出于方法论上的简洁的考虑，到1952年，冯·诺依曼排除了波利亚-罗巴切夫斯基和黎曼的非欧几里得空间，但冯·诺依曼并没有说双曲空间和黎曼空间一直不能用，而是说空间的维数和几何特征有进一步变动的可能性，并提出最小可适用维度（the minimum usable dimensionality）、最大正则性（the maximum regularity）和基于各向同性（isotropy）的功能同质性（functional homogeneity）的概念。针对冯·诺依曼的设计，朱利安ˑ毕格罗和赫尔曼·戈德斯坦建议采用二维空间而不是三维空间对自复制自动机建模。乌拉姆建议从细胞（cell）的角度思考这个问题。冯·诺依曼接受了这一建议。冯·诺依曼和乌拉姆都熟悉流体力学。细胞可能来自于流体力学中的流体网格法（fluid-in-cell method），作为离散模型的细胞模型有连续模型的影子。

冯·诺依曼基于最简单的晶体的空间矩阵（或组合矩阵）的功能同质性、对称性和各向同性，做了大量细致的分析，建立了自动机理论的二维空间和时间的、正则的、细胞结构的离散模型，通过细胞之间的自下而上的局部相互作用的简单转换细胞，即局域空间的演化细胞，得到整体空间的时空结构，这是一个优美的离散空间时间博弈动力学模型。

（3）兴奋-阈值-疲劳模型

兴奋-阈值-疲劳模型建立在细胞模型基础上，但比细胞模型更接近真正的神经系统。一个理想的兴奋-阈值-疲劳神经元有指定的阈值或临界点和指定的不应期（refractory period）。不应期可以分为两个部分：绝对不应期和相对不应期。当激活的输入值超过阈值或临界点时，神经元将变成兴奋状态。因此，可以将阈值或临界点表述成一人或多人博弈的效用函数中的保留效用，即当激活的输入值超过保留效用时，神经元将变成兴奋状态。这类神经元将开关、延迟输出、内在记忆、以及反馈信号等结合起来，控制输入信号的效果。这样的装置实际上相当于一个有限自动机。兴奋-阈值-疲劳模型也成为有限自动机博弈模型。

20世纪60年代，考恩及其合作者基于兴奋-阈值-疲劳模型发展出了一套 Wilson-Cowan方程。^[15][16]Wilson-Cowan方程对大卫·马尔（David Marr）和托马索·波吉欧（Tomaso Poggio）^[23]的双眼立体视差理论产生了影响，被认为是计算神经科学史上的一个里程碑。

（4）连续模型

连续模型实际上是前三个模型的一个综合，以离散模型开始，接着是连续模型；先发展自复制的细胞模型，然后退化为兴奋-阈值-疲劳模型，最后采用非线性偏微分方程描述。冯·诺依曼的离散模型和连续模型都是从最简单的情形开始的，在神经元的兴奋、阈值和疲劳的描述中，化学扩散扮演着非常基本的作用，因此冯·诺依曼选择了流体力学中常用的扩散型非线性偏微分方程作为自复制自动机的连续模型。早先冯·诺依曼希望用自动机求解极其困难的非线性偏微分方程。在连续模型中冯·诺依曼希望反过来，采用非线性偏微分方程表述自复制自动机的逻辑和数学性质，即自复制自动机的动力学，由此具有复制核或正定矩阵性质的非线性偏微分方程和积分方程就是非常适合的了。贾兹·坎多拉（Jaz Kandola），约翰·沙维-泰勒（John Shawe-Taylor）和那拉·克端斯特尼尼（Nella Cristianini）在离散情形定义的冯·诺依曼扩散核（von Neumann Diffusion Kernel）^[24]反映了冯·诺依曼的思想，并且可以定义连续情形的冯·诺依曼扩散核与之对应。

冯·诺依曼认为，自复制自动机的母机的设计，与这些偏微分方程的边界条件相对应。但是，偏微分方程的边界条件过于复杂，仅二阶常系数线性偏微分方程就有椭圆型、双曲型、抛物型，每种方程的边界条件都不一样，高阶非线性偏微分方程的边界条件就更复杂了。因此，以偏微分方程的边界条件作为自复制自动机的母机的设计原则，难度比较大。由于连续模型的偏微分方程组和相应的离散模型的差分方程事实上代表了同一现象，细胞模型或离散模型的转换细胞是连续模型的偏微分方程组的差分方程版本。基于这个原则，冯·诺依曼采用差分方程对基于偏微分方程的边界条件的设计原则做了大幅简化。由于前三个模型都可以用博弈论表示，非线性偏微分方程是连续博弈的基本工具，所以增加了非线性偏微分方程的连续模型同样可以用博弈论表示。

（5）概率模型

冯·诺依曼的“由不可靠组件构建可靠组织”（Organisms）表述的概率逻辑是概率自动机的第一个工作，探讨了逻辑错误在自动机生成中的作用。“对待误差，不是将它看作是额外的、由于误导而产生的事故，而是将它看作思考过程中的一个基本部分。在自动机的生成中，误差的重要性与对正确的逻辑结构的思考一样重要”。^[5]冯·诺依曼认为，在细胞模型中自动机在各种态（states）之间的转换是概率的而不是确定的。误差应当由热力学方法来处理，并且成为热力学的主题，正如L.西拉德（L. Szilard）和香农的信息论对信息的处理一样。

冯·诺依曼在自动机理论、量化自然选择、解释如何从低效的、简单的、弱自动机逐步发展出高效的、复杂的、强有力的自动机的等几个方面对进化过程建模。这里已经可以看到后来的Adaboost算法^[25]的影子，Adaboost算法有一个基于冯·诺依曼的极小极大定理的博弈论解释。^[26]后来发展出来的概率机器人学^[27]是冯·诺依曼的概率自动机的具体实现。

冯·诺依曼1953年3月在普林斯顿大学Vanuxem讲座的前三讲的许多材料也出现在其最后一本著作《计算机与人脑》^[28]中。在《计算机与人脑》中，冯·诺依曼继续将计算机系统与人类神经系统看作是两类自动机，比较了两类自动机之间的相似和不相似之点，并着重强调了相异之处。

《计算机与人脑》的第一部分是“计算机”，第二部分是“人脑”。冯·诺依曼没有把这两条路线对立，他认为这是解决同一问题的两种方法：大型、有效的天然自动机，以高度并行的线路有利，而大型、有效的人工自动机则并行的程度较小，所以宁愿以采取串行的线路有利。他指出，人工自动机的记忆要求比天然自动机更有系统、更严密得多；神经系统中所使用的消息传递系统，其本质是统计性的，即用周期性或近似周期性的脉冲系列来传递消息的频率，而不是数字的。脉冲系列之间的某种（统计）关系也可以传递信息，也可以运用消息的其他统计特性，如各种相关系数以及诸如此类的方法。在精确的符号系统中，每一个符号的计数位置、符号的出现或不出现，对消息的意义具有决定性的作用。神经系统中所使用的消息传递系统是另一种记数系统，消息的意义由消息的统计性质来传递。这种办法带来了较低的算术准确度水平，却得到了较高的逻辑可靠度水平，即算术上的恶化换来了逻辑上的改进。冯·诺依曼提出了“计算的逻辑深度”（logical depth）的概念，即最长的计算链的逻辑步骤的数字。伯克斯发展为“计算的量”的概念，包含计算的深度（逻辑深度）和宽度（并行的量），安德烈·柯尔莫哥洛夫（Andrey Kolmogorov）、格里高利·蔡廷（Gregory Chaitin）和雷·索洛莫诺夫（Ray Solomonoff）进一步由此提出了算法信息量的概念，亚伯拉罕·内曼（Abraham Neyman）又将算法信息量与博弈论结合，提出策略熵的概念。^[29]

按照科技史学家乔治·戴森（George Dyson）的说法，冯·诺依曼本来打算与乌拉姆合作完成一部可以媲美《博弈论与经济行为》^[3]的著作。在这本书中，他们计划发展出一套宏伟的、统一的自复制自动机理论（Self-Reproducing Automata Theory），这套理论可以应用到生物系统和技术系统以及两者所有可想象的和不可想象的组合。最重要的是，这套理论适用于自动机，不管自动机是置身于物理宇宙还是数字宇宙，亦或是物理宇宙还是数字宇宙的组合，并且将超越地球上现有的生命和技术。但是他们的这个宏伟计划没有最终全部完成。尽管如此，在冯·诺依曼的首要合作者乌拉姆的手稿前三章的残存的标题中，还是可以部分看出他们的思想渊源和可能的理论框架。

尽管冯·诺依曼和乌拉姆的宏伟计划没有最终全部完成，我们还是可以依据冯·诺依曼的一系列讲座和两本著作，从1998年斯梅尔（Stephen Smale）提出的第18问题出发，依据博弈的Helmholtz-Hodge分解定理^[30]所导出的以Mercer核^[31]为代表的复制核希尔伯特空间理论，^[32]大体上可还原冯·诺依曼的自复制自动机理论的主要内容。按照冯·诺依曼在《自复制自动机理论》和《计算机与人脑》中的设想，未来的计算机和机器人应根据环境的变化做出效率更高的反应，自复制自动机应遵守适者生存法则和进化论法则，这就将自复制自动机理论引导到进化论，而进化论可以通过在空间和时间中进化的博弈动力学，即空间时间博弈动力学进行刻画。

2. 冯·诺依曼是人工智能的奠基人

乔治·戴森的著作^[33][34]可以说是比较全面地正面评价冯·诺依曼的深入之作。他说，在冯·诺依曼离开这个世界之后，损害他声誉的，不是大众对他的批评，而是他自己的巨大的成功事迹。冯·诺依曼架构的巨大成功，掩盖了他对大规模并行计算、分布式信息处理、进化计算和神经网络等方面做出的贡献。但是乔治·戴森仍然有对冯·诺依曼理解不够的地方。他说，冯·诺依曼谈论计算时从来不提及人工智能，而图灵言必谈人工智能。^[34]这其实是一种误解，冯·诺依曼谈论计算时虽然从来不提及人工智能，但却反复讨论包含严格逻辑的数字计算机和概率逻辑的模拟计算机两部分的人工自动机（artificial automaton），并且冯·诺依曼的研究，尤其是其发明的新数学——博弈论——却处处指向人工智能的最核心的问题。

可以说，冯·诺依曼的思想深刻地影响了当时及其后几代人工智能领域的科学家。如前所述，在达特茅斯会议之前，就已经形成了以冯·诺依曼为核心的计算机和人工智能圈子。1955年，在冯·诺依曼主导的美国西部计算机联合大会（The Western Joint Computer Conference，WJCC）上已经展开了“学习机讨论会”（Session on Learning Machine），^[35]参加者中艾伦·纽厄尔和奥利弗·塞尔弗里奇（Oliver Selfridge）探讨了计算机是否能下棋。^[36]塞尔弗里奇和狄尼恩（G. P. Dinneen）基于冯·诺依曼的细胞自动机思想，分别发表了关于模式识别的论文。^[37]

狄尼恩是第一个采用细胞逻辑变换（cellular logic transforms）对光学字符识别（Optical Character Recognition, OCR）中个人手写字体进行图像预处理的科学家。^[38]1958年斯蒂芬·昂格尔（Stephen H. Unger）采用细胞逻辑变换对特征提取和字体识别做了更详细的研究，设计了一个可以处理9个元素的细胞自动机执行其算法。^[39]肯德尔·小普雷斯顿（Kendal Jr. Preston）^[40]对塞尔弗里奇和狄尼恩的细胞逻辑变换进行了扩展，做出了第一个细胞逻辑机（CELLSCAN），对白血球进行了模式分类。小普雷斯顿和迈克尔·杜夫（Michael J.B. Duff）^[41]原原本本地将冯·诺依曼的细胞自动机思想与模式识别做了直接的联系，进一步从数学角度刻画了细胞逻辑变换，即在机读的字符图像中去除椒盐噪声（salt and pepper’ noise）的二维细胞逻辑变换实际上是在执行二维低通滤波；同样地，高维细胞逻辑变换是在执行高维低通滤波。

施兰特（R. G. Schrandt）和乌拉姆^[42]研究了二维空间中细胞自动机产生有趣的增长的模式的递归关系。乌拉姆研究了高维空间中细胞自动机产生有趣的增长的模式的递归关系。增长的模式与博弈论相关联。^[43]细胞自动机博弈的一个特点是其显著增长的复杂性。这种复杂性不仅产生于处理元素有许多状态，而且因为转换规则是自适应的，转换规则按照细胞自动机的所有处理元素的所有构型和所有状态在不停地变化。棋盘博弈，如国际象棋、西洋跳棋，实际上就是细胞自动机博弈。在棋盘博弈中，细胞自动机被限制在棋盘上所有位置的总数。相对于一般空间时间博弈的无穷大的数量，对棋盘空间上细胞自动机博弈的分析限于一个有限数，尽管这个数非常大，甚至是天文数字，但仍然是有限的。

当计算机进化到能够从事人很熟悉的某些工作的时候，比如下棋，就可以采用“人工智能”这个术语。在这个意义上，冯·诺依曼是把人工智能作为计算理论的一个组成部分来看待和发展的。或者毋宁说，冯·诺依曼的计算理论就是他的人工智能理论。冯·诺依曼在计算理论方面始终高屋建瓴地看待新出现的科学问题和数学问题。冯·诺依曼的博弈理论实际上是为其计算理论服务的。乌拉姆指出，冯·诺依曼关于生物体和技术系统的自复制自动机理论的设想有其渊源：冯·诺依曼推进计算机的动机之一是出于对神经系统和脑组织本身运转机制的强烈爱好；另一个推动冯·诺依曼的缘由是对博弈论的嗜好。^[44]鉴于此，我们可以将结合了冯·诺依曼的计算理论和博弈理论的、融符号主义和连接主义于一体的自动机理论称为冯·诺依曼纲领（von Neumann Program）。

需要顺便提及的是，冯·诺依曼不仅是人工智能最初的奠基人，更是计算理论最初的奠基人。就冯·诺依曼本人而言，按照乌拉姆的说法，是从1921年就开始了对计算机兴趣的萌芽，其后30多年，冯·诺依曼一直保持着对计算机的兴趣，并在20世纪40年代至50年代切实领导了当时世界上最领先的包括人工智能在内的、对计算理论的研究工作和计算机的制造工作。1937年，维纳在冯·诺依曼家里谈到计算机的研究，并鼓动冯·诺依曼研究计算机。

在理论方面，乌拉姆指出，冯·诺依曼在数理逻辑、数学基础、对形式系统详尽研究等方面起着举足轻重的作用。^[44]在对希尔伯特形式化纲领的响应问题上，在冯·诺依曼、哥德尔（Godel）和图灵三人中，冯·诺依曼明显处于主动的、领导者的位置，这不仅是因为冯·诺依曼作为希尔伯特直接学生的地位，更是因为冯·诺依曼对希尔伯特形式化纲领——集合论的公理化——的全面和深刻的理解。1924年，希尔伯特就赞扬冯·诺依曼是最伟大的年轻数学家。^[45]1925年冯·诺依曼发表的论文《集合论的公理化》^[46]即是从1921年就开始研究的成果。他指出，集合论的任何公理化都存在某种限制，这预示了哥德尔不完全性定理的出现。冯·诺依曼带着施密特对集合论的公理化的长达20多年的思考，与哈恩一起，指导了哥德尔的研究。后来冯·诺依曼邀请哥德尔来到普林斯顿高等研究院并不遗余力地维护哥德尔的地位，称哥德尔是自亚里士多德以来最伟大的逻辑学家。而哥德尔不完全性定理不仅引导冯·诺依曼将兴趣从纯粹逻辑转向应用，而且也为图灵机和冯·诺依曼机提供了一个理论基础。

至于图灵，是冯·诺依曼与纽曼以及丘奇共同指导并提携了图灵。由于图灵在剑桥大学所写的第一篇论文《左右殆周期性的等价性》^[47]就是对冯·诺依曼的一项成果的推广，而被冯·诺依曼慧眼识英才，将其带到普林斯顿大学数学系深造，后来为计算理论做出了很大贡献。但是图灵始终只是冯·诺依曼宏伟理论体系的一个组成部分，当然是极其重要的一个组成部分。冯·诺依曼在不同场合，都高度评价了图灵。他在《计算机与人脑》书中写道，他的方案是完全码，图灵的方案是短码。冯·诺依曼的完全码完全规定了神经系统的一定行为，即完全规定了一系列的脉冲和发生脉冲的轴突，对应地，也完全规定了人工自动机的一定行为。完全码是许多指令组，指令组给出了必要的细胞。而图灵的短码是作为编码的辅助方法发展起来的，是使一个计算机模仿另一个计算机的指令系统。从1951年开始的美国东部计算机联合大会（The Eastern Joint Computer Conference，EJCC）和从1953年开始的美国西部计算机联合大会（The Western Joint Computer Conference，WJCC）等早期极其重要的计算机年会也都是在冯·诺依曼的直接或间接领导下召开的。

博弈论在人工智能领域的影响几乎无处不在。达特茅斯会议组织者麦卡锡回忆，夏普利（Lloyd Shapley）和纳什（John Nash）对会议表示了浓厚的兴趣，打算参加会议，而主要参加者Solomonoff的手稿则显示1956年纳什应邀参加了达特茅斯会议。明斯基的两本著作《心智社会》和《情感机器》都明确表示他受到夏普利和纳什的深刻影响，博弈的思想也反复出现在两本著作中，夏普利和纳什甚至还帮明斯基修改过《情感机器》的内容。有意思的是，连机器学习这个术语亦是来自于对博弈的研究，虽然在历史上，机器学习起源于曲线拟合的整体思路。1959年，塞缪尔研究西洋跳棋博弈的时候使用了“机器学习”这一术语，将其定义为“不显式编程地赋予计算机能力的研究领域”。他在论文中谈到了一个计算机程序，该程序可以通过博弈过程的自复制学习如何下棋，棋艺可以超越程序开发者。^[48]当然，博弈论在人工智能领域的最直接的影响当属架起博弈论和逻辑学桥梁的博弈逻辑理论^{[49][50][51][52]}以及架起博弈论和学习理论桥梁的博弈学习理论。^[53][54]符号主义和联结主义正好体现了博弈逻辑强调因果关系和博弈学习强调相关关系两个方面。基于博弈逻辑的符号主义可以进行自动推理，^[53]基于博弈学习的联结主义可以进行自动学习。博弈动力学和基于博弈逻辑的自动推理以及基于博弈学习的自动学习就构成了冯·诺依曼自动机理论的一体两翼。

这套新的数学理论满足冯·诺依曼关于自动机理论的要求：这个理论必须足够简单，人们可以从数学方面加以理解；但又要足够复杂，可以应用到现实世界的各种特例中。组合博弈或图博弈确实足够简单，人们可以从数学方面加以理解；而其近似形式——概率组合博弈或概率图博弈^[55]及其推论——各种机器学习算法，特别是深度学习算法又足够复杂，可以应用到现实世界的各种特例中。这一点正如冯·诺依曼采用概率逻辑^[4][5]探讨可靠性问题一样：个体的行为只具有统计学意义，但不可靠的个体行为却可以整合进一个可靠的“有机体”。玛塔·克维亚特科夫斯卡（Marta Kwiatkowska）等人将概率逻辑发展为概率博弈逻辑，并应用到概率模型检测以实现可信人工智能的要求。^[56]

其中，组合博弈论由乌拉姆、香农和麦卡锡等人开端，经过埃尔温·伯利坎普（Elwyn R. Berlekamp）、约翰·康威（John H. Conway）和理查德·盖伊（Richard K. Guy）的确定性组合博弈^[57]，到2006年发生了一场以蒙特卡洛树搜索（ Monte Carlo Tree Search, MCTS）为代表的革命——概率组合博弈。^[58]而蒙特卡洛方法正是冯·诺依曼和乌拉姆在20世纪40年代发现的，这充分说明冯·诺依曼理论的生命力之强大。伯利坎普的学生马丁·米勒（Martin Müller）和萨顿从组合博弈和强化学习两个角度分别影响了大卫·西尔弗（David Silver）。2016年春天以4:1赢得人机大战的Google DeepMind的AlphaGo，即是大卫·西尔弗等人以深度卷积神经网络+深度强化学习和蒙特卡洛树搜索（DCNN+DRL+MCTS）等深度学习算法进行虚拟自我学习（Fictitious Self Play）。其中，深度卷积神经网络和深度强化学习都可以看着是概率图博弈的实现形式，其所体现的是二维空间时间博弈动力学的一些规律。

明斯基是冯·诺依曼的人工智能思想的忠实继承者之一。明斯基的论文《走向人工智能》^[59]讨论了关于人工智能的几个关键问题，尤其是“复杂强化学习系统中的基础性的信用分配问题”。实际上，强化学习的所有方法在某种意义上都是为了解决这个问题。^[6] 明斯基继承了冯·诺依曼的符号主义和联结主义相结合的传统，一直将计算理论看着是人工智能的一个组成部分。他指出，符号主义和联结主义各有其正当的理由，而结合了符号主义和联结主义的混合型智能可以同时具有两者的优点，因此能够更有效的学习。^[60]明斯基的两本著作《心智社会》和《情感机器》体现了这种综合。明斯基认为，智能并不是任何单一机制的产物，而是追求目标的各类智能体之间有条理的相互作用的产物，思维状态产生于由智能组（agencies）和神经束（nerve-bundles）共同构成的错综复杂的网络结构中。^[61]尽管明斯基在后一本著作《情感机器》中将智能体改称为资源，但并没有改变各种资源之间相互作用的性质。^[62]思维状态是不同资源相互作用的结果，而情感状态是一种特殊的思维状态。明斯基进而用这种思路解释弗洛伊德的思想，取得了巨大的成功。在明斯基看来，弗洛伊德将思维视为经常导致冲突和分歧的各种活动，人的思维就像一个战场，许多资源在那里同时工作着。但这些资源并不总是拥有共同的目标，因此，他们经常在动物本能和所获理想之间发生严重冲突。明斯基的这种认识，在思想上再现了冯·诺依曼留下的研究智能体之间相互作用的博弈论，即我们可以用图博弈或网络博弈论研究各类错综复杂的网络结构的智能组和神经束之间的相互作用来研究智能。事实上，其后的多智能体（Multi Agent System）^[63]研究就是源自明斯基的《心智社会》中的智能体之间相互作用的思想。当今世界上人工智能主流教材《人工智能：一种现代方法》^[64]从理性智能体的角度全面阐述了人工智能领域的核心内容，也是源自明斯基的《心智社会》中的智能体之间相互作用的思想。

冯·诺依曼的一系列讲座和两本著作阐述了作为人工智能理论的理想自动机理论，具有高度的前瞻性，其包含了严格逻辑的数字计算机和概率逻辑的模拟计算机之分预示了人工智能的符号主义和联结主义两派的发展路线，开启了后来所称的符号主义和连接主义的综合传统。

在实践方面，乌拉姆指出，冯·诺依曼在计算机的研制中，起了主导作用，^[44]这具体体现在冯·诺依曼在对ENIAC、EDVAC、MANIAC等早期计算机的制造工作的领导。尤其值得一提的是，MANIAC及其程序的所有技术细节都被完整地公布出来，全世界的同行都可以免费复制，冯·诺依曼似乎在行动上就做到了他所倡导的自复制。

冯·诺依曼之后，其合作者和学生沿冯·诺依曼的人工智能思想做了多方面探索。麦卡锡在技术上继承了冯·诺依曼。冯·诺依曼^[65]证明了两人零和博弈中存在MiniMax策略。MiniMax策略可以应用到二人对弈的算法中，其中一方可以看作是Max方，另一方可以看作是Min方，Max方的评估函数越高越好，Min一方的评估函数则越低越好。这样Max方和Min方的对弈就形成了一个基于的产生式系统^[66][67]的博弈树。博弈树的增长是指数式的，因此当博弈树的层次很深时，树的规模会变得不可控。在达特茅斯会议前后，麦卡锡的主要研究方向是计算机下棋。下棋程序的关键之一是如何减少计算机需要考虑的棋步。为了控制树的增长，麦卡锡经过艰苦探索，终于发明了著名的α-β剪枝术，使搜索能有效进行。所以，从某种意义上来说，MiniMax策略是麦卡锡发明的计算机下棋经典算法Alpha-Beta的前兆，其主要思路还体现在IBM的深蓝、Google DeepMind的AlphaGo和Alpha Zero中。

冯·诺依曼的合作者伯克斯指导了约翰·霍兰德（John Holland）。霍兰德仔细研究了冯·诺依曼的细胞自动机思想，撰写了“逻辑网络中的循环”的博士论文。冯·诺依曼的细胞自动机就是逻辑网络，一端是逻辑，一端是神经网络。霍兰德的第一部著作《自然与人工系统中的适应性——理论分析及其在生物、控制和人工智能中的应用》，^[68]就是以冯·诺依曼的著作《博弈论与经济行为》及其他有关自动机的著作为样本进行写作的。霍兰德提出了自适应系统的一般理论，主要涉及进化方法、k臂老虎机和博弈方法等等，其遗传算法在某种程度上类似于博弈学习中的刺激反应方法（stimulus-response method）或改变平滑虚拟行动的期望水平得到的模型（the aspiration level variation of smooth fictitious play）。^[69]霍兰德的“分类器系统”（classifier systems）用于信用分配法是依赖于竞争的，因此其“分类器系统”（classifier systems）是一个基于统计博弈的强化学习系统，其中的一个关键部分——用于信用分配的“救火队算法”（bucket-brigade algorithm）与强化学习中的算法，特别是可以用于解决时间信用分配（temporal credit assignment）问题的时间差分学习（Temporal-Difference Learning）^[70]中的SARSA（State-Action-Reward-State-Action）算法^{[71] [72]}有关，随着时间的推移，“救火队算法”会将信用传回到所有的前序规则。^[7]

霍兰德及其学生伯纳德·齐格勒（Bernard Phillip Zeigler）一起指导了安德鲁·巴图（Andrew Barto）。齐格勒的博士论文是“论自动机的反馈复杂性”，Barto的博士论文是“作为自然系统模型的细胞自动机”，都跟冯·诺依曼的细胞自动机思想有关。跟霍兰德一样深受冯·诺依曼的细胞自动机思想影响的塞尔弗里奇在GTE实验室任首席科学家时，特别强调适应性的广泛性和重要性，影响了理查德·萨顿（Richard S. Sutton）对强化学习的研究。^[6] 巴图、萨顿和安德森提出的基于人工神经网络的行动器-评价器算法（Actor-Critic）就是一个典型的博弈模型。^[73]强化学习有两种：无模型（model-free）和基于模型（model-based）的强化学习。基础的行动器-评价器算法（Actor-Critic, AC）是无模型（model-free）的，其中行动器表示策略模型（policy model），评价器表示价值模型（value model），评价器对行动器获得的回报（Reward）进行信用分配（credit assignment）处理和学习，把处理后获得的新回报传递给行动者进行学习，这样结合了评价器和行动器两部分学习器，得到了一个更优的学习器。无模型的强化学习不知道状态转移概率，基于模型的强化学习知道状态转移概率。无模型和基于模型的强化学习之间的区别，可以帮助神经科学家研究习惯性和目标导向的学习和决策的神经基础。^[6]在无模型的强化学习中，只有观察到某个动作的结果时，才需要对该动作的价值进行更新；基于模型的强化学习完全取决于行为人对环境的了解有多完整和准确。^[74]

由以上史料可以看出，冯·诺依曼实际上是人工智能最初的奠基人。人工智能的正式起源应当是20世纪40年代，而不是冯·诺依曼晚期学生麦卡锡等人宣称的1956年。在冯·诺依曼之后乌拉姆、图灵、香农、纽厄尔、塞尔弗里奇、狄尼恩、周绍康、昂格尔、小普雷斯顿、考恩、明斯基和麦卡锡等人的人工智能的研究，都是冯·诺依曼经典工作的延伸。而19世纪50年代以后的研究，又是麦卡洛克、皮茨、乌拉姆、图灵、香农、纽厄尔、塞尔弗里奇、狄尼恩、周绍康、昂格尔、小普雷斯顿、考恩、明斯基和麦卡锡等人早期工作的延伸。塞尔弗里奇后来回忆，在20岁之前就在麻省理工学院追随维纳读书的时候认识了冯·诺依曼是他的幸运，冯·诺依曼当时经常到麻省理工学院跟维纳谈论数学和计算机，其中当然包括后来所称的人工智能。所以，塞尔弗里奇和狄尼恩采用冯·诺依曼的细胞自动机理论表述他们的模式识别理论，就毫不奇怪。1956年香农和麦卡锡编辑了一本论文集《自动机研究》，其中包括了冯·诺依曼1952年一篇关于概率逻辑的论文。^[4]克莱恩（Ronald R. Kline）考察了香农和麦卡锡在编辑该书过程中的争论。^[75]事实证明，香农坚持使用自动机的做法确实眼光更为开阔，也更为符合冯·诺依曼的本来的想法。但是克莱恩同样也忽略了冯·诺依曼的贡献，而过分强调麦卡锡的作用。总之，冯·诺依曼等人在人工智能历史上的贡献是被极大地低估了的。现在到了还诸历史本来面目的时候了。我们需要重新评价冯·诺依曼等人在人工智能历史上的重大贡献。

（未完待续）

志谢：感谢与桂起权先生、Jingang Zhao先生的有益讨论。

参考文献

[1]	McCarthy John. The Dartmouth Workshop--as Planned and as it Happened, 2006. http://www-formal.stanford.edu/jmc/slides/dartmouth/dartmouth/node1.html.[2020-01-01].
[2]	Von Neumann John. The General and Logical Theory of Automata. Presented at Hixon Symposium on Cerebral Mechanisms in Behavior. In John von Neumann’s Collected Works. Vol 5, 288-328. Edited by A. H. Taub. New York:Macmillan, 1948, : 1961-1963.
[3]	Von Neumann John, and Oscar Morgenstern. Theory of Games and Economic Behavior. Princeton University Press, 1944.
[4]	Von Neumann John. Reliable Organizations of Unreliable Elements. Manuscript, 1951.
[5]	Von Neumann John. Lectures on Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components. In Shannon Claude and John McCarthy, ed. Automata Studies. Princeton University Press, 1956: 43-99.
[6]	Minsky Marvin L. Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain-Model Problem. Ph. D. thesis, Princeton University, 1954.
[7]	Sutton Richard S. and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, 2018.
[8]	McCulloch Warren. S. and Walter Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biology, 1943, 5: 115-133.
[9]	Tuyls Karl, Verbeeck K. , and Lenaerts T. A Selection-Mutation model for Q-learning in Multi-Agent Systems. The ACM International Conference Proceedings Series, Autonomous Agents and Multi-Agent Systems, Melbourne: Australia,2003.
[10]	Tuyls, Karl, Dries Heytens, Ann Nowe, etc. Extended Replicator Dynamics as a Key to Reinforcement Learning in Multi-Agent Systems. Proceedings of the European Conference on Machine Learning’03, Lecture Notes in Artificial Intelligence. Cavtat-Dubrovnik, 22-26 September, 2003, : Croatia.
[11]	Börgers Tilman, Sarin Rajiv. Learning Through Reinforcement and Replicator Dynamics. Journal of Economic Theory, 1997, 77(1): 1-14. DOI: 10.1006/jeth.1997.2319.
[12]	Winograd Shmuel and Cowan Jack D. Reliable Computation in the Presence of Noise. MIT Press, Cambridge, Massachusetts, 1963.
[13]	Cowan Jack David. The Problem of Organismic Reliability, in N. Wiener & J. P. Schade Eds. , Cybernetics of the Nervous System, 9-63, Progress in Brain Research, vol. 17. Amsterdam, Elsevie, 1965.
[14]	Cowan Jack David. Statistical Mechanics of Nervous Nets. In E. R. Caianiello ed. , Proceedings of the School on Neural Networks - June 1967 in Ravello, 181-188. Berlin: Springer-Verlag, 1968.
[15]	Wilson, H. R., Cowan Jack David. Excitatory and Inhibitory Interactions in Localized Populations of Model Neurons. Biophys. J., 1972, 12(1): 1-24.
[16]	Wilson, H. R., Cowan, Jack David. A Mathematical Theory of the Functional Dynamics of Cortical and Thalamic Nervous Tissue. Kybernetik, 1973, 13(2): 55-80. DOI: 10.1007/BF00288786.
[17]	Rumelhart David. E., Hinton, Geoffrey. E., and Williams, R. J. Learning representations by back-propagating errors. Nature, 1986, 323: 533-536. DOI: 10.1038/323533a0.
[18]	Rumelhart David E., James L. McClelland. eds. Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations. Cambridge: MIT Press, 1986.
[19]	McClelland James L., David E. Rumelhart and PDP Research Group. Parallel Distributed Processing, Volume 2: Explorations in the Microstructure of Cognition: Psychological and Biological Models. Cambridge: MIT Press, 1987.
[20]	Cowan Jack David. Von Neumann and Neural Networks. In J. Glimm, J. Impagliazzo and I. Singer (eds. ), The Legacy of John von Neumann, American Mathematical Society, Providence, 1990, : 243-274.
[21]	Von Neumann John. Theory of Self-Reproducing Automata. Edited by Arthur W. Burks. Urbana: University of Illinois Press, 1966.
[22]	Denavit Jacques and Richard Hartenberg. A Kinematic Notation for Lower-Pair Mechanisms Based on Matrices. ASME Journal of Applied Mechanisms, 1955, 22: 215-221. DOI: 10.1115/1.4011045.
[23]	Marr David and Tomaso Poggio. Cooperative Computation of Stereo Disparity. Science, New Series, 1976, 194(4262): 283-287.
[24]	Kandola Jaz, John Shawe-Taylor, Nella Cristianini. Learning Semantic Similarity. Neural Information Processing Systems, 2002, : 657-664.
[25]	Freund Yoav and Robert E. Schapire. A Decision-Theoretic Generalization of On-line Learning and an Application to Boosting. In Computational Learning Theory: Second European Conference, EuroCOLT’ 95, 23–37. Springer-Verlag, 1995.
[26]	Freund Yoav and Robert E. Schapire. Game Theory, On-line Prediction and Boosting. Proceedings of the Ninth Annual Conference on Computational Learning Theory, 1996, : 325-332.
[27]	Thrun Sebastian, Wolfram Burgard, and Dieter Fox. Probabilistic Robotics. Cambridge: MIT Press, 2005.
[28]	Von Neumann John. The Computer and the Brain. New Haven: Yale University Press, 1958.
[29]	Neyman Abraham and Daijiro Okada. Strategic Entropy and Complexity in Repeated Games. Games and Economic Behavior, 1999, 29(1): 191-223.
[30]	Candogan Ozan, Ishai Menache, Asuman Ozdaglar and Pablo A. Parrilo. Flows and decompositions of games:harmonic and potential games. Mathematics of Operation Research, 2011, 36(3): 474-503.
[31]	Mercer James. Function of Positive and Negative Type and Their Connection with the Theory of Integral Equation. Philosophical Transactions of the Royal Society of London. Series B, 1909, 209: 415-446.
[32]	Smale Stephen; Nat Smale. Hodge Decomposition and Learning Theory. Learning Theory and Approximation, 2008, : 7-8.
[33]	Dyson George. Darwin Among The Machines: The Evolution of Global Intelligence. Boston: Addison-Wesley, 1997.
[34]	Dyson George. Turing’s Cathedral: The Origins of the Digital Universe. New York:Vintage, 2012.
[35]	尼克. 人工智能简史. 北京: 人民邮电出版社, 2017.
[36]	Newell Allen. The Chess Machine: An Example of Dealing with a Complex Task by Adaptation. In Proceedings of Western Joint Computer Conference, 101–108. Association of Computing Machinery, 1955.
[37]	Selfridge Oliver G. Pattern Recognition and Modern Computers. Proceedings of the Western Joint Computer Conference, Los Angeles, 91–93. Association of Computing Machinery, 1955.
[38]	Dinneen Gerald P. Programming Pattern Recognition. Proceedings of the Western Joint Computer Conference, Los Angeles, 94-100. Association of Computing Machinery, 1955.
[39]	Unger Stephen H. A Computer Oriented toward Spatial Problems. Proc. IRE, 1958, 46: 1744-1750. DOI: 10.1109/JRPROC.1958.286755.
[40]	Preston Kendal Jr. The CELLSCAN System - A Leucocyte Pattern Analyzer. Proceedings of the Western Joint Computer Conference, Los Angeles, 175-178. Association of Computing Machinery, 1961.
[41]	Preston Kendall Jr. , Michael J. B. Duff. Modern Cellular Automata - Theory and Applications. New York and London: Plenum Press, 1984.
[42]	Schrandt R. G., Ulam Stan. M. On Atterns of Growth of Figures in Two Dimensions. N. Amer. Math. Soc., 1960, 1: 642-651.
[43]	Ulam Stan. M. On Some Mathematical Problems Connected with Patterns of Growth of Figures. Proc. Symposia Appl. Math. , Amer. Math. Soc., 1962, 14: 214-224.
[44]	Ulam Stan. M. Adventures of a Mathematician. Charles Scribner's Sons, New York, 1976.
[45]	Norman Macrae. John von Neumann. New York: Pantheon, 1992.
[46]	Von Neumann John. The Axiomatization of Set Theory. Journal fur Mathematik, 1925, : 393-413.
[47]	Turing Alan. Equivalence of Left and Right Almost Periodicity. Journal of the London Mathematical Society, 1935, : 10.
[48]	Samuel Arthur. Some Studies in Machine Learning Using Game of Checkers. IBM Journal of Research and Development, 1959, 3(3): 210-229. DOI: 10.1147/rd.33.0210.
[49]	Brandenburger Adam and H. Jerome Keisler. An Impossibility Theorem on Beliefs in Games. Studia Logica, 2006, 84: 211-240.
[50]	Brandenburger Adam. The Language of Game Theory: Putting Epistemics into the Mathematics of Games, World Scientific Series in Economic Theory, ed. by Eric Maskin. Singpore: World Scientific, 2014.
[51]	Gutierrez Julian, Paul Harrenstein, Michael Wooldridge. From Model Checking to Equilibrium Checking: Reactive Modules for Rational Verification. Artificial Intelligence, 2017, 248: 123-157. DOI: 10.1016/j.artint.2017.04.003.
[52]	Wooldridge Michael. Reasoning about Rational Agents. Cambridge: MIT Press, 2000.
[53]	Cesa-Bianchi Nicolo and Gabor Lugosi. Prediction, Learning, and Games. Cambridge: Cambridge University Press, 2006.
[54]	Hart Sergiu and Andreu Mas-Colell. Simple Adaptive Strategies----From Regret-Matching to Uncoupled Dynamics. Singapore: World Scientific, 2013.
[55]	Kearns M., M. Littman, and S. Singh. Graphical Models for Game Theory. In Seventeenth Conference on Uncertainty in Artificial Intelligence, 2001, : 253-260.
[56]	Chen Taolue, Vojtěch Forejt, Marta Kwiatkowska, David Parker and Aistis Simaitis. PRISM-games: A Model Checker for Stochastic Multi-Player Games. In Proc. 19th International Conference on Tools and Algorithms for the Construction and Analysis of Systems (TACAS'13), vol. 7795 of LNCS, 185-191, Berlin: Springer-Verlag, 2013.
[57]	Berlekamp Elwyn R. , John H. Conway, and Richard K. Guy. Winning Ways for your Mathematical Plays. Cambridge: Academic Press, 1982.
[58]	Coulom, Rémi. Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search. in Proceedings of the 5th International Conference on Computers and Games, Turin, Italy, 2006, : 72-83.
[59]	Minsky Marvin L. Steps Toward Artificial Intelligence. Proceedings of the Institute of Radio Engineers, 1961, 49: 8-30.
[60]	Minsky Marvin L. Logical vs. Analogical or Symbolic vs. Connectionist or Neat vs. Scruffy. In Artificial Intelligence at MIT, Expanding Frontiers, Patrick H. Winston (ed. ), Vol. 1. Cambridge: MIT Press, 1990.
[61]	Minsky Marvin L. The Society of Mind. New York: Simon and Schuster, 1985.
[62]	Minsky Marvin L. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. New York: Simon & Schuster, 2006.
[63]	Shoham Yoav and Kevin Leyton-Brown. Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations. Cambridge: Cambridge University Press, 2009.
[64]	Russell Stuart J. and Peter Norvig. Artificial Intelligence: A Modern Approach. London Pearson, 2020.Pearson.
[65]	Von Neumann, John. Zur Theorie der Gesellschaftsspiele. Mathematische Annalen, 1928, 100: 295-320. DOI: 10.1007/BF01448847.
[66]	Post Emil. Formal Reductions of the General Combinatorial Decision Problem. American Journal of Mathematics, 1943, 65(2): 197-215. DOI: 10.2307/2371809.
[67]	Newell A. and Simon H. A. Human Problem Solving. Englewood Cliffs, NJ: Prentice Hall, 1972.
[68]	Holland John Henry. Adaptation in Nature and Artificial Systems. Cambridge: MIT Press, 1975.
[69]	Fudenberg Drew and David K. Levine. The Theory of Learning in Games. Cambridge: MIT Press, 1998.
[70]	Sutton Richard S. Learning to Predict by the Methods of Temporal Differences. Machine Learning, 1988, 3: 9-44.
[71]	Rummery G. A. and Niranjan M. On-line Q-learning using connectionist systems (Vol. 37). Cambridge, England: University of Cambridge, Department of Engineering, 1994.
[72]	Sutton Richard S. Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding. In Advances in Neural Information Processing Systems, 1996, : 1038-1044.
[73]	Barto Andrew G., Richard S. Sutton, and Charles W. Anderson. Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. IEEE Transactions on Systems, Man, and Cybernetics, 1983, 13(5): 835-846.
[74]	Lee Daeyeol. Birth of Intelligence: From RNA to Artificial Intelligence. Oxford: Oxford University Press, 2020.
[75]	Kline Ronald R. Cybernetics, Automata Studies, and the Dartmouth Conference on Artificial Intelligence, 2011, 33(4): 5-16.

Back to Von Neumann!
——The origin, development and future of artificial intelligence

WU Jiao-su^1,2, LI Zhen-zhen²

1. University of Chinese Academy of Science;
2. Institutes of Science and Development, Chinese Academy of Sciences

Abstract: By sorting out the origins and lines of development of artificial intelligence and reconnecting with the significant contributions of von Neumann and others in the history of artificial intelligence, this paper attempts to find a viable von Neumann path for the future of artificial intelligence, i.e. by developing gamedynamics as the mathematical basis of artificial automata, to clear the way for the development of artificial intelligence and, in particular, for intelligent robots.

Keywords: von Neumann Program gamedynamics artificial automata

作者简介：吴焦苏，中国科学院大学、中国科学院科技战略咨询研究院博士研究生。研究方向为人工智能与社会;
李真真，中国科学院科技战略咨询研究院研究员。研究方向为科学与社会、科技伦理、科技政策。

项目资助：科技部“新一代人工智能”重大项目“非完全信息条件下的博弈决策”（2018AAA0101001）；上海市“科技创新行动计划”人工智能科技支撑专项项目“基于随机博弈动力学的大规模分布式人工智能理论与算法”（20511100200）。