回到冯·诺依曼！（下）

引用本文

吴焦苏, 李真真. 回到冯·诺依曼！（下）——人工智能的缘起、发展与未来[J]. 科学与社会, 2022, 12(3): 78-102.

WU Jiao-su, LI Zhen-zhen. Back to Von Neumann!——The origin, development and future of artificial intelligence (continued)[J]. Science and Society, 2022, 12(3): 78-102. DOI: 10.19524/j.cnki.10-1009/g3.2022.03.078.

作者简介

吴焦苏，中国科学院大学、中国科学院科技战略咨询研究院博士研究生。研究方向为人工智能与社会;
李真真，中国科学院科技战略咨询研究院研究员。研究方向为科技伦理、科技政策

项目资助

科技部“新一代人工智能”重大项目“非完全信息条件下的博弈决策”（2018AAA0101001）；上海市“科技创新行动计划”人工智能科技支撑专项项目“基于随机博弈动力学的大规模分布式人工智能理论与算法”（20511100200）


目录 Contents	摘要 Abstract	全文 Full text	图表 Figures/Tables	PDF PDF

回到冯·诺依曼！（下）
——人工智能的缘起、发展与未来

吴焦苏^1,2, 李真真²

1. 中国科学院大学;
2. 中国科学院科技战略咨询研究院

摘要: 本文通过梳理人工智能的缘起和发展线条，重新认识冯·诺依曼等在人工智能历史上的重大贡献，试图为人工智能的未来寻找到一条可行的冯诺依曼道路，即通过发展作为人工自动机的数学基础的博弈动力学，为人工智能特别是为智能机器人的发展提供思路。

关键词: 冯·诺依曼纲领博弈动力学人工自动机

中图分类号: C03 文献标识码: A

DOI: 10.19524/j.cnki.10-1009/g3.2022.03.078

三、人工智能的发展

冯·诺依曼之后，人工智能的发展脉络初看起来并不够明晰，后来所谓的符号主义和联结主义两条主线表面上看起来跟冯·诺依曼关系不大，但其实仍然深深根植于冯·诺依曼的思想之中，大体上还是沿着冯·诺依曼的思想曲折前进。冯·诺依曼的基于新的数学思想相对于以经验、实用和工程为主的计算机界和人工智能界来说可能显得过于高深，或者计算机界和人工智能界的发展还没有到达需要基于博弈动力学的自动机理论的程度，为此，有必要从冯·诺依曼纲领的角度重新审视这一历史进程及发展现状。

1. 从模式识别到深度学习

1957年，周绍康迈出了决定性的一步，从统计决策理论借用了损失函数、统计决策函数等概念来研究最优字符识别。统计决策其实是一个行为人与大自然的二人零和统计博弈，^[1]由此模式识别正式跟冯·诺依曼的统计博弈论思想产生了联系。20世纪60年代之后，机器学习逐步从模式识别中独立。20世纪90年代之后。概率图模型（Probabilistic Graphical Model，PGM）与统计决策联姻。21世纪10年代，深度学习从各种机器学习算法中脱颖而出，由模式识别中的统计博弈论思想脱胎而来的深度学习与诞生于博弈论的强化学习，开始在博弈论的统一框架下合流，形成深度强化学习。

1957年，心理学家弗兰克·罗森布拉特（Frank Rosenblatt）发展了冯·诺依曼的思想。^[2]^[3]在唐纳德·赫布（Donald Hebb）^[4]的Hebb学习法则的基础上，罗森布拉特建立了一个号称可以感知人类心灵的“感知机”（Perceptron）。^[5] 1962年罗森布拉特证明了感知机收敛定理。^[6]感知机是一种最简单形式的前馈神经网络，一种二分类（binary classification）的二元线性分类器，这是M-P模型第一次正式进入人工智能领域。但是，对人工智能而言，M-P模型缺乏一个至关重要的学习机制，而罗森布拉特受Hebb学习法则的启发，想出了一个让这种人工神经元学习的办法：通过调整输入值的权重，实现了简单直观的学习方案。这是一个进步。1969年，同样继承冯·诺依曼思想的明斯基和西摩·佩珀特（Seymour Papert），严谨地分析了以感知机为代表的单层神经网络系统的功能及局限，证明感知机无法计算连通性的拓扑函数和奇偶性，不能解决简单的异或（XOR）等线性不可分问题，^[7]并且指出，需要多层感知机（Multi-Layer Perceptrons，MLPs），即现在所谓的多层神经网络才可以完成这一任务。伯纳德·维德罗（Bernard Widrow）评论道：“这种压垮早期‘感知机’人工智能学派的悲观主义不应怪在明斯基的头上。他只是总结了几百位谨慎研究人员的经验而已，他们尝试找出训练多层感知机的办法，却徒劳无功。” ^[8]特伦斯·谢诺夫斯基（Terrence Sejnowski）称罗森布拉特发明的感知机是深度学习的前身，指出明斯基、佩珀特和罗森布拉特对后来者理论感知机都有重要贡献，都是深度学习的起点。^[9]

在误差相关学习（error-correlation learning）的多层感知机中，会发生信用分配问题（Credit Assignment Problem，CAP）。^[10]信用分配问题是在一个复杂的学习系统中如何分配系统内部成员对总体结果的贡献或者责任（blame）。^[10]反向传播算法的误差项间接反映了不同神经元对网络能力的贡献程度，以一种精致的方式解决了深度学习中的信用分配问题。^[11]信用分配问题在多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）中也有体现，主要用于对每个智能体的评价，用于防止懒惰学习者（lazy agent）。

保罗·沃博斯（Paul Werbos）^[12]在博士论文中分析了将信用分配的反向流动（a backwards flow of credit assignment），即反向传播用于神经网络方面的可能性，但没有发表这方面的研究。大卫·鲁梅尔哈特（David Rumelhart）等人在20世纪80年代重新发现了这个方法。1986年出现的并行分布式处理模型^[13]引入多层非线性神经网络，解决了异或（XOR）等线性不可分问题。多层非线性神经网络，即多层感知机（Multi-Layer Perceptrons），是一种特殊的前馈网络，形式上是全连接（fully-connected）的邻接网络（adjacent network），在单层神经网络的基础上引入了一到多个隐藏层（hidden layer），隐藏层位于输入层和输出层之间，每个隐藏层的输出通过激活函数（activation function）进行变换。隐藏层的神经元扮演着特征检测算子（feature detector）的角色。学习过程是通过多层感知器不断进行的，隐藏神经元通过将输入数据非线性变换到特征空间，开始逐步“发现”刻画训练数据的突出特征。因为各个分层上所包含的节点跟经过极度简化后的神经元有相似之处，所以被称为神经网络，网络节点之间的连接，被称为连接权重，简称权重。并行分布式处理模型引入的误差的反向传播（Backpropagation，BP）算法，是统计学方法中随机逼近方法^[14]的应用，是线性LMS算法的自然延伸，也可以算作是梯度下降法（Gradient Descent，GD）的一种。反向传播算法的核心即对整个网络所有可能的路径重复使用链式法则。当采用误差平方和准则（sum-squared error criterion）进行反向传播算法训练时，多层非线性神经网络可以产生一个相应于贝叶斯判别函数的最小二乘判别。^[15]这样就跟冯·诺依曼的统计博弈论思想产生了联系。

然而，由于反向传播算法依然需要找到输出层的错误并且连续地将错误原因归类到之前的各个分层，如果隐藏层过多，不同层的学习率差异很大，表现为网路中靠近输出的层学习情况很好，靠近输入的层学习得很慢。对激活函数进行求导，如果此导数部分大于1或小于1，那么随着隐藏层数目的增加，最终求出的梯度更新将以指数形式增加或减少，分类准确率反而下降，这就是“梯度消失或梯度爆炸问题”（vanishing and exploding gradient problem）。由于反向传播的限制，通过反向传播来训练递归神经网络、学习长时间的信息比较困难。于尔根·施米德胡贝（Jürgen Schmidhuber）和泽普·霍赫赖特（Sepp Hochreiter）在1997年引入了一个十分重要的概念“长短期记忆”（Long Short Term Memory, LSTM），^[16]该算法通过一种巧妙的设计，解决了如何通过训练递归神经网络来避免长期依赖^[17] ^[18]的问题。

1982年，约翰·霍普菲尔德（John Hopfield）在研究明斯基、佩珀特和罗森布拉特的感知机的思想时，根据能量空间上局部最小值的直觉，意识到神经元网络存储不同的记忆可以用相空间（phase space）上的吸引子（attractor）来完成，从数学和统计物理学角度解决了强交互网络的收敛性问题，做出了模式识别的新数学模型——后来被称为Hopfield网络（Hopfield Neural Network，HNN）。^[19]霍普菲尔德引入了能量函数的概念，使此前不容易分辨的神经网络稳定性的判别有了良好的依据。Hopfield网络是一种以全连接加权无向图表示的单层反馈神经网络，在某些分类标准下，也被看作是一种早期循环神经网络（Recurrent Neural Network, RNN）。Hopfield 网络有离散（Discrete Hopfield Neural Network，DHNN）和连续（Continuous Hopfield Neural Network，CHNN）两种。离散 Hopfield 网络主要用于联想记忆，可以解决一大类模式识别问题，连续Hopfield网络主要用于优化计算功能，可以给出一类组合优化问题的近似解，引发了神经网络在20世纪80年代的复兴。到1998年，约夫·弗洛伊德（Yoav Freund）和罗伯特·夏派尔（Robert Schapire）采用希尔伯特、施密特、冯·诺依曼的核方法，对罗森布拉特的原始感知机算法做了很大改进，将其视作一种在线的线性分类算法，提出核感知机算法 (kernel perceptron)，性能得到极大提升，有点石成金之神奇。^[20]而基于在线学习（online learning）中的后悔最小化算法（Regret Minimization）^[21]可以证明冯·诺依曼的极小极大定理，这样，感知机算法就与冯·诺依曼的博弈论产生了直接联系^[22]。

2022年杰弗里·辛顿（Geoffery Hinton）在一次访谈中提到，他之所以在几乎所有人都不看好神经网络的时候坚持做神经网络，是因为冯·诺伊曼及其学生图灵的支撑。辛顿说，冯·诺伊曼和图灵相信神经网络，“他们是强大到足以左右整个领域的智者”。^①

这里，存在着一条从冯·诺伊曼1948年在加州理工学院的Hixon演讲进化到辛顿的深度学习的路径：20世纪50年代，杰克·考恩继承了冯·诺依曼的思想，并帮助明斯基将佩珀特招到MIT；之后，马尔、托马索·波吉奥（Tomaso Poggio）先后来到MIT。霍普菲尔德正是受到这些人的影响发明了Hopfield网络。辛顿和谢诺夫斯基的Boltzman机改进了Hopfield网络，之后的深度Boltzman机又是对Boltzman机的深化。

从冯·诺伊曼到辛顿，还有其他人的影响。根据谢诺夫斯基的回忆，^[9]辛顿1982年至1987年在卡内基梅隆大学任教期间，在艾伦·纽厄尔（Allen Newell）的支持下开展神经网络的研究。纽厄尔的第一份工作是在兰德公司数学部门，将博弈论应用到组织理论，后来还研究过语音识别，所以对辛顿所研究的模式识别中的一支——神经网络并不陌生。卡内基梅隆大学和谢诺夫斯基当时任教的约翰霍普金斯大学很近，辛顿和谢诺夫斯基经常在周末聚在一起讨论神经网络方面的最新进展。他们沿着明斯基、佩珀特和罗森布拉特指出的道路，基于冯·诺依曼的概率逻辑构造高可靠冗余神经网络的思想，^[23]1983年将Hopfield网络发展成为Boltzmann机^[24] ^[25]。由于这种概率统计法则的表达形式与Boltzmann分布类似，所以他们将这种网络取名Boltzmann机，由此辛顿和谢诺夫斯基在不经意间复活了冯·诺依曼的思想。Boltzmann机有着和感知机非常相似的单元，采用极大似然估计，其极大似然梯度需要使用难以处理的配分函数（Partition Function）来近似。Boltzmann机可以解决感知机解决不了的镜像对称学习问题。^[26]Boltzmann机可以是监督的，也可以是无监督的。Boltzmann机是离散变量上概率质量函数的通用逼近器，^[27]是执行冯·诺依曼的Monte Carlo算法的、有隐藏单元的、最小化能量的随机Hopfield网络，学习过程很慢。深度Boltzmann机是一个有着许多消失的连接的Boltzmann机，加快了学习过程。深度学习也开始拥有了冯·诺依曼思想的强大基因。

1986年，保罗·斯莫伦斯基（Paul Smolensky）提出受限Boltzman机，这是深度概率模型最常见的组件之一。受限Boltzman机含有负能量项，斯莫伦斯基称负能量为“调和”（Harmony），所以受限Boltzman机又称为“簧风琴”（Harmonium）。^[28]^[29]受限Boltzman机与一般的Boltzman机一样，都是基于能量的模型（Energy-based Model，EBM），其联合概率分布由能量函数指定，能够以很高的自由度学习因变量，采用Markov链从基于能量的模型（EBM）中进行一种特殊形式的马尔可夫蒙特卡洛算法。受限Boltzman机与一般的Boltzman机的区别在于，前者在任何两个可见单元或任何两个隐藏单元之间没有直接的相互作用，一般的Boltzman机则有。

辛顿基于受限Boltzman机的深度信念网络^[30]的引入，显著提高了语音识别的精度。^[31]^[32]根据西蒙·哈肯（Simon Haykin）^[33]的说法，辛顿的深度信念网络可以追溯到奥利弗·塞尔弗里奇（Oliver Selfridge）的泛魔模式识别系统（Pandemonium Model) ，^[34]而塞尔弗里奇的泛魔模式识别系统是一个图像识别设备，是冯·诺伊曼的细胞神经网络和博弈论的结合，其中进行特征检测的“恶魔”（demons）需要通过博弈来争取代表图像中对象的权力。谢诺夫斯基称塞尔弗里奇的泛魔模式识别系统是“深度学习的隐喻”。^[9]深度信念网络可以使用贪心逐层无监督预训练算法（Greedy Layer-Wise Unsupervised Pretraining）进行有效的训练，这种算法能够为多层联合训练过程找到一个好的初始值，甚至可以训练全连接结构的神经网络，^[35]^[36]突破了此前只能训练深度卷积神经网络（DCNN）或深度循环神经网络（DRNN）这类特殊结构的神经网络的局限性，使训练一般的深度神经网络变得具有可行性，为工业界大规模接受深度学习做好了准备，深度信念网络也因此成为深度学习算法的早期主要框架之一。

1995年，辛顿等 ^[37]根据赫姆霍兹的理论，将人的感知系统看作是对感知到的输入做统计推断，提出了最小化Helmholtz自由能的Helmholtz机。将Helmholtz机用于Boltzmann机的监督学习和无监督学习问题时，训练速度比Boltzmann机要快很多。从变分推断的角度看，Helmholtz机衍生出了几个模型，变分自编码器（Variational AutoEncoders，VAE）是其中之一。变分自编码器能够学习出高容量且过完备（overcomplete）的模型，发现输入数据中有用的结构信息，并且不需要对模型进行正则化。变分自编码器的损失函数比约书亚·本吉奥（Yoshua Bengio）及其学生提出的、基于零和博弈的生成对抗网络（Generative Adversarial Network，GAN）^[22]多了一项，即新分布与旧分布之间的距离的KL（Kullback-Leibler）散度。GAN包括两个网络：生成器和鉴别器。GAN网络使用反向传播算法，执行无监督学习。从博弈的Helmholtz-Hodge分解角度看，^[38]Helmholtz机或变分自编码器的两项损失函数对应于一个博弈流分解为位势项和调和项两项背后的统计学习。^[39]达纳·巴拉德（Dana Ballard）、辛顿和谢诺夫斯基认为，如果用网络模型中的节点表示图像中的特征，网络中的连接实现了特征间的约束条件，那么在视觉中，必须找到满足所有约束条件的所有特征的调和表示（harmonic representation）。Boltzmann机克服了Hopfield网络仅能提供局部能量最小值的缺点，可以找到满足所有约束条件的所有特征的调和表示，从而可以解决需要全局能量最小值的视觉问题。他们提出，互相兼容的节点具有积极的相互作用，不兼容的节点具有消极的相互作用。^[40]这两种相互作用也正好对应于一个博弈流分解为位势项和调和项两项背后的统计学习。^[39]

杨立昆（Yann LeCun）受霍普菲尔德、辛顿和谢诺夫斯基的影响，加入了冯·诺依曼和麦卡洛克等人开创的神经网络的行列，形成了从冯·诺依曼的基于模拟信号的Fourier变换到杨立昆等人的卷积神经网络（CNN）以及深度卷积神经网络的理论演化路径。1989年，杨立昆验证了反向传播算法在手写邮政编码识别中的应用，突破了计算机整齐划一的思维方式，使计算机可以识别人类书写混乱、笔画也不连贯的字迹。辛顿说，时延神经网络（Time-Delay Neural Networks, TDNN）^[40]的理念启发了杨立昆开发卷积神经网络，^[41]时延神经网络是用于时间序列的一维卷积神经网络，而杨立昆开发的卷积神经网络是二维的。福岛邦彦（K Fukushima）^[42]将大卫·休伯尔（David H Hubel）和托尔斯滕·威塞尔（Torsten N Wiesel）^[43]的关于哺乳动物视觉系统的简单细胞和复杂细胞的思想付诸实施，引入了一个处理图片的模型架构，打造了神经认知机（Neocognitron），后来成为CNN的基础。卷积神经网络也是一种特殊的前馈网络。典型的卷积神经网络由卷积层、池化层、全连接层构成，具有稀疏交互，或稀疏连接，或稀疏权重的特征。杨立昆和本吉奥等^[44]的最早、最基本的CNN架构之一——LeNet-5架构，仍然源自专为手写和机器打印字符识别而设计的模式识别。

AlexNet^[45]是第一个现代卷积神经网络模型。与相对较小的 LeNet-5相比，AlexNet包含5个卷积层、3个池化层(Pooling Layer)和3个全连接层，最后的优化目标是最大化平均的多项logistic回归（multinomial logistic regression）。AlexNet不用预训练和逐层训练，首次使用了多种深度卷积神经网络技术，如采用GPU进行并行训练；所有卷积层都没有采用需要进行求幂运算的Sigmoid 激活函数，而是都改成了更加简单的非线性ReLu激活函数，使模型收敛速度更快；引入了大量的图像增广，如翻转、裁剪和颜色变化，采用数据增强（Data Augmentation）提高模型准确性；采用重叠的最大池化层（overlapping max pooling），而不是此前CNN中普遍使用的平均池化（mean pooling），避免了平均池化的模糊化效果，池化步长比池化核的尺寸小的“重叠”，提升了输出特征的丰富性；在前两个池化层之后进行局部响应归一化（Local Response Normalization，LRN），增强模型的泛化能力；使用带动量的mini-batch随机梯度下降法进行参数更新；采用丢弃法（Dropout）来控制全连接层的模型复杂度，选择性地忽略训练中的单个神经元，防止过拟合。

深度学习在语音识别和图像分类等任务上的巨大成功，共同开启了深度学习的复兴。AlexNet直接影响了其后CNN的发展脉络。GoogLeNet^[46]、VGGnet^[47]和ResNet^[48] 等等，都从AlexNet延伸发展而来。

2. 从深度学习到大模型

Transformer是一个基于多头自注意力（Multi-Head Self-Attention）的序列到序列（seq2seq）模型。^[49]Transformer抛弃了传统的CNN和RNN，能提高表示能力，降低训练时间。整个网络结构完全是基于注意力机制，仅由自注意和前馈神经网络组成。自注意的初衷是为了用注意力替代由于时序依赖特效很难并行的长短期记忆（LSTM），从而可以更好地并行，处理更大规模的语料。Transformer采用了编码器-解码器架构，编码器负责将输入序列转换为隐表示，包含多层的多头自注意力模块、前馈神经网络模块以及添加的残差块和层归一化模块；解码器是通过自回归的方式生成目标序列，负责将隐表示转换为输出序列，包含掩蔽自注意力（Masked Self-Attention）模块、解码器到编码器注意力模块和逐位置的前馈神经网络模块（Position-wise Feed Forward Network）。解码器将上述三个步骤重复多次，最后通过一个全连接的前馈神经网络计算输出概率。

谷歌团队提出的用于生成词向量的双向Transformer的编码器表示（Bidirectional Encoder Representations from Transformer，BERT）算法^[50]是一个基于多层双向转换解码的预训练和微调（Fine-Tuning）两阶段模型，第一阶段双向语言模型预训练，第二阶段采用具体任务微调或者做特征集成。BERT算法的最重要的部分是从Transformer发展起来的。BERT相对于RNN来说更加高效，特征抽取能力更强，能捕捉更长距离的依赖；相对于单向的生成式预训练（Generative Pre-Training，GPT），BERT是双向的；相对于采用LSTM的ELMO模型（Embedding from Language Models），BERT采用的是效果更好的特征提取器Transformer。但是BERT有两个缺点，虽然采用无监督学习和有监督学习结合，即“预训练+微调”的模式，但还是不能缺少特定领域一定量的标注数据；由于领域标注数据有限，模型过于死板，只适用于训练数据，会导致 BERT 模型过拟合，难以应用到其他领域，即通用能力不足。

2020年5月，Open AI 发表了一篇开创性的论文，^[51]介绍了GPT-3系列模型通过扩大语言模型的参数规模，可以极大地提高与任务无关的、少样本学习性能，有时甚至可以与现有的当前最佳微调方法相提并论。GPT-3是一个具有1750亿个参数的自回归语言模型，使用仅有解码器的体系结构。GPT-3使用了几乎所有来自互联网的可用数据进行训练，在许多NLP数据集上均具有出色的性能。GPT-3使用下一个单词预测目标进行训练，通过很少的学习，学习时没有梯度更新。GPT-3采用了不同的学习方法，不需要大量标记数据来推断新问题。相反，它可以不从数据（零次学习，Zero-Shot Learning）中学习，只从一个例子（一次学习，One-Shot Learning）或几个例子（少样本学习，Few-Shot Learning）中学习，不管是Zero-shot、One-shot还是Few-shot都不需要再进行微调。但是，GPT-3也面临很多挑战，也存在着对模型偏差、公平和可解释性等问题。

3. 理论

深度学习的深层模型、大模型（large models）或基础模型（foundation models）效果越来越好，但其理论基础一直令科学家困惑。

多层前馈神经网络往往被看作是一个通用逼近器。通用逼近定理（Universal Approximation Theorem）证明，一个包含足够多但有限数量的神经元的隐藏层的神经网络，可以在激活函数的某些条件下，以合理的精度逼近任何连续函数。^[52]^[53]^[54]安德鲁·巴伦（Andrew Barron）运用极化分解（polar decomposition）以及将余弦函数变成波包（turning cosines into bumps）两个技巧，采用逆傅里叶表示（inverse Fourier representation）将有限宽神经网络构造成一个等价的无限宽神经网络，给出了单隐层神经网络的可逼近性的傅里叶判定准则，发展了单隐层神经网络逼近定理。^[55]霍尔顿·李（Holden Lee）等人^[56]证明，n个满足某种傅里叶条件的Barron函数的组合，能够被n+1层神经网络所逼近，从而将Barron定理推广到多隐层神经网络逼近定理。重要的是，他们通过W₂ Wasserstein距离（W₂ Wasserstein distance）及其在生成对抗网络（AN）中的应用，^[57]部分地解释了作为深度生成模型（generative model）的神经网络的表示能力。^[56]在二维空间中，Wasserstein距离是平滑的，因此可以采用梯度下降法来优化参数，而KL散度和JS散度（Jensen-Shannon divergence）是突变的，要么最大要么最小，提供不了梯度。在高维空间中，Wasserstein距离的优点更突出，可以提供有意义的梯度；而KL散度和JS散度，在两个分布不重叠或者重叠部分可忽略的情况下，既反映不了远近，也提供不了梯度。基于核方法，可以通过复制核希尔伯特空间（RKHS）的最大平均差异（Maximal Mean Discrepancy，MMD）^[58]进行训练，如GAN之类的深度生成模型。由于Wasserstein距离是经典线性规划问题的一个连续版本，而经典线性规划对应零和博弈问题，所以连续版本的Wasserstein距离在作为零和博弈的GAN中的应用极其自然。

理解超参数化深度神经网络令人惊讶的良好性能是一个具有挑战性的理论问题。其中一个角度是核方法，深刻理解核方法可以更好地理解深度网络。^[59]亚瑟·雅科（Arthur Jacot）等人发现，无限宽度极限下的神经网络可以简化为一个具有神经正切核（Neural Tangent Kernel，NTK）^[60]的线性模型，这样就比较容易研究梯度下降。在使用随机梯度下降（SGD）优化参数下，其对应的随机样本，在参数更新非常小的一给梯度步后，函数本身会发生变化，神经正切核是衡量这种变化的函数。通过对网络函数及其初始化周围的权重做泰勒展开，将这个非线性网络函数转化成简单的线性权重函数，并对所有数据点的特征映射（feature mapping）取成对内积，可以得到线性化模型的特征映射所对应的神经正切核。由于正切核在训练过程中始终为常量，训练动态过程被简化为简单的线性常微分方程（ODE）。对于任意接近其线性近似的非线性模型，由于梯度流（gradient flow），即梯度下降的连续时间变化在参数空间中的轨迹近似于学习率足够小时该微分方程的解的轨迹，梯度流总是收敛到训练损失为0的平衡点。神经正切核让我们拥有“预测”在随机梯度下降（SGD）下变化的能力。雅科等人基于冯·诺依曼的合作伙伴勋伯格（I.Schoenberg）关于球面上正定函数的经典结论和阿米特·丹尼尔（Amit Daniely）等关于对偶激活函数（dual activation function）的结果，^[61]证明了球面上有限神经正切核的正定性。

桑杰夫·阿罗拉（ Sanjeev Arora）等人将雅科等人要求每一层的宽度都必须按顺序达到无穷大的结果改进为非渐近设置，其中每层的宽度仅需要大于某个有限阈值。^[62]由具有无限小步长即梯度流的梯度下降训练的适当随机初始化的、足够宽的深度神经网络等价于具有确定性核的核回归预测器（Kernel Regression Predictor），即神经正切核，因此时变核（很有可能）总是接近确定性固定核。阿罗拉等人的研究还提出了卷积神经正切核（Convolutional Neural Tangent Kernel，CNTK）。霍尔顿·李等人采用启发式Monte Carlo方法（heuristic Monte Carlo methods）估计神经正切核（NTK）和卷积神经正切核（CNTK）。^[63]

米哈伊尔·贝尔金（Mikhail Belkin）等人采用随机傅立叶特征（Random Fourier Features，RFF）^[64]对深度神经网络进行拟合，发现了风险曲线“双下降”（Double Descent）的现象，认为与在过拟合（overfitting）和欠拟合（overfitting）之间取得平衡的经典的偏差–方差权衡（Bias–Variance Trade-off）的U型曲线不一致。^[65]实际上，当采用随机梯度下降法（SGD）对自然三次样条曲线（natural cubic spline）表示的神经网络进行拟合时，确实会出现风险曲线“双下降”，但跟经典的偏差-方差权衡的U型曲线并不矛盾。^[66]可见，对深度学习的数学基础的研究还有待加强。

普雷图姆·纳基兰（Preetum Nakkiran）等人^[67]进一步发现了各种现代深度学习任务都表现出风险曲线“深度双下降”现象。他们认为，当模型容量接近于经典机器学习和深度学习的分界线“插值阈值”（interpolation threshold）时，梯度下降法可能会发现接近于零误差的模型，很可能导致过拟合。但是，当模型容量进一步提高，可实现零训练误差的不同模型的数量增加，一些模型平滑拟合数据的可能性增加，即发生过拟合的可能性减少。纳基兰等人的研究表明，双下降不仅作为模型大小的函数出现，而且还可以作为训练时间点数量的函数出现。他们通过定义一个有效模型复杂性（Effective Model Complexity）的新的复杂性度量来统一上述现象，并针对该度量推测一个广义的双下降。此外，他们定义的模型复杂性的概念使其能够确定某些方案，在这些方案中，增加（直至四倍）训练样本的数量实际上会损害测试性能。如果考虑更多的函数类，这些函数类包含更多与数据适配的候选预测因子，可以发现更简单的插值函数。因此，增加函数类容量将改进分类器的性能。

“深度双下降”扩展了贝尔金等人的“双下降”结论，通过实证证明了双下降对更广泛类型的深度学习模型的效果，以及它对模型大小、训练时间和数据集大小的适用性。

大模型或基础模型的理论基础仍然是希尔伯特、施密特、冯·诺依曼等人开创的核方法或其各种变形。大模型中几个影响深度学习全局的主要思想，如注意力机制、自注意力机制、Transformer架构，均出自并超越了循环神经网络。跟以前的小模型相比，大模型或基础模型多了康德先验论哲学^[68] 和语言哲学上的语境理论（Context Theory），^[69]^[70]这是一个巨大的进步。从2018年谷歌的BERT开始，自然语言处理领域的大模型开始走上预训练的道路，BERT可以说开创了人工智能的大模型时代。在基于深度学习的自然语言处理的大规模预训练模型中，对语境一直有着构造性的研究。任务相关预训练就是对语境的一个构造，采用Attention机制实现了利用上下文信息来表征文本信息，对提升模型的准确率有显著的效果。BERT的双向语境信息比之前的循环神经网络来说更加高效，^[50]特征抽取能力更强，能捕捉更长距离的依赖，即更长的策略系列相关性（SSC）。汤姆·布朗（Tom Brown）等人明确指出，大模型增加了语境信息的使用效率。^[71]领域和任务相关预训练，本质上就是在理解当前输入句子之前，通过在可能世界寻找世界的各种可能状态，即让模型提前理解相关领域和任务的各种可能的输入。这是一种临时构建的先验，也可以算作是一种临时搭建的语境。从哲学角度看，是康德先验论的一个应用。

事实上，尽管波兰尼（Michael Polanyi）对显性知识和默会知识的划分^[72]^[73]已经进入传统自然语言处理研究，^[74]但是Liu Yinhan等人^[75]、安娜·罗杰斯（Anna Rogers）等人^[76]针对BERT的研究表明，预训练大模型仍然经常处于欠拟合状态，如能引入人类先验知识或常识，则有助于提升整个模型的语言理解和推理能力。

大模型同时也带来了一些隐患，因为预训练大模型的缺陷会导致其所有的下游模型产生同样的缺陷。由于大模型的强大能力来自其巨大的参数空间的组合，导致大模型的可解释性比小模型更差，其能力和缺陷都存在更多的不确定性。在这种情况下，盲目将全球AI界整个研究范式完全向大模型转变并不可取，而是应当大小模型并举，同时更重要的是要加强基础理论的研究。

四、人工智能的未来

2018年图灵奖获得者杨立昆提出关于人工智能背后的科学原理的问题——在人工智能中，什么相当于飞机背后的空气动力学或者蒸汽机背后的热力学？这一问题显然直指一个更加现实的问题，即如何破解当前人工智能研究的局限性？面对现有人工智能研究的局限性，出路在究竟哪儿呢？基于对人工智能发展历程的梳理，本文认为，回到冯·诺依曼是一条可行的出路，即从作为人工自动机的数学基础的博弈动力学入手，进行深入研究。

从数学上看，人类智能的基本原理应当来自于博弈动力学，而人工智能的基本原理应当来自于博弈动力学（Gamedynamics）的逆问题：自动鲁棒机制设计（Automatic Robust Mechanism Design）。从机制设计角度看人工智能似乎比较容易理解，都是人在做设计。博弈动力学之于智能机器人设计，正如空气动力学之于飞机设计。所以，要从博弈动力学中推导出机器学习算法，进而用机器学习算法处理大数据，这样博弈论就接触到丰富多彩的生活世界。现在的问题是，做机制设计的数学家，只有一小部分做算法机制设计（Algorithmic Mechanism Design，AMD）的人开始在转向人工智能。而且，目前单纯的博弈论，只是研究解概念及其性质，在应用上很贫乏和空洞，因此也需要从博弈动力学及其逆问题自动鲁棒机制设计角度夯实。这其中的难点是博弈动力学如何从空气动力学中吸取营养。有趣的是，冯·诺依曼自己在1949年就研究过空气动力学，发表了一篇题为《空气动力学方程的解的存在性和唯一性或多样性的讨论》的论文。^[77]

如前所述，人工智能的原理应当基于博弈动力学的逆问题。由于优化和决策都是博弈的特例，人工智能的原理也可以称为优化动力学（Optimizationdynamics）和决策动力学（Decisiondynamics）的逆问题。那么，在人工智能中，相当于风和空气动力学的对应物是什么？这是人工智能将来想要取得成功的关键。相当于风和空气动力学的对应物或许可以是激励数据流（Incentive Data Flow）和博弈动力学或优化动力学或决策动力学。与人类大脑的各个脑区对源源不断的各种空间时间激励数据流进行即时的精确的估计，并做出相应的互动（贝叶斯)决策类似，机器人也应当对源源不断的各种空时激励数据流进行即时的精确的估计并做出相应的互动（贝叶斯）决策。

与空气动力学相比，博弈动力学目前尚处于极为早期的阶段。但博弈动力学也不是完全一片空白。从前的微分博弈，或称几何博弈，^[72]现在的博弈动力学，讲的其实是同一个东西。微分博弈，看来会以博弈动力学的形式重现。但目前的博弈动力学没有出现类似于纳维-斯托克斯方程那样成熟的方程，而只有生成对抗网络这样仅仅应用二人零和博弈、不鲁棒、容易出现对抗攻击的简单模型。^[78]即便是如此简单的想法，生成对抗网络仍然被杨立昆说成“是近20年来机器学习中最酷的想法”。正如卡洛斯·佩雷兹（Carlos Perez）在一篇题为《博弈论揭示了深度学习的未来》的文章中所说：目前，在深度学习领域中应用博弈论也仍然处于极为早期的阶段。由于深度学习系统需要适应于不完备知识领域以及协调系统，最新的深度学习框架设计元素实际上已经包含了博弈论的有关概念。^[79]哈特福特（J Hartford）等人 ^[80]通过结合认知偏差以及认知心理学中自我审视的局限性，采用行为博弈论表述深度学习，从而可以预测人在策略环境下的行为。约翰内斯·海因里希（Johannes Heinrich）和大卫·西尔弗（David Silver）^[81]采用的神经网络虚拟自我学习（Neural Fictitious Self Play）比生成对抗网络深入。神经网络虚拟自我学习是引入神经网络近似函数的虚拟自我学习（Fictitious Self Play），是一种端到端的、可以在自我训练中有效收敛到合作、位势博弈的纳什均衡的深度强化学习方法，这种方法可以应用于不完全信息博弈论中的近似纳什均衡。神经网络虚拟自我学习与以前的博弈论理论方法不同，在没有先验知识的情况下，神经网络虚拟自我学习是动态可伸缩的。所以，神经网络虚拟自我学习体现了博弈动力学的基本精神。

数学家塞吉·哈特（Sergiu Hart）在2008年国际博弈论学会的主席演讲（Presidential Address）中，对当前博弈动力学的现状做了一个描述，提出了一个类似于纳维-斯托克斯方程中质量守恒律、动量守恒律和能量守恒律之类的协调守恒律（Coordination Conservation Law），^[82]但他没有给出类似于前者的明确的数学表达式。从目前来看，要推导出与纳维-斯托克斯方程中质量守恒律、动量守恒律和能量守恒律之类的协调守恒律的明确的数学表达式，可能需要从哈特追求通用、自然的博弈动力学的立场往后退一步，回到博弈的Helmholtz-Hodge分解的出发点，即通过限定自己的范围，从而获得更多更好的性质。我们需要从博弈动力学中推出满足自复制自动机功能的冯·诺依曼机所必须遵循博弈动力学的三大守恒律：Population守恒律、信息守恒律和协调守恒律。

博弈动力学也要从神经科学吸取营养。神经科学家发现，人和动物的眼睛天生就是适应于互动的。从数学上看，机器视觉和博弈可以共同拥有一套工具，就是作为二阶偏微分算子的卷积。这大约可以解释神经科学家所说的人和动物的眼睛天生就是互动的。杨立昆所讲的“预测学习”^[83]与尼科洛·塞萨-比安奇（Nicolo Cesa-Bianchi）和加博尔·卢戈希（Gabor Lugosi）^[84]所讲的“预测、学习和博弈”，都应当从卷积的角度进行理解。神经科学家另一个有意义的发现是，位置细胞（place cell）、网格细胞（grid cell）和方向细胞（direction cell），这几类细胞是人和动物进行基于六边形结构的几何博弈的神经科学基础。例如，基于模型的强化学习可以解释T型迷宫中大鼠的位置学习。^[85]

博弈动力学，尤其是空间时间博弈动力学，也将借助机器人浪潮重新崛起。机器人，尤其是智能机器人的大潮势不可挡，但是，博弈动力学在智能机器人的大潮的作用体现得不够充分。在有限的文献中，汤姆林（C.J.Tomlin）等人^[86]对离散事件博弈动力学和连续时间非线性几何博弈动力学做了综述，其中博弈动力学与空气动力学融为一体。伯特霍尔德·霍恩（Berthold Horn）著有一本《机器视觉》，^[87]被称为“机器视觉的圣经”。由于深度学习已经表现出强大的空间推断、几何推理、语义理解的能力，因此，基于深度学习的三维重建和机器视觉等技术，要逐步纳入基于博弈的Helmholtz-Hodge分解^[38][39]和深度强化学习的三维空间时间博弈动力学的研究范围。

博弈的Holmholtz-Hodge正交分解（HHD）定理^[38]指出，任意完全信息博弈的二阶动力学可正交分解为位势项、无关项及调和项三部分；当无关项等于零时，二阶博弈动力学退化，正交分解为位势项和哈密尔顿项，^[88]这一同时适用于高维空间和低维空间的理论进展引发了博弈论数学基础的革命。策略相关性原理^[89]^[90]中的策略正相关、策略无关及策略负相关分别对应于位势项、无关项及调和项。

基于Fourier分析的策略相关性原理可为求解线性移不变和线性时不变的空间时间博弈的二阶动力学方程提供基本方法，图小波变换和图希尔伯特变换等更强大的工具，可将策略相关性原理扩展到图卷积网络^[91]和时间卷积网络 ^[92]等更一般的情形，为图深度学习、图对抗学习（Graph Generative Adversarial Network；Graph Variational Auto-Encoder）和图强化学习、图深度强化学习提供理论依据，融合策略相关性原理与简单策略方法，^[93]可以通过随机自适应博弈^[94]的Kalman滤波、逆向强化学习等工具提供感知层面的信息，克服迷雾带来的困扰，解决部分可观察马尔可夫决策过程环境交互过程中所面临的不完全信息博弈动力学的环境感知、动态决策与规划、行为控制与执行问题，从而把DeepMind AlphaX系列只能处理二维空间的博弈动力学推广为三维空间的博弈动力学。

五、结语

当然，这样一场科学革命所带来的并不全部都是正面的作用。随着年岁的增长，冯·诺依曼逐步认识到计算机等科学所带来的道德问题。其实冯·诺依曼早就意识到希尔伯特形式化纲领，即集合论的公理化和逻辑学的根本缺陷，而在不知不觉中发明了治疗计算机等科学所带来的道德问题的良药——博弈论。而博弈论在其应用中也不负众望地在人工智能的各种问题之间架起了一座桥梁，给出了人工智能的技术、伦理、法律和社会问题的统一分析框架，博弈动力学及其逆问题自动鲁棒机制设计，为鲁棒智能系统设计准备了数学工具。冯·诺依曼的女儿玛丽娜（Marina von Neumann Whitman）说：“我确信他的心中存在帕斯卡的赌注（Pascal’s Wager）——认为每个趋善避恶的人都应该相信上帝。”在冯·诺依曼最后岁月长期陪伴其身边的本笃会牧师安塞尔姆·斯特里特玛特（Anselm Strittmatter）回忆说：“当他越来越强烈地认识到，他和同事掌握的对自然物质力量的控制既可以为善也可以为恶时，他就觉得人类最伟大的现代科学所带来的道德问题越发迫切。”^[95] 因此，当我们为人工智能、智能机器人改变世界而欢呼的时候，不能忘记冯·诺依曼发出的警示。

冯·诺依曼的一生为科学献身。弗里曼·戴森（Freeman Dyson）^[96]把科学家分为两类，一类是高瞻远瞩的鸟，另一类是接地气的青蛙。他觉得冯·诺依曼属于接地气的青蛙。这是从传统科学的角度对冯·诺依曼产生的误解。其实，冯·诺依曼不仅是鸟，而且是超级大鸟。还好，弗里曼·戴森的失误在三年后由他的儿子乔治·戴森（George Dyson）在其《图灵的大教堂：数字宇宙的起源》^[97]一书中进行了部分的弥补，书中的主角明显是冯·诺依曼，而图灵在普林斯顿不过是匆匆过客。正如伦敦经济学院科学哲学家米克洛什·雷代（Miklós Rédei）的评价：如果谈论谁是在科学领域之间因为数学工作而辗转，而每做一份工作都能在其领域应用数学并产生长远的影响的，冯·诺依曼可以说是有史以来最具有影响力的数学家。^[98]

冯·诺依曼希望后来的科学家能够使用计算机发生一场撼动我们这个星球的科学革命。而如今，这样一场科学革命正在进行中。人工智能的历史和现实昭示我们，如果人类希望有一个美好的未来，就应当毫不犹豫地回到冯·诺依曼！

志谢：感谢在本文研究和撰写中与桂起权先生、Jingang Zhao先生的有益讨论。

① 有关访谈资料可以在这个网页上查看：https://www.therobotbrains.ai/who-is-geoff-hinton。

参考文献

[1]	Chow Chao-Kong. An Optimum Character Recognition System Using Decision Functions. IRE Transactions on Electronic Computers, 1957, EC-6(4): 247-254. DOI: 10.1109/TEC.1957.5222035.
[2]	Von Neumann John. The General and Logical Theory of Automata. Presented at Hixon Symposium on Cerebral Mechanisms in Behavior. John von Neumann’s Collected Works Vol 5. Edited by A. H. Taub. New York:Macmillan, 1963, : 288-328.
[3]	Von Neumann John. Lectures on Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components. Shannon, Claude, John McCarthy ed. Automata Studies. Princeton University Press, 1956, : 43-99.
[4]	Hebb D. O. The Organization of Behavior: A Neuropsychological Theory. J. Wiley; Chapman & Hall, 1949.
[5]	Rosenblatt Frank. The Perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 1958, 65(6): 386-408. DOI: 10.1037/h0042519.
[6]	Rosenblatt Frank. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Washington, DC: Spartan Books, 1962.
[7]	Minsky Marvin L. Papert Seymour. Perceptrons: An Introduction to Computational Geometry. Cambridge, MA: MIT Press, 1969.
[8]	Werbos P. J. Backwards Differentiation in AD and Neural Nets:Past Links and New Opportunities. Automatic Differentiation: Applications, Theory, and Implementations, 2006, : 15-34.
[9]	Sejnowski Terrence. Deep Learning Revolution. MIT Press, 2018.
[10]	Minsky Marvin L. Steps Toward Artificial Intelligence. Proceedings of the Institute of Radio Engineers, 1961, 49: 8-30.
[11]	Haykin Simon. Neural Networks and Learning Machines. 3rd ed. Pearson Education, 2009.
[12]	Werbos Paul J. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Cambridge, MA: Harvard University, 1974.
[13]	Rumelhart David. E., Geoffrey. E. Hinton, R. J. Williams. Learning Representations by Back-propagating Errors. Nature, 1986, 323: 533-536. DOI: 10.1038/323533a0.
[14]	Robbins H., S. Monro. A Stochastic Approximation Method. The Annals of Mathematical Statistics, 1951, 22: 400-407. DOI: 10.1214/aoms/1177729586.
[15]	Duda Richard O. , Peter E. Hart, David G. Stork. Pattern Classification. New York: John Wiley & Sons, 2001.
[16]	Hochreiter S., Schmidhuber J. Long Short-term Memory. Neural computation, 1997, 9(8): 1735-1780. DOI: 10.1162/neco.1997.9.8.1735.
[17]	Hochreiter S. Untersuchungen zu Dynamischen Neuronalen Netzen [in German] Diploma thesis. TU Münich, 1991.
[18]	Bengio Yoshua, P. Simard; P. Frasconi. Learning Long-term Dependencies with Gradient Descent is Difficult. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166. DOI: 10.1109/72.279181.
[19]	Hopfield J. J. Neural Networks and Physical Systems with Emergent Collective Computational Abilities. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558. DOI: 10.1073/pnas.79.8.2554.
[20]	Freund Y., R. E. Schapire. Large Margin Classification Using the Perceptron Algorithm. Machine learning, 1999, 37(3): 277-296. DOI: 10.1023/A:1007662407062.
[21]	Hannan J. Approximation to Bayes Risk in Repeated Play. Contributions to the Theory of Games, 1957, 3(2): 97-139.
[22]	Mohri M., A. Rostamizadeh A. Talwalkar. Foundations of Machine Learning. MIT press, 2018.
[23]	Cowan Jack David. Von Neumann and Neural Networks. In J. Glimm, J. Impagliazzo and I. Singer (eds. ), The Legacy of John von Neumann, American Mathematical Society, Providence, 1990: 243–274.
[24]	Hinton Geoffery E. , Terrence J. Sejnowski. Analyzing Cooperative Computation. Rochester, New York: 5th Annual Congress of the Cognitive Science Society, 1983a. http://digitalcollections.library.cmu.edu/awweb/awarchive?type=file&item=360445. [2022-04-25]
[25]	Hinton Geoffrey E., Terrence J. Sejnowski. Optimal Perceptual Inference. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, D. C. : IEEE Computer Society. 1983b: 448–453.
[26]	Sejnowski Terrence J., Paul K. Kienker, Geoffrey E. Hinton. Learning Symmetry Groups with Hidden Units: Beyond the Perceptron. Physica D: Nonlinear Phenomena. 1986, Vol 22, 260-275.
[27]	Le Roux N., Y. Bengio. Representational Power of Restricted Boltzmann Machines and Deep Belief Networks. Neural Computation, 2008, 20(6): 1631-1649. DOI: 10.1162/neco.2008.04-07-510.
[28]	Smolensky Paul. Information Processing in Dynamical Systems: Foundations of Harmony Theory. Rumelhart David E. , James L. McClelland (eds). Parallel Distributed Processing, Volume 1:Explorations in the Microstructure of Cognition:Foundations, MIT Press, 1986, : 194-281.
[29]	Smolensky Paul, Géraldine Legendre. The Harmonic Mind: From Neural Computation to Optimality-Theoretic Grammar, Volume I: Cognitive Architecture; Volume II: Linguistic and Philosophical Implications. MIT Press, 2006.
[30]	Salakhutdinov Ruslan, Geoffrey Hinton. Using Deep Belief Nets to Learn Covariance Kernels for Gaussian Processes. Conference on Neural Information Processing Systems, 2008.
[31]	Dahl George E., Dong Yu, Li Deng, Alex Acero. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition. In IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42. DOI: 10.1109/TASL.2011.2134090.
[32]	Hinton Geoffrey, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury. Deep Neural Networks for Acoustic Modeling in Speech Recognition:The Shared Views of Four Research Groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97. DOI: 10.1109/MSP.2012.2205597.
[33]	Haykin Simon. Neural Networks and Learning Machines, 3rd ed. Pearson Education, 2009.
[34]	Selfridge Oliver G. Pandemonium: a paradigm for learning. In D. V. Blake, A. M. Uttley (eds.), Proceedings of the Symposium on Mechanisation of Thought Processes, 1959: 511-529.
[35]	Hinton Geoffrey E., Simon Osindero, Yee-Whye Teh. A Fast Learning Algorithm for Deep Belief Nets. Neural computation, 2006, 18(7): 1527-1554. DOI: 10.1162/neco.2006.18.7.1527.
[36]	Bengio Yoshua, P. Lamblin, D. Popovici, H. Larochelle. Greedy Layer-wise Training of Deep Networks. Advances in Neural Information Processing Systems, 2007, 19: 153.
[37]	Hinton Geoffrey E., P. Dayan, B. J. Frey, R. M. Neal. The Wake-Sleep Algorithm for Unsupervised Neural Networks. Science, 1995, 268: 1158-1160. DOI: 10.1126/science.7761831.
[38]	Candogan Ozan, Ishai Menache, Asuman Ozdaglar, Pablo A. Parrilo. Flows and Decompositions of Games:Harmonic and Potential Games. Mathematics of Operation Research., 2011, 36(3): 474-503. DOI: 10.1287/moor.1110.0500.
[39]	Smale Stephen, Nat Smale. Hodge Decomposition and Learning Theory. Learning Theory and Approximation, 2008, : 7-8.
[40]	Ballard Dana H., Geoffery E. Hinton, Terrence J. Sejnowski. Parallel Visual Computation. Nature, 1983, 306: 21-26. DOI: 10.1038/306021a0.
[41]	LeCun Yann, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1989, 1(4): 541-551. DOI: 10.1162/neco.1989.1.4.541.
[42]	Fukushima K. Neocognitron: A Self-organizing Neural Network Model for a Nechanism of Pattern Recognition Unaffected by Shift in Position. Bid. Cybemet., 1980, 36: 193-202.
[43]	Hubel David H. , Torsten N. Wiesel. Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex. Journal of Physiology, 1962, 160(1): 106-154. DOI: 10.1113/jphysiol.1962.sp006837.
[44]	LeCun Yann, L. Bottou, Y. Bengio, P. Haffner. Gradient-based Learning Applied to Document Recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI: 10.1109/5.726791.
[45]	Krizhevsky, A., I. Sutskever, G. E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems, 2012, : 1097-1105.
[46]	Szegedy C., W. Liu, Y. Jia, et al. Going Deeper with Convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, : 1-9.
[47]	Simonyan K. , A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. International Conference on Learning Representations, 2015.
[48]	He K., X. Zhang, Ren S. , J. Sun. Deep Residual Learning for Image Recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, : 770-778.
[49]	Vaswani A, N. Shazeer, N. Parmar, et al. Attention is All You Need. Advances in Neural Information Processing Systems, 2017, : 5998-6008.
[50]	Devlin Jacob, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT, 2019, 2019: 4171-4186.
[51]	Brown T., B. Mann, N. Ryder, et al. Language Models are Few-shot Learners. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[52]	Cybenko G. Approximation by Superpositions of a Sigmoid Function. Mathematics of Control, Signals, and Systems, 1989, 2: 303-314. DOI: 10.1007/BF02551274.
[53]	Funahashi Ken-Ichi. On the Approximate Realization of Continuous Mappings by Neural Networks. Neural networks, 1989, 2(3): 183-192. DOI: 10.1016/0893-6080(89)90003-8.
[54]	Hornik K., M. Stinchcombe, H. White. Multilayer Feedforward Networks Are Universal Approximators. Neural Networks, 1989, 2(5): 359-366. DOI: 10.1016/0893-6080(89)90020-8.
[55]	Barron Andrew R. Universal Approximation Bounds for Superpositions of a Sigmoidal Function. IEEE Transactions on Information Theory, 1993, 39(3): 930-45. DOI: 10.1109/18.256500.
[56]	Lee Holden, Rong Ge, Tengyu Ma, Andrej Risteski, Sanjeev Arora. On the Ability of Neural Nets to Express Distributions. Proceedings of Machine Learning Research, 2017, 65: 1-26.
[57]	Arjovsky Martin, Soumith Chintala, Léon Bottou. Wasserstein GAN. Proceedings of International Conference on Machine Learning, 2017.
[58]	Muandet Kirkamol, Kenji Fukumizu, Bharath Sriperumbudur, and Bernhard Schlkopf. Kernel Mean Embedding of Distributions: A Review and Beyond. Foundations and Trends in Machine Learning, 2017, 10(1-2): 1-141. DOI: 10.1561/2200000060.
[59]	Belkin M., S. Ma, S. Mandal. To Understand Deep Learning We Need to Understand Kernel Learning. International Conference on Machine Learning. PMLR, 2018, : 541-549.
[60]	Jacot A., F. Gabriel, C. Hongler. Neural Tangent Kernel:Convergence and Generalization in Neural Networks. Advances in neural information processing systems, 2018, : 31.
[61]	Daniely A., R. Frostig, Y. Singer. Toward deeper understanding of neural networks: The power of initialization and a dual view on expressivity. Advances in neural information processing systems, 2016, 29.
[62]	Arora S., S. S. Du, W. Hu, et al. On Exact Computation with an Infinitely Wide Neural Net. Advances in Neural Information Processing Systems, 2019, 32: 8141-8150.
[63]	Lee J., L. Xiao, S. Schoenholz, et al. Wide Neural Networks of Any Depth Evolve as Linear Models under Gradient Descent. Advances in Neural Information Processing Systems, 2019, : 32.
[64]	Rahimi Ali, Benjamin Recht. Random Features for Large-scale Kernel Machines. Advances in Neural Information Processing Systems, 2007, 20: 1177-1184.
[65]	Belkin Mikhail, Daniel Hsu, Siyuan Ma, Soumik Mandal. Reconciling Modern Machine-learning Practice and the Classical Bias–variance Trade-off. Proceedings of the National Academy of Sciences of the United States of America (PNAS), 2019, 116(32): 15849-15854. DOI: 10.1073/pnas.1903070116.
[66]	Witten Daniela. The Bias-Variance Trade-Off & "Double Descent". https://threadreaderapp.com/thread/1292293102103748609.html. [2020-08-09].
[67]	Nakkiran P., G. Kaplun, Y. Bansal, et al. Deep Double Descent:Where Bigger Models and More Data Hurt. Journal of Statistical Mechanics: Theory and Experiment, 2021, (12): 124003. DOI: 10.1088/1742-5468/ac3a74.
[68]	Kant Immanuel. Kritik der Reinen Vernunft. Hamburg: Meiner, 1787.
[69]	Stalnaker Robert C. Context and Content: Essays on Intentionality in Speech and Thought. Oxford: Oxford University Press, 1999.
[70]	Stalnaker Robert C. Context. Oxford: Oxford University Press, 2014.
[71]	Brown Tom B. , Benjamin Mann, Nick Ryder et al. Language Models are Few-Shot Learners. [2020-07-22]. https://arxiv.org/abs/2005.14165.
[72]	Polanyi Michael. Personal Knowledge: Towards a Post-Critical Philosophy. London: Routledge, 1958.
[73]	Polanyi Michael. The Tacit Dimension. New York: Doubleday, 1966.
[74]	Liu Xiaodong, Yelong Shen, Kevin Duh, Jianfeng Gao. Stochastic Answer Networks for Machine Reading Comprehension. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics:, 2018, 1: 1694-1704.
[75]	Liu Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, MikeLewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A robustly optimized BERT pre-training approach//International Conference on Learning Representations ICLR, 2020.
[76]	Rogers Anna, Olga Kovaleva, Anna Rumshisky. A Primer in Bertology: What We Know about How BERT Works. Transactions of the Association for Computational Linguistics:, 2020, 8: 842-866. DOI: 10.1162/tacl_a_00349.
[77]	Von Neumann John. Discussion on the Existence and Uniqueness or Multiplicity of Solutions of the Aerodynamical Equations. Problems of Cosmical Aerodynamics, Proceedings of the Symposium on the Motion of Gaseous Masses of Cosmical dimensions. Dayton, Ohio: Central Air Documents Office, 1951.
[78]	Goodfellow I., J. Pouget-Abadie, M. Mirza, et al. Generative Adversarial Nets. Advances in Neural Information Processing Systems, 2014, : 27.
[79]	Perez Carlos E. Game Theory Reveals the Future of Deep Learning. https://www.kdnuggets.com/2016/12/game-theory-reveals-future-deep-learning.html. [2016-12-29].
[80]	Hartford J. S., J. R. Wright, K. Leyton-Brown. Deep learning for predicting human strategic behavior. Advances in neural information processing systems, 2016, 29.
[81]	Heinrich J., D. Silver. Deep Reinforcement Learning from Self-play in Imperfect-Information Games. arXiv: 1603.01121, 2016.
[82]	Hart Sergiu. Dynamics and Equilibrium. Presidential Address at GAMES, 2008.
[83]	LeCun Yann. Predictive Learning. Advances in Neural Information Processing Systems (NIPS 29), 2016.
[84]	Cesa-Bianchi Nicolo, Gabor Lugosi. Prediction, Learning, and Games. Cambridge University Press, 2006.
[85]	Lee Daeyeol. Birth of Intelligence: From RNA to Artificial Intelligence. Oxford University Press, 2020.
[86]	Tomlin C. J., J. Lygeros, S. Sastry. A Game Theoretic Approach to Controller Design for Hybrid Systems. Proc. IEEE., 2000, 88(7): 949-970. DOI: 10.1109/5.871303.
[87]	Horn Berthold. K. P. Robot Vision. MIT Press, 1986.
[88]	Balduzzi D., S. Racaniere, J. Martens, et al. The Mechanics of N-player Differentiable Games. /International Conference on Machine Learning. PMLR, 2018, : 354-363.
[89]	Wu John. Correlated Equilibrium of Bertrand Competition. Papadimitriou, C. , Zhang, S. (eds. ), International Workshop on Internet and Network Economics (WINE 2008), Lecture Notes in Computer Science (LNCS) 5385, Berlin: Springer-Verlag, 2008: 166-177.
[90]	Jianxia Yang, John Wu. Strategic Correlativity and Network Games. Economic Modelling, 2013, 30(1): 663-669.
[91]	Bruna Joan, Wojciech Zaremba, Arthur Szlam, Yann LeCun. Spectral Networks and Locally Connected Networks on Graphs. International Conference on Learning Representations. CBLS, 2014.
[92]	Bai S., J. Z. Kolter, V. Koltun. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling. arXiv: 1803.01271, 2018.
[93]	Neyman Abraham, Daijiro Okada. Strategic Entropy and Complexity in Repeated Games. Games and Economic Behavior, 1999, 29(1): 191-223.
[94]	袁硕, 郭雷. 随机自适应动态博弈. 中国科学: 数学, 2016, 46(10): 1367-1382.
[95]	Norman Macrae. John von Neumann. Pantheon, 1992.
[96]	Dyson Freeman. Birds and Frogs. Notices of the AMS, 2009, 56(2).
[97]	Dyson George. Turing’s Cathedral: The Origins of the Digital Universe. Vintage, 2012.
[98]	Miklós Rédei (eds). John von Neumann: Selected Letters. AMS/LMS History of Mathematics, 2005.

Back to Von Neumann!
——The origin, development and future of artificial intelligence (continued)

WU Jiao-su^1,2, LI Zhen-zhen²

1. University of Chinese Academy of Science;
2. Institutes of Science and Development, Chinese Academy of Science

Abstract: By sorting out the origins and lines of development of artificial intelligence and reconnecting with the significant contributions of von Neumann and others in the history of artificial intelligence, this paper attempts to find a viable von Neumann path for the future of artificial intelligence, i.e. by developing gamedynamics as the mathematical basis of artificial automata, to clear the way for the development of artificial intelligence and, in particular, for intelligent robots.

Keywords: von Neumann Program gamedynamics artificial automata.

作者简介：吴焦苏，中国科学院大学、中国科学院科技战略咨询研究院博士研究生。研究方向为人工智能与社会;
李真真，中国科学院科技战略咨询研究院研究员。研究方向为科技伦理、科技政策。

项目资助：科技部“新一代人工智能”重大项目“非完全信息条件下的博弈决策”（2018AAA0101001）；上海市“科技创新行动计划”人工智能科技支撑专项项目“基于随机博弈动力学的大规模分布式人工智能理论与算法”（20511100200）。