基于领域知识的神经网络泛化性能研究进展

文章信息

胡铁松, 严铭, 赵萌

HU Tiesong, YAN Ming, ZHAO Meng

基于领域知识的神经网络泛化性能研究进展

Research advances of neural network generalization performance based on domain knowledge

武汉大学学报(工学版), 2016, 49(3): 321-328

Engineering Journal of Wuhan University, 2016, 49(3): 321-328

http://dx.doi.org/10.14188/j.1671-8844.2016-03-001

文章历史

收稿日期: 2015-10-16

Abstract

PDF

Figures

Tables

引用本文

胡铁松, 严铭, 赵萌. 基于领域知识的神经网络泛化性能研究进展[J]. 武汉大学学报(工学版), 2016, 49(3): 321-328. 复制到剪切板

HU Tiesong, YAN Ming, ZHAO Meng. Research advances of neural network generalization performance based on domain knowledge[J]. Engineering Journal of Wuhan University, 2016, 49(3): 321-328. 复制到剪切板

基于领域知识的神经网络泛化性能研究进展

胡铁松, 严铭, 赵萌

武汉大学水资源与水电工程科学国家重点实验室，湖北武汉 430072

收稿日期: 2015-10-16

作者简介: 胡铁松（1964-），男，教授，博导，主要从事水库调度与旱涝灾害治理方面研究，E-mail:tshu@whu.edu.cn.

通讯作者: 严铭(1996-)，男，主要从事水库优化调度方面的研究，E-mail:yanming@whu.edu.cn

基金项目: 国家自然科学基金项目（编号：71171151，51339004，51479142）.

摘要: 从样本复杂性、结构复杂性、学习策略和建模技术4个方面对基于领域知识的神经网络泛化性能研究进展进行了评述，指出了目前基于领域知识神经网络泛化性能研究存在的主要问题是只是利用研究对象的单调性、凸性、对称性和增益等一些简单非线性特征来虚拟训练样本、形成非监督学习算法约束条件、构造节点作用函数等方面.利用关于研究复杂对象部分已知的物理机制或动力学特性来建立有一定物理基础的神经网络模型，从而有效控制网络训练存在的过学习问题是今后神经网络泛化理论与方法研究的主要发展趋势.

关键词：神经网络泛化性能领域知识先验知识

Research advances of neural network generalization performance based on domain knowledge

HU Tiesong, YAN Ming, ZHAO Meng

State Key Laboratory of Water Resources and Hydropower Engineering Science, Wuhan University, Wuhan 430072, China

Abstract: This article reviews the research progress of neural network generalization based on domain knowledge in four aspects，i.e. sample complexity，structural complexity，learning strategy and modeling technology. It is pointed out that the research object’s simple nonlinear features like monotonicity，convexity，symmetry and gain are using to construct training samples, to form unsupervised learning algorithms constraints，to structure functions of neural network’s node is the major problems in the field. Building neural network models based on some physical basis by using partial known physical mechanism or dynamic characteristic of complicated research object，to control the over-fitting problem in the network training progress，can be the main development tendencies of theory and research method of neural network generalization performance in the future.

Key words: neural network；generalization performance；domain knowledge；prior knowledge

神经网络泛化性能(Generalization Performance)是指经训练后的网络对未在训练样本集中出现的样本做出正确反应能力的好坏，没有泛化能力的神经网络是没有任何使用价值的^[1~2]，研究神经网络的泛化性能具有重要的理论与应用价值.

神经网络泛化性能主要有4个影响因素：网络结构、训练样本、学习算法和关于建模对象的领域知识(Domain Knowledge).神经网络因为纯粹采用数据驱动机制使得以前神经网络泛化理论与泛化方法的研究侧重于泛化能力与前3个影响因素之间关系的探讨，相对忽视了泛化能力与领域知识的关系研究.实际上，建模者对于研究对象的领域知识并非一无所知，因为领域知识是关于建模对象的一种认知，这种认知有如提示(Hints)性质的经验性认知，也有如关于权值先验分布性质的先验知识(Prior Knowledge)，也有关于研究对象部分过程的动力学方程等形式.再者，提高网络泛化能力的一个公认准则是在满足能够表示样本复杂性要求的基础上选择网络复杂性最低的网络，但对于给定训练样本集，欲求得样本中隐含的输入输出关系，其解有无穷多个，是一个不适定问题，领域知识为缓解不适定问题提供新途径.

有鉴于此，近年来国内外专家学者开展了大量利用领域知识改善神经网络泛化性能的研究，开展了形式各异的提示、先验知识和方程以改善神经网络的泛化性能，Al-Mashouq^[3]认为提示是指不以训练样本形式提供的关于被逼近函数的一些信息，可分为不变性提示^[4]、对称性提示^[5]、单调性提示^[6]、催化性提示^[7]以及最小Hamming距离提示等；先验知识是对所学习的目标规则所做的一些合理性假设或者是结论^[8~10]，如单调性和凸性等简单特性，Perantonis^[11]将先验知识分为面向研究对象的先验知识和面向神经网络本身的先验知识，如权值的先验分布，而Jin和Sendhoff ^[12]则认为提示是先验知识的一种表示形式.这些研究表明：领域知识与神经网络的结合可以有效地控制网络结构与规模^[13]、提高样本的质量或减少满足给定泛化性能所要求的样本数量^[14]，从而改善了神经网络的学习性能和泛化性能^[15].

本文从以下4个方面对基于领域知识的神经网络泛化性能研究进展进行评述：①基于领域知识的结构复杂性研究;②基于领域知识的样本复杂性研究;③基于领域知识的神经网络学习策略研究;④选择合适的神经网络建模框架.

1 基于领域知识的结构复杂性研究

结构复杂性是影响网络泛化性能最重要的因素之一，也是神经网络泛化理论与泛化方法中研究最多的内容.

对于线性阈值神经网络和函数逼近网络，Baum和Haussler^[16]、Moody^[17]、Barron^[18]、Niyogo^[19]等人给出了关于泛化误差、拟合误差和网络自由参数个数之间定量关系不等式.这些研究成果的共同结论是对于给定的训练样本，存在同样本复杂性相匹配的最小结构神经网络，该结构下的神经网络具有最好的泛化性能，也就是奥卡姆剃刀(Occam’s Razor)原则.Moody^[17]对于函数逼近网络建立了神经网络泛化误差、训练误差、网络自由参数个数和训练样本数之间的定量关系表达式.该表达式指出：对已经达到训练精度的神经网络其有效参数越少，神经网络的泛化性能越好，它揭示了神经网络结构设计的最简原则.Barron^[18]对单隐含层函数逼近网络的研究指出：随着隐含层节点数的增加，神经网络逼近误差会减小，但预测误差会增加，好的泛化性能取决于两者的协调，这个结论与Geman^[20]的偏差-方差分解理论一致.Niyogo^[19]导出了径向基函数网络的泛化误差分解表达式.李祚泳等人^[21~22]导出了用复相关系数描述样本复杂性和满足给定逼近误差条件下具有较佳泛化能力神经网络隐节点数的计算公式.这些不等式对于解决网络结构设计的实际问题虽具有一定指导意义，但它只给出了关于神经网络结构范围非常宽泛的上下界，并没有回答利用领域知识如何设计最简结构的网络，因此难以用于实际网络结构的设计.实际问题中多采用试算法以实现结构复杂性与样本复杂性之间的平衡，主要方法有剪枝法^[23~26]、构造法^[27~28]、选通网络法^[29]、网络委员会法^[30].剪枝的具体方法包括正则化法、灵敏度分析法、奇异值分解法^[31]、交互作用法^[32]和遗传算法^[33]等.构造法包括级联相关法^[34]、Tiling法^[35]、Upstart法^[36]和启发式法.这些研究成果给出了神经网络泛化能力与结构参数之间的定量关系，但是缺乏关于领域知识嵌入后神经网络泛化性能与其结构复杂性、样本复杂性以及目标规则的复杂性之间的定量关系.

利用领域知识精简网络结构最直接的办法是利用样本蕴涵的领域知识构造合适的神经元节点作用函数.Stork^[13]提出了一种特殊的传递函数，在用两层前馈网络来解决N元奇偶校验问题时隐含层只用了2个神经元，1993年他进一步提出了解决该问题只需要一个隐元的方法.吴佑寿^[37]通过利用对N元奇偶校验和对偶校验问题的领域知识，也构造了一种合适的隐元传递函数，实现了只用一个隐元的两层网络结构.许少华^[38]采用一类正弦函数作为神经元传递函数，研究了两条正弦曲线上样本点的模式分类问题，得到的网络结构简单、参数容易确定.基于If-Then规则表达先验信息的模糊网络和基于贝叶斯先验信息的贝叶斯网络^[39]是利用领域知识构造结构简单网络的典型例子，Zhao和Dillon^[40]研究模式识别问题时采用基于产生式规则的领域知识，构造了基于布尔神经元的前馈网络模型.

利用领域知识构造正则化项是精简网络结构另外一种主要形式.Abu-Mostafa^[7]给出了权值先验分布分别为Gauss分布、Laplace分布和Cauchy分布的正则项的构造形式，Jin和Sendhoff^[12]将模糊系统的导数信息作为正则化项.其他的正则化方法包括权退化法、柔性权共享法、互信息法和熵函数法等.柔性权共享法实际上是假设权重先验分布为混合Gauss分布条件下的一种改进权退化法，它将大量权分组且鼓励同组权的值都相同，它在概率意义上极大降低了网络的复杂度，从而达到提高网络泛化性能的目的^[41].互信息法是一种企图从网络结构中抽取信息来构造目标函数的方法，Deco^[42]从输入层和隐含层之间抽取互信息构造一种熵函数作为神经网络训练的目标函数，Kamimurar^[43]通过对网络结构的分析得到输入层与隐层间的互信息，通过最小化该项得到与权重衰减法近似的效果.

熵函数法可以看作利用面向神经网络领域知识的一种网络结构简化方法，Fogel^[44]将AIC准则(Akaike Information Criterion)推广到神经网络模型.由于AIC无法应用于不可信的模型，即真实分布不包含在假设模型中的情况，Murata等人^[45]基于网络有效尺寸的概念提出了NIC准则( Network Information Criterion).FPE准则(Final Prediction Error)也是用来评价统计模型优劣的工具，并可以直接应用于神经网络模型的评价.Moody指出：FPE、AIC以及其他用来评价统计模型优劣的准则均不适用于不可信的情况.针对这一点，他提出GPE准则(Generalized Prediction Error).确定合适的正则化算子和局部极值问题是这类方法存在的主要问题.

2 基于领域知识的样本复杂性研究

神经网络作为一种非参数模型，一切信息来源于训练样本集，样本重要性不言而喻，训练样本集对泛化性能的影响有时甚至超过结构对泛化性能的影响^[46].样本复杂性对泛化性能影响机制非常复杂，样本数量和质量是影响泛化性能的主要因素，样本质量包括样本可靠性、代表性(样本集分布与总体分布的关系)和一致性3个方面.

目前泛化理论关于样本复杂性对泛化性能影响的主要成果是给出了最坏情况下训练样本集容量与泛化性能之间的一些定量关系，特别是神经网络满足一定泛化性能所需网络学习样本集容量的界^[47].Baum和Haussler^[16]给出了保证固定结构的神经网络泛化能力所需训练样本数的上界和样本复杂性的下界，Vapnik^[48]认为在给定训练样本数和学习系统的VC维数情况下，最差的泛化性能必定以很大的概率不超过某个上限，而Ehrenfeucht等人^[49]则给出最差的泛化性能将超过某一下限.这些成果尚难以运用于实际，它没有考虑训练样本的代表性和一致性、网络可调权重的规模、网络学习算法和隐含层激励函数等诸多因素的影响，而且VC维数也只是反映神经网络学习能力一种粗略的测度^[50].这些成果没有回答领域知识的运用对于降低样本复杂性边界的作用问题.

实际运用的泛化方法主要有最优采样与聚类^[51~52]、主动学习^[53]、添加噪声等^[54~56].选择足够数量且分布与总体分布一致的样本集是提高网络泛化性能的重要措施，有效运用领域知识可以在一定程度上增加样本的数量.

许多学者对样本优选问题进行了大量研究，重采样技术(Bagging，Boosting，Adaboost)广泛运用于集成神经网络.Bagging集成算法^[57]是从原始训练集中随机选取若干样本组成训练集，各轮训练集之间相互独立；与Bagging集成算法不同，算法Boosting^[58]训练集选择不是独立的，而是依赖于前一轮的学习结果；AdaBoost算法也称自调整权值的Boosting算法，其主要思想是通过提高被之前个体网络分类错误的样本的权值，降低被个体网络所分类正确的样本的权值，这也就是继承了Boosting算法的精髓，即注重困难样本的训练.除此之外，还有运用模糊C-均值聚类算法从高维空间选择训练样本^[59]，利用对比法选择不同类的最近邻数据用于神经网络的在线训练^[60]，利用汉明距离优选旋转不变识别的级联模型的学习样本^[61]，提出了基于广义置信度的样本选择方法^[62].

实际问题中存在的对称性、单调性和机理方程等领域知识可以作为虚拟样本生成器.Abu-Mostafa^[7]把它和普通样本一起共同作为训练样本来完成神经网络的训练，这种方法实际上也是对训练样本的扩充.Girosi 和Chan^[14]利用关于研究对象的径向对称性先验知识生成了附加训练样本，研究结果的对比分析表明基于先验知识的虚拟样本对于改善网络性能的作用与采用基于先验知识的正则化方法基本相同.杨华波等人^[63]利用研究对象的单调性提示构造作为虚拟样本.顾正彬^[64]等人根据C/C 复合材料的生产周期极长、制造成本高、训练样本难以获得的特点，以有限元数值模拟结果作为网络训练的虚拟样本，采用模糊神经网络技术及遗传算法，研究了沉积温度、前驱气体组份比与流速因素对制件密度的作用规律.陈祥光^[65]等提出的在原样本的基础上，增加模拟辅助样本的方法也都比较明显地提高了网络的泛化性能.真实样本稀少时，不仅可以利用领域知识对称性、单调性和机理方程等领域知识生成样本，实验样本作为数据形式的先验知识，同样可以与真实样本结合进行训练学习^[66].可以将实验样本学习到的神经网络作为另一种形式的领域知识，应用基于知识的神经网络对真实样本进行学习.

3 基于领域知识的学习策略研究

学习策略对网络泛化性能的影响机制较为复杂，它主要源于不适定问题和局部极值问题.Moody^[17]、Barron^[18]、Niyogo^[19]给出的泛化误差、学习误差和有效参数之间的定量关系不等式并没有回答学习策略对泛化性能的影响机制，在同样的学习误差和网络结构与规模的情况下，泛化误差并不是一成不变的，而是随监督学习算法所达到局部极值点的不同而不同.从学习策略的角度讲，改善前馈网络泛化性能的研究主要有约束学习模型的构造(约束条件与目标函数)、全局与局部优化算法选择、训练停止准则的选取、初始权重与归一化方式的确定等等.

训练停止准则选择主要依据是Geman^[20]和Barron^[18]的偏差-方差分解原理，Wang^[67~68]从理论上证明了在神经网络训练过程中存在最优停止时间.虽然有许多的学者对提早终止方法进行了研究，但是目前还是没有比较实用和有效的停止规则.当训练样本数较小时，简单的交叉测试方法并不适用^[69]，Amari以及Kearns^[70]研究了交叉测试方法中测试样本数占总样本数比例对网络泛化性能的影响.神经网络初始参数的随机设置对泛化能力也有一定的影响，Atiya^[71]指出适当选择初始权值的分布，可以改善网络的泛化性能，最终权重会收敛到与初始状态最接近的某个局部极小点，而且在过参数的情况下让目标函数取得最小的不是一个点，而是一个误差为零的曲面.Polycarpou和Loannou^[72]也证明了网络参数的最终解仅仅收敛于误差曲面上最靠近初始权重的极小点.

嵌入与领域知识相关的约束条件是改善网络泛化性能的有效途径，可以在一定程度上限制问题的复杂性，主要做法是将前馈网络原来数据驱动的无约束监督学习算法转化为一种约束优化算法，或者是将约束条件通过惩罚函数的形式转化到目标函数之中，依然采用无约束的监督学习算法.因为领域知识自身复杂性及其表示方式的多样性，如何结合神经网络的学习框架来使用领域知识，目前尚没有统一理论指导.吕柏权^[73]将领域知识在神经网络中的表示方法分为两类，即利用先验信息构造网络结构和利用先验信息构造学习算法；陈翀伟^[10]将其分为3类：结构约束方法、权值约束方法和数据约束方法.常用的约束条件包括关于研究对象的一些简单特性类领域知识，如单调性约束^[74~76]、凸性约束、不变性提示以及其他关于等式和不等式约束条件^[77]等.

胡铁松^[78]根据爆破地震波传播中存在随离振源距离增大振速单调下降的现象，提出了改善神经网络泛化性能的目的规划模型及其求解方法，三峡工程左岸坝区岩体爆破损伤范围与爆破地震波振速的预测表明了该模型对于改善神经网络泛化性能的作用.Hartman^[79]将关于系统增益的先验知识作为等式和不等式约束条件，提出了基于增益约束的前馈网络学习算法.吕柏权^[73]等人根据逼近函数的凹凸性给出了前馈网络参数之间关系的方程与不等式，提出了部分参数由方程和不等式直接求解的新学习算法.Hu等^[76]在对降雨径流预报中，依据径流量随前期土壤含水量增加而增加的经验性先验知识，建立了基于先验知识的径流预报神经网络模型，在一定程度上提高了径流预报的精度.Ferrari和Jensenius^[1]在采用增长法进行短期记忆(STM：Short-term Memory)学习的研究中，将长期记忆(LTM：Long-term Memory)处理为等式约束条件，导出了长期记忆参数和短期记忆参数之间关系的方程式，给出了长期记忆约束条件下的误差梯度算法.Jean和Wang^[77]提出在目标函数中增加一个权值光滑性限制项，以此反映网络相邻输入之间的空间相关性，也得到了较好的效果.

主动学习一般是通过询问的方式对输入区域加以限制，依赖领域知识在冗余信息较少的区域多采样，从而提高整个训练样本集的质量，改善网络的泛化性能.Mackay^[51]讨论了贝叶斯框架下候选样本信息量的测度问题，可用于函数逼近问题的选择采样.使用某些最小失真的聚类方法对样本进行聚类，将原始样本进行精细分类，然后以类为单位迭代产生符合该类统计特性的数据，扩充训练样本集，由此产生足够多的统计特性且符合要求的各类数据作为网络训练样本，新的训练数据可以有效改善网络的泛化性能^[80].

4 基于领域知识的建模技术研究

领域知识便于描述研究对象内在机理，而神经网络模型便于映射复杂非线性关系，如何实现机理模型与神经网络模型的融合是建立有一定物理基础神经网络的主要研究内容.前述关于利用领域知识精简网络结构、确定学习算法和生成有代表性训练样本的泛化方法都是一种以神经网络为主的建模技术，比较适合于利用简单的领域先验知识(单调性、对称性和凸性)建模，而对于复杂的、需要用多组动力学方程描述的机理知识则需要合适的建模框架与建模技巧，目前主要有串联、并联和嵌套3种建模技术.

机理模型与神经网络模型的串联建模从形式上表现为机理模型的输出作为前馈网络模型的输入，或者是神经网络模型的输出作为机理模型的输入.Chua和Wong^[2]在研究降雨径流过程同时采用了动力波方程描述水流坡面流动的物理机制和前馈网络描述降雨径流关系，动力波方程计算得到的流量作为前馈网络的输入，预报流量时的确定性系数和相关系数等误差指标的对比表明了串联耦合建模技术的优越性.反过来，陈立甲^[81]等人对电厂过热器动态特性的描述采用能量方程、连续方程和动量方程，而修正系数和机理模型参数用前馈网络辨识，将前馈网络的输出作为机理模型的输入.

机理模型需要对研究对象中的多个物理过程分别采用具有假设、结构和参数的物理模型进行描述，实际上我们并不是对其中的任意一个过程都无法建立机理模型，因此基于领域知识的神经网络模拟中可以部分采用机理模型、部分采用黑箱子模型的并行或者是嵌套建模方法.Jain 和Srinivasulu^[82]在研究径流预报问题时，针对洪水流量变化过程线中涨水段和落水段径流物理成因不同，采用了机理模型、概念模型、前馈网络和自组织神经网络模型的嵌套建模技术进行径流预报，研究表明对于退水段简单的概念模型优于前馈网络模型，基于径流物理成因的多种模型嵌套模拟优于单一的神经网络模拟.一个长系列的径流过程通常在枯水期、丰水期和平水期有不同的动力学特征，与传统的Bagging集成算法不同，Hu等^[29]在研究径流预报模块化神经网络建模时考虑了如何利用领域知识进行训练样本选择和建模，确定性系数提高到0.912 7.张海涛^[83]利用自适应时延神经网络模型去在线修正和补偿机理模型动态辨识的误差.薛福珍和柏洁^[84]采用通用神经网络的建模方法对两输入和两输出的悬吊系统进行了模拟，其中的6个方程有3个是确定性方程，另外3个方程用一个有3个输入节点的前馈网络模型模拟.

5 结论与展望

国内外专家对神经网络的泛化理论与泛化方法进行了广泛的研究，给出了保证固定结构神经网络一定泛化性能所需训练样本的上(下)界，提出了最简结构设计方法和正则化方法，但目前运用领域知识改善神经网络性能的研究基本局限于利用关于研究对象输入输出关系的单调性、凸性、对称性和增益等一些简单非线性特征来开展的，如利用领域知识虚拟训练样本、形成非监督学习算法的约束条件、构造节点作用函数等等研究，未来基于领域知识的神经网络泛化理论与方法的研究主要包括以下几个方面：

1) 领域知识嵌入后神经网络泛化性能与其结构复杂性、样本复杂性以及目标规则的复杂性之间的定量关系，如领域知识与神经网络函数类VC维数以及样本数量之间的定量关系.

2) 如何建立有一定物理基础的神经网络模型是今后神经网络及其泛化性能研究的主要内容之一.利用复杂非线性对象中部分已知的物理机制或动力学特性，采用合适建模框架与建模技巧来建立有一定物理基础的神经网络模型，可以在一定程度上缓解过拟合问题和不适定问题.

3) 神经网络模型结构与参数的物理解释问题.研究基于领域知识的神经网络模型结构与参数与它所表述的物理过程之间相互关系，寻求改善其泛化性能新途径.

参考文献

[1]	Ferrari, Jensenius. A constrained optimization approach to preserving prior knowledge during incremental training[J]. Neural Networks, 2008, 19(6): 996–1009. DOI:10.1109/TNN.2007.915108

[2]	Lloyd H C Chua, Tommy S W Wong. Runoff forecasting for an asphalt plane by artificial neural networks and comparisons with kinematic wave and autoregressive moving average models[J]. Journal of Hydrology, 2010, 397: 191–201.

[3]	Al-Mashouq K A. Including hints in training neural networks[J]. Neural Computation, 1991, 3: 418–427. DOI:10.1162/neco.1991.3.3.418

[4]	Abu-Mostafa Y S. Learning from hints in neural networks[J]. Journal of Complexity, 1990, 6: 192–198. DOI:10.1016/0885-064X(90)90006-Y

[5]	Abu-Mostafa Y S. Financial application of learning from hints[J]. Ambridge, 1995, MA: 411–418.

[6]	Si ll, Abu-Mostafa Y S. Advances in Neural Information Processing Systems[M]. 1997: 643-640.

[7]	Abu-Mostafa Y S. A method of learning from hints[J]. NIPS,CA, 1993: 73–80.

[8]	Sanguesa, Cortes. Prior knowledge for learning networks in non-probabilistic settings[J]. International Journal of Approximate Reasoning, 2000, 24: 103–120. DOI:10.1016/S0888-613X(99)00046-8

[9]	魏海坤, 徐翤鑫, 宋文忠. 神经网络的泛化理论和泛化方法[J]. 自动化学报, 2001, 27(6): 806–815. Wei Haikun, Xu Sixin, Song Wenzhong. Generalization theory and generalization methods for neural networks[J]. Acta Automatic Sinica, 2001, 27(6): 806–815.

[10]	陈翀伟, 陈伟, 陈德钊, 等. 基于先验知识的前馈网络对原油实沸点蒸馏曲线的仿真[J]. 高校化工学报, 2001, 15(4): 351–356. Chen Chongwei, Chen Wei, Chen Dezhao, et al. Feedforward networks based on prior knowledge and its application in modeling the true boiling point curve of the crude oil[J]. Journal of Chemical Engineering of Chinese Universities, 2001, 15(4): 351–356.

[11]	Perantonis, Ampazis. Constrained learning in neural networks:Application to stable factorization of 2D polynomials[J]. Neural Processing Letters, 1998(7): 5–14.

[12]	Yaochu Jin, Bernhard Sendhoff. Knowledge incorporation into neural networks from fuzzy rules[J]. Neural Processing Letters, 1999, 10(3): 231–242. DOI:10.1023/A:1018784510310

[13]	Stork, Allen. How to solve the n-bit parity problem with two hidden units[J]. Neural Networks, 1992, 5(6): 923–926. DOI:10.1016/S0893-6080(05)80088-7

[14]	Federico Girosi,Nicholas Tung Chan. Prior knowledge and the creation of “Virtual” examples for RBF networks[C]// Neural Networks for Signal Processing,1995:201-210.

[15]	Barbar, Sa ad. Does extra knowledge necessarily improve generalization[J]. Neural Computation, 1996, 8(1): 202–214. DOI:10.1162/neco.1996.8.1.202

[16]	Baum E M, Haussler D. What size net gives valid generalization[J]. JAMC, 1989, 36(4): 929–965.

[17]	Moody J S. The efficient number of parameters:An analysis of generalization and regularization in nonlinear learning system[J]. San Mateo,NIPS4, 1992: 847–854.

[18]	Barron A R. Approximation and estimation bounds for artificial neural networks[J]. Machine Learning, 1994, 14: 115–133.

[19]	Niyogo, Girosi. On the relationship between generalization error,hypothesis complexity,and sample complexity for radial basis function[J]. Neural Computation, 1996, 8: 819–842. DOI:10.1162/neco.1996.8.4.819

[20]	Geman, Bienenstock, Doursat. Neural networks and the bias variance dilemma[J]. Neural Computation, 1992, 4(1): 1–58. DOI:10.1162/neco.1992.4.1.1

[21]	李祚泳, 彭荔红. BP网络学习能力与泛化能力满足的不确定关系式[J]. 中国科学(E辑), 2003, 33(10): 887–895.

[22]	李祚泳, 易勇鸷. BP网络学习能力与泛化能力之间满足的定量关系式[J]. 电子学报, 2003, 31(9): 1341–1344. Li Zuoyong, Yi Yongzhi. Quantitative relation between learning ability and generalization ability of BP neural network[J]. Acta Electronic Sinica, 2003, 31(9): 1341–1344.

[23]	Reed R. Pruning algorithms-A survey[J]. Neural Networks, 1993, 4: 740–747. DOI:10.1109/72.248452

[24]	Bo S. Optimal weight decay in perception[C]//Proceedings of the International Conference on Neural Networks,1996:551-556.

[25]	Castellano G, Fanilli A M, Pelillo M. A pruning algorithm for feed-forward neural networks[J]. Neural Networks, 1997, 8(3): 519–531. DOI:10.1109/72.572092

[26]	Ponnapalli P V S. A formal selection and pruning algorithm for feed-forward artificial neural network optimization[J]. Neural Networks, 1999, 10(4): 964–968. DOI:10.1109/72.774273

[27]	Kwok T Y, Yeung D Y. Constructive algorithm for structure learning in feed-forward neural networks for regression problems[J]. Neural Networks, 1997, 8(3): 630–645. DOI:10.1109/72.572102

[28]	Lehtokangas M. Modified cascade-correlation learning for classification[J]. Neural Networks, 2000, 11(3): 795–798. DOI:10.1109/72.846749

[29]	Hu T S, Lam K C, Thomas N G. River flow time series prediction with range-dependent neural network[J]. Hydrological Sciences Journal, 2001, 46(5): 729–745. DOI:10.1080/02626660109492867

[30]	Perrone M P. General averaging results for convex optimization[C]//Proceedings of 1993 Connectionist Models Summer School, Hillsdale,1994:364-367.

[31]	Psichogios D C, Ungar L H. SVD-Net:an algorithm that automatically selections network structure[J]. Neural Networks, 1994, 5(3): 513–515. DOI:10.1109/72.286929

[32]	Sietsma J, Dow R J F. Creating artificial neural networks that generation[J]. Neural Networks, 1991, 4: 67–79. DOI:10.1016/0893-6080(91)90033-2

[33]	Maniezzo V. Genetic evolution of the topology and weight distribution of neural networks[J]. Neural Networks, 1994, 5: 39–53. DOI:10.1109/72.265959

[34]	Fahlman S E,Lebiere C. The cascade connection learning architecture[C]//Advance in Neural Information Processing Systems,1990:524-532.

[35]	Mezard M, Nadal J P. Learning in feed-forward layered networks:the tiling algorithm[J]. Journal of Physics, 1989, 22: 2191–2203.

[36]	Frean M. The upstart algorithm:a method for constructing and training feed-forward neural network[J]. Neural Computation, 1990, 2: 198–209. DOI:10.1162/neco.1990.2.2.198

[37]	吴佑寿. 利用输入信号先验知识构造某些分类神经网络的研究[J]. 中国科学(E辑), 1996, 26(2): 140–144.

[38]	许少华, 路阳, 席海青, 等. 样本先验知识在神经网络训练中的应用[J]. 大庆石油学院学报, 2004, 28(6): 66–69. Xu Shaohua, Lu Yang, Xi Haiqing, et al. Application of sample prior knowledge to nerve networks training[J]. Journal of Daqing Petroleum Institute, 2004, 28(6): 66–69.

[39]	Daniel T. Solving inverse problem by Bayesian neural network iterative inversion with ground truth incorporation[J]. Signal Processing, 1997, 45(11): 553–567.

[40]	Zhao S Dillon. Incorporating prior knowledge in the form of production rules into neural networks using boolean-like neurons[J]. Applied Intelligence, 1997, 7: 275–285. DOI:10.1023/A:1008205202234

[41]	Nowlan S J. Simplifying neural networks by soft weight sharing[J]. Neural Computation, 1992, 4: 473–493. DOI:10.1162/neco.1992.4.4.473

[42]	De co. Unsupervised mutual information criterion for elimination of overtraining in supervised multilayer networks[J]. Neural Computation, 1994, 7: 1398–1419.

[43]	Kamimurar. Unification of information maximization and minimization[C]//Neural Information Processing Systems,1996:508-514.

[44]	Fogel. An information criterion for optimal neural network selection[J]. Neural Networks, 1991, 2(5): 490–497. DOI:10.1109/72.134286

[45]	Amari S, Murata N, Muller K R. Asymptotic statistical theory of networks,over-training and cross-validation[J]. Neural Networks, 1997, 8(5): 985–996. DOI:10.1109/72.623200

[46]	Partridge D. Network generation differences quantified[J]. Neural Networks, 1996, 9(2): 263–271. DOI:10.1016/0893-6080(95)00110-7

[47]	Kanaya F, Miyake S. Bayesian statistical behavior and valid generalization of pattern classifying neural networks[J]. Neural Networks, 1991, 2(4): 471–475. DOI:10.1109/72.88169

[48]	Vapnik V N. The Nature of Statistical Learning Theory[M]. New York: Springer Verlag, 1995: 1-20.

[49]	Ehrenfeucht A. A general lower bound on the number of examples needed for learning [C]//Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann,1988.

[50]	Bartlett P L. For valid generalization:the size of the weight is more important than the size of the network[J]. NIPS9, MA, Cambridge, 1995: 134–140.

[51]	Mackay D J C. Information based objective function for active data selection[J]. Neural Computation, 1992, 4: 590–604. DOI:10.1162/neco.1992.4.4.590

[52]	何超, 徐立新, 张宇河. CMAC算法收敛性分析及泛化能力研究[J]. 控制与决策, 2001, 16(5): 523–530. He Chao, Xu Lixin, Zhang Yuhe. Convergence and generalization ability of CMAC[J]. Control and Decision, 2001, 16(5): 523–530.

[53]	Baum E M. Neural networks algorithm that learn in polynomial time from example and queries[J]. Neural Networks, 1991, 2(3): 5–19.

[54]	Holmstrom L, Koistinen P. Using additive noise in back propagation training[J]. Neural Networks, 1992, 3(1): 24–38. DOI:10.1109/72.105415

[55]	Bishop C M. Neural Networks for Pattern Recognition[M]. 1995.

[56]	An G. The effect of adding noise during back-propagation training on a generalization performance[J]. Neural Computation, 1996, 8: 643–671. DOI:10.1162/neco.1996.8.3.643

[57]	Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123–140.

[58]	Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119–139. DOI:10.1006/jcss.1997.1504

[59]	Guan Donghai,Yuan Weiwei,Lee Youngkoo. Training data selection based on fuzzy c-means[C]//IEEE World Congress on Computational Intelligence,Hong Kong,2008:761-765.

[60]	Hara K, Nakayama K Karaf. A training data selection in on-line training for multilayer neural networks[C]// IEEE World Congress on Computational Intelligence ,1998,3:2247-2252.

[61]	申金媛, 刘玥, 张文伟, 等. 利用汉明距离优选神经网络学习样本[J]. 光学学报, 2000, 20(9): 1229–1233. Shen Jinyuan, Liu Yue, Zhang Wenwei, et al. Selecting of learning samples based on Hamming distance[J]. Acta Optica Sinica, 2000, 20(9): 1229–1233.

[62]	任俊玲. 基于广义置信度的样本选择方法[J]. 中文信息学报, 2007, 21(3): 106–109. Ren Junling. A pattern selection algorithm based on the generalized confidence[J]. Journal of Chinese Information Processing, 2007, 21(3): 106–109.

[63]	杨华波, 张士峰, 蔡洪. BP神经网络中定性信息的使用[J]. 计算技术与自动化, 2005, 24(3): 15–17. Yang Huabo, Zhang Shifeng, Cai Hong. The using of qualitative information in BP neural networks[J]. Computing Technology and Automation, 2005, 24(3): 15–17.

[64]	顾正彬, 李贺军, 李克智, 等. C/C复合材料等温CVI工艺模糊神经网络建模[J]. 稀有金属材料与工程, 2004, 33(10): 1037–1040. Gu Zhengbin, Li Hejun, Li Kezhi, et al. Modeling of isothermal CVI process of C/C composites by fuzzy neural network[J]. Rare Mental Materials and Engineering, 2004, 33(10): 1037–1040.

[65]	陈祥光, 薛锦诚, 傅若农, 等. 引入模拟辅助样本提高BP网络的泛化能力[J]. 分析科学学报, 2002, 18(2): 137–141. Chen Xiangguang, Xue Jincheng, Fu Ruonong, et al. Improvement of the generalization of BP networks with the aid of simulating assistant samples[J]. Journal of Analytical Science, 2002, 18(2): 137–141. DOI:10.2116/analsci.18.137

[66]	高学星, 孙华刚, 侯保林. 使用不同置信级训练样本的神经网络学习方法[J]. 电子与信息学报, 2014, 36(6): 1308–1311. Gao Xuexing, Sun Huagang, Hou Baolin. A neural network learning method using samples with different confidence levels[J]. Journal of Electronics & Information Technology, 2014, 36(6): 1308–1311.

[67]	Wa ng, Venkatesh. Optimal stopping and effective machine complexity in learning[J]. NIPS6,CA,San Mat, 1994: 303–310.

[68]	Wa ng, Venkatesh. Temporal dynamics of generalization in neural networks[J]. NIPS7,MA,Cambridge, 1995: 263–270.

[69]	Lincoln W L, Skrzypek J. Synergy of clustering multiple back-propagation networks[J]. NIPS2,San Mateo,CA, 1990: 650–657.

[70]	Kearns M. A bound on the error of cross validation using the approximation and estimation rates with consequence for the training-test split[J]. Neural Computation, 1997, 9: 1143–1161. DOI:10.1162/neco.1997.9.5.1143

[71]	Atiya A, Ji C. How initial condition affect generalization performance in large networks[J]. Neural Networks, 1997, 8(2): 448–451. DOI:10.1109/72.557701

[72]	Polycarpou M, Loannou P. Learning and convergence analysis of neural type structure networks[J]. Neural Networks, 1992, 3: 39–50. DOI:10.1109/72.105416

[73]	吕柏权. 使用三层神经元网络的先验信息新学习方法[J]. 中国科学, 2004, 34(4): 374–390.

[74]	胡铁松, 沈佩君. 前馈网络泛化性能改进的目的规划方法研究[J]. 系统工程学报, 1997, 12(2): 34–39. Hu Tiesong, Shen Peijun. The goal programming method for improving generalization performance of the feedforward neural networks[J]. Journal of System Engineering, 1997, 12(2): 34–39.

[75]	Srecko Milanic, Stanko Strmcnik. Incorporating prior knowledge into artificial neural networks-an industrial case study[J]. Neurocomputing, 2004, 62: 131–151. DOI:10.1016/j.neucom.2004.01.187

[76]	Hu T S, Lam K C, Thomas N G. A modified neural network for improving river flow prediction[J]. Hydrological Sciences Journal, 2005, 50(2): 299–318. DOI:10.1623/hysj.50.2.299.61794

[77]	Je an, Wa ng. Weight smoothing to improve network generalization[J]. Neural Networks, 1994, 5(5): 752–763. DOI:10.1109/72.317727

[78]	胡铁松. 岩体爆破效应预测的前馈网络目的规划方法[J]. 水利学报, 1997(9): 55–59. Hu Tiesong. The goal programming algorithm for feedforward neural network and its application to the prediction of rock mass blasting[J]. Journal of Hydraulic Engineering, 1997(9): 55–59.

[79]	Hartman. Training feedforward neural networks with gain constraints[J]. Neural Computation, 2000, 12(4): 811–829. DOI:10.1162/089976600300015600

[80]	George N K. On over-fitting,generalization and randomly expanded training sets[J]. Neural Networks, 2000, 11(5): 1050–1057. DOI:10.1109/72.870038

[81]	陈立甲, 伞冶, 王子才, 等. 锅炉过热器系统机理与神经网络组合建模方法[J]. 中国电机工程学报, 2001, 21(1): 73–76. Chen Lijia, San Ye, Wang Zicai, et al. A physical law and neural network integrated modeling method for bolier superheater systems[J]. Proceedings of the CSEE, 2001, 21(1): 73–76.

[82]	Ja in, Srinivasulu. Integrated approach to modelling decomposed flow hydrograph using artificial neural network and conceptual techniques[J]. Journal of Hydrology, 2006, 317(3-4): 291–306. DOI:10.1016/j.jhydrol.2005.05.022

[83]	张海涛, 陈宗海, 向微, 等. 机理混合自适应时延神经网络建模和控制算法[J]. 系统仿真学报, 2004, 16(12): 2709–2712. Zhang Haitao, Chen Zonghai, Xiang Wei, et al. An algorithm of modeling and control based on mechanism hybrid adaptive time delay neural network[J]. Journal of System Simulation, 2004, 16(12): 2709–2712.

[84]	薛福珍, 柏洁. 基于先验知识和神经网络的非线性建模与预测控制[J]. 系统仿真学报, 2004(5): 1057–1059. Xue Fuzhen, Bai Jie. Nonlinear modeling and predictive control based on prior knowledge and neural networks[J]. Journal of System Simulation, 2004(5): 1057–1059.