近年来,中国学者投向国外学术期刊的论文成批被撤稿,引起了社会的关注。虽然国外学者投稿被撤的事件也时有发生,但像中国学者这样成批地被撤稿实属罕见。尽管撤稿的绝对数量相对于我国学者发表的论文总量占比较小,但风起于青萍之末,既然事件已发生,就要分析其社会原因,以杜绝于未来。
一、产生学术不端行为的主要因素 1. 中年知识分子的生活压力迫使他们无法潜心工作发生这种问题的人多半是中年知识分子,这自然有他们自身的原因,但成批地发生,就一定有社会原因。不可否认的是,以高校教师为例(仅仅是为例,其他领域也有类似的情况),许多中年教师活得很不轻松,生活和工作上都有极大压力。在一个正常的社会中,高校的副教授应该属于中产阶级。虽不是非常富裕,但其收入也能较宽松地过日子。在合理且稳定的分配制度下,可以预期通过自己的努力获得更好的待遇。抗日战争前的中国及新中国成立后的50年代基本上是这种状况。当然在50年代高校教师的绝对收入赶不上抗战前,但相对收入大体上是符合上述要求的(上世纪50年代京津地区的副教授收入从每月146元到204元,分三级。正教授的收入从每月204元到345元,分四级。和副教授有重叠的一级。当时一斤猪肉约0.8元,一斤大米约0.2元,住房、医疗等免费)。但现在,以在天津的某高校为例,已任职5年的副教授,每个月的净收入现金还不到6000元。如果要养四口之家(假设有两个孩子),即使夫妻两人都是副教授,日子过得也是紧巴巴的。在天津租一套两室两厅,建筑面积约为100平米的住房,要花去4000多元。如果孩子到了上学年龄,不但要准备孩子的学费及生活费,还要准备孩子各种补习班或培训班的费用,日子就更不好过了。当然,除了工资外,他们还有住房公积金的补贴,每月几千元。但那是不能变为现金的,只有在买房子、租房或装修房屋时才能取用。而买房子的首付在天津也是一笔不小的数目,单靠自己的工资是无法解决的。
仅仅日子不好过并不是产生学术不端的唯一原因。现在有过多的制度性措施刺激人们的名利思想,而获得这些名利必须通过各种评审。名利的诱惑及评审所采用的标准和方法不妥则是催生学术不端行为的主要原因。
2. 制度性措施引发名利诱惑先来看看有什么刺激名和利的制度性措施。据最近网上的一篇文章所述:自1998年中华人民共和国教育部与香港李嘉诚基金会为提高中国高等学校学术地位,振兴中国高等教育,共同筹资设立“ 长江学者” 奖励计划以来,全国各地各种学者头衔呈“ 涌现” 之势,有黄河学者、珠江学者、闽江学者、枝江学者、紫江学者、香江学者、湘江学者、赣江学者、钱江学者、皖江学者、三峡学者、龙江学者、松江学者、两江学者(重庆);以山命名的有泰山学者、黄山学者、华山学者、衡山学者、恒山学者、嵩山学者、天山学者、珠峰学者、昆仑学者、井冈山学者;没有名山大河的就只好以地域命名:绿洲学者、燕赵学者、楚天学者、天府学者、三秦学者、三晋学者、黔灵学者、八桂学者、北洋学者、齐鲁学者、中原学者、东方学者、琼州学者。有人统计达38种之多,真可谓名目巧立,名山大川占尽,地理知识见长。不独头衔,计划和工程也名堂多多。有中科院吸引人才的“ 百人计划” ;中组部引进海外人才(一般是在海外高校拿到教职的)的“ 千人计划” (包括引进海外博士毕业生或者博士后的青年千人计划);中组部面向已经在国内高校、研究所工作人员给予资金支持的“ 万人计划” 。此外,还穿插着统称为“ 四青” 的“ 青年千人” 、“ 杰青” 、“ 青年长江” 、“ 万人计划青年拔尖” 计划等。
在这些头衔之下,紧跟着的是各种相应的待遇。例如,在不少高校,有长江学者头衔的人可以得到每年五六十万元的津贴。光是这个津贴,就相当于前述副教授年现金收入的5倍。其它头衔也都有相应的待遇。而且这些头衔虽无明文规定,但却无形中被认为是终身有效的。
如果这样的头衔数量很有限,对大多数教师来说是可遇而不可求,倒也罢了。但目前的趋势是头衔只会越来越多。在这样巨大的诱惑或刺激下,一些中年教师急于求成,一心想着尽快地升为教授,进而得到一个头衔,也就不足为奇了。
但仅仅如此,还不足以促使一些人铤而走险。晋升职称及取得头衔所必须经历的各种评审中,评审标准和方法的不妥则为通过不端手段取得成功提供了可能性。
3. 当前评审标准和方法的不妥为学术不端行为提供了机遇目前用于评价学者水平的最流行方法就是看发表论文的期刊影响因子、论文数量及引用率。
首先来分析这样的标准是否客观。以我从事的流体力学研究领域来说,目前影响因子最高的学术期刊是Journal of Fluid Mechanics(JFM),其影响因子约在2.4左右。而自20世纪初以来,流体力学发展的最大动力来自航空航天技术的需求。但JFM上的文章极少有能用于解决航空航天技术中的实际问题的。而在美国宇航协会(AIAA)所办的几种刊物上却有不少和解决实际问题有关的文章(不一定是直接解决,也包括以解决重要实际问题为背景的机理性的理论和实验研究),但这些刊物的影响因子最高的不过1.3左右,有的还不到1。发生这样的情况的原因是,与航空航天技术有关的流体力学问题,往往不能以一种简单的模型出现。在解决这些问题时,正如钱学森先生在其论述技术科学的思想中所述,要在某些地方做一定的简化,有时还要容忍依靠一点经验的办法。这就不合JFM的口味。而JFM中讨论的问题就往往以非常简单化地的形式出现,看起来文章的理论性很强,但实际上由于过度简化,其结果并不能用于解决实际问题。所以我们研究团队在努力解决以航天技术为背景的流体力学问题时,基本上不参考JFM上的文章。此外,JFM的影响因子高,有人为的因素在内。一般来说,每一篇文章引用的参考文献都要在30–40篇,往往要追溯到二三十年以前的工作。这在科学技术飞速发展的今天,对大多数人来说,完全没有必要。但很不幸,我国最高等级的刊物《中国科学》,原来为节省版面,曾规定引文不要超过10篇。而现在为了提高影响因子,也有意无意地要求增加引文数目。其实,一篇文章的被引用数,并不一定能反映文章的价值。约在2013年前后,笔者曾推荐两篇有关高超声速飞行器飞行稳定性的文章给《中国科学》,当时被接受并刊登了。不久之后编辑部的一位工作人员和笔者谈起刊物的引用率时,我就坦率地说,推荐的两篇文章很可能引用率是零。原因是,该两篇文章不是纯学术研究的结果,而是在解决我国重大的航天飞行器的实际问题中取得的成果(同类飞行器,我国首次及相继的几次飞行试验都取得成功,而美国的就因飞行不稳定而失败)。不参加该重大实际问题研究的人,首先是不会去研究这一问题,其次是也不可能取得那样的成果。因为取得那样的成果,要做大量的计算和实验工作,不是一般高校或研究单位的某个或某几个人所能做的。而做出来之后,同类问题也就不再需要做进一步研究了。这样的成果,显然不能因为其引用率低而被认为是不重要的成果,也不应该拒绝刊登。
AIAA所办期刊的文章影响因子小于JFM,其原因是因为AIAA刊物的文章一般都有实际需求的背景,而有航空航天技术需求背景的问题并不是任何一位学者都可以研究的。首先是一般的学者根本就不了解航天技术的需求。其次是如前所述,这类问题不是一个纯学术问题,需要有一定的综合知识,而且工作量也较大。所以从事同类工作的人也就相应地较少,引用率自然也就低了。
至于最为大家推崇的影响因子最高的刊物Nature和Science,也没有理由盲目推崇。首先,它们推崇的是新颖,而不在于是否解决了重要的实际问题。一些以解决重要实际问题为目标的文章基本上登不上去,如力学中以解决重要的实际问题为背景的文章,就从来没有在这两份刊物上看到过。我们看过的流体力学文献中,也从来没有见到有引用这两份刊物上的文章的。但是,在1999年,著名美国华裔科学家林家翘向笔者提到了一篇1987年登在Science上的与流体力学有关的文章。那篇文章介绍了由瑞典科学家(其领头人物是林家翘在MIT的同事)提出的流动从层流转为湍流的新机理。这个机理和传统的观点(林家翘和笔者是赞同传统观点的)不同,使得林家翘感到有压力。于是,我就看了这篇文章。结果发现,这篇文章在数学推导上有严重错误,因此其结论是不正确的(后来林家翘和他在美国的其他同事讨论了我的结论,他们也都赞同)。同时,文章中也没有能列举任何可以支持其观点的实验结果,相反,所有已知的实验结果,都支持传统观点(这一点在确认一个理论是否成立是非常必要的。爱因斯坦没有因为他的相对论而得诺贝尔奖,就是因为当时无法从实验上证实其理论)。也就是说,Science上登的那篇文章是错的。曾经有一位力学研究所的院士对我说,国外有人统计过,Nature和Science上登的文章,有30%左右后来被证实是错的(因为它们追求的是新颖,刊登时可能还没有经受过严格的实验或实践检验),有30%左右没有多大意义(在笔者看过的那期Science上,就有一篇与小孩玩的打水漂相关的短文。从力学的角度看,的确是没有什么意思),所以只有40%左右的文章是有意义的(以上的几个百分数,不一定准确,但存在上述三种情况则是肯定的)。无独有偶,2017年12月27日科学网上刊登了一篇采访原清华大学颜宁教授的文章,报道了她在看到韩春雨2016年发表在Nature子刊上的文章(后来受到很多质疑,现已被韩自己撤稿)时的反应。一共有四条:“ (1)我很佩服韩老师,在支持条件这么差的情况下坚持科研,真心佩服;(2)希望借此能够关注对于本土培养的青年科学家的支持问题;(3)这个研究如果所有数据solid(可靠),前景巨大,好极了;(4)这项研究不属于创新型研究,是跟风型的,没必要神话,原创在2014年。” 所以这两个刊物上刊登的标准虽然是“ 新” ,但也并不一定都是原始创新。
这里并不是要故意贬低发表在这两个刊物上的文章,只是想说明,不能仅根据发表在这两个刊物上,就得出文章中的成果是一流的结论。无论登在什么刊物上,都要根据文章本身的内容去做出恰当的评价。
现在,用论文数量、影响因子等作为评价科研成果水平的标准,不但被用于学者个人,而且被用于评比单位。例如,各种高校的排名评比中,就有这个因素。这同样很不妥当。不同高校有不同学科,而不同学科发表的论文要投向不同的刊物。就目前来看,生物、医学、化学对应的刊物影响因子显著高于其它学科对应的刊物。工程类的刊物一般影响因子都较低。上面分析JFM和AIAA刊物影响因子有差别的原因,在这里也大体上适用。2015年,上海某著名高校的党委书记告诉笔者,他所在学校于1952年高校院系调整后被定位为多科性工科大学。但在十几年前的高校扩大和合并潮中,上海的一所医学院被并入该校。到了2015年,该校的论文数和经费中,超过40%是由医学院提供的。这样,有医学院和没有医学院的高校放在一起比论文数,显然是有失公平的。即使同是工科,笼统地放在一起比论文数也是不妥的。
不同学科的论文不但对应的刊物影响因子不同,每个人能发表的论文数差别也很大。就流体力学而言,像钱学森先生和郭永怀先生那样的泰斗级人物,他们回国前在国外发表的论文数并不多,回国后就几乎没有发表过学术论文。他们在力学研究所的同事,也是著名的流体力学家谈镐生院士,在1979年的一次学术会上就告诫年轻人,不要追求论文的数量,按他在美国时的经验,每年能发表一篇论文就不错了。1983年,笔者曾邀请一位英国的皇家学会会员,著名流体力学家来我国访问。来之前,他提供了简历,其中列举了他发表的论文。一共也就是30篇左右,而且还特别说明,其中有两三篇文章的内容有部分是重复的。他当时是50岁,大体上就是每年一篇。而现在一些四五十岁的有头衔的学者,动辄就是发表了上百甚至于几百篇论文,实在令人吃惊。每篇论文,总得有一个新的创新思想,尽管可能只是小的创新。平均一年有20个以上的创新思想,而且要将其实现后才可能写成论文,笔者实在是无法想象。某高校曾有一位教师,他所指导的两位硕士研究生,在硕士毕业时竟各自发表了十几篇论文,那位教师通过署名,也就有了二十几篇论文。而这位教师,在某年受邀评审国家自然科学基金立项申请时,否定了一项申请。而自己却于次年用被否定的申请书中的思想去申请基金,结果被国家自然科学基金委发现而受到处罚。他的学生为什么能那么高产,其原因也就可想而知了。
这种不分青红皂白,通过数论文及刊物影响因子等来评价一个人的学术成就,正是促使少数人铤而走险,采取学术不端手段以求得在高影响因子刊物上发表文章的重要推手。
二、防止学术不端行为的措施那么,要怎样评价一个人的科研成果呢?其实并不困难。首先要看其选题是否是针对重要的问题。其次,看其结果是否解决了该问题,或至少阶段性地解决到一定程度。问题是由谁来做出判断。现在流行的办法是由被评审人提供材料。通常也就是列出发表的论文,刊登论文的刊物的影响因子或分区等级等。对高校来说,材料先提供给学院一级的评审委员会,由评审委员讨论后投票做出初步决定。然后,再由校一级的评审委员会投票决定。
这样做看起来很民主,可以做到公平合理。但前提是,评审委员能对成果做出客观而准确的评价。一个学院通常要面对不止一个一级学科。不同学科的委员对不属于自己同一学科的文章往往连学术名词都不懂。这样,除了数论文数及参考刊物影响因子外,实在是无法做出客观的判断。到校一级的评审委员会,这种情况就更严重了。近来,有些学校开始采取将成果先找同行做通讯评审,然后再送评审委员会评审。这样看起来似乎会好一些,特别是如果送到国外专家去做通讯评审似乎就更可信了。但实际上,这尽管可能要好一些,但如果找的专家不对口,则同样有判断不准的问题。
由于时至今日,随着科学和技术的发展,学科数不断增加,每一学科的内容也越来越庞大,像19世纪那种能同时通晓几个领域的大师已不可能再有了。从现实出发,现在要说同行,实际上就要分好几个层次。以力学学科为例,同属力学学科的专家可称为大同行。同在一个二级学科,如流体力学学科的,可称为同行。同在一个三级学科,如流体力学下的空气动力学,可称为小同行。而同在一个三级学科下的同一个方向的,例如都是从事高超声速边界层转捩研究的,则是真正的同行,可称为小小同行。能对研究成果的解决程度做出独立判断的只有小小同行。因此,第一级的通讯评审的专家应该是小小同行专家。其实,有些文章,如果是带有一些综合性的,即使在某个方面是小小同行,也有不能做出全面准确评价的。例如,我的一位同事根据航天部门实际的需求,利用流动稳定性理论分析了高超声速导弹光学窗口冷却气膜对光学品质的影响,并相应地提出,选用另一种冷却气体可以改进光学窗口的品质,而且不增加,反而可降低窗口结构的复杂性。在写成文章投向国外某刊物时,就遇到了这类问题。刊物在将文章外送评审时,评审人提的一些意见,明显地反映出评审人不是不熟悉流动稳定性理论,就是不了解光学窗口的原理。
因此,在选择通讯评审专家时,必须先选小小同行专家。那种认为只要外审,特别是送国外专家审,就一定能做出客观判断,是没有根据的。
小小同行评审后,还需要小同行或/和同行评审。他们的任务是判断论文涉及的研究方向和具体课题在本学科领域内是否重要,而小小同行在这个问题上不会是很客观的。通过这样二级或三级评审,才能做出较准确的判断。
可以预期,如果成果的评价采用这样的办法,不会有人再去用学术不端的方法制造论文了,因为那类文章很难蒙混过关。
很可能大家会认为以上的做法要耗费太多的人力。实际上,如果真那么做,所费的时间反而可以大大缩小,关键是被评审的材料中如何表达研究成果。如果对每一项成果,用很少的字,例如一两百字,说明其选题的意义及问题解决的程度,再附上一到两篇文章,对小小同行专家来说,一般在20分钟内就可以判断出选题意义和解决程度是否如材料所述。而在同行或小同行那里,要他们做的只是判断所选课题在三级或二级学科中的重要程度,所需时间就更少了。有了这两级评审结果,上级(如校领导或相应的一个小组)就可以直接决定如何对待被评审人,如是否可以提高职称等,而根本无需什么校评审委员会那样看起来很民主,但实质上并不能起把关作用的组织。当然,要这样做,单位要有一个相应的专家库。这也不难,请各个学科或方向的成员提供相应的专家及简介。单位可以在网上查找相应专家的介绍,稍加核实就可以了。
多年前,我在访问美国布朗大学时,正好遇到他们的工学部(Division of Engineering,相当于一个小的工学院)要招聘一位流体力学的助理教授。学校先根据对科学和技术发展趋势的估计,确定某一学科是否要增加人员和增加的人数,然后学院才开始招聘。他们先是在国内外发布要招聘的消息。结果有多个国家的好几十位学者来应聘。他们原来共有6位流体力学教授,就组织了一个三人小组,对应聘人的材料做初步筛选。留下了6位,分别请他们来校作一个40分钟的学术报告,并和每一位流体力学教授面谈一小时。之后,每一位流体力学教授要写一个书面意见,然后三人小组根据大家的意见及自己的判断,提出建议名单,送教务长批准。从这一过程可以看出他们的认真态度,方法也很细致,从而结果也应该是比较可靠的。这种招聘办法,对我们有参考价值。这样招聘进来的人,很难想象来后会用学术不端的办法以求得晋升职称。
综上所述,为防止学术不端行为的发生,最根本的措施是:(1)逐步但尽快地废除现有的各种头衔和相应的物质待遇。代之以稳定的、合理的薪酬制度。(2)摈弃以论文发表刊物的影响因子及文章引用数等作为判断研究成果水平的做法。(3)建立起合理的同行评议方法。如文中所论述,要先由小小同行(做同类研究的同行)先对成果解决问题的难度和程度做出判断,再由上一级同行(同属一个三级学科或二级学科)对成果的重要性做出判断。
这样做,即使不能完全杜绝学术不端,也一定可以大大地降低发生的可能性。