英国大学科研影响力评估机制及其启示

发布时间：2017-07-05 分享到：

英国高校的科研实力为全球所公认，其卓越的科研成就与其成熟完善的科研评估制度密切相关。2014年12月17日，英国高等教育基金委员会（HEFCE）公布了大学“科研卓越框架（Research Excellence Framework，简称REF）”的首次评估结果，结果表明，英国大学科研质量稳居世界领先地位，英国研究对经济和社会产生了广泛的影响力。REF是在1986—2008年实施的六次大规模传统科研评估（Research Assessment Exercise，简称RAE）基础上作出重大调整的全新评估制度。新的评估制度在遵循公平、透明、客观等基本原则的基础上，更加注重科研产出的卓越性以及产出的社会效益和社会影响力，为此在评估体系中特别增加了科研影响力评估模块。英国大学科研评估的制度性调整效果目前尚不明确，但是其评估体系中的一些创新性改革对于目前正处于全面深化科研体制改革攻坚阶段的我国无疑具有重要的参考和借鉴意义。

一、从RAE到REF：英国高校科研评估的制度改革

       英国大学科研评估始于20世纪80年代，当时英国面临经济恶化与高等教育扩大规模后的财政压力，在这样的双重背景下，为了减少财政负担，英国政府采取了基于压缩教育投资考量的“择优资助”策略，对大学的经常性拨款引入了建立在评估等级基础上的公式化拨款模式。在科研领域，英格兰高等教育拨款委员会（HEFCE）、苏格兰高等教育拨款委员会（SFC）、威尔士高等教育拨款委员会（HEFCW）和北爱尔兰学习就业部（DEL）等英国四家高等教育拨款机构联合组织实施面向大学的科研评估制度（RAE），旨在为英国拨款机构提供高校科研经费拨款的依据，从而提高政府拨款和管理的透明度，并促进高校提升科研质量及国际竞争力。
       基于RAE的大学科研评估从1986年开始，至2008年共进行了六次（分别是1986年、1989年、1992年、1996年、2001年、2008年，基本上每4至5年举行一次），这些大规模的评估活动对英国高校事业的发展产生了深远的影响，有效地加强了英国高校的科研管理，提升了高校科研质量和效率，推动了科研经费的优化配置。但是，伴随科研评估的各种负面效应也日益显露，RAE不断遭到质疑，如基于同行评议的RAE，由于主观因素的影响，评估结果与经费分配两个目标并非总是一致，科研拨款中会产生“马太效应”（Matthew Effect），即越有名的科研机构可能获得的等级较高，因而得到的资助更多，而有些一般的学校或是新兴的学校得到的资助很少，出现强者更强、弱者更弱的情况。此外，RAE评估耗资巨大，评估成本较高，这也是RAE引发诟病的重要方面。以RAE2008年为例，评估花费总计4733.6万英镑，占到了全国所有科研经费的0.5%左右。就高校自身而言，为了应对科研评估，高昂的费用支出也让许多高校不堪重负，如2010年，牛津布鲁克斯大学单个学科的评估花费为10万英镑。
       面对RAE带来的负面影响及其质疑，也是为了应对日益激烈的国际高等教育竞争，缓解政府研究经费的财政压力，2008年评估后，英国政府着手酝酿新一轮科研评估制度改革，委托高等教育基金委员会研制、开发新的科研评估方法，即科研卓越框架（REF），并决定于2014年发布评估结果，以此作为2015、2016年度对大学科研拨款的依据。

二、科研卓越框架（REF）的创新特征　　

       英国REF的评估主旨类似于RAE，主要是对各大学提交的科研成果提供权威的研究质量评价，以此作为高等教育拨款机构提供科研拨款和英国高校排名依据，但是，相对于2008年以前的RAE评估，2014年的卓越框架评估体系呈现出如下创新性特征：
       1. 精简评估小组，评估单元学科分类特征明显。在RAE评估框架中，由于评估小组多，机构冗杂，导致评估成本较高。为了降低科研评估成本，REF精简了评估小组。由RAE评估中的67个次评估小组和15个主评估小组精简为36个次评估小组和4个主评估小组。在REF2014的评估小组成员构成上，次评估小组有36名次评估小组主席、1052名组员和评估者（其中77%的学术者和23%的使用者）、25名专家顾问；主评估小组有4名评估主席、23名国家成员、17名使用者。四个主评估小组依据学科特点将评估单元（UOA）划分为A、B、C、D四类，其中A组是医学和生命学科类，包括临床医学、公共健康和卫生服务、生命科学等6个学科；B组是物理科学类，包括地球系统与环境、物理、化学、计算机工程等9个学科；C组是社科类，包括建筑学、地理和环境考古学、经济学、法学、社会学等11个学科；D组是人文科学类，包括区域研究、现代语言和语言学、英语语言和文学、历史、古典文学等10个学科，评估单元的学科分类充分体现出了研究的跨学科以及协同取向。
       2. 专家评议为主，文献计量分析为辅，透明度较高。在REF体系中，科研评估模式由RAE一贯坚持的同行评议向专家评议为主、文献计量分析为辅的方式转变。这是针对同行专家评估模式的重要调整，辅以文献计量分析，可确保专家评议对评估活动整体方向的把握，更好地提高科研评估的准确性和透明度。为确定文献计量分析的可行性，在REF的公开咨询阶段，HEFCE使用三种基本的文献计量模式进行了试点实验。这三种模式分别是基于机构地址的模式、基于作者及其论文的模式、基于作者及其高频被引论文的模式。基于机构地址的模式以WOS或者Scopus数据库为基础，采用自上而下的方式检索机构已发表的论文或者专利，根据期刊类别将检索到的论文或专利分配到相应的评估单元；基于作者及其论文的模式以作者为检索点，将每个评估单元参评科研人员的所有论文检索列出，然后利用Evidence数据库提供的Sympleetic data进行分析；基于作者及其高频被引论文的模式则是通过数据库列出科研人员的6篇高频被引论文，然后根据引文分析有重点地进行评　估。试点结果表明，完全的文献计量模式无法真正反映试点机构的科研质量，但是，由于文献计量指标可以为专家评议提供信息服务，因此，REF最终确定了专家评议为主、文献计量分析为辅的评估模式。
       3. 引入科研影响力模块，注重社会效益评估。RAE2008科研评估中的指标和权重分别是：科研成果（70%）、科研环境（20%）、科研声誉（10%）；而在REF评估中英国高等教育基金委员会将其调整为：科研成果（65%）、科研影响（20%）、科研环境（15%），新增了科研影响力因素，也可以说是将“科研声誉”更换为“科研影响力”，同时调整了相关要素所占比例，除了仍旧重视科研成果以外更加注重科研影响力。科研影响力主要集中于对各高校或科研机构提交的科研成果在改善或有利于经济、社会、健康、文化、公共政策或公共服务等方面产生的影响或者科研活动所作的贡献进行评估。在对科研影响力的评估过程中，评估小组成员除了专家学者以外，还包括科研使用者，将科研评估与使用者的反馈相联系，更加注重科技创新和科研活动的社会价值，加大对科研成果的社会效益评估，以此来推动科研成果转化成社会生产力，促进社会的发展。
       三、REF科研影响力（Impact）评估的内在机制
      科研卓越框架评估体系中新增影响力评估模块，这是英国REF改革的关键所在，也是英国谋求科研创新和卓越性诉求的重要体现，以下从科研影响力的界定、评估方法、评估结果三方面分析大学科研影响力评价的内在机制。
      1. REF对影响力的界定及其类型。英格兰高等教育拨款委员会（HEFCE）对科研影响力是这样界定的：科研成果对经济、社会、文化、公共政策或服务、健康、环境、生活质量等学术界以外的各个方面所产生的效果、变化或收益。影响不仅包括对社会经济产生的正面影响，还包括减少或预防伤害、风险、成本或其他的负面影响。但是，其科研成果的影响力不包括对高校内部学术发展产生的影响，也不包括对高校内部系统教育的影响，即指学术外的社会经济影响。这些影响力不仅包括对英国本国的社会、经济、文化、政策等方面的影响，还包括了其科研活动在海外产生的社会影响。影响指标首次作为一个独特的元素被引进研究评价，符合政府所谓的“经济—影响力”议程。

影响力类型，也可以说是REF评估中评估影响力的内容包括：政治、健康保健、科学技术、经济效益、法律、文化、社会和环境这八个方面。2014年10月HEFCＥ发布了各高校递交的影响力类型案例研究情况，其中政治方面508个、健康保健类857个、科学技术类1403个、经济效益类381个、法律类212个、文化类1098个、社会类1724个、环境类459个。从各高校递交的影响力类型来看，科研影响力的研究主要集中在社会、科学技术和文化这三方面，即在评估科研影响力这一要素时，对社会、科学技术和文化产生的影响更广泛。
2. REF科研影响力的评估方法及评估过程。相对而言，科研影响力难以用数据和指标量化表征，为此，在科研影响力评估方法上，评估委员会专门设计了“案例+模板”的方式。所谓案例研究指的是各院校和科研单位在参与评估时向评估专家小组递交2008年到2013年的案例评估材料并且要有详细的说明，并附有该科研活动对社会经济产生影响的具体案例。在递交的案例中，参评单元需阐述研究工作是如何进行的，采用怎样的研究方式，对社会经济产生了怎样的影响，并且用定量的数据说明其影响力的深度和重要性。然后评估小组会对递交的案例考虑学科的差异性，对科研影响力进行分类评估，为评定科研影响力的等级提供参考依据。

       所谓影响力模板，是由评估委员会设计的专门用于了解参评单元推动科研产生影响的战略、途径和方式的一种模板，用以辅助影响力案例研究的说明。模板的主要构成要素有：影响的概述、参评机构、参评单元、影响类型的概述、研究课题的领域等方面。为方便专家对科研的影响力进行评估，模板的填写应辅以案例以及供参考的指标和定量数据作为证据。
       2014年10月18日，在HEFCE发布的REF2014评估结果中，有154所英国高校参与REF评估。关于“影响力”评估，英国高等教育机构向评估委员会递交了6975份“案例研究”材料。每一个参评机构向评估委员会提交的评估材料都必须由“案例”和“模板”构成，交由评估小组进行评分。主评估小组将递交的案例和模板分配给36个次评估小组，各评估小组单独地给这些案例和模板评分，然后再由4个主评估小组评估使得总体的评估分数合理化。在REF2014的影响力评估中，根据“案例+模板”的评估方法，制定了比较严密的评估过程，从评估前的评估小组成员的招聘到最后的评估结果的确认都制定了具体的时间安排。在“检查文件和评估个人得分”这样的过程阶段，还有一个额外的步骤是“审核”。审核小组成员可以请求通过检查案例研究和模板来审核案例研究中提到的证据来源。审核这一额外步骤不是所有的案例研究都要进行，而是在评估小组要求的基础上进行，74%的机构中至少5%的案例研究要被审核。最后，每一份递交的影响力评估材料的案例研究和模板的所有得分结合，产生一个整体性的影响力“概况”，该“概况”表明了评估的每一份材料的水平，即评估结果的等级划分，从无星级到1星级、2星级、3星级、4星级（最高级）。
        3.REF科研影响力的评估结果。通过“案例研究”，评审专家组根据“深度”和“重要性”两个方面对提交材料的影响力进行评估。“深度”是指科研活动产生影响力的深度和广度，或扩展幅度，“重要性”指的是科研活动影响力或科研活动产生作用的大小。基于这两个方面的考虑，整体上形成一个统一的标准，据此，评审专家组将科研影响力的评估结果分为四个星级，从无星级到1星级、2星级、3星级、4星级，分别代表没有影响、影响一般、影响较大、影响特别大、具有卓越影响力。
这些星级评估结果将和科研质量、科研环境两个评估指标的结果一起综合得出一个总的评估星级，直接与科研拨款联系。因此，科研影响力的评估结果和高校获得的科研经费的多少有直接的关系，因此英国的各大高校和科研机构都非常重视科研影响力的评估结果。　　

三、英国REF科研影响力评估的争议

科研影响力评估是REF的重大创新，也是REF对大学科研卓越性追求的重要体现。但是在REF的酝酿过程中，各界对影响力评价存在较多争议。
1. 影响力定义难以统一，各学科间影响力难以比较。影响力虽然可以简单地理解为科研成果对社会、经济、政策、文化等方面所产生的影响和所做的贡献，但是正如英国南安普敦大学教育学院院长安东尼·凯利（Anthony Kely）就评估结果在“对话”网撰文所言，由于学科差异，目前学术界对影响力并没有一个统一的定义。此外，英国国家学术院表示，建议“研究影响力”所占比例不应太高，因为人文艺术学科与理工科不同，经济社会影响很难衡量。某些学科或者科研成果在科研影响力这方面有优势，比如医学、临床医学、建筑学等学科就很容易对社会产生影响力，且影响力也有一定的深度，甚至还可以量化，可以很直接地看到其影响力的大小；而对于像文学、哲学、音乐等学科就很难产生很大或者很深远的社会影响力，对类似这些学科的影响力的评估可能还需要另外定义“科研影响力”或者拓宽“科研影响力”的范围。因此，由于学科之间的差异，科研影响力定义难以统一。

        2.科研影响力的权重存在争议。REF改革中引入科研影响力指标旨在促进高校和社会工商业的合作，而该指标在REF体系中的权重分配成了核心争论点。在改革初期，曾将影响力权重分配为25%，但是这个权重比例遭到了一些学者专家的反对，他们认为，由于有些学科的研究主要是理论研究，这种研究与社会、经济、文化的交汇较少，而且不能直接和社会工商业相互合作，因此难以较好地陈述案例的具体影响力。对于这样的学科，如果影响力的权重过大，可能会造成这些理论研究结果得不到较高的评估等级，从而就得不到足够的科研经费，因此这类研究可能因此而衰退。2010年，HEFCE对29所大学进行了科研影响力试点实验，试点报告也认为25%的权重有些偏高，建议影响力权重应该低于25%。因此，HEFCE最终在REF体系中将影响力指标的权重确定为20%，尽管如此，建议将该指标的权重降为15%的声音依然存在。
        3.过于强调影响力可能会导致高校忽视教学。REF根据科研成果或者科研活动对社会影响力的深度和重要性进行评估，注重社会效益的同时，高校可能会为了追求科研成果的星级评定而忽视了日常的教学事务。正如英国曼彻斯特大学社会人类学教授彼得·韦德（Peter Wade）所言，REF对影响力过于狭隘的界定，在一定程度上忽略教学事务在大学对社会影响中的作用。
        4.对研究者的自主权产生威胁。从学术研究来看，大多数学者或研究者都很重视自主权和学术自由，在REF评估中，有学者认为对这一要素的重视，在一定程度上对研究者的自主权和学术自由产生威胁。西蒙·史密斯（Simon Smith）等学者指出，自主权是任何专业科研活动的基础,科研活动不仅依赖于科研自主权，同时还依赖于内在联系的三个前提条件：对知识生产的控制、对知识利用的控制和对具有社会代表性的知识使人信服的方式。由于科研影响力注重科研活动对社会、经济、公共政策等的影响，看重科研成果的使用，即重视“对知识利用的控制”，没有合理考虑“三个前提条件”，即忽视了科研自主性。另外，由于采用“案例+模板”的方式评估影响力的星级等级，这对研究者具有一定的约束性，研究者为了获得更高的科研影响力等级，从而获取较高的科研经费，势必会按照评估要求进行科研活动，导致对研究者的自主权产生一定的威胁。
        五、英国大学科研影响力评价的启示
       虽然科研影响力评价的具体指标和评价效果还有待实践检验，但这一评估要素的改革已成为英国学术界广泛关注的焦点，同时也成为REF今后继续完善的一个突破点。美国2012年评估协会（American Evaluation Association，AEA）会议将“影响力”确立为主题，由此在世界范围内掀起了一股对科研影响力评价的讨论，许多国家也都在重视科研质量、关注科研创新的同时，更多地把焦点聚集转移到了科研影响力评价上。就我国而言，国务院在2012年发布《关于深化科技体制改革加快国家创新体系建设的意见》中也特别强调要提高科研院所和高等学校服务经济社会发展的能力，这表明我国在科研领域也开始重视科研影响力问题，但是相对而言，在我国的科研评估体系中，缺乏完整系统的科研影响力评估，因此，英国REF科研影响力评价对我国科研评估在考虑影响力评估时提供了借鉴和预防。
       （一）英国大学科研影响力评估的经验
       1. 重视社会效益。英国科研影响力评估，直接将科研成果或科研活动与社会工商业界联系起来，并以科研成果的影响深度和重要性结合进行评估，体现了对科研社会效益的重视。我国的科研评估可以借鉴英国的科研影响力评估，重视社会效益的评估，针对社会影响力制定出适合我国科研评估的办法，促进科研活动为社会做更大的贡献。
       2. 注重多元化，强调学科差异性。英国科研影响力评估在充分考虑学科差异性的基础上针对不同的单元进行评估，而我国科研评估大多是以科研论文、著作等的数量作为指标评价，这种单一的评价指标忽视了学科差异性，挫伤了科研人员的积极性，因此要注重多元化，不可“一刀切”，充分考虑学科差异性。
       3. 定量与定性评估结合。科研影响力的评估在文献计量法的基础上采用“案例+模板”的方式进行评估，很好的将定量与定性评估结合。我国目前高校主要采取的是定量评估，为了使评估结果更加客观、透明，可将定量和定性结合，在保证“量”的客观性同时，保证“质”的权威性。
      （二）借鉴英国大学科研影响力评估经验时需要注意的问题
       1.相关指标的界定和权重分配要清晰。在REF中对“科研影响力”的定义存在着争议，在学术界难以统一其定义，其权重比例也存在争议。这给影响力的评估带来一定的困扰。这就提醒我们在我国的科研评估体系中，如果要引入新的评估指标，应尽可能的全面考虑其指标的界定，避免因定义不明确、权重争议而带来的不利影响。
       2. 平衡教学和科研，防止顾此失彼。英国科研影响力的星级评估直接和科研经费挂钩，高校为了争取更多的经费，花费较多的精力在科研上，导致教师在一定程度上忽视学校教学。这就告诫我们在重视科研，深化科技改革的同时，不能忽视高校的教学，平衡教学和科研，齐头并进，实现产学研的结合，努力推进科研创新，提升科研竞争力。
       英国大学科研评估制度历经30余年发展，日益成熟和完善，2014年实施的科研卓越框架更是致力于推动大学科研的创新和卓越性。科研影响力作为REF改革的突破和关键，其评估方法、标准以及过程等都具有一定的参考价值，尤其是正处于全面深化高等教育体制改革的中国。当然，也不能照抄照搬，正如《自然》总编菲利普·坎贝尔（Philip Campbell）博士在上海科学会堂举办的2014科研评估体系国际学术研讨会上所言，“各国在科研基础设施、财富，以及经济、环境和发展目标等方面都有各自的情况，因此并无通用的解决方案。”因此，我国在科研创新改革的路上要针对本国科研实际情况，吸取精华，不断完善我国的科研评价体系。

刘兴凯　左小娟
来源：《中国高教研究》2015年第8期