教育评价:矛盾与分析

来源:岁月联盟 作者:胡中锋1,董标2 时间:2010-08-17

摘要:新课程改革过程中需要正确处理几对矛盾,即评价的理论模式与操作程序的矛盾,量化评价与质性评价的矛盾,以及评价方法的“西化”与本土化的矛盾。独断地宣称一种评价方法的合理性和不合理性,无益于评价改革;简单地复制西方国家的评价方法,特别是某些国外已淘汰的方法,对评价理论的创新不利;以特定情境为基础的、冷静的教育评价研究,具有长久的、普遍的意义。

关键词:教育评价;量化评价;质化评价

Abstract:Several pairs of contradictions should be correctly handled in the course of the new curriculum reform, which involve the contradiction between the theory model of educational evaluation and operational procedures, the contradiction between quantitative evaluation and qualitative evaluation, the contradiction between evaluation's westernization and nationalization. It is unbeneficial for the evaluation reform to arbitrarily declare the rationality or irrationality of one kind of evaluation. Meanwhile it is unbeneficial for the innovation of evaluation theory to simply duplicate the evaluation method from western countries,especially those methods having being eliminated by those countries. The educational evaluation research based on some specific situation and calmness bears permanent and general significance.

Key words: educational evaluation; quantitative evaluation; qualitative evaluation

一、理论模式与操作程序的矛盾

理论模式与操作程序是研究的一对普遍矛盾,在人文社会科学领域中更是如此,教育评价也不例外。当前,在我国基础教育新课程改革中流行的一些理论模式都是比较先进的,例如,根据加德纳的多元智力理论,教育评价应该评价学生的多元智力,而传统的评价主要评价了言语智力以及数理逻辑智力,对多元智力的其他成分则评价甚少。又如,根据建构主义教学理论进行评价,必须评价师生的相互作用。后理论强调评价学生学习的主体性,等等。但所有这些,操作起来都非常困难。这些困难,集中表现在评价主体的多元性之难和评价内容的全面性之难两个方面。

(一)评价主体多元性之难

评价主体单一化的局限性是不言而喻的。现代教育评价强调评价主体的多元性:首先,评价者与被评价者的人格平等;其次,评价者应该是多方面人员组成的集合,不能只是少数的所谓权威;第三,重视被评价者的自我评价。这三点都是合理的主张。第一点诉求的人格平等,反对者不多,但它的陷阱,也有不少人堕入──人格平等与知识平等和评价权力平等不是一回事;第二点谋求的评价集合的形成,反映了权威的失落和从去中心到无中心的转向追求。实际上,这种追求无处不遭遇抵制和遏制,因为评价制度和评价传统恰恰是建立在一定的权威预设和中心维系的基础上。最后一点,自我评价在现代教育评价中的地位之所以得到提高,是因为它在自我激励和自我提高中的重要意义,自我评价体现了一定程度的主体自觉。因此,若把现代教育评价的若干假定具体化为操作程序,必面临很多困难。

首先,到底什么人能够和应该成为评价者?其次,各方面的评价者在总评价中占什么地位、发挥什么作用?也就是说,各方面评价者的评分在总分中占多大权重才是合理的(如果不得不总分的话)?再次,怎样保证(各方面评价者)评价的信度?信度若没有得到保证,强行使用信度低的评价结果,不只是犯什么错误的问题,它甚至产生更消极、更恶劣的社会效应和滞后影响。第四,如何进行评价者的心理调控?评价主体的多元性必然带来评价主体间的相互作用。这样,评价者就容易受各种心理效应的干扰,使评价结果产生严重偏差,评价将不再为评价。

(二)评价内容全面性之难

传统的评价在评价内容方面存在的片面性是明显的。在认知因素与情感因素之间,重认知,轻情感;而在认知因素内部,又是重知识,轻能力;在学科知识因素之间,重核心学科知识,轻非核心学科知识。新课程评价强调评价内容的全面性,这个立意,无可厚非,但问题是造成评价内容的片面性的原因是复杂的,从中也显现谋求评价内容全面性之难。第一,认知与知识因素比较容易测评。在测评理论中,越是稳定的因素越易测评。认知与知识因素相对稳定,学生也不会隐藏其智能的真实水平。其次,测评都受时间限制,测评内容只能从教学内容的总体中抽取样本进行。这就产生了无法回避的,甚至是自评价制度建立以来一直存在而未能很好地解决的问题:评价内容的代表性如何?即评价的效度问题。关于哪些学科应成为核心学科的问题,长期以来,我们以不断变换的方式尝试了解决问题的种种可能,但事实上,不但始终没有找到一种充分合理、相对最好的学科组合模式,而且尝试的效应和后果为全社会的评价者和被评价者承担。

因此,需要在教育测评的核心学科的争议中寻求最大共识,需要发掘片面测评的若干合理因素;需要研讨评价内容的代表性的尺度和标准问题,即加强对评价效度问题的研究。

学术界对课程评价的很多新理论都是很熟悉的,但在教学过程中却沿用传统评价模式。这不只是传统模式的惯性在发挥作用的问题,还必须承认,片面的、有局限性的评价模式,有操作简便之长。不好的习惯可以慢慢得到纠正,而执行复杂的操作程序的难度,可能比我们想象的要大。从技术上、资源上和心理上看,短期内实行高度复杂评价程序的可能性并不大。因此,人们有理由怀疑,号称很好的评价方法却无法实行,它是不是很好的评价方法?

一些更功利、更现实的考虑,不是不合理的。采用新的评价模式不一定能提高学生的分数,而学生的考试分数几乎是当前评价教师的唯一标准。试想,如果一位教师,辛辛苦苦采用了很多很好的评价方法,但学生的高考成绩反而没有别的学生好,他还会继续进行这种改革吗?即使他想坚持,也注定得不到支持。

二、量化评价与质性评价的矛盾

所谓量化教育评价,就是“力图把复杂的教育现象简化为数量,进而从数量的分析与比较中推断某一评价对象的成效”。[1]这种评价方法在20世纪60年代之前占据主导地位。随后,人们认识到评价不是一个单纯的技术问题,纯粹价值中立的描述是不存在的,价值问题在评价中凸显出来,质性评价应运而生。量化评价与质性评价是课程评价中的两种基本方法,这两种方法在理论基础、评价目的、评价过程、评价的具体方法、评价的角色、评价的特点以及使用范围等方面都有显著的不同。为清晰起见,本文用表格对二者作一比较,见表1。[1]

1显示,量化评价与质性评价有着非常大的区别。表1不能显示,两种评价方法适用的对象和结合的模式。一般而言,在评价问题上,与其说方法重要,不如说对象重要。但假定对象不变,则对象的重要性就让位给方法的重要性。现在,我们在讨论教育评价问题时,总是假定评价对象不变:现代学校教育中的学生群体。在对学生群体进行评价时,如何发挥量化评价与质性评价各自的优长、限制各自的局限?思路有两条:一是整合;二是分化。也许,整合的思路是最合理的,但怎样整合、即如何把合理的思路变成合情的操作?在以学生群体为对象的大规模评价中,整合不同评价方法的突破口在哪里?这可能是一个国际性难题。但有一点是明确的,整合绝非二者的简单相加。目前这两种方法的使用者都认为自己的方法是最好的,都针对对方的弱点加以抨击。

美国的大学招生,除了看SAT和ACT成绩以外,还看很多方面。比如,中学教师的推荐信。最近,国内某大学附中的一名学生被哈佛大学录取,有两位美国教师给她写了哈佛大学历史上最好的推荐信,这信对她的录取起了很大的作用。值得指出的是,随着高校招生自主权越来越大,我们需要克服腐败现象。假定任何不同方法之间都存在不可调和的对立关系和取代关系,这是不是教育评价的新思维?

其实,西方国家对质性评价的重视,建立在量化评价的(有人用“泛滥”)基础上。尚无充分根据显示,在我国,量化评价大肆泛滥并完全地、彻底地主宰了评价模式。如果这个认识是成立的,则说明我们对量化评价的研究和使用,需要研究借鉴其他国家的成熟做法。一些号称的量化评价,未必不是感觉经验的数字化。甚至可以假定,比较准确地理解和领会了最基本的量化概念(比如χ2检验之类)的教育学教授,包括那些专事责难量化方法的教授,不占其总量的十分之一。承认这一点,就需要我们一方面同时加强对量化评价和质性评价的研究;另一方面立足于我们自己的评价对象和评价背景上,摸索分化、整合的可能性。后者即评价方法的“西化”与本土化的矛盾问题。

三、评价方法的“西化”与本土化的矛盾

目前,我国的教育评价方法主要是借用西方国家特别是美英等国的。这些方法,往往先通过译介而引进,后生搬硬套地推广和运用。比如,越来越为人们熟悉的档案袋评价(有人翻译为成长记录袋)、表现性评价(有人翻译成遂行评价)、[2]真实性评价、苏格拉底式评价、发展性评价、质性评价等等,都来自国外。

可以假定,西方国家的评价方法是长期的实践智慧和研究的结晶。在实践智慧和科学研究二者之间,前者是高度情境化的,后者是高度抽象化的。情境化的,就是本土化的,比如,学生群体、班级规模、模式、选拔传统、流动机制等等。这些,既不能够引进,也不应该忽视。抽象化的,就是普遍化的、标准化的、不受情境制约的。能够为我们学习和引进的,只能是所谓“普遍化的、标准化的、不受情境制约的”后者,不能是前者。假定前者并非确实是“普遍化的、标准化的、不受情境制约的”,而是个人性的、地方性的、情境性的,则有助于解释为什么会出现“橘生淮北则成枳”的现象。

西方国家教育评价方法的二重性特点,是其价值和局限共处的空间。即使其“抽象”的一端放之四海而皆准,“情境”的一端也绝非如此。从这个意义上说,国外的评价方法不一定适合我国的情况,有时甚至可能适得其反。

当前,课程改革中的很多流行理论,例如,从多元智能理论、建构主义教学理论到后现代或后后现代理论,都是西方国家的情境化产物。以它们为支撑的有些评价方法,有的在西方国家已经废止,在我国却方兴未艾。比如,发展性教师评价制度于1998年在英国废止,[3]现在我们却开始热衷这种评价方法,好像每个人都透彻掌握并真心赞成这种评价方法,把过去的评价一概打成奖惩性评价,就像我们在推行素质教育的时候把过去的都打成“应试教育”一样。

对这类现象,很难说出多少新话,多是一些老话:教育评价需要实事求是静心徐察的勇气,需要具体问题具体分析的耐心。因为任何评价方法都有它产生的土壤和条件,也有它的使用前提和适用对象,绝非任何地区或国家都能够使用同一种评价方法且产生同样效果。“橘生淮北则成枳”的道理恐怕谁都明白,为什么在实施中却“橘枳”不分呢?可以猜想一下:某些研究者图简单、省事,将国外的先进方法直接引进,不但完成了“科学研究”的任务,而且一下子就达到了“国际领先水平”。它,误导并操纵了教育评价行动,好像再现了“西海潮流猛秦火,东风复助为妖祸”的历史景观。以目前在我国推行的“档案袋评价”方法来说,笔者了解到的情况是,使用过这种方法的教师,很少赞成普遍推广它。它的主要局限有以下六点。

●档案袋评价的工作量大,需要占用教师很多的时间精力,在教师教学任务繁重的情况下带来过重的负担。

●档案袋内容太多,标准化程度低,不好整理分析,用于大范围的评价时难以控制。

●档案袋评价存在着主观性太强的特点,评价过程中很难保证公平、公正。尤其是学生互评过程中很多主观因素影响着评分。

●难以保证信度、效度,很能达到客观、真实。

●如果各科都建立学生档案袋,肯定会导致学生的厌烦情绪。

●教师在不同的时间对学生的评分是不一致的。

更重要的是,到底有谁来看这些档案袋,有多大用途?如果高考还是原来的高考,这些既费时又费力的档案袋可能没有很大的作用。反过来,如果档案袋在选拔中占了一定的比例、起了一定的作用,哪怕是一点点作用,谁又能保证档案袋内容的高信度?现时,能否信心十足地说,家长不会弄虚作假,教师不会弄虚作假,学生不会弄虚作假?

评价方法“全盘照搬”行不通,要在挑选之后“拿来”。在“拿来”的时候,对拿者的素质也有较高的要求。正如鲁迅说的那样,“首先要这人沉着,勇猛,有辨别,不自私”。只对拿者的个性和素质提要求,还是不够的。更重要的是,改造知识情境和评价情境。

在评价的实施过程中,还存在其他一些不易化解但可能被人忽视的矛盾,诸如,评价过程的全程性与评价结果的终结性的矛盾;课程标准的理想导向与评价结果的功利导向的矛盾;评价理论的模糊性与评价实施的清晰性之间的矛盾;评价的理论研究不足与实践作用的过分夸大的矛盾;等等。凡此种种,都需要进一步的研究。

① SAT是Scholastic Aptitude Test的缩写,译为“学术性向测验”;ACT是American College Test的缩写,译为“美国大学测验”,在美国中西部被广泛采用。美国绝大多数高校两种考试都认可。

② 例如,“班级规模”就是一个极重要的尺度,它综合地反映了教育资源的总量、分布、分配、占有和支配模式。可惜,在过去二十多年的专业研究和政府文告中,它不是一个常为人充分注意的概念。因此,它对教育评价的规定和对教育改革的诉求,也没有充分展示和揭示。夸张地说,仅采取班级规模合理化这一种手段,就可以减少现行教学及其评价的若干积弊。参见Peter Blatchford et al.(1998),Research on Class Size Effects:A Critique of Methods and a Way Forward,International Journal of Educational Research,29.

③ 科学知识具有普遍化、标准化和不受情境制约的特性之说,从20世纪50年代到80年代,先后被波兰尼(1958)、吉尔兹(1983)和劳斯(1987)等人否定。(《个人知识──迈向后批判》,许泽民译,贵州人民出版社,2000;《地方性知识──阐释人类学集》,王海龙等译,中央编译出版社,2004;《知识与权力──走向科学的哲学》,盛晓明等译,北京大学出版社,2004)他们或者发现了科学知识的个人性,或者揭示了其地方性、情境性。法兰克福学派、特别是哈贝马斯,则着力批判科学技术的操纵功能。自伏尔泰到波普,都强调科学知识与人文知识和社会理论之别,强调科学知识的数据化力量、与日常生活的断裂性特征。波兰尼等人的劳作等于向这类论断发起了挑战。

④ 吕达2005年5月13日在华南师大教科院所作的学术报告《当前课程改革的若干问题》中,也持此见。

⑤ 华南师范大学2002级教育硕士教育管理方向黄艳同学的硕士论文,2004年12月第43页。

1]张扬.论课程评价中的量化评价与质性评价[J].宁波大学学报(教育科学版),2004,(3):37—39.

2]董华,等.遂行评价──韩国小学新型课程评价体制[J].现代中小学教育,2004,(2):57—59.

3]王小飞.英国教师评价制度的新进展[J].比较教育研究,2002,(3):43—47.