高考的公平性再分析
来源:用户上传
作者:
高考是我国重要的人才选拔考试,也是目前国内影响力最大、影响面最广的考试。它一头关乎着国家社稷的发展和未来,另一头维系着千家万户的期盼和希望。由此,高考的公平就成为社会关注的焦点,成为社会公平的重要组成部分,成为百姓心目中敏感脆弱、不能触碰的底线。
近年来,随着高考制度改革的深入,人们对于高考公平性的关注度持高不下。事实上,人们更多的是从社会学的角度来关注高考的公平性,关注的是形式上的、外在的、显性的公平,如考试的内容、考生的身份、加分的类型等。其实,考试的公平性是一个复合型的概念,不仅有形式上的公平,还有实质上的公平,不仅有外在的公平,还有内在的公平,不仅有显性的公平,还有隐性的公平。分析的角度也是多元的,不仅可以从社会学的角度来分析,还可以从教育测量学的角度来分析,如主观性试题评分质量的控制、项目功能差异(DIF)检测、分数调整和等值、分数组合方式的选择以及作弊的防范和雷同答卷甄别,等等。这样,考试的公平性分析就会更加立体,更加全面,也有助于加深人们对于高考的认识,增强人们对于高考改革的认同感,有利于进一步维护高考的公平公正。
一、主观题的评分质量控制
主观题是相对于客观题而言的,泛指无固定答案、采用多级计分的题目。主观题的命题角度比较灵活,可以多维度测查考生能力,能展现考生的作答反应过程,因而是很多考试中必不可少的题型。比如简答题、论述题、作文等都是考试中常用的题型。
然而,主观题也有其自身的弊端,由于评分员对于评分標准的理解和把握不同,加上疲劳效应等因素的影响,评分的信度和效度偏低。但是,高考中很多科目如政治、历史、地理等都会采用主观题的题型,语文中的作文其分值在整卷中更是占到了相当大的比重。高考,一分之差就可能影响录取的结果,所以需要对主观题的评分高度重视。
目前,高考主观题的评阅大都采用了网上评阅系统来评分,会采用“2+1”评分模式来控制评分误差,评分的质量得到了有效控制。但是,趋中评分等问题依然凸显,主观题评分质量的控制还任重道远。
随着计算机技术的飞速发展和人工智能的广泛应用,计算机自动评分(Computer-Automated Scoring,CAS)应运而生。计算机自动评分相较于人工打分,稳定性好,效率高。目前,一些省市已将自动评分系统作为质检系统用于高考之中,检测空白卷、疑似抄袭、特殊作答,对人工评分进行纠偏等。未来,随着人工智能实现从感知智能到认知智能的飞跃,通过计算机对人类的语义理解、知识表示、逻辑推理和自主学习的模拟和学习,计算机自动评分技术将会实现质的飞跃,评分质量会显著提高,应用的范围也将逐步扩大。人机结合的评分方法将成为主流,主观题评分的准确性和可靠性将会大大提高,考试的公平将会得到技术上的保障。
二、项目功能差异检测
评分员会影响到考生的成绩,题目质量的好坏更是直接关系着考生答题、考生录取等环节,因而高考的题目质量需要得到保证。题目质量可以用难度、区分度以及项目功能差异(Differential Item Functioning,简称DIF)等指标来衡量。在高考这种选拔性的考试中,考试目的是要对考生的能力水平进行区分。如果题目过难或过易都会失去鉴别的意义,因而要以难度适中的题目为主。此外,还需要检测题目是否存在DIF。DIF指的是某题目在不同群体间表现出与测验目的无关的功能性差异。这个指标跟考试的公平性密切相关。但高考的考生样本量庞大,在实际操作中进行DIF检测会很复杂。尽管如此,还是要对可能存在DIF的题目引起注意。
高考题目虽然经过了层层把关,但由于考生人数多,可能由于无法兼顾不同考生群体的差异,而存在DIF。比如2015年陕西省高考语文的作文题是:一位父亲在高速公路上开车打电话,孩子一再提醒不要打电话,可是父亲不听劝阻,最终孩子选择报警,警察来后对父亲进行批评教育。题目要求考生给父亲、孩子或者相关部门写一封信。有人认为这道题对于不了解高速公路及高速上不能打电话等规定的农村学生不公平。这是由于城乡差异而引发的争议。至于该题目是否存在DIF,则需要进一步研究。事实上,由于作文题材的不同,对不同性别的考生来说可能也是不公平的。假如给考生的作文题目是关于球赛的,那么这个题目对于男生来说是有利的,因为大多数男生比女生对于球赛的问题更感兴趣。假如给考生的作文题目是关于美妆的,那么这个题目对于女生来说是有利的,因为大多数女生比男生更关注美妆方面的问题。因而题目在性别层面就可能会存在差异,对某一群体造成不公平。
题目存在DIF一般不受题型的影响。作文是多级计分的题目,而判断题、单选题则属于二级计分的题目。其实,国内对二级计分题目的DIF的研究更多,对于多级计分题目的DIF的研究并不成熟,所以多级计分题目的DIF检测方法仍有待进一步开发。运用检测DIF的方法,关键在于如何判定两组被试是否具有相同的能力,即确定匹配变量。然后根据地区、性别、专业、民族等方面的不同,将两组被试分为目标组和参照组。目标组通常是可能被不公平对待的群体,参照组通常是用作比较的对象。DIF分析实际上就是在比较这两组被试与测验目的无关的差异。比如有一道用英文表述的数学题,如果这道题本质上是要考查被试的数学知识,但由于题目是英文的表达,而导致很多英语不好的被试做不对这道数学题目。那么,这道用英文表述的数学题就存在DIF。那是不是存在DIF的题目就是一道不好的题目?答案是否定的。这要看施测者要测查被试哪方面的能力。如果只是单纯要测被试的数学能力,即测验是单维度的,那么这道题目就是不合适的;如果要同时考查被试的英语水平和数学能力,即测验是多维度的,那么这道题目就没有问题。对于用DIF检测方法得出的结论,属于统计意义上的判断。要想判定题目是否存在DIF,还要参考专家的意见。DIF分析为测验的公平性提供了重要参考依据,它与测验的效度也有直接关联,是证明测验有效性的重要证据。试题的DIF检验是标准化测验研发的重要环节,可以通过对题目进行DIF检测以减少测验的偏差。所以,多角度关注高考题目的质量,会进一步提高考试的公平性。 三、分数的调整和等值
为了使考试更具科学性和公平性,往往需要进行分数调整和等值。等值(equating)指的是将难度、分数分布不同的试卷得分转换到一个统一量表上的过程,是分数连接(linking)的一种方式。相比于连接的其他方式,等值要求更为严格,需测验间构念相同、难度相似、信度相同以及考生目标总体基本相同。显而易见,对于同一科目的测验而言,有能够进行等值的可能,但是不同的科目间,只能进行分数的连接。
在一些省份,高考英语采用一年两考的方式。由于很难确保两次考试难度一致,因此是需要进行分数调整的。等值就是对考后的分数进行调整的一种手段。等值有两种收集数据的方法,一种围绕“共同题”展开,共同题又叫作锚题;另一种围绕“共同组”展开。其中,在共同题的等值设计中,等值在拼卷的时候就已经开始了。即在不同试卷中加入共同题,通过共同题进行等值。但是,高考不可能在前后两次考试中出现相同的题目,这很不现实。对于高考英语,可以采用共同组的等值设计方法,即认为前后两次测验的考生能力分布水平大致相同,从而实现等值的目的。
从现实情况来看,高考很难满足不同科目之间进行等值的条件。但是,可以对高考进行分数连接。根据高考改革方案,河北、辽宁等八省市将从2018年秋季入学的高中一年级学生开始实施“3+1+2”的模式。“3”是指全国统考科目语文、数学和外语;“1”是指首选科目,考生要在物理、历史中选择1门;“2”是指再选科目,考生可在化学、生物、思想政治和地理4个科目中选择两科。因为所有的考生都会参加语文、数学和外语考试,因而可以把这三科的考试当作锚测验,以此来进行高考分数的连接。当然,由于语文、数学和英语的构念、难度等条件与其他考试科目不同,以这三科的成绩来作为锚测验的效果不一定很理想。因此,还要探求更为科学合理的分数调整方式,以维护高考公平。
四、分数的组合
在评分员完成评分之后,如果分数结果没有问题,还要对测验分数进行组合。分数组合的方式会直接影响到考生最后的总成绩,进而影响到录取公平。
分数组合的方式有很多种。比如临床判断、原始分直接相加、多重分段和多重回归等方法。在高考中,分数组合采用的是原始分直接相加的方法。
原始分相加从理论上来说需要满足三个基本假设:(1)这两个测验测量的是同一种心理特质。这指的是所测量事物的属性是一样的,就像测量长度的单位不能与测量重量的单位等同,不能把两公斤和两米进行相加。在考试中,就如同不能直接把语文成绩和数学成绩相加一样。很明显,语文考试跟数学考试要测试的构念不同,或者说不是同一种心理特质,因而将二者进行简单相加是不合适的。(2)相加的两个量应该有相等的单位。如果所测量的事物属性相同,单位也应该相同。比如不能直接用一米跟一厘米进行相加。在考试中,将不同分测验的分数相加也是不科学的。因为一道两分的判断题与一道三分的选择题同样都是组成试卷的一部分,会因这两部分答对数目的不同而导致总分不同。(3)对于取自同一样本的两个变量,应有相同的变异才能相加。否则,两个量相加时,变异程度大的变量对结果的影响大。比如对于文科生而言,数学成绩好的学生可能会有优势,因为数学不好的同学跟数学好的同学的数学成绩差距大。但是,语文的分数相对比较集中,不会有数学那么大的分数差距。对于以上三个假设,现行的原始分数直接组合的做法并不满足。因此,从分数组合上就可以看出最终考生的分数是有误差的。
除了原始分直接相加,高考还采用过用标准分相加的方式。但用标准分相加,不包含各个分测验有相同变异的假设,也就是说各个考试科目会被平等对待。但是用标准分相加的方式未能避免前两个假设,仍然具有不合理的地方。加之计算过程比较复杂,大众理解起来较困难,因而没有实行开来。高考一直在探索更加科学的分数组合方式,以确保考试公平。
五、试后雷同答卷的甄别
高考作为我国最重要的选拔性考试之一,难免会有一些人因为利益驱动而进行作弊。随着科技的发展,作弊技术也在不断升级,有时很难被发现。除了有个人作弊的行为,还有作弊团伙联合作弊的现象。通过互联网,甚至可以把作弊范围扩展至全国。这严重违背了考试公平、公正的原则,损害了其他考生的利益。
高考对作弊行为是零容忍的态度,在打击作弊行为方面已经做了很大的努力。比如,《中华人民共和国刑法修正案(九)》明确了对于作弊行为的惩戒办法,这对作弊群体具有强有力的震慑作用。为防止考生作弊,在高考前会做很多工作。如考前签署诚信保证书,考试时使用屏蔽仪器、监控器等设备。除了考前防患于未然,考后进行雷同答卷的甄别,更能确保考试安全。常见的雷同检测方法有错同率方法、g2方法、Kappa方法,以及K指数方法等。在我国,错同率方法因运算速度快而成为被较多使用的一种方法。在实际操作中,应该使用多种雷同检测方法,以提高检测结果的精准性。可对于高考而言,公平和效率是需要同時兼顾的。从当前条件来看,高考的规模大、考生数量多,运用雷同答卷弊甄别技术需要很大的成本。这样做虽可以维护考试公平,但却牺牲了效率。不过,高考在雷同检测方面可以试着逐步推进。
高考公平与否,关系到考生能否平等地享有高等教育的入学机会,甚至关乎考生的个人命运。此外,还关涉一系列社会公平问题。所以高考的公平性受到了高度重视。在维护高考公平性方面,已经做了大量的工作,但仍然需要继续从教育测量学的角度来探寻制约考试公平的因素。当然,还要不断进行改革和完善,维护高考公平。
转载注明来源:https://www.xzbu.com/9/view-14840584.htm