如何对纸笔考试测试结果作质量分析
来源:用户上传
作者:
一个学期即将结束,老师们又将在期末的纸笔考试测验后,对纸笔考试测验的结果进行质量分析了。对考试测验结果进行质量分析在教学和学业评价上有着重要的作用:有利于评价考试测验的质量;有利于改进考试测验工作;有利于改进教学工作。
但遗憾的是,课改至今,我们的质量分析还是沿用课改前的传统经验型质量分析。经验型质量分析,是在设定纸笔考试试卷编制是没有一点问题的基础上进行的,仅凭成绩的优秀率和合格率,以及平均分和学生做题出现的状况进行分析,从而得出教与学的优劣和存在的问题。我们都知道,影响纸笔考试测验结果的因素有三个:纸笔考试测验卷的编制、教师的教学和学生的学习。而传统经验型质量分析是把“纸笔考试测验卷的编制”这个影响纸笔考试测验结果的因素剔除在外而进行的质量分析。因此,分析的结论是不科学的、不准确的,是无法实现质量分析在教学和学业评价上的重要意义的。
科学的考试测验结果质量分析应该包括分析考试测验卷编制的质量和分析教与学的情况,从而得出考试测验结果质量分析的结论及教与学改进的意见。通常的步骤为:采集样本──统计分析──作出结论和意见。
采集样本。一个班人数不多,一般全部采集。一个年级或一个片区,因人数多,根据教育教学统计的要求,随机采集30%的样本进行统计分析,基本可以说明问题了。
统计分析。需作的分析有:效度分析、信度分析、难度分析、区分度分析和试题编制技术规范的分析;需作的统计有:难度系数(通常用P表示)、区分度、全距(最高分与最低分的差距,通常用R表示)、各分数段百分比(该分数段人数/总人数)、平均分(全体得分之和/总人数)、标准差(表示学生成绩水平的差异程度,通常用SD表示)。
在进行考试测验结果质量分析之前,我們还要弄清该考试测验的目的,因为目的不同,有些数据说明的问题就不同,直接影响到做出的结论和意见。
从分数解释参照标准分,考试测验可以分为目标参照评价模式和常模参照评价模式。目标参照评价模式又称水平评价模式,它不以评定学生之间的差别为目的,而是以教学目标为评价标准,依据课程标准的教学目标和教科书编制试题来测量学生的学业成绩,判断学生是否达到了教学目标的要求,即是否“及格”。如升级考试、毕业考试、合格考试,不适用于甄选人才。常模参照评价模式则以评定学生之间的差别为目的,依据学生个人的成绩在该次成绩序列中所处的位置来评价和决定他的成绩优劣,不以是否“及格”为标准,不考虑他是否达到教学目标的要求。如高考、学科竞赛,适用于甄选人才。由此可见,小学阶段的所有考试测验,都是目标参照评价模式,只判断学生是否达到教学目标的要求,而不是甄别学生成绩所处的位置。
进行考试测验结果质量分析,首先要做的是对考试测验的题目作效度分析、信度分析和试题编制技术规范的分析。
1.效度分析。这里的效度是指内容效度。所谓内容效度是指测验能代表所欲测量的内容和引起预期反应的程度。拿语文课程举例,“所欲测量的内容”是指语文课程内容,“预期反应”是指学生的行为活动,如对语文课程内容的记忆、理解和应用等。
内容效度的分析,一般由教师和专家对考试测验内容进行判断而定。
内容效度的判断依据有两个:(1)分析考试测验编制依据的教科书和考试测验对象学习的教科书的一致性程度;(2)比较考试测验题目内容与课程标准教学目标和教科书呈示的课程内容的一致性程度。
分析测验编制依据的教科书和考试测验对象学习的教科书的一致性程度。在判断内容效度时,首先考虑考试测验编制者是根据什么教科书来编制的,是用来考试测验谁的。如果两者一致,那么,此考试测验可期望获得较高的内容效度。反之,此考试测验的内容效度就低。如,小学语文教学考试测验编制者根据人民教育出版社所编制的教科书出的题目,用来测验学习语文社S版小学语文教科书的学生,由于这套题目不能代表语文社S版语文教科书内容,所以测验的内容效度就低。
比较考试测验题目内容与课程标准教学目标和教科书语文课程内容的一致性程度,这“一致性”包含内容的一致和水平的一致。如要求会认的字,就不能要求写。这是内容上不一致,没有效度。又如,使用人教版教科书的地区,命题考试测验修改病句、改写成双重否定句等题目内容,由于教科书语文课程内容中没有这些内容,所以是没有效度的。又如,陈述句与反问句的认识比较,其目标水平是认识这两种句式以及了解它们在表情达意上的异同,就不能考试测验这两种句式的相互改写,因为这是目标水平不一致,没有效度。
2.信度分析。信度即考试测验的可靠性,它是指对相同的应试者多次测验结果的一致性的程度。如果在大体相同的条件下,几次测验得到了大体相同的结果,那么这个测验的信度是较高的;反之信度较低。评估信度一般有下列几种方法:(1)再测法;(2)复份法;(3)半分法。但是,这只是编制考试测验题目的要求,那么,考试测验结果质量分析应如何进行信度分析呢?由于高信度也是实现考试测验效度高的一个必要条件,所以,我们可以从考试测验题目的操作形式与考试测验内容的操作形式是否一致来分析题目的信度。比如,用纸笔考试测验卷考查口语交际和综合性学习的题目,因口语交际和综合性学习的教学目标或是一种能力,或是一种体验性目标,只能在实践过程中通过其他考查形式进行评价,所以,这类题目就失去了信度和效度了。又如,纸笔考试测验试卷中的感情朗读应该选择用怎样的语气、情感的题目,也因感情朗读是操作性的内容而失去了信度和效度。再如,题目“用自己的话概括短文的主要内容(在20个字以内)”,短文的主要内容按照教科书的要求,是将各部分的内容连起来表示,是不可能用20个字就能表达的,因此,这个题目也失去了信度和效度。
3.试题编制技术规范的分析。小学语文考试测验卷的编制有一定的技术规范要求,以保证学生不受到别的因素的干扰,能正确答题。常见的不符合编制技术规范要求的有:题目内容有语法性、知识性的错误;题干导语讲述不明确,指向不够清楚;题型的编制不符合题型要求,如判断题本身蕴含暗示性词汇,选择题的选项表述形式不一致或少于三项,填充题的语境不完整等。下面以某小学语文考卷的三道题为例谈谈(撇开效度和信度,仅就编制规范而言)。 例一:修改下面这段话中的病句、错别字和标点方面的毛病(在原句上修改)。
题干导语中“病句”“错别字”“标点”并列,犯了逻辑分类不当的错误,“病句”包含错别字、标点符号错用。
例二:“这一切,都得感谢浦东开发呢!”的“这一切”是指( )。选择合适的答案把序号填在括号里。
1.“怜怜”改名为“欢欢”。
2.浦东的开发。
3.“我”家搬进了新公房,“我”有了玩具角,“怜怜”也就有了许多好伙伴,变成了“欢欢”。
该题犯了选项表述不一致的错误,选项3的句式与1、2明显不同,易给学生暗示。
例三:按照词语含义的深浅,把下面三个近义词按照意思由浅到深的顺序排列起来。(将数字填在括号内)
(1)击败(2)击退(3)击溃
“词语含义的深浅”“按照意思由浅到深的顺序”这样的导语对一个小学生的理解能力而言實在是太深奥了。
当对考试测验的题目作了效度分析、信度分析和试题编制技术规范的分析后,考试测验的题目符合了要求后,就可以进行难度分析和区分度分析了。
1.难度分析。难度是指一组考生对该题作答的困难程度,一般用难度系数(P)表示。难度是衡量试题质量的基本指标之一。
难度系数(P)=答对人数/总人数。如五年级某次语文测验中概括各部分内容一题,已知参试人数为50,答对此题有24人。P=24/50=0.48。
如果是常模参照评价,难度系数P以0.5为适宜。P越大,说明此题难度越小;P越小,说明此题难度越大。该例P=0.48,小于常数0.5,说明有些难度。但如果是目标参照评价,不存在设置难度的问题,P=0.48则说明该试题偏离了水平评价的目标了。
2.区分度分析。区分度是表示试题区分能力大小的指标,即试题能把各个层次能力的学生区分开来的指标。区分度也是衡量试题质量的基本指标之一。
试题的区分度计算步骤如下:
(1)将参试学生的试卷按分数由高至低排列。
(2)将学生参试人数乘以0.27,小数点后四舍五入,取整数n。
(3) 取n个最高分数,组成上组,再取n个最低分数,组成下组。
(4)用该题上组答对人数减去下组答对人数,再除以n。
即:区分度=(上组答对人数-下组答对人数)/每组人数(n)。
如:某题参试学生总数为58人,n=58×0.27=15.66≈16,该题上组答对人数为8,下组答对人数为3,(8-3)/16=5/16=0.31,得出区分度为0.31。
一般区分度总在-1和1之间。如果是常模参照评价模式,如区分度大于0.3,说明此题能很好地区分出学生水平;如区分度大于0.2且小于0.29说明此题尚能区分出学生水平,需改进;如区分度小于0.19甚至为0的话,说明此题将淘汰或作较大修改。上例区分度为0.31,说明该题能很好地区分出学生水平。但如果是目标参照评价模式,则区分度就应该小于0.19或为0,因为这是目标参照评价模式的目的决定的,只检验学生是否达到教学目标,而不区分学生水平高低。
在这些分析的基础上,排除了试卷的问题,就应该结合其他的统计数字,对教师教学行为和学生学习行为进行分析,找出问题的所在以改进教和学了。
转载注明来源:https://www.xzbu.com/9/view-14797786.htm