反应测试(精选5篇)

  • 反应测试(精选5篇)已关闭评论
  • A+
所属分类:文学
摘要

项目反应理论是一种现代测量理论,可以指导项目筛选和测验编制。基于项目反应理论的教学效果测试建立在以下两个基本概念之上:(1)被测者的具体表现情形,可根据被测者能力因素来加以预测;(2)被试者的表现情形与能力的关系,可通过一条项目特征曲线来加…

反应测试(精选5篇)

反应测试范文第1篇

【关键词】项目反应理论;教学效果测试;计算机自适应测试

【中图分类号】G632

项目反应理论是一种现代测量理论,可以指导项目筛选和测验编制。基于项目反应理论的教学效果测试建立在以下两个基本概念之上:(1)被测者的具体表现情形,可根据被测者能力因素来加以预测;(2)被试者的表现情形与能力的关系,可通过一条项目特征曲线来加以诊释。

一、教学效果测试的一般理论

测试是有组织、有系统地收集学习者的学习信息,并通过对这些信息的处理作出确切判断和适当决定的科学手段和工具。测试可以是针对技能、知识、能力、适应性和心理特征等方面进行。根据不同的分类方式,可以将测试分为客观测试与非客观测试,纸笔测试与器具测试,分析测试与综合测试,标准测试与非标准测试,集团基准测试与达到基准测试等。

测试理论主要有经典测试理论和项目反应理论。

二、项目反应理论与经典测试理论的比较

经典测试理论是以信度、效度、区分度等统计特征量为中心的测试理论,是建立在真实分数理论基础上的,依据弱势假设而来,所采取的公式简洁明了,但由于其理论体系先天不足,有以下几个缺点:测量结果拓广的有限性;测量分数的依赖性;统计量的样本依赖性;信度估计的不精确性;能力量表与难度量表的不一致性。

项目反应理论以潜在特质理论为基础,建立了深刻地、综合地反映被测者作答反应与题目质量、能力水平间关系的非线性模型,能力水平并不依赖于特定的测试样本, 而且能明确算出测量精度。

与经典测试理论相比,项目反应理论有以下优点:

1.试题参数确定更为精确;

2.项目反应理论对不同个体提供不同的能力估计值;

3.项目反应理论能既能估算被试测验总分等值,又能计算试题参数等值;

4.项目反应理论针对每个被试提供了能力估计值的测量误差指标;

三、项目反应理论的模型

项目反应曲线P(θ)是以被测试者对项目的正答率与被测试者的能力参数和项目参数的函数关系所表示的。在项目反应的逻辑斯蒂模型中,根据提供参数的不同,特征函数可分为单参数(难度)、双参数(难度和区分度)和三参数(难度、区分度、和猜测度)三种模型,形式分别如下:

项目测试理论模型 函数表达式 参数意义

单参数逻辑斯蒂模型

P(θ):被测试者的正确应答概率

D=1.7

θ:被测试者的能力参数;

b:难度参数

二参数逻辑斯蒂模型

a:区分度参数

三参数逻辑斯蒂模型

c:猜测参数

单参数逻辑斯蒂模式并不把试题鉴别度参数考虑在内,影响考生在试题上表现好坏只有试题的难度系数,特征曲线会随着难度的变化平移;二参数逻辑斯蒂模式是把试题区分度参数考虑进单参数逻辑斯蒂模式里,区分度参数影响特征曲线的斜率;三参数逻辑斯蒂模型增加了一个猜测系数,把低能力考生的表现好坏因素也考虑在模式里,猜测参数影响特征曲线的截距。

四、项目反应理论的应用

1.试题库的建设

题库的建立要根据课程标准、教材和学生情况编写而成,它的建立过程可以分为:试题开发、参数估计试测、更新、测验编辑编辑、评估测试质量、测验是否达到预期的水准、执行考试、评分、决策、研究与评定等过程。

在项目反应模型中,试题的主要参数有难度参数、区分度参数和猜测系数三种。以上三个参数也是试题库中各项测试题目的主要参数,可以根据经典测试理论或者项目反应理论的三种模型,确定试题的各项参数,为试题提供更加详尽的参数系统。

2.理论得分分布估计

根据项目反应理论的各个模型,可以对测试的理论得分模型进行估计,基于测试正答数的得分以S表示,则: ,其中n为测试项目数,xj为第j个项目的得分。

对于给定的被测试者的能力参数(θ)值,其测试得分S可由符合二项分布式 {Pj(θ)+Qj(θ)的各项说表示。测试得分S的分布结果可表示为:

(S|θ)h(θ)dθ,该积分由数值积分进行计算。对于编辑完善的测试试卷用于预想的被测试集团时,可以使用以上方法对测试得分分布进行预测。

3.计算机自适应测试

基于项目反应理论的计算机自适应测试分为以下两个阶段:

试验性探查阶段。通过自动调节试题的难度参数,检测被测试者的能力水平。

精确估计阶段。计算机试验性阶段得到的能力值θ0,从题库中选取合适的测试项目,学生答题之后,继续判断和修正能力参数,直到能力参数达到要求时停止。

基于项目反应理论的计算机自适应测试过程如图1所示。

图1 自适应考试过程

4.大规模教育考试命题质量评价

大规模教育考试由于是高利害关系的考试,大规模教育考试始终未能建立题库, 只能在考后对考试数据进行分析的基础上, 对命题质量进行综合评价。项目反应理论能够对试题进行深入细致的分析, 对测验的编制也提出了相应的指标和方法。

结语

基于项目反应理论的教学效果检测,对测试中各种参数进行评估时,可以使用计算机对样本数据进行处理,大大简化了测试数据的处理难度,也为项目反应理论的发展与推广提供了更多的参考依据。

五、参考文献

[1]何克抗.教育信息处理[M] .上海人民出版社,2001

[2]孙俊三.教育原理[M] .中南大学出版社,2001

[3]朱靖华.项目反应理论的发展综述及其在教育测量学中的应用[J].湖南大学, 2008

[4]王晓华,文剑冰.项目反应理论在教育考试命题质量评价中的应用[J].教育科学, 2010.3

[4] 农作清.谈课程内容设置与教学测试 [J]. 广西财政高等专科学校学报, 1998.8

反应测试范文第2篇

关键词:自适应测试;项目反应理论;能力水平;试题参数

中图分类号:TP391.6

1 计算机自适应测试概述

1.1 计算机自适应测试的含义

计算机自适应就是指根据被试的能力水平自动选择试题,并最终对被试能力做出评价。其中,考试项目的选择是根据被试的能力水平选择而成的,因而被试所做的每一个题目的难度都是与其能力相匹配的。

1.2 计算机自适应测试的优势

传统考试中,若被试地理位置分散、时间不统一将无法进行测试,考试周期长,阅卷工作量大,考务工作繁重,有效的形成性评价较少,容易出现泄题漏题现象,试卷保存不便,考试过程中的作弊行为屡禁不止,反馈不及时,试卷复印所带来的纸张浪费等问题无法解决。

相比传统考试,计算机自适应测试有以下优势:方便被试进行自我测试,自我测试结果的呈现及时,帮助学习者了解自己的学习情况,也可以确定目前的学习方法适合有效,是否合适自己的学习风格,以便及时查缺补漏,在今后的学习中更能明确学习目标;每一项目的选择都是根据被试的能力水平“量身定做”的,随着测试的进行,越来越接近被试真实能力水平,被试在答题目时犯更少的无关的错误,可激发其学习动机;同时,使得大范围地区的评价更为迅速,节省时间耗费;在试卷题目的难度、类型和试题数量等方面的灵活性,也节省了被试的时间;此外,在自适应考试中,系统随机抽取题目,可灵活变化试卷的题目和难度等,甚至每个被试的试卷题目数量都不同,传统考试中漏题泄题、作弊的现象迎刃而解,也节省了教师监考的时间。

2 自适应测试的基本原理和流程

计算机自适应测验是在项目反应理论基础上发展起来的一种测验、它是一种在项目水平上进行分析的测验。在测验开始时,计算机一般给出一个难度中等的题目,如果被试正确作答,计算机就会估计他的能力高于中等水平,然后再给他一个难度高一点的题目;反之亦然。然后,计算机根据被试第二题的回答情况。在第二次估计基础上,计算机在题库中选择最接近他能力估计值的题目,接着根据被试反应,对其能力再进行估计。这样,随着被试做的题目增多,计算机对他能力的估计精度越来越高,最后其估计值将向被试的真实水平靠拢。

计算机自适应测验实施程序大体可分为两个阶段:第一阶段是考生能力水平的探索阶段,以求取该考生的能力初值。第二阶段是对考生能力的不断修正。

3 对计算机自适应测试的现状反思

3.1 完善计算机自适应测试的考核方式

目前,国内的计算机自适应测试题型主要以客观题为主,题型单一,注重知识维度的考察,对学习者其他维度的考察有限。计算机自适应测试应借鉴CAA领域内关于心智技能和操作技能的研究成果,丰富自适应测试的题型和考察维度。

3.2 试题库模块及整个系统的自适应

一个典型的计算机自适应测试系统有三大模块构成,即适应性测试模块、成绩统计与分析模块、试题库更新模块。系统基于项目反应理论实现了测试模块的自适应,但并没有实现整个系统的适应。在试题库更新模块中,系统还需要教师或专家对试题库定期维护,由教师或专家完成插入试题、修改试题和删除试题的操作。在试题库模块中,此系统与非自适应的考试系统并无区别,此类系统只能称为准自适应测试系统。如何实现试题库以及整个系统的自适应,试题库根据某一个或某一群体被试能力水平的变化而自适应调整,真正实现整个系统的自适应,必然成为自适应测试的研究重点。

3.3 试题参数的动态过程

在自适应系统中,试题主要属性参数包括试题的难度参数、区分度参数和猜测参数。确定试题的各个参数值一般有两种途径:一种途径是选取一定数量的被试,经过测试后进行统计分析;另一种途径是由专家进行评估后,再采用统计方法确定参数。无论是哪种确定试题参数值的途径,都有缺陷存在。

3.3.1 对选取被试进行预测来确定试题参数的方法来说,参加预测被试的抽样方法、参与预测的被试人数、预测被试的能力水平变化等因素都影响试题参数的确定。

参加预测被试的抽样方法将直接决定了确定的试题参数的准确程度;若预测被试的能力水平较高,可能导致试题的难度参数偏高;若预测被试的能力水平趋于集中,可能导致试题的区分度参数偏低;因此,参与预测的被试抽样应尽量满足以下几个条件:预测被试的能力水平应较为全面的代表了该年龄阶段的所有学习者;参加预测被试的地理范围应尽可能的广;参加被试的男女比例大体满足1:1。

参与预测的被试人数也是至关重要的影响因素。如果人数较少,得出参数是否客观、准确,是否适用于更广的地域范围、更多被试参与的自适应测试,这些问题都有待探讨。

参与预测被试的能力水平变化对试题参数的影响也不容忽视。学习者的学习必然是过程性的。随着学习者在学习时间的推移和自身对学习内容理解的加深,其能力水平必会提高。试题库维护更新的频率和程度,能否满足被试能力水平的变化。其次,知识的更新速度越来越快,更新周期越来越短,学习者获取知识的渠道愈发多样化。试题库的更新和试题参数的动态变化应与知识更新、学习者能力水平的提高相契合。

3.3.2 由专家进行评估后,再采用统计方法确定参数的方法,由教师或专家对试题进行分析、整合、分配权重、最后确定试题参数。教师和专家都是专业领域内的拔尖人才,很容易出现对试题的难度参数估计偏低的情况。

3.4 满足不同基准的评价需要

在实际的系统使用过程中,被试只能在主观层面上对其所进行的测试进行意识上的分类,在系统的设计和开发过程中,可在登陆页面设计不同基准的测试类型的测试模块,被试根据测试的目的不同选择不同的模块进入答题系统,如自我测验、阶段性测试和总结性测试。在不同类型的模块中,试题参数的设置也应不同。在自我测验和阶段性测验中,由于其评价具有激发学习者学习兴趣和动机的作用和阶段性学习的学习内容的非不完整的特点,其试题参数的难度值应有一定的程度的降低。

3.5 对自适应测试系统的评价

国内大多数的自适应考试系统,并没有提到对系统本身的评价。也就是说,缺乏对系统本身的价值判断,测量出的数据并没有可信度。对系统本身的评价是整个自适应测试系统使用和发展的根基。

参考文献:

[1]蔡君.计算机辅助教育测量与评价[M].北京:中国水利水电出版社,2010.

[2]黄荣怀,刘黄玲子,李向荣.计算机辅助评价的发展趋势[J].电化教育研究,2002.

[3]张忠华,谢小庆,郑日昌.计算机自适应性测验(CAT)选题策略的新进展.心理发展与教育,2002:91-96.

[4]陈仕品,张剑平.《现代教育技术》精品课程自适应测试系统的设计[J].中国电化教育,2008.

[5]Wim J.van der Linden,Cees puterized Adaptive Testing:Theory and Practice[M].Boston:KluwerAcademicPublishers,2000.

作者简介:袁晓蕾(1989-),女,黑龙江人,硕士研究生,研究方向:计算机辅助教育评价;李晓东(1963-),男,黑龙江人,教授,教育技术系主任,研究方向:教育信息处理和计算机辅助教育。

反应测试范文第3篇

关键词:应力波反射法;基桩;检测;基本原理;实际应用

近年来,随着我国社会经济的不断发展,带动了国内工程建设行业的兴起,作为岩土工程领域重要分支的基桩工程越来越多的受到业内人士的关注,尤其是对于基桩检测技术的研究也更为深入。国内基桩检测技术的发展经历了较长的时间,不但对传统的检测技术进行了必要的改革和完善,而且加大了对于新技术、新手段的研发和应用,特别是各类新型仪器、设备的出现,也促进了基桩检测技术的创新和发展。在国内现阶段的基桩检测中常用的技术类型主要包括:高应变动力试桩法、静载试验法、应力波反射法、声波透射法、动静法或拟静力法等,其中应力波反射法的应用范围较广,本文对其原理及实际应用进行分析。

1应力波反射法概述与传统的基桩检测方法相比,应力波反射法是较为常用的低应变无损检测技术之一,其具有检测范围广、反应速度快、适用性强、造价低等特点,其主要被应用于桩身的完整性检测,并且依据检测结果判断基桩的具置、桩身长度及混凝土强度等。在基桩检测中应用的应力波反射法主要是指在通过桩顶向下垂直施加瞬态脉冲激振力,并且以弹性纵波的形式向桩体下部均匀传播,当基桩深层或底部的阻抗发生异常现象时,可以产生相应的反射波并及时传回桩顶[1]。另外,在应用应力波反射法进行基桩检测时,如果存在缩颈、扩颈、断层、离析等方面的缺陷,往往会导致桩体密实度或桩横断面发生细微的变化,在检测中桩身的波阻抗会出现不均反射的状况,进而保证检测人员可以对基桩的实际状况进行深入的了解。2应力波反射法的基本原理为了更好的运用应力波反射法进行基桩的检测,必须对其原理进行深入的分析,并且逐渐掌握技术的作用机制和操作技巧,进而才能保证技术的实际应用效果。在国内基桩检测中运用的应力波反射法主要是以应力波在桩身中的传播与反射为特征,并且综合了地质学、物理学、土木工程等学科知识的基本理论。应力波反射法的基本原理为:将基桩假设为一个连续弹性的截面,在检测过程中忽略桩周土体对桩身传播应力波的影响[2]。在桩顶施加瞬态脉冲激振力时,由于桩身与桩周土体的波阻抗差异较为悬殊,进而保证大部分应力波能量在桩内进行传播。对于检测中的相关工艺和技术参数主要采用一维杆波动方程进行计算,但是要注意数据采集过程中的科学性、客观性与精确性,尽量控制计算误差。另外,为了保证垂直入射基桩内部的应力波可以顺畅的进行传播,必须进行桩内存在的波阻抗差异界面进行严格的监控和消除,进而促使在检测中形成的反射波和透射波分别沿着桩身进行反向或顺向传播。另外,在基桩的检测中,还要注意对于桩身自身缺陷的严格探查,并且根据反射波的振幅、频率、相位等特性做出准确、科学的判断。

3应力波反射法在基桩检测中的实际应用分析

近年来,随着国内岩土工程建设数量的不断增加,以及工程规模的日趋扩大,都增加了基桩检测的难度,因此,在基桩检测技术的实际应用中,必须对于相关技术、操作与管理问题进行深入的研究和探索,最终形成一套较为完整的基桩检测技术模式。目前,在国内的基桩检测中,应力波反射法的实际应用效果已经得到了普遍的认可,但是仍然不可避免的存在一定的弊端和问题,结合笔者多年的岩土工程监管经验,在其实际应用中应注意以下几点:

3.1采用不同力锤,进一步提高检测的准确性在国内现阶段的基桩检测中,应力波反射法常用的力锤主要包括:自由落锤、手锤和力棒等,各种力锤的规格、型号、性能、质量也存在较大的差异,在实际应用中必须进行严格的选择。为了保证对于不同长度、深度的基桩进行全面的检测,检测单位要在操作前配备不同类型的力锤,以进一步提高检测的准确性[3]。在基桩的实际检测中,应用不同力锤所得出的波形会有所差异,检测人员必须对全部数据进行综合整理与分析,并且运用专业软件进行系统的计算,进而才能得出较为完整、直观、准确的检测结果。

国内相关岩土工程技术资料显示:在应用应力波反射法进行基桩检测时,小锤一般可以测出4-25m范围的桩身缺陷,中锤可以准确测出5-35m范围的桩身缺陷,而大锤则可以有效测出10-55m范围的桩身缺陷信号,因此,在基桩的实际检测中,根据不同类型力锤能量和频率的不同,以及不同位置桩身长度的差异,应科学进行力锤的选择和应用。另外,由于自由落锤、手锤和力棒的材质不同,导致在锤垫厚度方面存在一定的差异,如果不能准确进行选用极有可能影响到敲击力的脉冲宽度,即客观制约了力谱成分。

3.2加强对振荡波形产生原因的分析及消除应用应力波反射法进行基桩检测过程中,由于受到各类因素的影响,经常会出现产生振荡波的现象,最终导致检测结果存在较大的偏差或误差。针对基桩检测中的振荡波问题,检测人员必须对其产生原因进行具体的分析,并且积极采取有效的消除措施[4]。振荡波形产生原因的分析及消除方法主要包括:1)对传感器接收装置的性能进行检查,并且保证接收装置安装位置的准确;2)对于激振能量进行适当的调整,一般情况下以能见桩底反射为前提,尽量减少桩身周围参加振动的土体,以达到减小对波形产生干扰的目的。3.3重视对于测桩盲区的控制进行基桩检测时,测桩盲区过大有可能影响到检测的完整性和精确性,因此,检测人员必须重视对于测桩盲区的有效控制。当桩顶受到锤击或敲击时,锤击能量通常是在桩土系统中进行深度传播,并且产生相应的波动,在压力波遇到桩侧阻力或桩身阻抗变化时都会产生上行的应力反射波。但是在部分基桩的检测中,由于下行的压力波明显大于或等于上行的阻力波,进而导致上行波无法有效反射,出现此类现象的区段则称为测桩盲区。在基桩的实际检测中,一般情况下<5m的桩长范围或1-1.5D(D为桩直径)内容易产生检测盲区[5],因此,必须对其进行严格的控制。常规的处理方法为:使用小锤进行多次击振,并且随时进行信号的采集,并且加强对于实心桩的反复测试,要将击振点选择在桩心附近,然后使用大锤敲出桩底反射波,只有合理运用小锤、大锤,才能保证检测人员对于测桩盲区的准确判定。

反应测试范文第4篇

教育界通常把测试对教学和学习的影响称为反拨效应,包括正面反拨效应和负面反拨效应。积极的好的语言测试可能会产生积极的好的反拨效应,而一些有缺陷的试题设计必定会给师生一些误导。为了提高考试通过率,天天做模拟题,忽视正常的教学计划,给教学带来很多负面效应。

19世纪20年代初,以多项选择题型和是非题型为代表的客观测试开始在美国教育界包括语言学科中使用,并迅速获得认可。30年代,心理计量学的发展进一步促进了客观测试手段的应用,到50年代,客观语言测试已经在美国教育性语言测试中占主导地位,在60年代,许多结构主义语言学家和教育心理学家开始研究语言测试问题,并用测量学的方法计算测试的信度和效度。他们非常注重客观性测试。80到90年代,随着交际测试的倔起,多项选择题在交际测试中渐成主流。多项选择题型是目前英语测试中使用频繁的一种客观性题型,因其阅卷的信度高、答案固定、评分客观、可采用机器阅卷(能节省大量人力、物力和时间)等优点在大规模的英语测试中被广泛使用。然而,多项选择题的弊端日益凸显:一是题目设计很难,费时费力。多项选择题题目设计起来很难,要设计出较好、较理想的题目很费时间,尤其是编写干扰项时,往往会觉得无从下手,如果干扰项编不好,会影响测试难度。二是不能测出考生的综合能力。经过多年的研究,一些测试专家指出,多项选择题只能考察被试的输入能力,如听或读,而不能考察其语言输出能力,对教学负面影响大。由于多项选择题在各种考试中的大量使用,教师和学生把大部分精力花在对付此类题型的技巧上,而忽视语言学习这一根本目的。三是多项选择题易助长学生猜题,不求甚解的学风,而且容易作弊。多项选择题的这些弊端无疑会给学生的学习动机、兴趣、内容、方法等带来许多消极的影响。

二、 减少多项选择题的负反拨效应

为了尽量减少多项选择对教学产生负面反拨作用,出题者应从以下几方面入手。

反应测试范文第5篇

【关键词】大学英语;分级测试;项目反应理论;试题分析

一、引言

大学英语教学是高等教育的一个有机组成部分,大学英语课程是大学生的一门必修的基础课程。大学英语实行分级教学不仅体现了《大学英语课程教学要求》“分类指导,因材施教”的原则,对于整体提高大学英语教学质量也起到了积极促进作用。因此,大学英语试题建设显得尤为重要。试题是题库建设的最基本元素,它的优劣直接影响大学英语试题题库的质量。所以,建立起对大学英语试题的科学完整的评价体系十分必要。

二、理论研究

客观、准确地评价大学英语试题,科学的对其进行分析。其关键点在于要有科学的理论依据。在教育心理测量领域中,应用比较多的有经典测验理论和项目反应理论。经典测验理论(简称CTT)是最早的也是最实用的测验理论。也称为真分数理论,即被试的真分数是观测分数(或说测量实得分数)的数学期望值。真分数模型是以弱假设为基础的,即这些假设很容易验证并易被大多数测验数据资料所满足。经典测验理论的假设内涵主要是以真实分数模式为理论架构,依据弱势假设,使用简单,可操作性强,应用较广。基于经典测验理论统计分析得到的各项指标,依赖于特定的被试样本,所求得的参数会受到不同样本组能力水平的影响。经典测验理论无法建立考生得分与测验题目参数之间的函数关系,即考生能力的估计会由于测验的改变而改变。

项目反应理论(简称IRT)是建立在潜在特质理论的基础上的。其主要观点是:在认知测验中,潜在特质指所要测的内在能力。定量地估计个体在每一种特质上的位置是心理测量的任务。反之,也可用所估计到的特质的量去预测和解释个体在相应情境中将会产生的行为反应。

项目反应理论的最大特点是它找到了一条题目特征曲线(简称ICC)并且以多种数学表达式(即数学模型)来描述它和逼近它。不同的数学模型对曲线有不同程度的逼近,也含有个数不同的参数。题目特征曲线的数学模型一般都包含两方面的参数:(1)对测验题目的特征进行刻画的题目参数;(2)对考生的特征进行刻画的潜在特质或称能力参数。

根据这些参数值,我们可以对题目质量作出评价,可按需要选取高质量的题目。又可以预言考生个体在任一测验题目上的反应,从而估计出考生个体的各种潜在特质的量数,即考生完成测验题目时所具有的能力或特质。从理论上说,有效地解决了经典测验理论中无法建立考生得分与测验题目参数之间的函数关系问题。

项目反应理论的优势表现在:题目难易度的估计不因样本不同而不同。项目反应理论的题目参数估计是独立于考生样本组的。考生能力的估计不因测验的改变而改变。项目反应理论在提供题目参数的同时,提供了每一个考生在完成题目时的能力参数。测量误差的估计因考生程度不同而不同。为多种形式测验的实施提供了更为完美的理论和方法。在题目分析和估计学生能力的同时,可以得到题目信息函数和测验信息函数两个统计量。所以,本文尝试用项目反应理论来对大学英语分级测试试题进行分析研究,探讨每个具体英语分级试题(项目)能否客观准确地反应出学生的真实能力水平。进而发现命制英语分级试题的规律和标准,为更好地开展大学英语分级教学提供切实可行的方法。

三、实验研究

本研究选取的实验对象来源于某大学2010级的大学英语分级测试试题。研究人员运用BILOG-W分析软件对试题进行项目反应分析。此分析内容包括试题的难度、区分度、项目以及能力参数的估计,对试题的难度进行标定,分为难中易三个等级。参与实际测试的是2010级2534名学生参加的大学英语分级考试。我们从中随机抽取样本容量为200的被试者数据并通过项目反应理论中的BILOG-MG V3.0软件对作答结果的分析来对分级考试中试题进行分析和分类。BILOG软件运用期望后验法(EAP)和贝叶斯(Bayes)估计法进行考生的能力估计。试题总容量为86,均采用0、1计分法。其中合格数为75,10道试题通过分析被列为不合格试题,75道试题的平均难度为6.16。本文对试题分为难、中、易三个程度。难度值区间为(0,10),从试题难度平均值来看难题较多,适合作为分级考试的试题。同时试题的平均区分度为0.5112,能够较好的区分被试者的能力水平。所有项目都在相应的能力区域产生一定的信息量。

四、结论

以上研究结果表明只有经过科学、客观的分析和筛选的试题才能真正反映出学生的能力特征和能力差异,才能为下一步建立大学英语分级测试题库奠定坚实的基础,进而促进大学英语教学,使学生能力得到全面发展。

【参考文献】

[1]何立新.英语语言测试理论与应用[M].北京:中国社会出版社,2005.12

[2]教育部高等教育司.大学英语课程教学要求[M].外语教学与研究出版社,2007:1

[3]于向英.教育测量与统计[M].郑州:郑州大学出版社,2004.1