关于计算机类论文范文参考文献,与计算机自适应性语言测试的智能选题方法*相关论文发表
本论文是一篇关于计算机类论文发表,关于计算机自适应性语言测试的智能选题方法*相关在职毕业论文范文。免费优秀的关于计算机及信息技术及计算机科学方面论文范文资料,适合计算机论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:随着计算机信息技术的发展和多媒体网络教学设备的日益普及,基于项目反应理论(IRT)的计算机自适应性(CAT)语言测试由于在测验信度、测验效率和考试安全性等方面比传统的纸笔测验具有更大的优势,因此针对计算机自适应性考试的理论问题和实践问题正在成为教育考试信息化研究的热点之一.文章在对自适应性考试原理进行考察的基础上,专门就计算机自适应性语言测试,特别是对国内外计算机自适应性阅读理解考试过程中遇到的智能选题单位和方法问题进行了探讨,并对具体的解决途径进行了研究.
关 键 词:教育信息化;计算机自适应性考试;考试信息化;语言测试
中图分类号:GTP393文献标志码:A文章编号:1673-8454(2014)08-0081-05
当代计算机科学的日益普及和信息技术及网络技术的高速发展,不仅对语言教学模式和语言教学手段的完善发挥了重要作用,而且还全面提升了教育信息化和考试信息化的水平.进入本世纪以后,以项目反应理论(ItemResponseTheory,简称IRT)为基础的计算机自适应性考试模式(Computer-AdaptiveTesting,简称CAT),在国内外语言测试领域的应用已经由理论探索阶段进入了实践探索阶段.2000年,美国ETS(EducationalTestingService)即开始对计算机自适应性TOEFL考试的可行性问题进行了实验研究,并于2005年正式推出了计算机网络版的TOEFL考试(inter-BasedTOEFL,简称TOEFLiBT).与此同时,美国大学入学考试(SAT)、研究生入学资格考试(GRE)以及全美建筑师资格考试等也相继尝试将传统的纸笔测试方式向计算机自适应性测试方式过渡(Sawakietal.,2008).
从上个世纪末开始,国内也陆续对计算机自适应性考试进行了许多探索.漆书青、戴海崎(1986)、谷思义等(1990)分别对CAT测验的模式和在英语水平测验中的应用问题进行了初步探索;谢小庆(2008)教授对中国汉语水平考试(HSK)自适应性测试的可行性问题进行了实验,并开发出了国内第一个计算机自适应性HSK模拟考试系统;2008年,全国大学英语四、六级考试也对自适应性测验方式进行了尝试.综观上述研究成果,我们不难发现,计算机自适应性语言测试在考试个性化、测验信度和测验效率等方面确实具有纸笔考试无法比拟的优势.不过,上述研究主要是针对以分离式(discrete)、客观性多项选择题为主要测验方式所进行的探索和研究,不少研究成果对于传统的基于共同刺激材料(stimulus)的阅读理解测验项目的CAT考试却鲜有涉及.因此,本文将在对CAT测验原理和测试逻辑过程进行考察的基础上,专门就CAT在阅读理解测验中的计算机智能选题方法问题进行研究.
一、计算机自适应性考试的原理
计算机考试和计算机自适应性考试是最近几年国内外语言测试和教育测量界研究的热点问题之一,由于两种测试方式所依托的信息技术背景完全相同,而且与传统的纸笔测验方式存在显著的差异,所以两者经常被误解,因此我们有必要首先澄清两者之间的基本关系.
本文转载于:http://www.sxsky.net/jiaoxue/02053364.html
所谓计算机考试,顾名思义,即被试通过计算机终端完成测试的过程,也称之为基于计算机的考试(Computer-BasedTesting,简称CBT).而计算机自适应性考试的标准英文名称则是“Computer-AdaptiveTesting”或“ComputerizedAdaptiveTesting”,简称为CAT.CBT和CAT之间存在很多相同的地方,但也存在本质的区别(见图1).
首先,CBT和CAT考试都是以计算机科学和网络技术为依托,测验的内容都是通过网络化传递和呈现,考生全部在计算机上完成测试的过程.与传统的纸笔测试相比,CBT和CAT的考试效率和评分效率更高,答题的方式更加便捷(熊春明,吴瑞,2006).
其次,CBT和CAT也存在若干不同的地方,其中最本质的区别在于两者的测量理论基础完全不同.CBT考试的理论基础是经典测量理论(ClassicalTestingTheory,简称CTT),而CAT考试的理论基础则是现代项目反应理论.所以,基于计算机信息科学和网络技术,不仅可以开发和实施CBT考试,也可以实施CAT考试,甚至还可以进行CBT和CAT混合型考试模式的设计,即半适应性测验,因此,两者的差异不是体现在信息技术手段方面,而是测量理论和计算机施测时的计算模型方面.
在CBT考试中,所有的考生,无论其语言水平差异有多大,都必须在相同的时间内完成由相同题目构成的定长测验.由于考生的语言水平和测验题目的难度指标一般符合正态分布(见图2),因此,难度较低的部分题目,比如N1和N2部分的题目对于考生团体中语言水平较高的E组和F组考生而言,由于题目的难度水平已远低于其语言水平,所以考生在回答这部分题目时根本无法获得有效的分数差异(ceilingeffect).同样,对于语言水平较低的A组和B组考生而言,试卷中较难的N5和N6部分题目的难度则太难,考生在回答这部分试题时就会产生地板效应(flooreffects),即考生的分数普遍较低,考生对这部分测验题目的回答几乎无法提供任何测量信息.另外,由于受CTT测量理论的严格平行测验假设的限制,在CBT考试中,考生答对任何一个题目所获得的分数都相同,即答对相同题目数量的考生被认为具有相同的语言能力.事实,考生答对题目的难度不同,其语言水平也必然存在本质的区别.
基于IRT理论的CAT考试则可以克服CBT考试上述之不足.在CAT考试中,考生的语言水平不是单纯地以定长测验的总分来表示的,因为每个测验题目的难度、区分度和猜测度不同(b,a,c参数不同),所以不同能力水平(θ)的考生答对每个测验题目的概率值也就不同,并且概率值可以用下列公式进行估计.
P(θ)等于C+(1-c)
其中,Pi(θ)表示具备能力水平θ的被试在题目参数为ai、bi和ci的题目上正确回答的概率.同一个测验项目,不同能力水平的考生正确回答的概率不同,相同能力水平的考生回答ai、bi和ci参数不同的题目的概率也不相同.由于在IRT中题目的难度参数不依赖于被试样本,所以,我们就可以借助计算机系统对被试的能力和项目参数分别进行估计,同时将若干题目进行参数估计后建立题库(itembank)和进行等值处理.参数完备的测验题库是CAT考试设计的必要条件之一,因为CAT考试的主要优点就是“量体裁衣”式的考试,只有具备数量较大、参数完备的题库后才能借助计算机技术参照被试的不同水平进行随机选择题目,以保证每个考生回答的测验题目的难度与其能力水平最接近,从而不必回答那些难度水平明显高于或低于其语言水平的题目,从而既提高了测验的效率,也确保了测验题目对不同被试水平的测量可以提供最大信息函数值(iteminformation).
二、CAT测试的基本过程
计算机自适应性考试的实施必须满足三个基本条件:一是事先必须建立一个容量较大的题库,并对每个测验题目进行参数估计和参数量表化处理(scaling),以保证题库具备适应测量不同语言水平被试的足够题量.二是成熟的计算机技术和网络信息技术的支持.三是采用优化的计算方法和操作程序,保证考试过程中的即时能力估计和选题策略.目前,计算机科学和网络技术的发展已经足以满足CAT考试的实施条件(巫华芳,2011),因此,决定CAT考试可行性的关键因素是题库建设、题库维护和能力估计的优化算法以及选题策略.根据国内外计算机自适应性考试的研究成果,CAT语言测试的基本流程包括初测、
关于计算机类论文范文参考文献,与计算机自适应性语言测试的智能选题方法*相关论文发表参考文献资料: