教育与心理测量标准 作者:海宽


 

教育与心理测量标准

按:这是杨惠中、桂诗春先生给博主布置的一项作业,已经收入二位先生主编的《语言测试社会学》一书。此书已于2015年4月由上海外语教育出版社出版。在完成作业的过程中,杨、桂二位先生认真、严谨的治学态度,给博主留下了深刻的印象

中国人往往认为考试是最公平的人员评价方式,总是强调“分数面前人人平等”。人们通常认为:是英雄,是好汉,考场上,比比看。考不过你,我心服口服。事实上,考试的公平性问题并不象人们想象的那样简单。我们以考试作为一把尺子对人的能力进行测量。公平的前提是这把尺子是可靠的。如果这把尺子本身有质量问题,今天量一个长度,明天量又一个长度,你拿着尺子量是一个长度,我拿着尺子量又是一个长度,这样的考试就不能保证公平。令人遗憾的是,今天社会上许多考试都不同程度地存在这种测量结果不稳定的现象。所有考试的命题人员都会认为自己编制的考试是“高分高能”。实际应用的考试中却常常存在一些“高分低能”的现象。如果测试的结果不稳定,如果考试中存在“高分低能”的现象,那么,一个人答不好某张试卷,并不一定意味着他做不好某项工作,完不成某项学业。

考试是一种测量工具,是一种测量手段。测量本身不是目的,测量的目的是提高人员素质,维护社会公平。但是,并非所有考试都一定能够带来人员素质的提高,都能够实现社会的公平。中国古代的科举考试是形式上非常完备的考试,有些保证公平的措施今天都很难做到。例如,科举的“单间”施测、进场搜身、誊录(为了避免辨认笔迹将所有答卷全部重新抄录)等等。但是,科举考试并没有带来人员素质的提高。为了真正达到选拔人才和维护公平的目的,需要重视考试本身的质量问题。

考试是一个衡量人的能力的“天平”或“体温计”。这个“天平”或“体温计”,本身存在着质量问题。有的质量较好,可以基本准确地反映人的能力水平。有的质量较差,在测量的过程中存在很大误差。这个体温计的质量如何?这个考试的质量如何?何以见得我没有通过某项考试就不能胜任一定的工作或学习任务?理由是什么?这些问题,应该得到合理的回答。由于考试往往关系到一个人的命运,与冰箱、彩电、洗衣机的质量问题相比,考试的质量问题应该受到更多的关注,考试更应该具有一张“质量检验合格证”。

为了保证考试的质量,需要有考试质量检验标准。由美国教育研究协会(American Educational Research Association,AERA)、美国心理学会(American Psychological Association,APA)和全美教育测量理事会(National Council on Measurement in Education,NCME)共同颁布的《教育与心理测量标准(Standards for Educational and Psychological Testing,以下简称“《标准》”)》是今天在国际教育与心理测量领域影响最大的测试质量标准。此外,较有影响的质量标准还有由美国教育考试服务中心(Educational Testing Service,ETS)2002年颁布的《质量和公平性标准(ETS Standards for quality and fairness)》,由美国公务员委员会(联邦人事管理总署前身)、劳动部、司法部、就业公平委员会等多个部门于1978年共同颁布的《员工招聘程序统一指南(Uniform Guidelines On Employee Selection Procedures,以下简称“统一指南”)》,由美国劳动部招聘培训管理办公室(U.S. Department of Labor Employment and Training Administration)于1999年颁布的《测试与评估:雇主实用指南(Testing and Assessment:An Employer’s Guide to Good Practices,以下简称“实用指南”)》。


3.1.1测试质量的控制机制

保证考试这个“体温计”的质量,仅仅靠考试主持机构工作人员的觉悟和责任心是不够的,还需要必要的质量控制机制。在保证测试质量方面,主要有四个方面的控制机制:行政制约,市场制约,行业制约和法律制约。

3.1.1.1行政制约

今天,我国的测试质量很大程度依赖于行政制约,各级教育行政机构在保证测试质量方面承担着很大的责任,政府几乎是唯一的考试质量制约因素。例如,高考、高教自考、研究生统考的编制机构是教育部考试中心,负责考试质量监督的是教育部学生司、高教司等。公务员考试、职称考试、职业资格考试的编制机构是人力资源和社会保障部人事考试中心和职业技能鉴定中心,负责考试质量监督的是国家公务员局考试录用司、人社部专业技术人员管理司、就业促进司等。与我国不同,在测试质量控制方面,美国的教育行政部门基本无所作为。

3.1.1.2市场制约

伴随《中华人民共和国公务员法》、《国家公务员条例》和《企业法》的颁布,伴随改革的深化,对于测试质量的市场监督已经初露端倪,已经出现了一些市场制约的萌芽。总体讲,迄今在我国市场的制约作用尚微乎其微。与我国不同,美国的测试质量主要依靠市场制约来保证。我们可用主持着《学习能力倾向测试(Scholastic Assessment Test,SAT)》、GRE、《国际交流英语考试,Test of English for International Communication,TOEIC,中文简称“托业”,2002年12月已经在中国开考,目前由人力资源和社会保障部职业技能鉴定中心主持》》、“托福”等重要考试的ETS为例来看市场制约的作用。在大学入学考试这一领域中,ETS面临着另一家考试机构美国大学考试(American College Test,ACT)的强烈竞争。在60年代中期,每年有150万人参加SAT考试,仅有40万人参加ACT考试,那时,多数大学只承认SAT成绩。今天,ACT与SAT已经平分秋色,每年各有约100万人参加考试,多数大学既承认SAT成绩,也承认ACT成绩。在国际上,ETS面临着剑桥大学地区考试辛迪加(UCLES)的竞争。在为学校服务的英语考试方面,与“托福”竞争的是UCLES的“雅思”。在为工商企业服务的考试方面,与ETS的“托业”竞争的是UCLES的“商务英语考试(即BEC,在中国开考多年,由教育部考试中心主持)”。ETS在考试质量方面稍有松懈,市场就会被对手蚕食。这种市场制约,是美国各种考试质量保证的最重要因素。

3.1.1.5   行业制约

测试质量还受到行业和学术共同体的制约。上世纪90年代初,中国心理学会测试专业委员会颁布了一个很简单的关于测试使用的道德标准,可以算是考试的行业监督的一个开端。这个规定本身很粗略,至今也并没有受到考试使用者的注意,基本还没有发挥行业监督的作用。美国AERA、APA和NCME三家共同颁布的《标准》,体现了行业和学术共同体对考试质量的要求。《标准》是行业制约和学术制约的体现。

3.1.1.4   法律制约

考试的质量,影响到一个人的升学、就业,影响到人的学习、工作方面的基本权利。这些基本权利,理应受到法律保护。由于长期以来我国对个人权利的忽视,迄今,在考试方面对利害关系人的法律保护尚非常薄弱。

与我国不同,美国很重视保护测试的利害关系人的基本权利。今天,中美两国关于考试的观念差异很大。在中国人眼中,考试是公平的象征,“分数面前人人平等”,“是英雄,是好汉,考场上,比比看”。如果因考试成绩不好而被拒绝,被考人心服口服,并无怨言。在美国人眼中却并非如此。如果一个人因某项考试成绩不佳而被拒之于校门、厂门之外,他可能会追究:这项考试是否可靠?因为这项考试而拒绝我的根据是什么?何以见得我在此项考试中成绩不高就说明我一定完不成学业、做不好工作?他就会要求使用考试的人提供有关这项考试有效性的证据。他们认为,凭一纸靠不住的考试把一些申请者拒之于学校、企业的大门之外,是不公平的,是对人的基本学习、就业权利的侵害,是对人权的侵害。如果被拒绝的是妇女或黑人,他们可能控告考试使用者歧视妇女和黑人。

因此,美国的考试机构随时都要准备与考生对簿公堂。考试机构考试编制的第一追求目标就是“法律上的抗攻击性”,其次才是有效性、准确性、可行性、经济性,等等。

法庭在处理这类诉讼时,由美国联邦人事管理总署等颁布的《统一指南》为最主要的法律依据。同时,《标准》也是重要的参考依据。

3.1.1.5   不同的制约机制产生不同的效果

不同的制约机制产生了不同的效果。这种差异,既表现在科研投入方面,也表现在考试质量方面。

由于市场机制的作用,美国的每个考试机构都面临着巨大的生存压力。为了维持和扩大用户,考试机构需要向用户证明考试的有效性。为此,美国的各个考试机构确实下了很大的功夫,进行了许多关于考试有效性的研究,或资助一些独立的研究机构对考试的有效性进行研究。例如,在美国的大学、研究生招生中普遍使用的SAT、ACT、GRE等考试,都在考试编制机构出版的关于考试的“效度资料”中,报告了这些考试中取得不同成绩的人后来的学习成绩、获取学位的平均年限、毕业当年谋得职位的比例,等等。ETS围绕主要用于企业的“托业”考试也进行了大量的研究,首先,研究者们收集了许多既参加了“托业”考试、也参加了其他考试的考生的成绩资料,将“托业”与这些考试进行对比研究,并据此说明“托业”的有效性和长处。研究者进行了“托业”与“托福”、《密歇根英语语言水平考试(MTELP)》、《密歇根听力理解测试(LCT)》、《英语二级水平考试(SLEP)》、《密歇根英语分班考试(EPT)》等多种考试的比较研究。其次,研究者进行了许多“托业”成绩与英语面试成绩之间的相关研究,进行了许多“托业”成绩与英语写作成绩之间的相关研究。第三,在实验研究中,研究者将“托业”成绩与英语教师给学生的评定成绩相比较,发现“托业”成绩与教师评定之间具有很高的一致性。

为了得到市场、行业和法律的认可,考试机构必须做大量的工作分析研究。以主要用于工商业的“托业”考试为例,ETS研究了工商业从业人员都从事哪些活动,需要具备哪些方面的语言知识和技能。根据工作分析的结果,确定考试的内容。由于进行了大量的工作分析,“托业”考试的分数可以包含丰富的解释信息,可以与具体的工作行为表现相连接。在托业的分数解释手册中,详细描述了各个分数段的考生“能做什么”和“不能做什么”。

与美国的考试机构不同,我国的考试机构在有关考试效度方面的科研投入微乎其微。今天,我国的考试科研主要集中于考试信度方面,关于考试效度的研究凤毛麟角。

不同的质量控制机制也带来了不同的改革动力。任何进步和改革都是有风险的。对于美国的ETS、ACT等考试机构来说,改革的风险是失败,不改革的风险是灭亡。对于我国的许多考试主持机构,改革存在风险,维持现状却几乎没有风险。由于存在压力,ETS始终在科研方面保持着很大的投入,不断地改进、完善着SAT、GRE、“托福”等考试。例如,1982年,SAT用基于现代项目反应理论的新的等值方法取代了原有的线性等值方法,1993年推出了“无纸化”的计算机GRE考试,1994年推出自适应性GRE考试,1998年,在美国本土取消了纸笔的GRE考试,在全世界大部分地区取消了纸笔的“托福”考试。2002年,在GRE考试中增加了写作,取消了原有的逻辑部分。2005年,正式推出了包含作文、口试的“新托福”。2006年,在SAT中增加了写作测试。2007年,推出了新“托业”,在原来仅仅包含“听力”和“阅读”的旧“托业”中,增加了口语和写作测试。今天,“标准化”仍是我国考试改革的目标之一,但是,在ETS的语言中已经将“标准化考试”称为“传统考试”,ETS的热门话题是开发“真实性(authentic)测试”、“行为(performance)测试”和“认知诊断(cognitive diagnostic)测试”。

不同的质量控制机制也造成考试主持机构对待考试使用者和考生的不同态度。ETS等考试主持机构,随时可能被考试的使用者抛弃,随时可能遭到考生的侵权起诉。面对考试的使用者,面对考生,往往表现为兢兢业业,如履薄冰。我国的考试机构往往承担着一定的行政责任,往往并不在意考试利害关系人的感受。


3.1.2     《标准》的历史沿革

今天,《标准》的最新版本是1999年颁布的。之前,三个相关机构曾经颁布过5个有关测试项目开发和使用的文件。第一个是1954年由APA颁布的《关于心理测试和诊断技术的技术建议》。第二个是1955年由国家教育协会颁布、由AERA和NCME编制的《关于成就测试的技术建议》。第三个是1966年由APA出版、由APA、AERA和NCME共同编制的《教育与心理测试及手册的标准》。第四个是三家机构于1974年对第三个文件的修订版。

1977年,颁布《标准》的三家机构成立了一个联合委员会对1974年版《标准》进行审查。委员会包括12名委员,主席是M. R. Novick,副主席是R. L. Linn和S.W. Sherman。联合委员会提出了对《标准》进行修订的一些指导性意见和基本的工作原则,主要包括:

1. 内容覆盖到测试在各个方面的应用;2. 是一个关于规范专业实践技术标准的说明,而不是一个社会行为法规;3. 在判断测试技术的充分性、测试使用的适当性、测试分数的合理性方面,这一文件应提供依据;4. 要求测试的编制者、出版者和使用者收集并提供充分的资料,使具备资格的审查者可以据此判断该测试是否达到了使用标准;5.  尽管《标准》本身并不具备强制机制,但《标准》应体现强烈的道义力量;6. 认识到并非所有的标准都适用于内容广泛的各种测试和测试的使用情境;7. 其表达方式应尽量使多数使用测试和测试分数的人都可以理解;8. 并不禁止在测试的编制、使用和解释方面进行新的探索;9. 反映权威专家们今天的共识。

联合委员会经过8年的工作,于1985年颁布了《标准》的第5个版本。

1991年,《标准》的三个颁布机构开始酝酿对1985年版本进行修订。1993年11月正式成立了修订《标准》的联合委员会并召开了第一次会议。委员会有15名成员,由E. Baker和P. Sackett共同担任主席。

《标准》修订的未定稿曾三次大面积分发,广泛征求意见。委员会共收到来自74家机构的近8000页的评论意见。这些机构包括教育部提高教育质量办公室全国教育统计中心、人事管理总署人力资源及开发中心、劳工部就业培训管理局、司法部移民归化局、国防部助理部长办公室、美国平等就业机会委员会等政府机构,包括美国高等教育协会、美国医疗专科理事会等行业协会,包括全美医师执照测试委员会、全美注册心理咨询师委员会等资格认证机构,还包括大学委员会、教育测试服务中心(ETS)、美国大学考试中心(ACT)等民间考试机构。


3.1.3《标准》的主要内容

《标准》系统地阐述了考试编制、实施所应遵循的基本原则,规定了考试所应达到的技术要求。《标准》包括3个部分,15章,264条标准。

第1部分是“测试的开发、评估和有关考试的正式文件的准备”,共包括6章,123条标准:

1.效度(24条标准)

2.信度及测量误差(20条标准)

3.测试的开发和修订(27条标准)

4.评分、常模和分数的可比性(21条标准)

5.施测、评卷和成绩报告(16条标准)

6.测试的辅助文件(15条标准)

第2部分是“测试过程中的公平性”,共包括4章,48条标准:

7. 测试过程及测试用途的公平性(12条标准)

8. 考生的权利与责任(13条标准)

9. 不同母语考生的测试问题(11条标准)

10.      残疾考生的测试问题(12条标准)

第3部分是“测试的应用”,共包括5章,93条标准:

11.测试使用者的职责(24条标准)

12.      心理测试及评估(20条标准)

13.      教育测试及评估(19条标准)

14.      就业及资格认证的测试(17条标准)

15.      项目评价和公共政策的测试(13条标准)


3.1.4     《标准》的格式

《标准》的每一章都由“背景介绍(background)”、基本问题与基本观点、“标准”三部分组成。每一章的开始,首先简单介绍所讨论问题的基本背景。之后,是关于该章所涉及问题的基本概念和基本观点的一些讨论。之后,是相关的标准。

例如,在第1章“效度”的“背景”一节后,包含“效度证据的来源”和“效度证据的整合”两节。之后,是与测试效度有关的24条标准。在第2章“信度”的“背景”一节后,包含“测量误差的特点和含义”、“信度数据的收集”、“信度数据的解释”等三节。之后,是与测试信度有关的20条标准。

多数标准由标准的正文和解释性说明两部分组成。例如:

标准1.1每个测试的分数解释和使用都应该有根据,都应清楚地说明支撑这些分数解释和应用的证据和理论依据。

说明:在有关理论依据的说明中,应包括对分数做出解释所必须的那些前提条件和考察方式……

标准4.10当宣称从同一测试项目的不同试卷中所获分数具有同等效力时,需要提供明确的理由和相关的支持证据……

说明:当为了某个目的使用不同的试卷或题目时,当测试分数来源于不同的试卷或题目时,都需要给出支持证据……

标准14.10在报告基于考试内容的效度证据的时候,需要清楚地阐述以特定方式(例如,从要操作的任务或从知识、技能、能力或其它个性特征等方面)界定和描述一个具体工作内容领域的理由。

说明:当基于测试内容的效度证据是针对某一份工作或某一类工作时,效度凭证需要对主要的工作特点有一个描述,说明测试内容只是某项工作所有内容的一个样本。这个描述应包括相对频率、重要性、或各组成部分的关键性。

标准14.17一项资格认证测试的通过标准只能是基于胜任某一职业或行业工作所必须的那些知识和技能,而不能根据考试及格的人数或比例来进行调节。

说明:必要时,可以通过其它方法对获得资格认证的人数和比例进行调节,但不能通过调整及格分数或及格水平来调节。分数线应该根据对可以接受的成绩水平的认真分析和判断而确定。当测试有替换试卷的时候,需要认真地对分数线的分数进行等值处理,以保证所有试卷的及格分数具有相同的意义。


3.1.5三家颁布机构对《标准》1999年版的批准意见

经过广泛吸收和听取有关机构的修改意见,联合委员会最终完成了《标准》修订工作。三家颁布机构分别根据自己的审批机制和程序批准了经过修订的《标准》。

美国教育研究协会的批准意见是:“批准本《标准》的修订完成表明,原则上我们相信《标准》代表了目前本领域公认的专家们就测量实践中应遵循的准则所达成的共识。测试的研制、施行、出版发行及使用各方人士,均须照此办理。”美国心理学协会的批准意见是:“《标准》的通过表明本协会将采用该文献作为准则。”全美教育测量学会的批准意见是:“本学会批准《标准》的修订完成,相信这些标准将有助于更合理和更负责任的测试实践。此项对《标准》的批准意味着本学会会员在工作中应尊重这些《标准》,这种尊重是一种专业责任。”


3.1.6《标准》1999年版的一些特点

与1985年版本相比,1999年版本具有一些新的特点。

3.1.6.1内容的增加

在新版本中,增加了许多新的内容,反映了90年代测试领域的新发展。1985年版本为100页,1999年版本为194页,篇幅大幅度增加。1985年版本共包含“标准”180条,新版本包括“标准”264条。在《标准》中包含一个名词术语解释。在1985年版本中,包含术语解释122条。在新版本中,包含术语解释199条,增加了77条,其中包括信度效度系数的调整、分析性评分、偏颇、(参数)标定、DIF、经典测试理论、项目反应理论、高风险考试、测试信息函数等许多重要的术语。在新版本中,增加了许多新的内容,例如,对效度的重新定义和分类,对公平性问题的深入探讨,对题目反应理论(IRT)的介绍,等等。

3.1.6.2对效度的重新定义和分类

与1985年版本相比,1999年《标准》最突出的特点是重新定义了测试效度。在《标准》1985年版本中,效度被定义为“从测试所做出推论的适当性或合理性的程度”。(94页)“效度反映已有证据可以在多大程度上支持根据测试分数所做出的推论。”(9页)根据证据来源不同,证据被划分为来自“构念(construct)”、来自内容和来自效标(criterion)三种,效度也被相应地划分为三种。多年来,这种关于效度的定义和效度种类的划分,一直成为教育与心理测量学界关于效度研究的基本框架。

新版本中,效度被定义为“关于测试分数的特定解释所得到的支持程度。这种支持来自累积的证据或理论。这种解释是测试应用的基础。”(184页)“逻辑上,效度估计始于对测试分数如何解释的清晰说明,以及一个关于分数解释与测试应用之间关系的说明。所谓测试解释,是关于测试项目所要测量的构念(construct)或概念(concepts)的解释。”(9页)“在本标准中,所有的分数都被视为对构念的测量”。(174页)

编制一个测试项目,首先需要回答的问题就是:“这个测试项目测什么?”对这个问题的回答,就是“构念”。例如,一个汉语水平考试测量的是“汉语能力”,一个数学能力测试测的是“数学能力”,一个焦虑性测试测的是“焦虑”。这里,“语言能力”、“数学能力”、“焦虑”等就是“构念”,就是研究者为了对这些问题进行研究而构造出来的一些概念。

从1955年Cronbach与Meehl提出construct validity概念以后,心理测量学家对这一概念就存在两种不同的看法。反对的人认为它会导致对测试效度的主观臆测,支持的人认为它涵盖了所有其它的效度证据。从《标准》1999年版本看,后一种观点今天已经占据了明显的上风,construct已经成为教育与心理测量中最重要、最核心的概念之一。这里,构念将不再是效度证据三种来源之中的一种,而是被用来定义效度概念。这一改变表明,在主流教育与心理测量学界,今后已经不再存在“构念效度(construct validity)”这一概念。所谓效度,就是测试项目对构念进行测量的有效程度。因此,“构念效度”“这一短语对于效度来讲已经成为多余(redundant)”。(第174页)。随着“构念效度”这一概念退出历史舞台,“构念”概念却走到了舞台的中心。

在1985年版《标准》中,construct被定义为“不可直接观察的、体现为个别差异的心理特征。”在1999年新版中,construct被定义为:“测试所要测量的概念或特性(the concept or the characteristic that a test is designed to measure)”。(173页)

根据1985年版本,效度证据来源于构念、内容和效标三个方面。在新版《标准》中,没有再沿用这种关于效度的分类,而是讨论了多种效度证据的来源,包括基于内容的证据(evidence based on content)、基于答题过程的证据(evidence based on response processes)、基于内部结构的证据(evidence based on internal structure)、基于与其他变量之间关系的证据(evidence based on relations to other variables)和基于测试结果的证据(evidence based on consequences of testing)。

新《标准》中特别强调了从多种渠道积累效度证据的重要性。通过效度证据的不断积累,我们将更恰当地使用测试分数,更准确地对测试分数进行解释,将对测试构念的定义不断完善,将对测试本身不断地进行修订和完善。同时,在效度证据积累的过程中,我们可以发现和提出新的需要研究的问题。新版《标准》特别指出,测试项目的效度依赖于测试的精心编制,依赖于测试编制的理论框架,依赖于测试的施测和计分过程,依赖于分数等值,依赖于及时纠正测试过程中出现的不公平因素,等等。

3.1.6.3对公平性问题更多的关注

在1985年版本中包括四个部分共16章内容。四个部分是测试编制和评价的技术标准(含效度、信度等5章)、测试使用的专业标准(含临床测试、学校测试、雇用测试、证书测试等7章)、特殊应用的标准(含对少数民族和对残疾人的测试2章)和施测过程的标准(含施测、计分、分数报告等2章)。在1999年新版本中,“测试公平”单独成为三个部分中的一个部分。

在1985年版本中,虽然在一些地方提及公平性问题,但并没有专门章节的深入探讨。在1985年版本中,认为如果一项考试不会系统地高估或低估某一特定考生群组,这个考试就是公平的(85版,第12页)。新版本超越了关于公平性的这种定义,对“公平”概念的不同含义进行了更深入的探讨,分别讨论了“没有偏颇的公平”、“考生受到同等对待的公平”、“学习机会的公平”、“考试结果的公平”等不同的公平概念,分别探讨了可能导致不公平的不同因素,如来自测试内容的因素和来自解题过程的因素,等等。

在1985年版本中,尚完全没有涉及“题目功能差异(differential item functioning, DIF)”概念。90年代以后,DIF成为国际测试研究领域中的一个热点问题。在新版本中,反映出这一与考试公平有关的重要发展,提出对不同年龄、性别、种族、文化背景、语言背景、身体条件的考生群体进行DIF分析的要求。(99版,第81页)

新版本的编者们清醒地意识到公平问题的复杂性。他们指出,“公平性概念可以从多种角度来定义,公平并不完全是一个技术概念,关于公平的定义和解释随不同的社会和政治环境而变化。……需要再一次强调,本标准仅仅从技术角度提供了一些专门的指导,对测试负责任的使用,还需要有关价值和社会政策方面的考虑。”“不论是就整个社会而言,还是就测量专业的学术界而言,近期都还看不到人们在测试公平问题上取得一致意见的前景。”(第80页)

3.1.6.4对题目反应理论和概化理论的介绍

在1985年版本中,尚没有出现“经典测试理论(CTT)”的概念。关于测试的统计质量标准,基本上是基于真分数理论和CTT之上的,仅仅在个别地方简单提及IRT,完全没有提及概化理论(GT)。新版本中测试统计质量标准则已经是建立在CTT、IRT和GT之上,对IRT和GT做了许多介绍。这是新版本的一个重要特点。


3.1.7《标准》的中文版

沈阳出版社从《标准》的版权所有者美国教育研究学会购买了《标准》的全球中文版权,由长期在美国测试机构工作的燕娓琴博士和曾在ETS从事博士后研究的谢小庆博士译为中文,已经于2003年初正式出版,全书20万字。


3.1.8近年关于修订《标准》1999年版的呼声

《标准》1999年版出版以后,一些人提出了尽快对《标准》进行修订的呼吁。例如,曾经担任NCME主席的D. A. Frisbie在NCME 2005年年会的主旨发言中呼吁尽早对《标准》进行修订。他谈到,教育测量学界已经认识,并不存在常模参照测试和标准参照测试,仅仅存在对测试分数的常模参照解释和标准参照解释;并不存在一个测试的效度,仅仅存在测试分数解释和分数使用的效度;并不存在一个关于测试的综合的信度,一个测试存在反映受到不同误差因素影响程度的多种信度。但是,在《标准》中,这些认识没有得到清晰明确的反映。

美国教育协会(American Council on Education,AEC)和NCME共同组织编写的《教育测量(Educational Measurement)》在业内被称为是“测量领域的《圣经》”。在2006年《教育测量》(第4版)出版以后,修订《标准》的问题更加显得突出、很长时间中,效度研究的核心概念曾经是“效标(criterion)”。效度研究曾经被视为一种用“效标”对测试的效度进行证明(verify)的过程,效度研究被视为一种对测试分数做出有效(valid)解释的过程。

在《标准》1999年版中,效度研究的核心概念是“证据(evidence)”。效度研究被视为一种通过积累证据对测试的效度进行支持(support)的过程,效度研究被视为一种对测试分数做出合理(reasonable)解释的过程。

《教育测量》(第4版)中,效度研究的核心概念变为“理据(warrant)”。效度研究被视为一种通过构造“理据系统”和“理据网络”对效度所进行的“论证(argument)”,效度研究被视为一种对测试分数做出可接受的(plausible)解释的过程。


3.1.9 ETS的《质量和公平性标准》

为了保证ETS产品的质量,1981年ETS董事会制定了作为产品质量标准的《质量和公平性标准》。之后,在1987年、2000年和2002年进行了3次修订。在2002年版中,包括13章共85条标准。13章是:

第一章 开发过程(5条标准)

第二章 应用的适当性(6条标准)

第三章 用户服务(8条标准)

第四章 公平性(8条标准)第五章 信息的应用和保护(8条标准)

第六章 效度(8条标准)

第七章 评价开发(8条标准)

第八章 信度(6条标准)

第九章 及格线、量表和等值(6条标准)

第十章 施测(5条标准)

第十一章   结果报告(6条标准)

第十二章   评价的应用(6条标准)

第十三章   受试者的权利和责任(5条标准)

每一章都包含“目标”和“标准”两个部分。在每章的开始,都有关于撰写该章的目标的简要说明。


3.1.10美国《员工招聘程序统一指南》

1978年,美国公务员委员会(联邦人事管理总署前身)、劳动部、司法部、就业公平委员会等多个部门联合颁布了《员工招聘程序统一指南》。1980年,这些部门又颁布了这一文件的《问答》,详细说明了实际应用中可能遇到的各种问题。《统一指南》洋洋数万言,核心思想是:不具备有效性证据的考试不能用于人员选拔。在此文件中,就考试的有效性、考试的工作分析、公平性、统计方法、文件资料的完整性等做出了详细的规定。这一文件与各州制订的关于禁止将缺乏有效性证据的考试运用于人员选拔和安置的法律一道,成为法院审理有关诉讼的依据。法院在案件审理过程中,需要审查有关考试有效性的证据。

《统一指南》的宗旨是消除各级人事部门在雇佣、晋升、工资、培训、解雇等人事决策中可能存在的种族、肤色、宗教、性别、移民的原驻国、年龄等歧视因素,为人事决策提供统一的原则指导。《统一指南》覆盖各级政府和私营组织,规范这些组织在根据面试、行为测试、纸笔测试等测试结果对员工所作出的雇佣、晋升、调职、降级、解雇等行为。

如果考试利害关系人认为自己在测试中和人事决策中受到不公正对待,可以向司法机构投诉。在受理投诉方面,通常采用“五分之四原则”:当一个群体的录取率低于其他平行群体中最高录取率的五分之四时则认为此种测试方法可能对某一特定群体有不利影响。例如:若对于某一工作,白人的录取率为60%,美洲印第安人的录取率为45%,西班牙人的录取率为48%,黑人的录取率为51%,那么用美洲印第安人、西班牙人、黑人的录取率与这些群体中最高的白人的录取率相除,结果分别为45/60、48/60、51/60。其中45/60小于4/5,因此,可以怀疑此种测试或程序对美洲印第安人有不利影响,可以受理投诉。五分之四并不是法律规定的数值,但这一经验数值已经在司法实践中被广泛接受和采用。当投诉被受理以后,测试项目的主持机构需要提交有关考试效度的证据。如果证据支持测试的效度,证据可以显示测试成绩确实与工作成效之间有联系,这项测试可以继续使用。如果证据不足以支持测试的效度,测试的主持机构就可能受到侵权的指控。

《统一指南》鼓励所有的测试实施机构开展效度研究。在根据“五分之四原则”不存在歧视嫌疑的时候,对效度研究不做法律方面的要求。如果存在歧视嫌疑,就必须提交效度证据。

《统一指南》共18章,包括:

第一章     目的

第二章     范围

第三章     歧视:选拔程序与歧视间的关系

第四章     影响

第五章     效度研究的一般标准

第六章     缺少效度证明的选拔程序的使用

第七章     其他效度研究

第八章     合作研究

第九章     拒绝效度假设

第十章     招聘测试机构及招聘测试服务

第十一章 区别对待

第十二章 重测申请

第十三章 积极法案

第十四章 效度研究的技术指标

第十五章 关于影响及效度证据的文

件第十六章 定义

第十七章 关于积极法案的政策说明第

十八章 引证


3.1.11《测试与评估:雇主实用指南》

1999年,美国劳动部招聘培训管理办公室颁布了《实用指南》。此文件旨在帮助各级管理者及人力资源部门在法律的框架下合理地使用测试,实现人力资源管理目标。此文件对与雇佣过程中的测试相关的一系列概念进行了简明、清晰的解释。

《实用指南》以人事评估中最基本的13条原则为框架,对整个人事评估过程进行了全面的阐释。文件包含9章,每1章介绍人事评估的一个重要方面,最后一章对13条基本原则进行了总结。

《实用指南》指导雇主和人力资源主管选取合适的测试手段,指导相关人员对各种不同测试手段的效度、信度、公平性进行评估,尤其是对各种测试手段可能存在的负面效应进行评估。

《实用指南》所依据的13条基本原则是:

一、  合理地使用测评工具

二、  对候选人进行全面评估

三、  只使用公正的测量工具

四、  只使用可靠的测量工具和程序

五、  只使用已证明的对特定目标有效的测量工具和程序

六、  使用适合目标总体的测量工具

七、  使用可做出解释的测量工具

八、  保证测试的管理人员接受了合适的培训

九、  确保测试环境适合所有考生

十、  在测试过程中为残疾考生作出合理的改变

十一、    确保测试工具安全

十二、    对测试结果保密

十三、    确保对测试分数作出合理的解释

《实用指南》共包含9章:

第一章、 人事评估

第二章、 理解人事评估的相关法律——招聘法律、法规

第三章、 理解测试的本质——信度和效度的定义

第四章、 测评工具及其使用

第五章、 如何选择测试——评价测试的标准

第六章、 使用测量工具

第七章、 评分及分数解释

第八章、 评估中存在的问题及注意因素

第九章、 回顾——测评的原则


3.1.12标准化测试:符合标准的测试

从上世纪80年代初我们从国外引入了“标准化考试”的概念以来,30多年间,对标准化考试的批评此起彼伏,一浪接一浪。甚至有人将中国教育中的许多弊端归咎于标准化考试。

究竟什么是“标准化考试”,一直是充满歧义和争议,莫衷一是。迄今,在一些人的眼中,标准化考试就是采用选择题的考试。即使在教育与心理测量学的专业领域中,也未能就标准化考试的定义形成共识。

一种定义是:“一种按系统科学程序组织、具有统一的标准,并对误差做了严格控制的考试。考试要做到试题编制标准化,考试实施标准化,阅卷评分标准化以及分数转化与解释的标准化”。(张敏强、刘昕)任何一个理智健全的考试开发者都会努力控制测量误差,但并非所有的考试都是标准化考试。我们通常认为,“科举”不是“标准化考试”。上述定义无法区分“科举”与现代的标准化考试。在“控制误差”方面,今天的许多考试还做不到科举考试的单间考试、搜身、誊录(防止笔迹作弊)等。

另一种定义是:“在命题、施测、评分和分数解释四个环节上都严格控制了误差、实现了试题预测、DIF分析和分数等值、合理地确定了测验长度和及格线的测验。”(徐静、王瑞烽)这一定义又似乎过于严格,以此定义衡量,今天能够称为“标准化考试”者寥寥无几。

还有一种定义是:“借助数学方法(主要是统计方法)控制测量误差、由职业测量专业人员开发的考试。”(谢小庆,2005)这一定义从是否采用数学方法和是否由专业人员开发两个角度区分标准化考试和非标准化考试。今天,认同这一定义的人并不多。

其实,“标准化考试”与“非标准化考试”的区别在于是否对考试的质量进行了有效的控制。或许,我们可以用《标准》来定义标准化考试。标准化考试就是符合《教育与心理测量标准》的考试。


3.1.13建立考试研究的专业地位

近年来,公共卫生事件增多,SARS,H1N1,H7N9,等等。关于这些传染病的病源,关于传播方式,专家之间也会时有不同的看法。但是,这些问题仅仅属于医学界讨论的问题,仅仅属于少数病毒学研究学者们所讨论的问题,很少听说其他领域的人对这个问题议论纷纷。各级领导虽然对传染病问题非常重视,但却未听说哪位领导就某种疾病的病源问题、传播方式问题做出过什么指示。今天,医学、数学、物理学、化学等等,许多学科都已经建立起自己作为一门科学的专业地位,都已经形成了自己的学术共同体,都已经形成了自己的一套专业话语。

遗憾的是,至今在我国的考试研究方面却还没有确立起自己的专业地位。“考试”仍然是一个公共话题,随便什么人都可以对考试问题发一通议论。不论什么人,都可以仅仅凭借“眉头一皱、计上心来”而谈论“考试改革”。不论什么人都可以在不做任何文献调研和不做任何实证研究的情况下,对考试提出一系列的批评,提出一系列的建议。

例如,题型选择问题,即“什么题型具有更高的信度和效度”问题,是一个严肃的科学问题,需要通过科学研究来做出回答。但是,一些人却可以在不做任何实证研究的情况下对“选择题”大举挞伐。其实,那些没有进行过严肃科学研究的人,根本无权置喙这一问题。

作为一个考试工作者,笔者认为考试的编制和实施是一门严肃的科学。考试形式的选择、考试内容的确定、考试题型的选择、考试分数的解释等,都需要建立于科学研究之上。考试的改革只能以科学研究的成果为依据。今天,考试工作者们需要通过共同努力来建立起考试研究的专业地位,需要共同来构筑考试研究的学术共同体。对于那些关于考试的不负责任的、随感式的议论,我们需要共同说“不”。

在建立考试研究的专业地位方面,“《标准》、《质量和公平性标准》、《统一指南》、《实用指南》等文件值得我们借鉴。相关机构有必要及早编制颁布中国考试工作者自己的专业标准。这样的标准,不仅仅是从事教育测试的人必须尊重的一种专业责任,而且是任何主办教育考试的机构必须强制执行的法规。通过这种形式,才可以逐步建立起考试研究的专业地位,才可以逐步建立起考试专业的话语权威。


海宽文集:http://www.hxzq.net/showcorpus.asp?id=10


 


华夏知青网不是赢利性的网站,所刊载作品只作网友交流之用
引用时请注明作者和出处,有版权问题请与版主联系
华夏知青网:http://www.hxzq.net/
华夏知青网络工作室