改变命运的重要途径是教育(相关报道:公务员试卷命题之秘 ) 作者:海宽


 

改变命运的重要途径是教育

    ——《谢小庆教育测量学论文集》后记

一个社会,只有使绝大多数的人都能够看到希望,这个社会才有希望。一个社会,只有保持不同阶层之间的人员流动,才有活力。如果仅仅是少数人能够看到希望,如果很多人感到绝望,这个社会是不安定的,也是不安全的。今天,考试已经渗透到社会生活的各个方面,几乎每一天,都有一些人通过参加考试而改变着自己的人生道路和人生命运。

改变命运的重要途径是教育。教育的前行凭借两个车轮:教学与评价。二者相辅相成,互为因果,缺一不可。好的教学是基于评价之上的、有的放矢的、因材施教的教学;好的评价是可以为教学提供反馈信息和改进信息、可以促进教学的评价。评价的科学化,直接影响到教育的发展。

从6世纪科举制度形成以来,评价的意义就不仅仅体现在人才选拔,而且体现在对于教育的导向(wash back)功能。评价的方式直接影响到教育的发展,考试发挥着“指挥棒”的作用。同时,评价的结果也是教育问责(accountability)和教育资源分配的依据。

考试在教育和社会发展中发挥着重要作用的同时,也产生着不容忽视的负面影响。在一个中国学生的成长道路中,考试不仅成功地用追求功名利禄的外在学习动机取代了他原有的基于兴趣和好奇心之上的内在学习动机,不仅成功地驱使教师们热衷于传授知识而几乎忘记了发展学生的健全人格和培养学生的实际能力,而且非常成功地扫荡了学生们的创造力,尤其是成功地灭绝了学生们提出问题和产生疑问的能力。于是,中国学校中培养出来的学生,往往对眼前明摆的问题视而不见,往往对本来十分可疑的东西深信不疑。这种倾向,在对待考试的问题上,表现得尤其突出。

何以见得我没有在高考上取得高分,我就不能完成大学的学习?何以见得我在公务员考试中没有取得高分,我就不能胜任公务员的工作?理由是什么?证据是什么?

公务员录用考试中的“行政职业能力测验”包含140道题目。为什么是140题而不是120题或100题?是否需要这么多的题目?

这些,本来是可以问一问的问题,本来是应该问一问的问题。但是,从小被考试扫荡了怀疑能力的中国人,却很少提出这一类问题。他们面对一些可疑的考试分数却相信什么“分数面前人人平等”,面对劣质考试造成的伤害和挫折却“心服口服”。以保护群众利益为己任的各级技术监督部门,虽然兢兢业业地监督着关系人民日常生活的冰箱、彩电、洗衣机的质量问题,对往往关系一个人终生命运的考试的质量却从来不闻不问。

机缘际会,或许由于曾在边陲草原的蒙古包中经历了11年的骑射生涯,笔者竟然侥幸残留了一些提出问题的能力。30多年来,笔者一直在思考着考试的合理性问题。在这本文集中,汇集了笔者的一些思考印迹。

经过思考,笔者确信:考试是一个衡量人的能力的“天平”或“体温计”。这个“天平”或“体温计”,本身存在着质量问题。有的质量较好,可以基本准确地反映人的能力水平。有的质量较差,在测量的过程中存在很大误差。合理的考试必须建立在科学研究的基础之上,必须通过科学研究来保证考试的质量,考试命题不能靠“眉头一皱、计上心来”。考试成绩应尽量真实地反映考生的水平,应尽量避免受到来自试题取样、阅卷、强化辅导、作弊等方面误差因素的影响。考试合格标准应该具有稳定性,不应受到试卷难度起伏的影响。

这些思考,包含哲学、政策和技术三个层面。在哲学层面,笔者在思考:教育的目的是什么?教育的任务是什么?教师的责任是什么?我们为什么办学?我们需要培养什么样的人才?等等。同时,笔者也在思考:评价考试质量的标准(criterion)是什么?科学的考试赖以立足的逻辑基础是什么?脱离了对这些基本哲学问题的思考,考试研究就迷失了方向,考试研究就成为无本之木。

在政策层面,笔者在思考考试形式的选择,考试内容的确定,考试题型的选择,考试分数的报告方式,等等。在考试领域,很少有“有百利而无一害”的政策选择,我们需要考虑每一项政策抉择可能产生的社会效应,需要对这项政策抉择的得失利弊进行权衡。

在技术层面,我们需要尽可能地利用现代科学技术手段,最大限度地把考试的负面效应降到最小,不断使一些“不可能”的事情成为“可能”。恰如毛泽东所说:“我们不但要提出任务,而且要解决完成任务的方法问题。我们的任务是过河,但是没有桥或没有船就不能过。不解决桥或船的问题,过河就是一句空话。不解决方法问题,任务也只是瞎说一顿。”(《毛泽东选集》,人民出版社,1卷,1991,第139页)遗憾的是,在考试领域到处可见毛泽东同志所批评的“空话”和“瞎说一顿”。考试改革,不应是一个“公共话题”,不应仅凭“拍脑袋”而高谈阔论,不应在不做任何文献调研和不做任何实证研究的情况下,信口提出一系列的批评和建议。

笔者从哲学、政策和技术三个层面对考试问题进行了思考和探索。在哲学层面,追问“为什么要进行高考改革”,追问科学考试的效度依据;在政策层面,围绕笔试与面试、选拔考试与资格考试、多元化选拔、档案式评估、描述性记分、教师评价方式等问题,讨论了各种选择的得失利弊;在技术层面,讨论了考试的质量控制、公平性分析、等值技术、题库建设等问题。这些研究涉及的考试包括高考、公务员考试、中国汉语水平考试(HSK)、中国少数民族汉语水平等级考试(MHK)、职业汉语能力测试(ZHC)、汉字应用水平测试(HZC)、国际汉语教师能力考试,等等。

笔者坚持认为,对于21世纪中国的发展,今天没有一件事情比始于2001年的基础教育课程改革更重要。她的成败,关系到21世纪中国的命运。然而,她的成败很大程度要取决于考试评价制度的改革。如果没有考试评价制度的改革,“新课程改革”终究会前功尽弃,所有的努力都会回到原点。十几年来,笔者看到许许多多中小学老师们为了挽救小“范进”们而辛辛苦苦地推动着“新课程改革”。笔者清楚地知道,如果评价制度不改,他们的所有努力都会付诸东流。

笔者深知,就人均占有量而言,中国不仅算不上自然资源大国,甚至可以算是一个自然资源贫国。但是,中国毫无疑问是一个人力资源大国。中国未来的持续发展,很大程度上要依靠开发自己的人力资源,而不是开发自己的自然资源。怎样将“人口负担”转变为“人力资源”,这将是关系到中国命运的大问题。

在人力资源的开发中,考试占据着非常重要的地位。今天,中国对人类在科技和文化艺术方面的贡献,与得到世界公认的中国人的“聪明与勤劳”并不相称。虽然导致这种局面的原因很多,不能说与“学以应考、教以应考”的“应试教育”没有关系。这种“应试教育”,影响到从基础教育到高等教育的整个国民教育体系,造成学生为应试而学、教师为应试而教的局面,造成普遍存在的“学一本书、教一本书、背一本书、考一本书”的局面。这种局面,严重地影响到我国的人力资源开发,严重地摧残着中华民族的自主创新能力。

为了促进我国人力资源的开发,需要对考试改革问题给予更多的关注。好的考试,促使学生去读厚厚的一大摞书,不好的考试,逼迫学生去背薄薄的一小本复习资料。好的考试,使学生“爱学”,不好的考试,使学生“厌学”。好的考试,可以有助于将“人口负担”转化为“人力资源”,不好的考试,可以将“人力资源”转化成“人口负担”。

本来,能够进入大学的人是我们民族最优秀的一批青年人。但是,相当比例的大学毕业生面临“就业难”的困扰。最优质的“人力资源”经过“应试教育”被转化成“人口负担”,实在是一件让人沮丧和伤心的事情。

新中国成立已经63年。63年来,不知多少中华民族最优秀的人才从北京大学、清华大学、复旦大学的物理系、化学系和生物系毕业。至今,这些毕业生中尚没有产生出一个诺贝尔科学奖的获得者。

之所以存在“应试教育”与“素质教育”的矛盾,原因就在于考试所考查的是“记忆”而不是“素质”。一旦考试所考查的是“素质”,“应试教育”与“素质教育”就实现了统一。

每每想到这些,笔者就产生大声呐喊的冲动。从这本文集中,可以听到笔者近乎声嘶力竭的呼喊。

诚挚地感谢北京语言大学的领导,感谢北京语言大学科研处和出版社的同志们。正是由于你们的支持,才使这本文集得以成书。笔者深信,维护考试的科学性和公正性是我们的共同信念。我们的共同努力,将使考试带给人们的是希望而不是绝望,将使考试可以为人们提供上升的机会,可以促进不同社会阶层之间的流动,可以防止社会结构的板结。我们的共同努力,将有助于开发我国丰富的人力资源,有助于保护我国儿童的好奇心,有助于提高我国在经济和文化方面的自主创新能力。我们希望,经过我们的共同努力,中国能成长起一批像苹果、微软、英特尔一样不是靠“勤劳和汗水”、而是靠“聪明和智慧”赚钱的企业,中国出口的产品将不仅是衬衣、鞋袜和玩具,而是包含更多高知识含量的产品。

本文集中包含几篇合写的文章。凡合写的文章,都标明了作者。未标作者的文章,都是笔者单独完成的。

                                                        二〇一二年六月十日于北京

 

让考试帮助所有的人实现梦想

按:这是《湖北招生考试》杂志2013年6月号(理论版)的卷首语,是杂志编辑给博主布置的作业。

2011年12月6日,美国总统奥巴马在堪萨斯州进行了一次引人关注的演讲,宣布了他2012年大选的连任竞选纲领。这次讲话,被媒体评论为他迄今最重要的一次演讲。他在演讲中说,二战后,出身贫寒的美国人成为中产阶级的可能性是50%,上世纪80年代下降为40%,今天,已经下降为33%。他说,这种局面,必须扭转。奥巴马的话,可以给我们一些启发。一个社会,只有保持不同阶层之间的人员流动,才有活力。一个社会,只有使绝大多数的人都有追梦的热情,只有使绝大多数的人都能够看到希望,这个社会才有希望。如果梦想仅仅属于少数人,这个社会是不安定的,也是不安全的。

今天,考试已经渗透到社会生活的各个方面,几乎每一天,都有一些人通过参加考试而改变着自己的人生道路和人生命运。作为考试研究者,我们希望通过我们的研究成果,促进社会的公平,帮助更多的人实现自己的梦想。

几乎所有的人都在呼吁公平,人们对公平的理解却相去甚远。教育部严格禁止在“幼升小”和“小升初”中采用考试,是为了维护公平。许多人出于抑制权、钱影响的考虑,呼吁在“幼升小”和“小升初”中以考试录取,也是为了公平。反对和支持中学校长向北大实名推荐学生的人,都声言维护公平。

什么样的考试才是公平的?这并不是一个容易回答的问题。上世纪60年代,一些美国学者注意到,在一些高利害考试(如相当于我国高考的SAT考试)中,黑人的平均成绩低于白人,于是批评这些考试对黑人不公平。直到上世纪末,人们才逐渐认识到,这种组间差异完全可能是真实情况的反映,考试中并不一定存在对黑人的偏见。进一步的研究发现,在考试中,可能包含一些对某一特定群体不公平的题目。例如,测验中一些涉及空调、微波炉、地铁的题目,可能不利于来自偏远农村的考生。于是,教育测量学者发展起多种“题目特殊功能(differential item functioning, DIF)”分析的办法,包括TID方法,MH方法,Sibtest方法,基于IRT的Raju面积法,等等。借助DIF分析,可以避免考试中可能存在的不公平现象。

DIF分析的意义在于,将公平问题归结为考试的效度问题。大学入学考试对白人和黑人是否公平的问题,同时也是这项考试在预测白人和黑人考生的大学表现方面是否同样有效的问题。汉语水平考试(HSK)对亚裔考生和对欧裔考生是否公平的问题,同时也是这项考试在测量亚裔考生和欧裔考生的汉语水平方面是否同样有效的问题。就是说,无效的考试也是不公平的考试。

虽然今天已经认识到公平问题就是效度问题,但遗憾的是,迄今效度问题仍然未能得到足够的重视。在美国国家教育测量学会(National Council on Measurement in Education,简称NCME)2013年旧金山年会期间,像过去几年一样,面对亚洲、非洲和南美洲的一些国家,提供了免费的网上培训课程。4月26日下午1-5时的课程是《真实世界中的心理测量工作概览(An Overview of Psychometric Work in Real World)》。来自美国教育测量领域三巨头美国教育测验服务中心(ETS)、美国大学考试中心(ACT)和培生公司(Pearson)的心理测量学家和一名来自科罗拉多大学的心理测量学家,共同对心理测量研究进行了一次“概览”。多少有些遗憾的是,在长达4个小时的“概览”中,却几乎未涉及效度问题。在此次年会期间所提供的总共长达16个小时的培训课程中,涉及考试效度研究的内容也很少。

另一方面,在教育测量的各种经典文献中,效度都被置于最重要的地位。由美国教育研究协会(American Educational Research Association,AERA)、美国心理学会(American Psychological Association,APA)和NCME共同制定的《教育与心理测验标准(Standards for Educational and Psychological Testing)》(最新版本为1999年修订的第6版)和美国教育协会(American Council on Education)和NCME共同组织编写的《教育测量(Educational Measurement)》(最新版本是2006年出版的第4版)是今天国际教育测量领域最权威的文献。后者被人们称为“教育测量领域的《圣经》”。在这两份文献的第一章都是“效度”,都是首先讨论考试的效度问题。这不仅是由于考试效度是最重要的考试质量指标,效度也密切关系到考试公平。没有效度的考试,既没有效率,也没有公平。

今天,在我国的考试领域中,既缺乏考试公平方面的实证的DIF研究,也缺乏考试效度方面的实证研究。这种局面,很容易导致考试分数的误用,也很容易使考试受到批评和攻击。考试研究领域的同行们应共同努力扭转这种局面。

 

海宽文集:http://www.hxzq.net/showcorpus.asp?id=10

 


华夏知青网不是赢利性的网站,所刊载作品只作网友交流之用
引用时请注明作者和出处,有版权问题请与版主联系
华夏知青网:http://www.hxzq.net/
华夏知青网络工作室