您所在的位置:首页>考试评价 > 资源共享> 正文

PISA在中国:教育评价新探索

日期:2011-09-07      来源:河北招生考试信息服务网     点击数:

教育部考试中心   

原载:《比较教育研究》2008年第2

【摘要】本文通过对当前国际上颇具影响力的大规模教育评价项目——“学生能力国际评”(PISA)的评价理念和技术的解析,结合教育部考试中心开展PISA2006中国试测研究实践收获的启示,阐述了作者对我国教育评价研究与发展的思考和建议。

【关键词】教育评价;教育测量;PISA;素养

教育评价是否科学有效,在很大程度上决定着教育的走向,影响着学生的素质发展,也关系到整个社会的教育公平与民族素质的提高。如果能关注国际上颇具影响力的“学生能力国际评价”(以下简称PISA)的评价理念、技术手段,特别是能通过实践深入研究PISA整个评价流程体系,掌握国际教育评价的设计理念和操作方法,为我所用,那么无疑将大大推动我国教育评价领域的研究与发展。

一、学生能力国际评价PISA解析

学生能力国际评价(Programme for International Student Assessment)是经济合作与发展组织(The Organization for Economic Cooperation and DevelopmentOECD)发起并组织实施的为各参与国家与地区协作监控教育成效的评价项目。PISA测试义务教育阶段结束后15岁学生在阅读、数学和科学方面所具备的应用知识、技能和解决问题的能力。PISA除认知测验外,还包括了问卷调查,目的是收集有关社会、文化、经济和教育因素的指标,这些指标与学生的成就相联系,从个体学习者、教学、学校及教育体制四个层面进行分析。因此,PISA超越了对各参与国家与地区在三个主要领域的相对排名,涉及范围更广的教育成果,如学生的学习动机、自信心以及学习策略等,[1]以期获得来自学生、教师、学校和家长的综合看法和观点。同时从社会、文化、经济以及教育因素等方面考查学生和学校的特征,为各国政策分析和研究提供有价值的参考。

PISA2000年首次开始实施评价,每三年一次,以评价年命名。PISA200032个国家参与,评价的重点是阅读素养;PISA200341个国家和地区参与,评价的重点是数学素养;PISA200656个国家和地区参与,评价的重点是科学素养。[2]PISA2009评价的重点又轮回到阅读素养,预计将有66个国家与地区参与。PISA已形成了完善的教育成效评价指标体系与数据基准。

对于政策制定者而言,通过对比自己国家或地区和其他国家或地区教育系统的成就表现,教育发展趋势走向,能够帮助他们总结已有政策的经验,改善教育体制,并基于PISA提供的指标体系更好地评价和监控教育体制的效力与发展。

PISA的目标是发展常规的、可靠的、与政策相关的学生成就指标,从而达到关于国家教育体制的质量、公正性和效率的评价目标。PISA评价关注四个子目标的实现:学习成果的质量;学习成果的等价性和学习机会的均等性;教育过程的有效性和效率;以及教育对社会经济的影响。

PISA运用最新的教育测量理论保证评价工具的公平、公正,使用高质量的评价工具、严格的抽样、周密的数据收集机制和先进的数据分析方法,对教育体系和学生发展水平给予高效度、高信度的评价。

PISA提供的指标体系包括:学生知识和技能基准状况的基本情况指标;说明这些知识和技能与重要的人口分布、社会、经济和教育背景变量相联系的环境背景指标;源于数据收集的持续性,说明测试成绩发生变化的发展趋势指标。

PISA使用目前可以使得心理与教育测量达到客观等距的现代教育测量理论,[3]对学生阅读、数学和科学测验以及通过学生问卷和学校问卷收集的社会、文化、经济和教育因素的指标进行题目的建构、参数校准和相关分析。PISA测试如同用尺子量学生身高一样,用现代教育测量理论建构的题目测量不同层次学生多维度能力、态度、动机等,进而进行国家或地区间横向和跨年度纵向比较。这是国内普遍使用的依据经典测量理论建立的测评工具根本无法实现的。

PISA通过现代教育测量理论打造的是一把钢性的量尺,试题难度不会像传统测试的弹性量尺那样随受试人群样本的能力不同而变化。各参与国家与地区一致认同PISA客观等距量尺测量出的学生素养基本情况指标、环境背景指标、发展趋势指标,其高品质保障的取样、测试管理机制和最新的数据后期分析使PISA跨国和跨年度的比较具有高度的有效性和可信性,同时又如同用尺子量学生身高一样简单明了。

PISA所关心的是15岁学生所代表的总体情况,参加PISA测试的学生样本具有广泛的代表性。学生样本所做的认知测试取自难度覆盖广泛的、具有现代教育测量理论精准题目参数的大型题库。PISA2000认知测验共有9套试题册,PISA2003PISA2006认知测验共有13套试题册。每名学生样本只要求作答其中的一套,依据随机原则将每名学生样本分配到每套试题册。每套试题册通过现代教育测量理论相互链接,大量的试题保证覆盖15岁学生阅读、数学和科学素养,而试题抽样形成的试题册为每个受试者提供的做答时间仅为两小时。学生即使做不同题册的不同难度的题目也可以经过现代教育测量理论等值处理而进行相互比较。

PISA使用两阶段分层抽取的学校样本和学生样本的数据及权重来推断参与国家或地区总体的情况。各参与国家或地区根据自己的研究目的,抽取的学校样本数从PISA最低要求的150所到将近1000所,学生样本数从PISA最低要求的4500人到超过30000人。

PISA数据分析保障了试题抽样和学生抽样数据分析的最大程度似真。每名学生依据随机分配试题册的答题反应、所属不同学校和相关背景信息在不同测量维度上各计算出5个似真值(plausible valuesPVs),[4]并进行80次重复(replicate[5]的统计分析,产生有效数据,最大限度地精确估计误差,保证测量的科学性。

PISA2000共收集了近26万有效学生样本,实现了阅读素养的“提取信息”、“解释说明”、“反思并评估”[6],数学素养、科学素养5个维度的测量与评价;PISA2003共收集了27万多个有效学生样本,实现了数学素养的“变化和关系”、“数量”、“空间和形状”、“不确定性”[7]、问题解决、阅读素养、科学素养7个维度的测量与评价;PISA2006共收集了39万多个有效学生样本,实现了科学素养的“识别科学问题”、“科学地解释现象”、“使用科学证据”3个科学能力“;科学兴趣” 、“支持科学探究”[8]2个对待科学的态度和阅读素养、数学素养总共7个维度的测量与评价。

PISA利用现代教育测量理论,在时间短、样本量小、试题量大、覆盖面广、成本低、误差小、减轻学生负担、减少考试焦虑的同时,确保了评价的科学性,拓宽了评价的内容与形式,使教育评价更具实用价值。

二、PISA在中国的实践

教育部考试中心2006年引进并启动了PISA2006中国试测研究项目。PISA2006中国试测研究并不代表中国正式参与PISA,实践的目的在于学习、借鉴PISA先进的考试评价理念、理论、技术,了解国际的情况,通过实践锻炼队伍,构建符合中国国情的评价标准、手段、技术和方法体系;促进考试内容和形式的改革,特别是对命题环节的改进,有利于全面推进素质教育。

PISA2006整个流程的评价在国际上历时四年完成。从200312月到20049月为测试工具的开发,20049月到20059月为各参与国家与地区实地预试,20059月到200612月为各参与国家与地区正式测试,200612月到200712月为数据分析与结果报告。各参与国家与地区PISA执行中心根据OECD/PISA统一调配,完成测试工具翻译、样本选取、评价实施、编码评分、数据获取及整理、提交数据和接收结果报告整个流程。在这四年各参与国家与地区每年上交OECD/PISA规定年费后得到相应的技术支持。教育部考试中心PISA2006中国试测研究从200610月正式启动,一年来实施了PISA2006测试工具翻译和预试调整、学校样本和学生样本选取、评价实施、编码阅卷、数据整理、统计分析和结果报告全环节的评价工作。

PISA2006中国试测研究在国内操作层面上实行两级管理体系,即教育部考试中心负责研究工作在全国的实施管理,试点机构在统一要求下负责本地区的组织实施,包括本地区抽样信息提供、学校样本和学生样本落实、人员培训、测试及调查问卷实施管理,并要求对测试的题册和数据严格保密。教育部考试中心统一编码评判试题册和问卷,统一录入信息,保证编码评分和数据录入的信度和效度。数据分析由教育部考试中心自主完成。通过PISA试测研究,教育部考试中心不但完成了试点地区的教育成效评价报告,还利用PISA协作组织提供的国际参数进行国际比较,为各级教育决策者提供了一个多层次评价教育成效的指标体系和国际评价参考信息。

PISA2006中国试测研究按PISA国际规范采用两阶段分层随机抽样设计,第一阶段完成学校层面的抽样,选取了五个分层变量:学段,包括初中、高中;学校的地理位置,包括市区、县城(县政府所在城镇)和农村三类;学校的性质,包括公立学校、私立学校;学校的类型,包括普通中学、职业学校、特殊教育学校和中等专业学校;学校的等级,包括普通高中、示范高中、普通初中、基础薄弱初中。按照这五个维度设计了抽样框架,试点地区据此框架上报了本地区所有包含15岁学生学校的统计信息。教育部考试中心在第一阶段抽取了150所样本学校,随后在第二阶段以完全随机抽样的原则从这150所学校样本中抽出3515岁学生作为参加试测的学生样本。共有来自试点地区150所中学的5000余名学生被纳入样本,样本有效地代表了试点地区近1200所学校的16万余名15岁在校学生总体,其中农村学校在校学生近一半。

PISA2006中国试测研究采用的是纸笔测验,共有13套试题册,依据随机原则将每名学生分配到每套试题册,每个学生需用两个小时的时间来完成测验。PISA2006中国试测研究收集的原始数据同时采用国际大型统计软件SPSSSAS两套系统进行了数据清理和转换,得到了完全匹配的结果,保证了数据的精准。然后,用清理后的数据按照OECD数据分析的标准流程对每个学生样本依据所属不同学校、所做不同试题册、学生问卷收集到的不同背景类型进行回归分析,每个评价领域生成5个似真值,对似真值进行加权,通过抽样权重的多重复制程序进行分析,按国际规范得到了评价结果。评价结果可直接与参与PISA200656个国家和地区相比

PISA2006中国试测研究提供了义务教育结束后,国际公认的学生应该具有的知识和技能的基本标准参照。教育部考试中心在此过程中提升了评价学生的能力和教育成效的水平,为实现“十一五”事业发展规划中提出的把教育部考试中心建成“国内领先、国际知名、服务教育、面向社会的专业化考试与评价服务机构”迈出了开创性的一步。

除提供给各级教育政策制定者与国际比较的结果评价报告外,教育部考试中心组织学科专家对PISA2006所有试题按学科和考察目的分类,根据中国测试学生试题反应指标参数,逐个题目进行命题、编码理念解析和对应数据解读,撰写了PISA能力命题借鉴和PISA试题评价试点地区考生水平和教学情况的学科评价报告。教育部考试中心还总结了PISA2006中国试测研究数据清理,样本权重,抽样方差计算,13套互不相同又存在交叉题目的试题册等值,多维度似真值与问卷背景变量联系,问卷结构效度,多元回归统计分析影响学生成绩因素,多层线性模型对涉及地区、学校不同层面的分析等技术形成了技术应用报告。PISA2006中国试测研究的数据可实现与国际横向的比较,奠定了未来纵向跟踪研究的数据库基础。

三、对我国教育评价新探索的思考

我国的基础教育在实现了义务教育的发展阶段之后,已进入全面提高教育质量阶段。如何开展科学、合理和有效的教育评价,使教育评价成为提高教育质量的有效手段,成为实现教育管理和教育决策科学化的重要保障,促进学生健康发展的必要环节,PISA提供了有益的启示与借鉴。

(一)充分利用现行大规模考试信息

在我国,大规模考试与教育有着密切的关联,这表现为大规模考试事实上对教育的评价和引导作用。因此,充分利用大规模考试的数据资源为教育服务,是我国教育评价必须做好的一项工作。借助PISA2006中国试测经验,对现行大规模考试数据进行深入数据分析,多角度、多层次地提供分析报告,从客观、定量的视角审视和评价教育的质量,并依据数据分析结果为教育教学提供有效的指导,使我国的大规模考试服务更加科学化、社会化和人性化。

(二)探索建立适合我国国情的教育评价模式

借鉴PISA先进的评价理念、科学的评价工具、全面的实施流程及严谨的评价方法,在教育部考试中心实施PISA2006中国试测研究的基础上,探索建立适合我国国情的教育评价模式。建立完整的从命题、分析到反馈的教育评价理论与实践操作体系,通过严谨的抽样和教育成效测量,使各级教育行政部门了解本地区教育教学发展的状况,从而制定出相应的措施,同时监测教育目标的实现情况。相关评价报告形成后还应依据一定的教育评价理论标准对评价结果的质量和结论的精确性进行再评价,检验其评价结果是否存在偏差。

利用现代教育测量理论,可以在小样本、大覆盖、成本低、学生焦虑少、学校负担轻的教育评价模式下探索建立学校校内自主评价和地区统考成绩校准参照系。对校内形成性评价成绩校准,保证学生的成长记录和日常评价结果在不同学校的可比性。探索把学校、教师对学生长期的“形成性评价”和一次性的“终结性评价”有机结合,推动教育评价改革朝着有利于实施素质教育的方向发展。

(三)关注影响学生成绩的因素

教育评价除了关心学生之间的差异之外,也要关注影响学生成绩差异的因素。PISA十分关注学生与学校的背景,更加关注学校和教育政策在提升学生发展方面的作用。从教育公平与均衡发展的角度出发,PISA提供了学生成绩差异的社会经济根源及教育资源投入效益预测等更深层次的分析报告。PISA主张社会各阶层的孩子都应得到良好的发展与成长的教育,这与当前我国倡导的教育均衡、关注教育投资的有效性相一致。

因此,适合我国国情的教育评价也应通过问卷调查,广泛吸纳学生、家长、教师、教育政策制定者参与。针对热点问题开展社会调查,对学校状况、教师教学、父母支持和政府投入等影响学生表现和教育质量的诸多因素进行分析、总结,得出相关结论。找出影响教育成效的各方面因素,力求使评价结果更加客观、公正,从而为教育决策提供政策建议。

(四)开展追踪研究促进教育质量提高

教育质量评价所关注的问题不仅仅是教育质量已经达到的水平,而且还应该关注教育质量趋势发展走向,需要什么样的政策调整。因此,开展追踪的趋势研究,评价教育的发展趋势,更好地发挥教育评价功能,为国家教育整体质量的提高,为地方教育质量的改善,为学校、为学生提供服务。

我国是一个考试大国,考试已涉及国民生活的方方面面,成为利害攸关的事情,引起了社会各界的高度关注。考试只是评价的一种手段,利用评价的观念和方法改造我们的考试,利用考试的数据开展评价工作,是实现我国教育考试改革和推动教育评价的有效结合点。在传统考试的基础上构建一个科学的教育考试与评价体系,实现从单一考试到多元评价的跃升,既是我国教育考试改革的核心问题,也是教育评价改革的关键所在。为促进教育评价水平的提升,深化教育改革,亟需建立完善的教育考试评价体系,发挥考试的评价、导向、咨询功能,建立科学的数据统计的工作机制,形成公平、科学、安全、规范的教育考试评价新体系。[9]

参考文献:

[1] OECD. Learning for Tomorrow's WorldFirst Results from PISA2003[M].ParisOECD2004.23~25.

[2][8] OECD. Assessing ScientificReading and Mathematical LiteracyA Framework for PISA 2006[M].ParisOECD2006.8~44.

[3][4][5] OECD. PISA2003 Data Analysis Manual[M].ParisOECD2005.30~80.

[6] OECD. Measuring Student Knowledge and SkillsThe 2000PISA Assessment of ReadingMathematical and Scientific Literacy[M].ParisOECD2000.17.

[7] OECD. The PISA2003 Assessment FrameworkMathematicsReadingScience and Problem Solving knowledge and Skills[M].ParisOECD2003.8-35.

[9] 戴家干. 从考试到评价——教育改革的时代任务[J].中国高等教育,200713/14.