找回密码
 注册(中文实名)
总共1060条微博

四维微博

查看: 2679|回复: 0

温爱英:初中毕业英语学业考试的效度、信度和可操作性研究

[复制链接]
admin 发表于 2012-4-5 13:02:52 | 显示全部楼层 |阅读模式

请联系QQ393038533 以便注册 享用更多功能

您需要 登录 才可以下载或查看,没有账号?注册(中文实名)

×

扫二维码,用手机阅读
江西省教研室 温爱英
$ u- `( A. a& S6 n8 m7 l6 ~
摘  要:任何测试都必须在效度、信度、可行性和对教学的反拨作用之间采取妥协,保持平衡。本研究通过对英语中考试题的研究,旨在发挥中考对教学积极的反拨作用,并使考试的形式有利于实现测试的目的,使考试结果尽可能准确地反映学生的实际水平,充分发挥中考的鉴定和激励功能。
关键词:英语中考;效度;信度;可操作性;反拨作用

: D/ @$ \/ n' T1 R- I
一、研究背景
  初中毕业英语学业考试是义务教育阶段的终结性考试,其目的是全面、准确地考查初中毕业生在英语学习方面是否达到《英语课程标准》(以下简称《课标》)所规定的英语毕业水平的程度,注重考查学生综合语言运用能力。考试结果既是衡量学生是否达到毕业标准的主要依据,也是高中阶段学校招生的重要依据之一。为了迎接三年一次的中考,多年来在许多地方形成了只重视教学结果、不重视教学过程的倾向。具体表现就是从初一开始就按中考题型对学生进行训练,利用周末、节假日、寒暑假加班加点赶教材进度,同时进行大量的模拟试题训练,使学生陷入题海而难以自拔。多年来这样的苦教、苦学并没有带来外语教学的高质量(程晓堂、张连仲,2004)。用模拟考试、做试题冲击教学,替代讲课和练习,把生动活泼的外语教学变成枯燥的应试技巧训练,都是测试负面的或有害的反拨作用(田贵森,2003)。负面反拨效应产生于两个环节:试题的设计和测试的使用,前者为内因,后者为外因。负面反拨效应影响到教师对教材、教学内容、教学方法的选择和教师对学生的态度,也影响到学生的学习目的、学习内容、课堂表现和课外书籍的选择等。负面反拨效应的本质是测试效度对信度和操作的简单屈从(李冥,2005)。任何测试都必须在效度、信度、可行性和对教学的反拨作用之间采取妥协,保持平衡(辜向东,2002)。

2 t* s) y2 T4 @& R  [0 [" A
二、研究内容
  江西省从2003年秋季开始实施初中英语新课程。新课程实施的关键在教师。江西省农村初中英语教师占全省初中英语教师的近三分之二。通过对江西省农村初中英语教师的素质现状调查,发现这支教师队伍已基本达到专业水准,对新课标理念有一定了解并予以认可,但理念并未真正转化为教育行为,课堂监控能力、教育科研能力较弱。一方面,我们要努力提高农村教师队伍的素质,使这支队伍能顺利地迎接新课程改革的挑战;另一方面,我们要命制出高质量的中考题,真正发挥中考对教学有益的反拨作用,以引领教改方向,使其真正服务于教学。
  结合江西省初中英语教学的实际情况,我们要在保证中考试题高信度和切实可行的基础上,努力探索提高试题效度的途径和方法;在追求试题高效度的基础上,努力寻找保证信度的切实可行的途径和方法,从而更加科学准确地测试受试者的语言能力,以进一步提高中考对教学潜在的、有益的反拨作用。
  单纯的主观性测试或客观性测试都不可能是最好的测试方法或测试手段,主观性试题与客观性试题的比例要得当。设计得好的单项选择题不仅能用来测试离散的知识点,而且能用来测试理解、判断、推理、计算与应用等能力(辜向东,2002)。因此,一方面,我们要加强单项选择题的命题技术,努力提高其效度;另一方面,要充分考虑主观题的阅卷等工作的可行性,进行考官培训,保证评分员达成统一的评分思想,以确保主观题的高信度。

; f+ A8 `! U0 c  c1 L5 g( E
三、理论依据
  任何语言测试,尤其是大规模、高风险的语言测试必须具备四个要素:效度、信度、可行性和对教学的积极反拨作用。
  语言测试的效度就是指测试在多大程度上考查了希望考查的内容(李筱菊,1997)。效度的概念包括以下几个方面:结构效度(语言测试的理论基础)、内容效度(足够的、具有代表性的、相关的抽样)、标准关联效度(与外在的、独立的、得到广泛认可的测试相比较,含同期效度和预测效度)和表面效度(外行对测试的印象)。高兰生等(1996)列举了影响效度的9个因素:(1)目标和任务不明确;(2)内容没有很好划定;(3)题项的比例不恰当;(4)题量不当;(5)有错误或不规范;(6)有暗示;(7)指导语表述不清或者太难;(8)缺少缓解怯考心理的措施;(9)没有为后续工作开好路。就试题设计而言,Hughes(2000)和李炯英(2002)分别提出七项提高效度的建议,概括如下:测试全面考查学生综合语言运用能力、取样广泛而无可预测性,尽可能使用真实的语言材料;尽可能使用直接测试法(如口试)、适当减少离散题和客观题、增加主观题的比例;开发和增加新的测试题型;新增实用性、真实性并举的作文考试题型;进一步研究和规范改卷评分体系、确保师生了解测试、必要时给教师提供协助等。
  语言测试的信度是指语言测试结果的一致性程度。信度包括三个方面:测试本身的信度、受试者在不同情况下的表现以及评分的信度。Henning(1987)列举了五项影响测试信度的因素:(1)学习者的波动,如临时的心理或生理的变化;(2)评分的波动,如评分员之间、每个评分员自身前后之间的差异;(3)测试过程中的波动,如外界的干扰、不同的指令;(4)测试的特征,如测试时间的长短,试题的难易度、区分度;(5)与作答相关的错误,如猜测因素等。Bachman和Palmer (1999) 认为完全消除不一致性是不可能的。然而,如果我们遵循某些原则,确实可以最大限度地保证信度。为此,Hughes(2000)提出了十点建议:(1)抽取足够的样本,试题尽可能覆盖初中三年所学内容;(2)不设含糊的题目,提供清楚明了的指令,确保试卷卷面设计完善;(3)施考条件一致,无干扰;(4)充分研究单项选择题的命题技术,最大限度地提高其效度;(5)使受试者之间的比较尽可能直接;(6)提供详细的评分细则;(7)培训评分员;(8)评分前确定统一的可接受的答案和评分标准;(9)通过考号而非姓名来辨别受试;(10)书面表达采用多人独立评分。
  除效度、信度外,可行性是语言测试的另一要素。一项测试只有在其人力、物力、时间允许的范围内才具有可行性。可行性主要与实施测试的方法以及是否建立和采用某项测试,在何种程度上建立和采用这项测试有关(辜向东,2002)。与此同时,还要考虑测试对教学的反拨作用。在主、客观测试中,效度、信度、可行性和对教学的反拨作用四者之间的关系如下:
9 {: G- k7 [. f  S
项目(Item)
/ v& s; C. F* j: l0 W% X) y
主观性(Subjective)测试
9 M' t0 E) e3 U; J5 i% ], E6 c+ Z
客观性(Objective)测试

# ~$ ?" G8 V7 J, ?$ ?9 F
效度(Validity)
* F' y3 T3 P  ]* D) n
更高(Higher)
2 ^- L$ q3 Y6 Q- a  `! q! n
更低(Lower)
- C, i' Z) \5 T& C4 c& Z0 s6 \
信度(Reliability)

3 R, H( F$ ~6 L
更低(Lower)
) s8 ~$ x" c& l: i. E2 E9 Z
更高(Higher)
- L# }% p+ N) ^0 W1 H
可行性(Practicality)

! ^9 m% H! j  q3 b, t% R( k
可行性更小(Less practical)
' R& U; t- b) F: l* u( P/ U( @
可行性更大(More practical)

4 p- w: B& T; X8 J- R# k
反拨作用(Backwash effect)

6 }3 S9 C, J1 {; a* w3 M# M
更积极的(More positive)
) {  A" P6 t3 ^1 f  F
更负面的(Less positive)
注:改自桂诗春(1986)
! M2 _+ C3 \( l4 T( [' C
  《课标》建议终结性评价(如期末考试、结业考试等)要注重检测学生综合运用语言技能和语言运用能力。终结性评价是反映教学效果、体现学校办学质量的重要指标之一,要客观、科学、全面地考查学生在经过一段时间学习后所具有的英语水平。测试应包括口试、听力考试和笔试等形式。主观性试题与客观性试题的比例要得当。《初中毕业生英语学业考试命题指导》建议初中毕业英语学业考试试题由口语考试、听力理解、语言知识运用、阅读理解、书面表达五大部分组成。各大部分可以再分为二至三小部分,各小部分可根据考查目的选择不同的题型。

+ z: `& n! G( K5 v: ^/ p
试题部分
) |4 ~8 [8 g; C; j& z' Y/ w* V& Z+ E
建议题型

$ Q" k/ I& E; J" ]) x* }* @
建议分值所占比例

9 U1 X5 K+ N6 @  |* p! H
口语考试

- P% N) H. v& ~6 E" P
对话、访谈、复述、描述、讨论、角色扮演等
% U; W. v1 |: d6 }/ j, m
15%

6 a: U' T* o0 v
听力理解

, H: U0 M3 b- b) G# `8 k
单项选择、填空、匹配等

7 |, v9 O( f# a# F& c% S
20%

/ u6 ~1 {9 J' r! G1 i
语言知识运用

( H! w: C& X/ |" n& [  }
单项选择、完形填空、填空等

0 |+ o  g# P. x9 W) y3 G8 a
20%
" V8 M( I- }+ K9 `8 `# a4 A
阅读理解

* x$ I( ^# \! \% {- M
单项选择、匹配、填空等

% E+ U7 f) r$ `% L# S  @( r
30%

8 ~5 _' o  \% `) f/ Q; X
书面表达
2 j( {9 ?& S) D6 e8 T& |
开放题等

: |( Q( C6 w" g  u
15%
" B+ m, S" ]1 s0 l1 k
四、研究思路
  (一)关于测试的效度
  现代语言测试研究的重点是提高测试的效度。效度是一个实证问题,它不是靠测试项目的设计者怎么声称而获得,而必须靠实验来验证(Alderson, et al., 2000)。效度要通过外部的、独立的标准进行评价。
  1.采用随机抽样的方法,对学生中考答题的情况进行统计和分析,评估试卷的效度。
  2.请测试专家评估中考试卷,如参加教育部中考试卷评估,根据评估意见不断改进和完善。
  3.把学生的中考成绩与教师的评价和学生的自我评价进行比较。中考结束后,到学校进行调研,以县镇和农村初中为主在全省范围内选取六所学校,进行座谈和访谈,收集资料,进行对比,并写出评估报告。
  4.将中考与某一公认的大规模标准化考试作相关分析,如:将中考成绩与学生参加全国英语能力等级考试的成绩作相关比较分析。
  5.通过长期观察考生语言能力的变化来推断考试的效度。选取三个学校,一所县初中和两所农村初中各两个班作为实验班,通过英语老师三年观察其学生语言能力的变化来推断考试的效度。
  6.将中考成绩与高中英语学习成绩作相关分析。每年选取部分初三毕业生,对其进入高中后的英语学习进行跟踪研究来推断考试的效度。
  (二)关于测试的信度
  信度是效度的必要条件:没有信度,就不会有效度(Hughes,2000)。
  1.考官培训。考官包括命题者、审题者、主观题部分的阅卷员和口语考试中负责评分的考官。
召开全省一年一度的中考研讨会,研讨交流中考目标、任务、考试内容、题量和题型、命题理念、命题原则、命题思路等。各区市要进行二级研讨,各县/区要进行三级研讨,以保证考官对所测量的语言能力有一致的看法,对评分标准有一致的理解。
  在中考阅卷前,根据评分标准选定标准样卷和“问题”卷对阅卷员进行培训,目的是统一标准,统一思想。
  2.阅卷信度控制。阅卷信度包括阅卷员本人的一致性和阅卷员之间的一致性。通过考号而非姓名来辨别受试者;书面表达采用多人独立评分;口语考试采用现场监听,或对录音、录像等进行抽查复审。
  3.建立命题人员和阅卷员档案,逐步建立起合格的命题人员和阅卷员队伍。
  (三)关于测试对教学的反拨作用
  选取两个学校各两个班作为实验班,从初二到初三年级每学期期末考试的试题由本课题组成员命制。期末考试试题的评价目标、评价理念等与中考一致,以此来验证测试对教学的反拨作用。

* B4 l6 N3 U$ B2 e- T! V; Z& I
五、研究过程
  (一)理清测试与教学的关系
  测试和教学是一对伙伴关系,两者相互联系、相互影响,忽视任何一方,另一方都无法正常运作。Hughes(2000)认为存在教学合适、合理但测试不佳的情况,这时测试会有消极的反拨作用,但也存在教学不合适而测试能够对之施加正面影响的情形,此时测试就有积极的反拨作用。我们需要努力做到的是如何让这对伙伴和谐发展、互相促进、共同提高。江西省中考实行全省统一命题。从2002年起,每年的三月初省教研室都要组织召开全省中考研讨会。参加会议的对象是全省各区市、各县/区初中英语教研员、各学校初三英语备课组长。会议的形式有专题报告、讨论互动、听课评课等。会议的内容有:(1)学习测试理论,明确测试目的,掌握命题原则,提高命题技术;(2)公布前一年的中考试卷分析报告,包括试题本身的效度、信度情况和通过试卷反映出的教学中存在的问题;(3)讨论中考复习的有效性问题,交流中考复习的经验和方法,收集一线教师对历年试题的反馈情况、试卷对教学的反拨作用情况以及教师对当年试题的建议等;(4)公布当年的中考试卷题型、题量、分值等,介绍命题基本思路。省中考研讨会后,各区市要进行二级研讨,各县/区要进行三级研讨,争取全省所有的初中英语教师对中考都有正确的认识。
  (二)确保统一的评分标准
  江西省中考阅卷工作以各区市为单位,本区市内的各县/区交换阅卷。中考结束后,各区市教研室组织本区市各县/区英语教研员对试卷进行试评,对试题和参考答案进行讨论,保证对所测量的语言能力有一致的看法,对评分标准有一致的理解。各县/区英语教研员回到本县/区后,对所有参加阅卷的教师进行培训,统一看法,统一标准,以确保阅卷的信度。
  (三)试卷参加国家评价组评估
  2003年至2005年的英语中考试卷都报送给“全国初中毕业升学考试英语学科评价课题组”,并参加了课题组组织的评估(2006年国家评价组没有组织参评)。其中,2003年的一道单项填空题和书面表达题作为优秀试题收入2004年《中考命题指导》。根据测试专家的评估意见,并参考其他省、市的优秀试卷,结合本省的实际情况,不断改进和完善试卷,充分发挥中考的鉴定功能和激励功能。
  (四)计算中考试卷的效度和信度
  分别在南昌市和萍乡市随机抽取了2005年和2006年学生英语中考试卷各1000份进行统计分析,计算试题的效度和信度,并写出了试卷分析和评估报告。根据统计结果,逐年调整试题结构、增减题量、提高命题技术,确保试题的信度和效度,以使考试的形式实现考查的目的,使考试结果尽可能准确地反映学生的实际水平。
  (五)选取实验学校实验
  2005年9月份起分别在南昌市、九江市、吉安市的吉安县、萍乡市的芦溪县的初三年级的两个班进行实验。实验班的英语教师为课题组成员。实验班期中和期末考试的试卷由课题组按照江西省英语中考命题的要求统一命制,以使测试对教学施加正面的影响,发挥测试对教学积极的反拨作用。课题组教师对其班上学生2006年英语中考的成绩和其对学生平时语言能力的表现以及学生对自我语言能力的评价作比较分析,并写出分析报告;另外,从2006年9月份起,这些教师还负责跟踪这些学生升入高一后的英语学习情况,并就他们高一的英语学习成绩与中考成绩作比较分析,并写出分析报告。

0 v0 s  _7 E2 S# R0 s8 \
六、研究结果
  以下研究结果主要就试题设计而言,其他方面将在课题于2007年底结题后作进一步的探讨。
  1.主、客观性试题相比较而言,主观性试题效度高,客观性试题信度高,客观性试题可操作性强,但有控制的主观性试题操作性也强,且信度也较高;相对客观性试题而言,主观性试题对教学更能产生积极的反拨作用。
  2.设计得好的单项填空题同样具有较高的效度,而且对平时的词汇和语法教学具有积极的反拨作用。设计得好的单项填空题考查学生在一定的语境中运用语言知识、语法知识和语用知识的能力。另外,一个题干只设一个考点,效度较高;一个题干设两个或两个以上的考点,效度较低。
  3.在语篇中考查学生综合运用语言知识、语法知识的能力,试题设计成填空题比设计成单项选择题效度更高,且有相当的信度。根据考生对做题过程的回忆,填空题的题型能有效地培养学生用英语思维的能力。但要特别注意选材,文章不能太难或太易,要充分考虑学生的实际生活和身心发展水平。
  4.听力理解和阅读理解的单项选择题,考查考生综合理解和深层理解能力的题目比细节理解和浅层理解的题目具有更高的效度,更能准确地测试学生理解信息和获取信息的能力。
  5.书面表达题设计为指导性写作,即有必要的提示,对写作的目的、对象、时间、地点、内容等情景给予简要说明,通过图画、图表、(中英文)提纲等形式提供情景,有一定的开放性,给学生留有足够的、可自由发挥的空间。该题型具有很高的效度。通过阅卷前对阅卷员进行培训,达成共识,能保持相当的信度。给学生留有发挥余地的写作,对教学有积极的反拨作用,扭转了学生死记硬背,并通过背诵范文来应付英文写作的局面。但应用文的写作效度低。在应用文的写作中得高分的大多数学生,其写作能力不一定高,因为如果学生背诵到了相关的范文,便可得高分。
  6.科学、合理地制定评分标准,能提高试题的效度。这主要针对主观题而言。例如:在书面表达题中,如果过分注重语言形式的错误和过分关注书写的准确性,就不能准确地评估学生的书面表达能力。因为学生的语言组织能力、表达的流畅性等是学生书面表达能力更为重要的方面;另外,科学、合理的评分标准,对教学具有积极的反拨作用。

: K& s* ?0 z0 K# S
  该课题是2006—2007年度全国基础教育外语教学研究资助金项目,被评为重点课题。课题号为:JJWYZD2006005。
4 Q, f0 x9 L' Z
参考文献:
Alderson, J.C., Caroline, .& W.Dianne.2000.
Language Test Construction and Evaluation [M].Beijing: Foreign Language Teaching and Research Press.
Bachman, L.F.& A.S.Palmer.1999.Language Testing in Practice [M].Shanghai: Shanghai Foreign Language Education Press.
Henning, G.1987.A Guide to language Testing-Development, Evaluation and Research [M].Cambridge: Newbury House Publishers.
Hughes, A.2000.Testing for Language Teachers [M].Beijing: Foreign Language Teaching and Research Press.
程晓堂,张连仲.2004.新课程英语中考的走向〔J〕.人民教育,10: 33—37.
高兰生,陈辉岳.1996.英语测试论[M].南宁:广西教育出版社.
辜向东.2002.怀疑与误解——评《文汇报》文章“要素质还是应试”[J].外语界(6).
桂诗春.1986.标准化考试——理论、原则与方法[M].广州:广东高等教育出版社.
教育部初中毕业与高中招生考试制度改革项目组.2004.中考命题指导·英语[M].南京:江苏教育出版社.
教育部初中毕业与高中招生考试制度改革项目组.2005.中考命题指导·英语[M].南京:江苏教育出版社.
李炯英.2002.中国现行大学英语四、六级考试:问题与思考——兼评国内外相关研究[J].外语教学,9.
李冥.2005.一些现行外语测试的负面反拨效应剖析[N].西安外国语学院学报,6.
李筱菊.1997.语言测试科学与艺术[M].长沙:湖南教育出版社.
田贵森.2003.中小学英语教学中的测试与评价[J].基础教育外语教学研究,5.

本版积分规则

QQ|Archiver|手机版|小黑屋|四维英语工作室 ( 赣ICP备10001015号 )

GMT+8, 2024-12-22 18:52 , Processed in 0.125000 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表