托福口语主观题评分那点事儿之“工具要趁手”
对于所有考试来说,评分员都是保证考试成绩真实、有效非常重要的一环。特别是对于诸如口语、写作这类科目的主观题评分员,他们需要熟练掌握相应的评分规则,并能在整个评分过程中保持一致的标准。同时,他们还要知道面对未出现过的作答情形,应当如何处理。因此,即便是经验丰富的评分员,在参加评分前也需要进行培训,并在阅卷期间不断进行行为校正。对于所有包含主观题科目的考试来说,评分员培训都是值得,也必须花相当大的精力去进行的工作。主观题评分的第一点就是要明确评分方法。是的,评分方法不止是“客观题-主观题”之分,在主观题内部还有细分。
与“对-错”判断的客观题评分不同,主观题评分员需要对考生作答作出更加复杂的评判:对考生完成所给任务的程度进行评价。因此,主观题的评分需要借助一个重要工具——评分量表(ratingscale)来完成,这一评分量表一般包含分值、等级或其他标签,同时可能会有对量表分数对应的考生作答特征描述信息(descriptors)。评分量表主要分为两种:整体评分量表(holisticscale)及分析性量表(analyticscale)。整体评分量表要求评分员对考生的作答给出整体评判,而不应对考生某一特定方面的表现给予过多关注,因此这种评分量表又被称为“印象量表”(impressionscale),常被使用在要求评分员做出快速判断的时候。与之相反,分析性量表则会将描述信息按任务要素(component)细分,要求评分员根据考生在不同考查要素上的表现给出相应分数,通过加和得出总分。考生或许会在某一要素上表现不错,而在其他要素上得分较低,而如何把这各个要素得分进行组合、叠加进而得出总分,则取决于考试组织方的考查目的,因此,这种评分方法常常会涉及到另一个重要的测试学概念——权重(weighting)的分配,今次笔者先开一坑,不做赘述。
表1 A Sample Holistic Scale
From: UCLES InternationalExaminations in English as a ForeignLanguage General Handbook, 1987
表2 A Sample Analytic Scale(部分)
From: Test of English forEducational Purposes, AssociatedExamining Board, UK, 1984
考试主办方会根据需要选择评分方式,两种评分方式并不存在绝对的孰优孰劣,在ESL领域,无论侧重语言整体面貌的展现还是更加关注语言要素的掌握,都体现了语言学习的不用阶段要求,也代表着相应的语言学习观。而对于ESL测试的评分员来说,最大的挑战便是充分理解他们手头那份分数量表背后的规则、描述内涵,并灵活、准确地使用,最终达到“撇开剑谱,剑在心中”的境界!
而面对托福的口语评分量表,可以说是对两类量表加以融合:在General Description的基础之上,各分档对Delivery、LanguageUse、TopicDevelopment也进行了相应的表现描写。这样做结合了两类量表的优点,既体现了对语言基本要素的要求,也符合了托福考查实际语言应用能力的目的。但这同时也带来了更大的评分难度,不同要素之间不平衡带来的分数浮动该如何控制?各要素如何权衡?这些“一千个考生有一千种作答”的评分问题,既考验了评分员在ESL领域的实践经验,也需要一定时间与工作量的评分员培训积累。不得不说,托福口语评分员们还是很值得钦佩的,哪怕咱们没从他们手中拿到高分。