CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

1       CLEC语料分布

类型

词次

ST2

208088

ST3

209043

ST4

212855

ST5

214510

ST6

226106

总计

1070602

 

 

言语失误标注 原则

 1.         简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

 2.         分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vpnp都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。

 3.      提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]In the past, people are [vp6,4-]kind to each other……,[vp6,4-] are vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断areare这个词用错了。

 4.      开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81sn82,等等。

5.         对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。

言语失误分类表(总数:61

词形

动词短语

名词短语

代词

类型

类型

类型

类型

fm1  

Spelling

vp1

pattern

np1

pattern

pr1

Reference

fm2

word building

vp2

set phrase

np2

set phrase

pr2

anticipatory it

fm3 

capitalization

vp3

agreement

np3

agreement

pr3

Agreement

 

 

vp4

finite/non-finite

np4

case

pr4

Case

 

 

vp5

non-finite

np5

countability

pr5

wh-

 

 

vp6

tense

np6

number

pr6

Indefinite

 

 

vp7

voice

np7

article

 

 

 

 

vp8

mood

np8

quantifiers

 

 

 

 

vp9

modal/auxiliary

np9

other determiners

 

 

形容词短语

副词

介词短语

连词

类型

类型

类型

类型

aj1  

pattern

ad1

order

pp1

pattern

cj1

pattern

aj2

set phrase

ad2

modification

pp2

set phrase

cj2

set phrase

aj3 

degree

ad3

degree

 

 

 

 

aj4

-ed/-ing confusion

 

 

 

 

 

 

aj5

predicative/attributive

 

 

 

 

 

 

词语

搭配

句子

 

类型

类型

类型

 

wd1

order

cc1

noun/noun

sn1

run-on sentence

 

wd2

part of speech

cc2

noun/verb

sn2

sentence fragment

 

wd3

substitution

cc3

verb/noun

sn3

dangling modifier

 

wd4

absence

cc4

adj/noun

sn4

illogical comparison

 

wd5

redundancy

cc5

verb/adv

sn5

topic prominence

 

wd6

repetition

cc6

adv/adj

sn6

Coordination

 

wd7

ambiguity

 

 

sn7

Subordination

 

 

 

 

 

sn8

structural deficiency

 

 

 

 

 

sn9

Punctuation