【趣站】英国国家语料库 BNC – British National Corpus

英国国家语料库 BNC – British National Corpus

英国国家语料库(BNC)最初是由牛津大学出版社在20世纪80年代-90年代初创建的,它包含了1亿字的文字文本,这些文本来自各种体裁(如口语、小说、杂志、报纸和学术),旨在代表20世纪后期英国英语的广泛领域,包括口语和书面语。最新版本是2007年发布的BNC XML版本。

BNC 概况

BNC的书面部分(90%)包括,例如,地区和国家报纸、各年龄和兴趣的专业期刊和期刊、学术书籍和通俗小说、已出版和未出版的信件和备忘录、学校和大学论文以及许多其他文本的摘录。口语部分(10%)由未经脚本的非正式对话(由来自不同年龄、地区和社会阶层的志愿者以人口统计平衡的方式录制)和在不同背景下收集的口语组成,从正式商务或政府会议到广播节目和电话。

语料库根据文本编码倡议(TEI,Text Encoding Initiative)指南进行编码,以表示CLAWS(自动部分语言标记器,automatic part-of-speech tagger)的输出和文本的各种其他结构特征(例如标题、段落、列表等)。每个文本还以符合TEI的标题形式包含完整的分类、上下文和书目信息。

建立语料库的工作始于1991年,并于1994年完成。项目完成后没有添加新的文本,但在发布第二版BNC World(2001)和第三版BNC XML edition(2007)之前,对语料库进行了轻微修改。自该项目完成以来,已经分别发布了两个包含BNC材料的子语料库:BNC Sampler(100万个书面单词,100万个口语单词的集合)和BNC Baby(来自四个不同流派的4个100万单词样本)。

BNC是什么样的语料库?

单语:它涉及现代英国英语,而不是英国使用的其他语言。然而,语料库中确实出现了非英语和外语单词。
同步:它涵盖了二十世纪末的英国英语,而不是产生它的历史发展。
概述:它包括许多不同的风格和种类,不限于任何特定的学科领域、流派或语域。特别是,它包含口语和书面语的例子。
样本:对于书面来源,从单个作者文本的各个部分抽取了45000个单词的样本。最短的文本(最多45000字)或多作者文本(如杂志和报纸)均包含在内。抽样允许在1亿范围内对文本进行更广泛的覆盖,并避免过度表示特殊文本。

bnc
bnc

链接

BNC语料库:http://www.natcorp.ox.ac.uk/

本文链接:https://www.txeet.com/bnc.html