几十年前,科学家们只能梦想实现语言研究的自动化。这项工作是手工完成的,大量的学生参与其中,出现“注意力不集中”错误的可能性很大,而且最重要的是,这一切都花了很多很多时间。
随着计算机技术的发展,可以更快地进行研究,今天语言研究中最有前途的领域之一就是语料库语言学。它的主要特点是使用大量的文本信息,合并到一个单一的数据库中,以一种特殊的方式进行标记,称为语料库。
今天,基于不同的语言材料,为不同的目的创建了许多语料库,涵盖了从数百万到数百亿的词汇单元。这一方向被认为是有希望的,并在实现应用和研究目标方面取得了重大进展。专业人士,以一种或另一种方式处理自然语言,建议你至少熟悉一下文本语料库。
语料库语言学史
这个方向的形成与上世纪60年代初美国布朗军团的创立有关。文本的集合只有 100 万个单词形式,今天这样一卷的语料库完全没有竞争力。这很大程度上是由于计算机技术的发展步伐,以及对新研究资源的需求不断增长。
90年代,语料库语言学形成一门成熟、独立的学科,对几十种语言的文献集进行了编纂和标注。例如,在此期间,为 1 亿字的使用量创建了英国国家语料库。

随着语言学这个方向的发展,文本量变大(达到数十亿词汇单位),标记也越来越多样化。今天,在互联网空间,你可以找到书面和口头语料库,多语言和教育,专注于小说或学术文学,以及许多其他品种。
有哪些案例
语料库语言学中的语料库类型可以用多种方式表示。可以直观地看出,分类的基础可以是文本的语言(俄语、德语)、访问方式(开源、闭源、商业)、源材料的类型(小说)文学、纪实、学术、新闻)。

以一种有趣的方式进行了代表口语的材料的生成。由于刻意录制这样的言论会给被调查者创造人为条件,而由此产生的材料不能称为“自发的”,现代语料库语言学则反其道而行之。志愿者配备了麦克风,白天他参与的所有对话都会被记录下来。周围的人当然不知道在日常谈话中他们正在为科学的发展做出贡献。
之后,将接收到的录音存储在数据库中,并附有像成绩单一样的打印文本。这样,创建日常口语语料库所需的标记成为可能。
应用
可以使用语言的地方,也可以使用文本语料库。在语言学中使用语料库方法的目的可以是:
- 创建广泛用于政治和商业的情绪程序,分别跟踪选民和客户的正面和负面反馈。
- 将信息系统连接到词典和翻译人员以提高他们的性能。
- 各种有助于理解语言结构、发展历史和预测近期变化的研究任务。
- 开发基于形态学的信息抽取系统,句法、语义等特征。
- 各种语言系统的工作优化等
使用贝壳
资源界面类似于典型的搜索引擎,提示用户输入一些单词或单词组合来搜索信息库。除了准确的申请表外,您还可以使用扩展版,它允许您按照几乎任何语言标准查找文本信息。

搜索的依据可以是:
- 属于某组词性;
- 语法特征;
- 语义;
- 风格和情感色彩。
此外,您可以结合搜索条件来搜索单词序列:例如,查找所有出现在现在时、第一人称、单数、后接介词“in”和宾格中的名词的动词.解决这样一个简单的任务需要用户几秒钟,并且只需要在给定的字段中点击几下鼠标。
创建过程
搜索本身既可以在所有子语料库中进行,也可以在一个子语料库中进行,具体选择,取决于实现特定目标时的需要:
- 首先,确定哪些文本将构成语料库的基础。出于实际目的,经常使用新闻、报纸材料、互联网评论。在研究项目中,最各种类型的语料库,但必须在一些共同的基础上选择文本。
- 对文本结果集进行预处理,纠正错误,如果有,则准备文本的书目和语言外描述。
- 过滤掉所有非文字信息:图形、图片、表格被删除。
- 令牌,通常是单词,被分配用于进一步处理。
- 最后对结果元素集进行形态、句法等标记。
所有执行操作的结果是一个句法结构,其中分布着一组元素,每个元素都定义了词性、语法,在某些情况下,还定义了语义特征。
创案难点
重要的是要了解,要获得语料库,仅仅将很多单词或句子放在一起是不够的。一方面,文本的集合必须是平衡的,即以一定的比例呈现不同类型的文本。另一方面,案件的内容必须以特殊方式标记。

第一个问题通过协议解决:例如,馆藏包括60%的小说文本,20%的纪录片,一定比例的口头演讲、立法行为、科学论文等的书面呈现. 当今不存在平衡语料库的理想配方。
关于内容标记的第二个问题更难解决。有用于自动标记文本的特殊程序和算法,但它们不能给出 100% 的结果,可能会导致失败并需要手动改进。 V. P. Zakharov 关于语料库语言学的工作中详细描述了解决这个问题的机会和问题。
文本标记在几个层次上进行,我们将在下面列出。
形态标记
从学校的长椅上,我们记得俄语中有不同的词类,每个词类都有自己的特点。例如,动词具有名词所没有的语气和时态类别。以母语为母语的人会毫不犹豫地拒绝名词和动词变位,但体力劳动不适合标记一亿单词用法的语料库。所有必要的操作都可以通过电脑来完成,但是,这需要教它。
形态标记对于计算机将每个单词“理解”为具有某些语法特征的某些词性是必要的。由于许多常规规则在俄语(与任何其他语言中一样)中起作用,因此可以通过将许多算法放入机器中来构建用于形态分析的自动程序。但是,该规则也有例外,以及各种复杂因素。因此,今天的纯计算机分析远非理想,即使是 4% 的错误,在 1 亿个单位的语料库中也给出了 400 万个单词的值,需要人工细化。
这个问题在V. P. Zakharov的《语料库语言学》一书中有详细描述。
句法标记
句法分析或解析是确定句子中单词关系的过程。在一组算法的帮助下,可以确定文本中的主语、谓语、加法和各种语调。通过找出序列中的哪些词是主要的,哪些是从属的,我们可以有效地从文本中提取信息并训练机器只返回我们感兴趣的信息来响应搜索请求。

顺便说一句,现代搜索引擎使用它来给出具体数字而不是冗长的文本来响应相关查询,例如:“一个苹果中有多少卡路里”或“从莫斯科到圣彼得堡的距离”。但是,要了解所描述过程的基础知识,您需要熟悉“语料库语言学概论”或其他基础教科书。
语义标记
一个词的语义,简单来说就是它的意义。语义分析中一种广泛适用的方法是将标签归因于一个词,反映它属于一组语义类别和子类别。这些信息对于优化文本情感分析算法、自动引用以及使用语料库语言学方法执行其他任务很有价值。
树有很多“根”,它们是抽象的词,有非常广泛的语义。随着这棵树的分支,形成的节点包含越来越多的特定词汇元素。例如,“生物”一词可以与“人类”和“动物”等概念相关联。第一个词将继续分支到各种职业,亲属关系,国籍,第二个 - 进入动物的类别和类型。
使用信息检索系统
语料库语言学的使用领域涵盖了广泛的活动领域。语料库用于编译和更正词典、创建自动翻译系统、总结、提取事实、确定情绪和其他文本处理。

此外,这些资源被积极用于研究世界语言和语言整体运作的机制。获取大量预先准备好的信息,有助于快速全面地研究语言的发展趋势、新词的形成和稳定的语转、词汇单位意义的变化等。
因为处理如此大量的数据需要自动化,今天计算机和语料库语言学之间存在密切的互动。
国家俄语语料库
这个语料库(缩写为NKRC)包括许多允许使用该资源解决各种任务的子语料库。
NCRA数据库中的材料分为:
- 关于 90 年代和 2000 年代媒体的出版物年,国内外;
- 口语录音;
- 重音标记的文本(即带有重音符号);
- 方言演说;
- 诗意作品;
- 带有句法标记等的材料
信息系统还包括将作品从俄语平行翻译成英语、德语、法语和许多其他语言(反之亦然)的子语料库。
此外,该数据库还有一段历史文本,代表其发展各个时期的俄语书面演讲。还有一个培训语料库,可以帮助外国公民掌握俄语。
俄语国家语料库包括4亿个词汇单元,在许多方面领先于欧洲语言语料库的很大一部分。
前景
在俄罗斯大学和外国大学中都存在语料库语言学实验室,这一事实证明了这一领域的前景。在所考虑的信息检索资源的框架内使用和研究,与高科技领域的一些领域的发展、问答系统相关联,但这在上面已经讨论过了。

语料库语言学的进一步发展预计在各个层面,从技术上,在引入优化搜索和处理信息过程的新算法,扩展计算机的能力,增加操作随着用户在日常生活和工作中找到越来越多的方式使用此类资源,记忆,并以家庭记忆结束。
总结
在上世纪中叶,2017年似乎是一个遥远的未来,宇宙飞船在浩瀚的宇宙中冲浪,机器人为人们做所有的工作。然而,实际上,科学充满了“空白”,并且正在拼命尝试回答困扰人类几个世纪的问题。语言功能的问题在这里占据重要位置,语料库和计算语言学可以帮助我们回答这些问题。
处理大量数据可以让您检测以前无法访问的模式,预测某些语言特征的发展,几乎实时跟踪单词的形成。
在实际的全球层面上,例如,可以考虑将语料库作为评估公众情绪的潜在工具 - 互联网是由真实用户创建的各种文本的不断更新数据库:这些是评论、评论、文章, 和许多其他形式的演讲。
此外,与语料库合作有助于开发与信息检索相关的相同技术手段,我们熟悉的谷歌或Yandex服务、机器翻译、电子词典。
可以肯定地说,语料库语言学才刚刚起步,在不久的将来会迅速发展。