全文语料库处理思路

一旦您在您的计算机上拥有全文数据，数据的可能用途是无穷无尽的。以下只是几个想法：

 创建您自己的frequency lists（频率列表） — 在整个语料库中，特定体裁（COCA，例如小说）、方言（GloWbE，例如澳大利亚）、时间段（COHA，例如 1950 年代至 1960 年代）、主题（维基百科，例如分子生物学）、网站/日期（现在，例如 2016 年 9月至 10月的华尔街日报），非常非正式的语言（电视、电影或 SOAP 语料库）或特定的子类型（COCA，例如报纸-财经）。

 查找collocates（搭配）– 一个特定的词附近最常见的单词是什么，这为我们了解这个词的含义和用法提供了深刻的见解。。

 创建你自己的n-gram 列表 — 涉及你想要的任何词的最常见的字符串是什么。

 生成您自己的相关行（concordance lines） — 对于任何单词列表的数千或数万行数据 — 没有使用 English-Corpora.org 语料库的 Web 界面施加的限制。

 如果你是一个计算语言学家，你可以做所有的事情只能使用全文数据 — 情绪分析、主题建模，命名实体识别、高级正则表达式搜索、创建树库等。

请注意，“预打包”的基于COCA的频率列表、collocates和n-gram都可用（参见样本），特别适合那些不想自己提取数据的用户。但是有了全文数据，您可以更好地控制这些数据。

 请记住，在查询中，您可以按词形、引理（例如 walk = walks、walked、walking）或词性进行搜索，或这些的任意组合。这可能非常有用，例如，对于句法结构的高级工作。

 您可以将语料库的一个部分与另一个部分进行比较 — 例如，对于在 Magazine-Financial 中出现的比普通杂志多的单词（COCA），在英国比美国更常见的形容词（GloWbE），或者 1800 年代和1900 年代一个词的搭配和（COHA）。（其中一些数据已经以“预打包”的形式提供，但您将对数据有更多的控制权。

使用词典和源文件：

 您可以访问一个文件，该文件列出了语料库中的所有来源(以及相关的元数据)。你可以使用这些数据来创建你自己的“子语料库” — 来自某一特定年份、某一来源或任何你想要的其他标准的文本。

 因为您可以访问语料库中所有单词形式的词典(每个语料库有数百万个条目)，所以您可以为任何单词添加任何想要的特征 — 发音、含义等 — 然后将其用作搜索的一部分。

基本上，你可以用在线语料库做的任何事情，你都可以用这些数据做，甚至更多。但是因为数据在你自己的电脑上，你每天可以做多少次查询是没有限制的；你不必担心成百上千的其他人同时使用你的语料库；你甚至可以让程序通宵运行，以复杂的方式搜索数亿(或数十亿)单词。可能性是无限的。

近期文章

归档

分类

未分类 · 2023年12月13日

您可能还喜欢...

未分类 · 2023年12月13日

您可能还喜欢...

在Pyomo下安装和使用Baron

SAS 9.4 Duncan’s Multiple Range Test Grouping（Duncan分组）

Microsoft Visual C++ Redistributable 最新支持的下载