未分类 · 2023年12月13日

全文语料库处理思路

一旦您在您的计算机上拥有全文数据,数据的可能用途是无穷无尽的。以下只是几个想法:

 创建您自己的frequency lists(频率列表) — 在整个语料库中, 特定体裁(COCA,例如小说)、方言(GloWbE,例如澳大利亚)、 时间段(COHA,例如 1950 年代至 1960 年代)、主题(维基百科,例如分子生物学)、网站/日期(现在,例如 2016 年 9月至 10月的华尔街日报), 非常非正式的语言(电视、电影或 SOAP 语料库)或特定的子类型(COCA,例如报纸-财经)。

 查找collocates(搭配)– 一个特定的词附近最常见的单词是什么,这为我们了解这个词的含义和用法提供了深刻的见解。。

 创建你自己的n-gram 列表 — 涉及你想要的任何词的最常见的字符串是什么。

 生成您自己的相关行(concordance lines) — 对于任何单词列表的数千或数万行数据 — 没有使用 English-Corpora.org 语料库的 Web 界面施加的限制。

 如果你是一个计算语言学家,你可以做所有的事情 只能使用全文数据 — 情绪分析、主题 建模, 命名实体 识别、高级正则表达式搜索、创建树库等。

请注意,“预打包”的基于COCA的频率列表、collocatesn-gram都可用(参见样本),特别适合那些不想自己提取数据的用户。但是有了全文数据, 您可以更好地控制这些数据。

 请记住,在查询中,您可以按词形、引理(例如 walk = walks、walked、walking)或词性进行搜索, 或这些的任意组合。这可能非常有用,例如,对于句法结构的高级工作。

 您可以将语料库的一个部分与另一个部分进行比较 — 例如,对于在 Magazine-Financial 中出现的比普通杂志多的单词(COCA),在英国比美国更常见的形容词(GloWbE) ,或者 1800 年代和1900 年代一个词的搭配和(COHA)。(其中一些数据已经以“预打包”的形式提供,但您将对数据有更多的控制权。

使用词典和源文件:

 您可以访问一个文件,该文件列出了语料库中的所有来源(以及相关的元数据)。你可以使用这些数据来创建你自己的“子语料库” — 来自某一特定年份、某一来源或任何你想要的其他标准的文本。

 因为您可以访问语料库中所有单词形式的词典(每个语料库有数百万个条目),所以您可以为任何单词添加任何想要的特征 — 发音、含义等 — 然后将其用作搜索的一部分。

基本上,你可以用在线语料库做的任何事情,你都可以用这些数据做,甚至更多。但是因为数据在你自己的电脑上,你每天可以做多少次查询是没有限制的;你不必担心成百上千的其他人同时使用你的语料库;你甚至可以让程序通宵运行,以复杂的方式搜索数亿(或数十亿)单词。可能性是无限的。