自然语言处理之语料库资源
文章目录
巧妇难为无米之炊
语料库
语料库(corpus)一词在语言学上意指大量的文本,是在语言的实际使用中真实出现过的语言材料,通常经过整理,具有既定格式与标记
事实上,语料库英文 “text corpus” 的涵意即为 “body of text”。
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
本文主要关注中文语料库(顺便一提英文语料库)
英文语料库
NLTK的nltk_data囊括数个在 NLP 研究圈里广泛使用的实用语料库,针对英文的自然语言处理,已经成果显著,资源也易于获取,这里列出一些不错的语料库,我们更多的精力放在中文语料库上
先列出NLTK里的语料库:
- 布朗语料库(Brown Corpus):第一个可以在计算语言学处理中使用的通用英语语料库。它包含了一百万字 1961 年出版的美语文本。它代表了通用英语的样本,采样自小说,新闻和宗教文本。随后,在大量的人工标注后,诞生了词性标注过的版本。
- 古登堡语料库(Gutenberg Corpus):古登堡计划(Gutenberg Project)致力于将文化作品的数字化和归档,并鼓励创作和发行电子书。古登堡语料库选择了 14 个文本,整个语料库包含了一百七十万字v
- Stopwords Corpus:NLTK 所收集的停用词语料库(Stopwords Corpus)包含了 来自 11 种不同语言(包括英语)的 2400 个停用词
其他的著名语料库
中文语料库
-
分词库(语料):包含非常多的各行业词汇
-
国家语委现代汉语语料库 :现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料 古代汉语语料库:提供了分词、词性标注软件、词频统计、字频统计软件
-
台湾中央研究院:有丰富的语料库
github的一些资源
- weixin_public_corpus 微信公众号语料库,目前数据大约3G
- CEC-Corpus:中文突发事件语料库
- chinese-corpus 中文相关词典和语料库
搜狗实验室
- 互联网词库(SogouW):搜狗实验室
其他
- google-10000-english:list of the 10,000 most common English words in order of frequency, as determined by n-gram frequency analysis of the Google’s Trillion Word Corpus
- corpora:A collection of small corpuses of interesting data for the creation of bots and similar stuff.
- pattern 从互联网获取语料
参考
文章作者 种瓜
上次更新 2016-08-13