首页 > 建站教程 > Python教程 >  Python - Corpora Access正文

Python - Corpora Access

Corpora是一个展示多个文本文档集合的组。单个集合称为语料库。其中一个着名的语料库是古腾堡语料库,其中包含大约25,000本免费电子书,网址是: http://www.gutenberg.org/ 。在下面的例子中,我们只访问语料库中那些文件的名称,这些文件是纯文本,文件名以.txt结尾。

from nltk.corpus import gutenberg
fields = gutenberg.fileids()

print(fields)