在文本处理期间经常需要计算文本主体中单词出现的频率。这可以通过应用 word_tokenize() 函数并将结果附加到列表以保持单词的计数来实现,如下面的程序所示。
from nltk.tokenize import word_tokenize
from nltk.corpus import gutenberg
sample = gutenberg.raw("blake-poems.txt")
token = word_tokenize(sample)
wlist = []
for i in range(50):
wlist.append(token[i])
wordfreq = [wlist.count(w) for w in wlist]
print("Pairs\n" + str(zip(token, wordfreq)))
部分素材资源来源网站,本站提供免费下载,如有侵权请联系站长马上删除!