首页 > 建站教程 > Python教程 >  Python - 频率分布正文

Python - 频率分布

在文本处理期间经常需要计算文本主体中单词出现的频率。这可以通过应用 word_tokenize() 函数并将结果附加到列表以保持单词的计数来实现,如下面的程序所示。

from nltk.tokenize import word_tokenize
from nltk.corpus import gutenberg

sample = gutenberg.raw("blake-poems.txt")

token = word_tokenize(sample)
wlist = []

for i in range(50):
    wlist.append(token[i])

wordfreq = [wlist.count(w) for w in wlist]
print("Pairs\n" + str(zip(token, wordfreq)))