我爱模板网 > 建站教程 > Python教程 >  Python - 频率分布正文

Python - 频率分布

在文本处理期间经常需要计算文本主体中单词出现的频率。这可以通过应用 word_tokenize() 函数并将结果附加到列表以保持单词的计数来实现,如下面的程序所示。

from nltk.tokenize import word_tokenize
from nltk.corpus import gutenberg

sample = gutenberg.raw("blake-poems.txt")

token = word_tokenize(sample)
wlist = []

for i in range(50):
    wlist.append(token[i])

wordfreq = [wlist.count(w) for w in wlist]
print("Pairs\n" + str(zip(token, wordfreq)))


部分素材资源来源网站,本站提供免费下载,如有侵权请联系站长马上删除!
上一篇:Python - 文本摘要 下一篇:Python - 文本包装
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
选择头像:
最新评论

猜你喜欢