我爱模板网 > 建站教程 > Python教程 >  Python - 词干算法正文

Python - 词干算法

在自然语言处理领域,我们遇到两个或多个单词具有共同根的情况。例如,三个词 - 同意,同意和同意具有相同的词根同意。涉及任何这些词的搜索应将它们视为同一个词,即根词。因此,将所有单词链接到根词中变得至关重要。NLTK库具有执行此链接的方法,并提供显示根词的输出。

nltk中有三种最常用的词干算法。它们的结果略有不同。以下示例显示了所有三种词干算法及其结果的使用。

import nltk
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem import SnowballStemmer

porter_stemmer = PorterStemmer()
lanca_stemmer = LancasterStemmer()
sb_stemmer = SnowballStemmer("english",)

word_data = "Aging head of famous crime family decides to transfer his position to one of his subalterns"
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)
#Next find the roots of the word
print '***PorterStemmer****\n'
for w_port in nltk_tokens:
   print "Actual: %s  || Stem: %s"  % (w_port,porter_stemmer.stem(w_port))

print '\n***LancasterStemmer****\n'    
for w_lanca in nltk_tokens:
      print "Actual: %s  || Stem: %s"  % (w_lanca,lanca_stemmer.stem(w_lanca))
print '\n***SnowballStemmer****\n'

for w_snow in nltk_tokens:
      print "Actual: %s  || Stem: %s"  % (w_snow,sb_stemmer.stem(w_snow))


部分素材资源来源网站,本站提供免费下载,如有侵权请联系站长马上删除!
上一篇:Python - 约束搜索 下一篇:Python - 文本摘要
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
选择头像:
最新评论

猜你喜欢