我爱模板网 > 建站教程 > Python教程 >  Python - 标记化正文

Python - 标记化

在Python中,标记化基本上是指将更大的文本体分成更小的行,单词甚至为非英语语言创建单词。各种标记化功能内置于nltk模块本身,可以在程序中使用,如下所示。

线标记化

在下面的示例中,我们使用函数sent_tokenize将给定文本划分为不同的行。

import nltk
sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)


部分素材资源来源网站,本站提供免费下载,如有侵权请联系站长马上删除!
上一篇:Python - 删除停用词 下一篇:Python - 资本化和翻译
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
选择头像:
最新评论

猜你喜欢