免费域名怎么做网站我想做代理商
news/
2025/10/7 1:02:38/
文章来源:
免费域名怎么做网站,我想做代理商,幻灯片插件wordpress,wordpress如何控制内容图片大小SnowNLP: 一个简单的中文文本处理库
SnowNLP是一个python写的类库#xff0c;可以方便的处理中文文本内容#xff0c;是受到了TextBlob的启发而写的#xff0c;由于现在大部分的自然语言处理库基本都是针对英文的#xff0c;于是写了一个方便处理中文的类库#xff0c;并且…SnowNLP: 一个简单的中文文本处理库
SnowNLP是一个python写的类库可以方便的处理中文文本内容是受到了TextBlob的启发而写的由于现在大部分的自然语言处理库基本都是针对英文的于是写了一个方便处理中文的类库并且和TextBlob不同的是这里没有用NLTK所有的算法都是自己实现的并且自带了一些训练好的字典。注意本程序都是处理的unicode编码所以使用时请自行decode成unicode。
from snownlp import SnowNLP
s SnowNLP(u这个东西真心很赞)
s.words # [u这个, u东西, u真心,
# u很, u赞]
s.tags # [(u这个, ur), (u东西, un),
# (u真心, ud), (u很, ud),
# (u赞, uVg)]
s.sentiments # 0.9769663402895832 positive的概率
s.pinyin # [uzhe, uge, udong, uxi,
# uzhen, uxin, uhen, uzan]
s SnowNLP(u「繁體字」「繁體中文」的叫法在臺灣亦很常見。)
s.han # u「繁体字」「繁体中文」的叫法
# 在台湾亦很常见。
text u
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此这一领域的研究将涉及自然语言即人们日常使用的语言
所以它与语言学的研究有着密切的联系但又有重要的区别。
自然语言处理并不是一般地研究自然语言
而在于研制能有效地实现自然语言通信的计算机系统
特别是其中的软件系统。因而它是计算机科学的一部分。s SnowNLP(text)
s.keywords(3) # [u语言, u自然, u计算机]
s.summary(3) # [u因而它是计算机科学的一部分,
# u自然语言处理是一门融语言学、计算机科学、
# 数学于一体的科学,
# u自然语言处理是计算机科学领域与人工智能
# 领域中的一个重要方向]
s.sentences
s SnowNLP([[u这篇, u文章],
[u那篇, u论文],
[u这个]])
s.tf
s.idf
s.sim([u文章])# [0.3756070762985226, 0, 0]
Features
词性标注TnT 3-gram 隐马
情感分析现在训练数据主要是买卖东西时的评价所以对其他的一些可能效果不是很好待解决
文本分类Naive Bayes
转换成拼音Trie树实现的最大匹配
繁体转简体Trie树实现的最大匹配
提取文本关键词TextRank算法
提取文本摘要TextRank算法
tfidf
Tokenization分割成句子
文本相似BM25
支持python3感谢erning
Get It now
$ pip install snownlp
关于训练
现在提供训练的包括分词词性标注情感分析而且都提供了我用来训练的原始文件 以分词为例 分词在snownlp/seg目录下
from snownlp import seg
seg.train(data.txt)
seg.save(seg.marshal)
# from snownlp import tag
# tag.train(199801.txt)
# tag.save(tag.marshal)
# from snownlp import sentiment
# sentiment.train(neg.txt, pos.txt)
# sentiment.save(sentiment.marshal)
这样训练好的文件就存储为seg.marshal了之后修改snownlp/seg/__init__.py里的data_path指向刚训练好的文件即可
原创文章转载请注明 python使用snownlp进行中文文本处理以及分词和情感分析 - pytorch中文网
原文出处 https://ptorch.com/news/202.html
问题交流群 168117787
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929868.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!