库是一款优秀的 Python 第三方中文分词库, 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析
全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据
搜索引擎模式:在精确模式的基础上,对长词再次进行切分
一、库的安装
因为 是一个第三方库,所有需要我们在本地进行安装。
Windows 下使用命令安装:在联网状态下,在命令行下输入 进行安装,安装完成后会提示安装成功
在 pyCharm 中安装:打开 ,搜索 ,在右边的窗口选择 号,点击后在搜索框搜索 ,点击安装即可
二、三种模式的使用
分词效果:
三、 分词简单应用
需求:使用 分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例
统计结果:
你可以随便找一个文本文档,也可以到 https://github.com/coderjas/python-quick 下载上面例子中的文档。
四、扩展:英文单词统计
上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上
统计结果:
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/11565.html