当前位置:网站首页 > 技术博客 > 正文

python里jieba库怎么用



库是一款优秀的 Python 第三方中文分词库, 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

一、库的安装

因为 是一个第三方库,所有需要我们在本地进行安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 进行安装,安装完成后会提示安装成功
这里写图片描述
在 pyCharm 中安装:打开 ,搜索 ,在右边的窗口选择 号,点击后在搜索框搜索 ,点击安装即可

二、三种模式的使用

分词效果:
这里写图片描述

三、 分词简单应用

需求:使用 分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例

统计结果:
这里写图片描述
你可以随便找一个文本文档,也可以到 https://github.com/coderjas/python-quick 下载上面例子中的文档。

四、扩展:英文单词统计

上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上

统计结果:
这里写图片描述

版权声明


相关文章:

  • yml格式怎么打开2024-11-17 23:00:59
  • uvm实战2024-11-17 23:00:59
  • textview文字大小2024-11-17 23:00:59
  • phython入门2024-11-17 23:00:59
  • 文件描述符号2024-11-17 23:00:59
  • vb二级证书有用吗2024-11-17 23:00:59
  • pwn rop入门2024-11-17 23:00:59
  • python创建虚拟环境venv2024-11-17 23:00:59
  • linux发行版本有哪些?2024-11-17 23:00:59
  • c中clr是什么意思2024-11-17 23:00:59