当前位置:网站首页 > 技术博客 > 正文

python里jieba库怎么用



库是一款优秀的 Python 第三方中文分词库, 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

一、库的安装

因为 是一个第三方库,所有需要我们在本地进行安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 进行安装,安装完成后会提示安装成功
这里写图片描述
在 pyCharm 中安装:打开 ,搜索 ,在右边的窗口选择 号,点击后在搜索框搜索 ,点击安装即可

二、三种模式的使用

分词效果:
这里写图片描述

三、 分词简单应用

需求:使用 分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例

统计结果:
这里写图片描述
你可以随便找一个文本文档,也可以到 https://github.com/coderjas/python-quick 下载上面例子中的文档。

四、扩展:英文单词统计

上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上

统计结果:
这里写图片描述

  • 上一篇: 地理空间数据索引
  • 下一篇: pwn rop入门
  • 版权声明


    相关文章:

  • 地理空间数据索引2024-11-17 23:00:59
  • boot u启动2024-11-17 23:00:59
  • linux 执行多个命令2024-11-17 23:00:59
  • redis教程常用命令2024-11-17 23:00:59
  • win10突然什么软件都打不开2024-11-17 23:00:59
  • pwn rop入门2024-11-17 23:00:59
  • 分词器有哪些2024-11-17 23:00:59
  • 虚拟机安装软件2024-11-17 23:00:59
  • 电脑阅读软件哪个好用2024-11-17 23:00:59
  • rapid recompile2024-11-17 23:00:59