当前位置:网站首页 > 技术博客 > 正文

分类记单词的app



分词是把全文本拆分成一系列单词的过程。

分词器是用来实现分词的,分词器由三部分组成:字符过滤器、分词器和Token过滤器,字符过滤器:对原始文本进行过滤;分词器:按照一定规则进行分词;Token过滤器:对分词进行处理,转小写,移除停用词,添加同义词。

ES内置了多种分词器,standard分词器是默认分词器,按词拆分、小写;simple分词器:按非字母拆分,小写,过滤非字母;wihtespace分词器:按空格分词。IK分词器是推荐较多的中文分词器,支持粗力度和细粒度分词,需要安装插件使用。

 

1 默认分词器 按词拆分 小写处理
get _analyze
{
  "analyzer":"standard",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

 

2 按非字母拆分 小写处理 非字母被过滤
get _analyze
{
  "analyzer":"simple",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

3 simple分词器基础上 停用词被过滤(the a is)
get _analyze
{
  "analyzer":"stop",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

 

4 空格切分 不转小写
get _analyze
{
  "analyzer":"whitespace",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

5 不分词 直接将输入当做输出
get _analyze
{
  "analyzer":"keyword",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

6 正则表达式 默认W+(非字符符号分割)
get _analyze
{
  "analyzer":"pattern",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

7 30多种常见语言的分词器
get _analyze
{
  "analyzer":"english",
  "text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

 

8 icu中文分词器(需安装插件)
get _analyze
{
  "analyzer":"icu_analyzer",
  "text":"他说的确实在理"
}

 

 

9 ik分词器  粗粒度分词(需安装插件)
get _analyze
{
  "analyzer":"ik_smart",
  "text":"他说的确实在理"
}

 

 

10 ik分词器  细粒度分词(需安装插件)
get _analyze
{
  "analyzer":"ik_max_word",
  "text":"他说的确实在理"
}

 

 

版权声明


相关文章:

  • webhook使用2025-01-06 14:01:03
  • 在线客服系统源码2025-01-06 14:01:03
  • halcon霍夫变换2025-01-06 14:01:03
  • 代码对比工具使用2025-01-06 14:01:03
  • java匿名内部类详解2025-01-06 14:01:03
  • 怎么将class文件反编译成Java文件2025-01-06 14:01:03
  • 归并排序 菜鸟教程2025-01-06 14:01:03
  • linuxphp环境搭建2025-01-06 14:01:03
  • srtedit官网2025-01-06 14:01:03
  • 一些有趣的代码2025-01-06 14:01:03