分类记单词的app - 穆世明博客

分词是把全文本拆分成一系列单词的过程。

分词器是用来实现分词的，分词器由三部分组成：字符过滤器、分词器和Token过滤器，字符过滤器：对原始文本进行过滤；分词器：按照一定规则进行分词；Token过滤器：对分词进行处理，转小写，移除停用词，添加同义词。

ES内置了多种分词器，standard分词器是默认分词器，按词拆分、小写；simple分词器:按非字母拆分，小写，过滤非字母；wihtespace分词器：按空格分词。IK分词器是推荐较多的中文分词器，支持粗力度和细粒度分词，需要安装插件使用。

1 默认分词器按词拆分小写处理
get _analyze
{
"analyzer":"standard",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

2 按非字母拆分小写处理非字母被过滤
get _analyze
{
"analyzer":"simple",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

3 simple分词器基础上停用词被过滤（the a is）
get _analyze
{
"analyzer":"stop",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

4 空格切分不转小写
get _analyze
{
"analyzer":"whitespace",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

5 不分词直接将输入当做输出
get _analyze
{
"analyzer":"keyword",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

6 正则表达式默认W+(非字符符号分割)
get _analyze
{
"analyzer":"pattern",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

7 30多种常见语言的分词器
get _analyze
{
"analyzer":"english",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

8 icu中文分词器(需安装插件)
get _analyze
{
"analyzer":"icu_analyzer",
"text":"他说的确实在理"
}

9 ik分词器粗粒度分词（需安装插件）
get _analyze
{
"analyzer":"ik_smart",
"text":"他说的确实在理"
}

10 ik分词器细粒度分词（需安装插件）
get _analyze
{
"analyzer":"ik_max_word",
"text":"他说的确实在理"
}

上一篇： webhook使用

下一篇：怎么将class文件反编译成Java文件

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/12160.html

相关文章：