分词是把全文本拆分成一系列单词的过程。
分词器是用来实现分词的,分词器由三部分组成:字符过滤器、分词器和Token过滤器,字符过滤器:对原始文本进行过滤;分词器:按照一定规则进行分词;Token过滤器:对分词进行处理,转小写,移除停用词,添加同义词。
ES内置了多种分词器,standard分词器是默认分词器,按词拆分、小写;simple分词器:按非字母拆分,小写,过滤非字母;wihtespace分词器:按空格分词。IK分词器是推荐较多的中文分词器,支持粗力度和细粒度分词,需要安装插件使用。
1 默认分词器 按词拆分 小写处理
get _analyze
{
"analyzer":"standard",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
2 按非字母拆分 小写处理 非字母被过滤
get _analyze
{
"analyzer":"simple",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
3 simple分词器基础上 停用词被过滤(the a is)
get _analyze
{
"analyzer":"stop",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
4 空格切分 不转小写
get _analyze
{
"analyzer":"whitespace",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
5 不分词 直接将输入当做输出
get _analyze
{
"analyzer":"keyword",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
6 正则表达式 默认W+(非字符符号分割)
get _analyze
{
"analyzer":"pattern",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
7 30多种常见语言的分词器
get _analyze
{
"analyzer":"english",
"text":"2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}
8 icu中文分词器(需安装插件)
get _analyze
{
"analyzer":"icu_analyzer",
"text":"他说的确实在理"
}
9 ik分词器 粗粒度分词(需安装插件)
get _analyze
{
"analyzer":"ik_smart",
"text":"他说的确实在理"
}
10 ik分词器 细粒度分词(需安装插件)
get _analyze
{
"analyzer":"ik_max_word",
"text":"他说的确实在理"
}
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/12160.html