博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Elasticsearch之中文分词器
阅读量:5134 次
发布时间:2019-06-13

本文共 263 字,大约阅读时间需要 1 分钟。

 

前提

 

 

 

 

 

 

Elasticsearch的中文分词器

  1、单字分词

    如:“我们是中国人”

    效果:“我”“们”“是”“中”“国”“人”

  2、二分法分词:按两个字进行切分。

    如:“我们是中国人”,效果:“我们”、“们是”、“是中”、“中国”、“国人”。

  3、词库分词:按某种算法构造词,然后去匹配已建好的词库集合,如果匹配到就切分出来成为词语。通常词库分词被认为是最理想的中文分词算法。

 

 

 

 

 

 

 

  后续博客

转载于:https://www.cnblogs.com/zlslch/p/6440225.html

你可能感兴趣的文章
字符串处理
查看>>
HtmlUnitDriver 网页内容动态抓取
查看>>
ad logon hour
查看>>
罗马数字与阿拉伯数字转换
查看>>
Eclipse 反编译之 JadClipse
查看>>
距离公式汇总以及Python实现
查看>>
Linux内核态、用户态简介与IntelCPU特权级别--Ring0-3
查看>>
第23月第24天 git命令 .git-credentials git rm --cached git stash clear
查看>>
java SE :标准输入/输出
查看>>
[ JAVA编程 ] double类型计算精度丢失问题及解决方法
查看>>
好玩的-记最近玩的几个经典ipad ios游戏
查看>>
PyQt5--EventSender
查看>>
Sql Server 中由数字转换为指定长度的字符串
查看>>
tmux的简单快捷键
查看>>
[Swift]LeetCode922.按奇偶排序数组 II | Sort Array By Parity II
查看>>
php match_model的简单使用
查看>>
SIP服务器性能测试工具SIPp使用指导(转)
查看>>
Vue_(组件通讯)子组件向父组件传值
查看>>
STM32单片机使用注意事项
查看>>
032. asp.netWeb用户控件之一初识用户控件并为其自定义属性
查看>>