搜索引擎中文分词技术介绍及说明

算法讲解 2021-03-02 23:13:55

中文分词是搜索引擎用的比较多的一种算法,其中百度运用较为成熟,使用中文分词技术,能将中文词语,句子进行更好的切割,并揣摩用户搜索意图,从而匹配出更符合用户搜索的结果出来,让用户能够更加精准的搜索出要让的答案,提升了很高的用户体验。那么中分分词具体是怎么运作的,我们一起来了解一下吧。

搜索引擎中文分词技术介绍及说明

中文分词技术并不简单,深层次的逻辑还是很高深的,小编也不懂,这里只能给大家简单科普一下原理。

分词算法可以分为三个大类

1、基于字典、词库,字符串匹配进行的分词方法。

2、基于词频度统计的分词方法。

3、基于文字标注的分词方法。

基于字典、字符串的匹配方式又叫做机械性的分词方法,按照一定的策略将用户搜索的词汇与一个很大的字典里的词条进行匹配,如果在字典中找到这个词条,则匹配出了一个词,也就是搜索引擎识别到了,以此类推从而将某个词汇或短语匹配完成,最后输出搜索结果。

字典匹配方法有几种方式:正向最大匹配方法(由左往右进行匹配),逆向最大匹配法(由右到左的方向),最少切分(使每一句中切出的词数最小),双向最大匹配法(进行由左到右、由右到左两次扫描)。这几种算法互相配合,从而使算法的匹配度更高,更精准。

如:我到重庆看风景,你去查看字典,你会得到所有可能的分词结果,例如“我/到/重庆/看/风景”,“我/到/重庆/看风景”等等。

基于词频统计的分词方法则是基于字和词的统计信息,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

搜索引擎这些语句中相邻出现的词汇组合的频度进行统计,计算出互现信息,并进行定义,计算出一个阈值,以此在下次出现时以的阈值来进行匹配,能更快更高效的匹配出相应的信息,但识别的精准度有些差,在实际应用中可能会与上面的字典匹配进行结合使用,效果会更高更精准。

基于文字标注的方法其实就是让计算机记住对这些搜索的词汇和句子的理解,让后来进行匹配和识别,不过这种方法需要手机大量的语法信息和语句组合信息,需要庞大的数据库来进行创建,并且如何在这庞大的数据中用机器直接读取和筛查出来,还是有一定难度的,目前来看还未成熟。

以上就是对于“搜索引擎中文分词技术”的简单介绍,希望对大家有一定的启发,我是熊熊SEO,干货持续更新中,敬请关注。

版权声明

本文系熊熊SEO发表,转载必须留链接,否则必究

分享:

扫一扫在手机阅读、分享本文