网设科技-深圳网站建设公司

NEWS新闻

最近正在折腾...
Recently is to do ...

SEO中文分词基本算法介绍

UPTATED:2019/11/16 | 分类:SEO搜索引擎算法
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
 
中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重 要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
 
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。一般常用的几种机械分词方法如下:
 
1)正向最大匹配法(由左到右的方向)
 
2)逆向最大匹配法(由右到左的方向)
 
3)最少切分(使每一句中切出的词数最小)
 
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
 
很多时候一个网站的流量更多的来源于长尾词流量,中文分词算法对SEO具有指导意义。可以通过中文分词的研究让我们获得更多的百度长 尾流量。
 
百度分词是根据内容中,第一次出现关键词相关词为标准来分的。例如“大连网站优化”这个词,如果你的正文中第一个出现的是“大连” 这个词,那么你的页面上的关键词就会被拆分成“大连”和“网站优化”两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。
 
在关键词没有完全匹配的情况下,如果有分词,比如说:“大连SEO”这个关键词,有一个网页里第一次出现的关键词是“大连”,并且有适当的关键词密度,但是这个网页中却没有“SEO”这个关键词,而另一个网页里第一次出现的关键词是“SEO”,那么这个网页的关键词就会被拆分成“大连”和“SEO” 两个词,虽然第二个网页里包含有“大连”和“SEO” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。关键词第一部分出现的频率是排名的关键,比如说“大连网站优化”,如果两个网页都没有完全匹配,都是含有两个分词,那么“大连”这个分词密度高的网页将会排在前面。如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。
 
百度根据第一次出现的相关关键词分切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:“大连姜文SEO ”这个关键词,如果你的网页中第一次出现的关键词是“大连”,那么你这个页面的关键词会被拆分成”大连” 和“姜文SEO”两个词。可以根据百度的分切词原理,自己来选择比较好做的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为分词切词,百度会进行从前往后判断,也会从后往前面切。
 
如果在关键词没有完全匹配的情况下,并且关键词出现得不完整,比如说:大连SEO这个词,网页的内容包含的关键词中如果没有“大连”这个词, 那么分切词就会从“SEO”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含。
 
缺词的情况下下,如果与不缺词的网页进行比较,那还是根据分切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例大是关键,例如一个网页中前部分与后部分关键词的比例是1:2。另外一个网页的比例是1:6。那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势。中文分词工具可以自行去百度搜索,这里就不详细说了。

SEO中文分词算法






本文内容框架:
1、基于词典的方法(字符串匹配,机械分词方法)
2基于统计的分词(无字典分词)
3基于规则的分词(基于语义)
4基于字标注的中文分词方法
5基于人工智能技术的中文分词方法
6中文分词的难点
7小结
 
 
基于词典的方法、基于统计的方法、基于规则的方法等
1、基于词典的方法(字符串匹配,机械分词方法)
定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
按照扫描方向的不同:正向匹配和逆向匹配
按照长度的不同:最大匹配和最小匹配

1.1正向最大匹配思想MM
1》从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
2》查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。
若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。


1.2邻近匹配算法
 
邻近匹配算法是正向最大匹配算法的改进,因为正向正向最大匹配算法对每个不存在的长字符串都要进行一次二分搜索,算法复杂度太高,可以利用同一个首字符下的词条按升序排列这一条件,在找到某个字符串后,在其后增加一个字得到一个新字串,如果新字串在词典中出现,那么新词一定在原字串的后面,且相隔位置不会太远。这样就可以加快匹配进程。
1.3逆向最大匹配算法RMM
该算法是正向最大匹配的逆向思维(最大匹配的顺序不是从首字母开始,而是从末尾开始),匹配不成功,将匹配字段的最前一个字去掉,实验表明,逆向最大匹配算法要优于正向最大匹配算法。
1.4双向最大匹配法(Bi-directction Matching method,BM)
    双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。据SunM.S. 和 Benjamin K.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。
1.5最短路径匹配算法(Shortest path match)
最短路径匹配算法是根据词典,找出字串中所有可能的词(也称全分词),然后构造词语切分有向无环图。这样,每一个词对应图中的一条有向边。若赋给相应的边长一个权值(该权值可以是常数,也可以是构成的词的属性值),然后针对该切分图,在起点到终点的所有路径中,求出最短路径,该最短路径上包含的词就是该句子的切分结果。最短路径匹配算法的规则是使切分处理的词数最少,符合汉语自身的语言规律。但是,同样发现在实际应用中,同样不能正确切分出许多不完全符合规则的句子。如果有多条最短路径,往往只能保留其中一个结果,这样对其他同样符合要求的结果是不公平的,也缺乏理论依据。
1.6基于统计的最短路径分词算法
为进一步提供切分精度,可以在词表中增加词的属性值,即为每一个词给出一个权重,这样每个词在字符串的权重就不同。最简单的词权重可以用词的词频表示,具体权重值可以通过该规模语料库获得。
 
2基于统计的分词(无字典分词)
主要思想:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。
主要统计模型为:N元文法模型(N-gram)、隐马尔科夫模型(Hidden Markov Model, HMM)
 
2.1N-gram模型思想
模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积 .我们给定一个词,然后猜测下一个词是什么。当我说“***门”这个词时,你想到下一个词是什么呢?我想大家很有可能会想到“***”,基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。
对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,那么P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)
   但是这种方法存在两个致命的缺陷:一个缺陷是参数空间过大,不可能实用化;另外一个缺陷是数据稀疏严重。
   为了解决这个问题,我们引入了马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。
   如果一个词的出现仅依赖于它前面出现的一个词,那么我们就称之为bigram。即 
   P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) 
          ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)
   如果一个词的出现仅依赖于它前面出现的两个词,那么我们就称之为trigram。
   在实践中用的最多的就是bigram和trigram了,而且效果很不错。高于四元的用的很少,因为训练它需要更庞大的语料,而且数据稀疏严重,时间复杂度高,精度却提高的不多。设w1,w2,w3,...,wn是长度为n的字符串,规定任意词wi 只与它的前两个相关,得到三元概率模型,以此类推,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。
2.2隐马尔科夫模型思想
 
3基于规则的分词(基于语义)
通过模拟人对句子的理解,达到识别词的效果,基本思想是语义分析,句法分析,利用句法信息和语义信息对文本进行分词。自动推理,并完成对未登录词的补充是其优点。不成熟.
具体概念:有限状态机语法约束矩阵特征词库

4基于字标注的中文分词方法
以往的分词方法,无论是基于规则的还是基于统计的,一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反,基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位),假如规定每个字最多只有四个构词位置:即B(词首),M (词中),E(词尾)和S(单独成词),那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式:
(甲)分词结果:/上海/计划/N/本/世纪/末/实现/人均/国内/生产/总值/五千美元/ 
(乙)字标注形式:上/B海/E计/B划/E N/S 本/s世/B 纪/E 末/S 实/B 现/E 人/B 均/E 国/B 内/E生/B产/E总/B值/E 五/B千/M 美/M 元/E 。/S
    首先需要说明,这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符,本文所说的“字”,也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然,汉字依然是这个单元集合中数量最多的一类字符。 
把分词过程视为字的标注问题的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后,在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的标注结果。最后,根据词位定义直接获得最终的分词结果。总而言之,在这样一个分词过程中,分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。


5基于人工智能技术的中文分词方法
5.1神经网络分词算法
 
 
词算法该类分词算法是以模拟人脑运行,分布处理和简历数值计算模型工作的。它将分词知识的隐式方法存入神经网内部,通过自学习和训练内部权值,以达到正确的分词结果。
神经网络分词法的关键在于知识库(权重链表)的组织和网络推理机制的建立。算法的分词过程是一个生成分词动态网的过程,该过程是分步进行的:首先以确定待处理语句的权字串为基础,来确定网络处理单元;然后根据链接权重表激活输入/输出单元之间的链接,该过程可以采用某种激活方式,取一个汉字作为关键字,确定其链接表,不断匹配。神经网络分词法具有自学习、自组织功能,可以进行并行、非线性处理,并且反应迅速、对外界变换敏感;但是目前的基于神经网络的分词算法存在着网络模型表达复杂,学习算法收敛速度较慢,训练时间长,并且对已有的知识维护更新困难等不足。
5.2专家系统分词算法
专家系统分词算法从模拟人脑功能出发,构造推理网络,将分词过程看做是知识推理过程。该方法将分词所需要的语法、语意以及句法知识从系统的结构和功能上分离处理,将知识的表示、知识库的逻辑结构与维护作为首要考虑的问题。知识库按常识性知识与启发性知识分别进行组织。知识库是专家系统具有“智能”的关键行部件。
专家系统分词算法是一种统一的分词算法,不仅使整个分词处理过程简明,也使整个系统的运行效率提高。
6设立切分标志法这种方法
首先要收集那些标点符号(称为自然切分标志)以外的众多非自然切分标志,例如,只充当词首字或词尾的子,对这些非自然切分标志进行搜索,根据这些标志,把句子切分为若干较短的字段,然后在使用MM或者RMM等方法进一步切分。准确的说,这种方法并不是一种真正意义上的分词方法,只不过是自动分词的前处理而已。
 
 
6中文分词的难点
6.1歧义问题
最困难最核心的问题:只用机械匹配进行分词,其精度不可能高,不能满足高标准要求.分为不同类型:交集型歧义组合型歧义真歧义,主要依靠上下文语义来解决.
6.2未登录词识别
 
7小结
这篇文章讲的比较简单,其实就是要么太难(还不成熟),要么太简单(不够理想),但实际应用只要稍加改进就可以,日后再有收获,定来补充。如果你有任何建议或者批评和补充,请不吝留言指出,不胜感激,更多参考请移步互联网。
QQ在线咨询
售前咨询热线
132-6666-7763
售后咨询热线
0755-36608488