分词是中文分搜索引擎排名算法中的特有的步骤,大家都知道搜索引擎储存和处理页面都是以词为基础的,它会将一段段完整的句子分成一个个词和词组,然后将这些一个个词和词组进行存储,参与关键词的排名。
分词作用
那么有些人会问分词到底有什么作用呢?其实分词主要有两个作用,第一个作用就是有利于文本的挖掘。对于用户输入一段中文,然后将其成功的进行分词,可以达到识别语义的效果。第二个作用就是语义识别。对于人,可以通过先天的认知对这些一个个词和词组进行辨别,哪些是词,而哪些不是,但搜索引擎却没有那么智能化,只能通过一系列的过程来识别,这其中识别的过程就是分词算法。
分词算法
上面就说过了一个句子是由一个个词和词组组的,那么中文分词却怎么去辨别或匹配这些词的呢?主要是根据以下三种分词算法来匹配:基于字符串匹配、基于理解匹配和基于统计匹配。
基于字符串匹配
基于字符串的匹配方式有多种多样,基于词典的匹配方法可以分词正向匹配和逆向匹配。按照长度的不同,又可以分词最大匹配和最小匹配,如果将扫描方向和长度混合匹配,又可以分为正向最大化匹配和逆向最大匹配,还有其他的综合性匹配方法,具体的基于常见的匹配方式如下:
(1)正向最大匹配
正向最大化匹配就是按照从左到右的顺序最大化的匹配词组,这个是中文分词中最常见的一种分词方式。如下图,当在百度中输入“如何彻底消灭家里的蟑螂”,在搜索结果中,首先匹配的是文本框中输入的词或词组,可以看出选择关键词是多么重要。
(2)逆向最大匹配
和正向最大化匹配正好相反的是逆向最大匹配,它是从右到左逆向匹配词组。如图,还是上面的,它“如何彻底消灭家里的蟑螂”通过逆向最大匹配后就出现下面的"家里的蟑螂这怎么给彻底消灭"。
(3)最小切分
最小切分就是将一个个词组切分为最细化,甚者会一个字出现,因为不常见,这里就不再相信讲解了。
(4)双向最大匹配
双向最大匹配就是在分词中既有双向最大匹配,又有逆向最大匹配。
(5)综合分词
综合分词就是集合所有的分词原理的一个分词,既包括正向,也包括逆向,还包括其他分词。
(6)特征/标志切分-断点
这个就不说了,很少出现。
基于理解匹配
这种分词方法主要是通过机器模拟人的句法的理解,对其语义进行判断,以达到对句子的理解。其原理就是在分词的同时,进行句法、语义分析,通过句法信息和语法信息进行处理。其主要还是通过分词系统,句法系统对其歧义进行处理,然后总控出句子的意思。这种只是一个理论,并还没有真正的实施。
基于统计匹配
基于统计的分词就是分析互联网上的大量文字信息,然后计算出字与字之间相邻出现的统计概率,如果几个字在同一相邻出现得越多,就越可能形成一个单词。
如上图看到的是上面搜索框里输入一个关键词“如何彻底消灭家里的蟑螂”,在分词排名的结果中将”如何“这个词匹配成了“怎样”,说明这如何和怎样在统计中发现两个词出现的是同一个意思,这个就是统计出来的一种匹配方式。其实基于理解和基于统计的分词方法各有优劣,在实际中,更多的是将两中分词混合使用。
分词中遇到的困难
在分词中,分词不上面所说的那么容易的,我们看到的只是表面的分词,在实际中,分词是十分复杂的,现在分词又主要面临两大难题:新词识别和歧义识别。
一些专业的术语在实际中用到了,但却没有收录。比如人名、地名、机构名这些,比如“人头寨”在实际中也叫一个词,但是这个词又怎么进入到词典中去就成为了难题。
还有就是歧义识别,歧义就是一句话中出现两种意思。歧义识别既包括交集性歧义,也包括组合型的歧义。典型的是化妆和服装,不同的停顿会产生不同的意思。
总结:中文分词原理是最基础的,可以进行文本的挖掘和语义的的识别,它对于写文章是很有帮助的,所以这是重庆seo小丁为什么要详细的讲解中文分词原理的原因,在下面小丁会不断的讲解软文写作,希望大家多多支持。
《浅析中文分词的基本原理》由重庆SEO编写
转载请注明出处 重庆SEO http://www.dingxiaohome.com