最大匹配 ======== 1. 介绍 ------------ 最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。是一种基于词典的分词算法。 - 正向最大匹配算法:从左到右将待分词文本中的1-n个连续字符与词表匹配,如果当前连续x字符匹配上,而第x+1个字符不能够匹配上,则切分出一个词。 - 逆向最大匹配算法:逆向最大匹配法从被处理文档的末端开始匹配扫描。 2. 特点 ------------ 最大匹配算法在大型搜索系统中的使用频率较低,其主要问题有以下几点: - 长度限制: 由于最大匹配法必须首先设定一个匹配词最大长度的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。因此: (1) 词长过短,长词就会被切错。 (2) 词长过长,效率就比较低。 - 效率低: 由于很多词长会低于最大匹配的长度,因此,会造成大量的匹配浪费。 - 不能处理歧义和重叠字