最大匹配

1. 介绍

最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。是一种基于词典的分词算法。

  • 正向最大匹配算法:从左到右将待分词文本中的1-n个连续字符与词表匹配,如果当前连续x字符匹配上,而第x+1个字符不能够匹配上,则切分出一个词。
  • 逆向最大匹配算法:逆向最大匹配法从被处理文档的末端开始匹配扫描。

2. 特点

最大匹配算法在大型搜索系统中的使用频率较低,其主要问题有以下几点:

  • 长度限制: 由于最大匹配法必须首先设定一个匹配词最大长度的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。因此:
    1. 词长过短,长词就会被切错。
    2. 词长过长,效率就比较低。
  • 效率低: 由于很多词长会低于最大匹配的长度,因此,会造成大量的匹配浪费。
  • 不能处理歧义和重叠字