最大匹配¶
1. 介绍¶
最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。是一种基于词典的分词算法。
- 正向最大匹配算法:从左到右将待分词文本中的1-n个连续字符与词表匹配,如果当前连续x字符匹配上,而第x+1个字符不能够匹配上,则切分出一个词。
- 逆向最大匹配算法:逆向最大匹配法从被处理文档的末端开始匹配扫描。
2. 特点¶
最大匹配算法在大型搜索系统中的使用频率较低,其主要问题有以下几点:
- 长度限制:
由于最大匹配法必须首先设定一个匹配词最大长度的初始值,这个长度限制是最大匹配法在效率与词长之间的一种妥协。因此:
- 词长过短,长词就会被切错。
- 词长过长,效率就比较低。
- 效率低: 由于很多词长会低于最大匹配的长度,因此,会造成大量的匹配浪费。
- 不能处理歧义和重叠字