统计分词

1. 介绍

基于统计的分词就是通过大规模文本计算文档中字和字之间关联的概率,从而在中文分词时利用字和字之间的关联概率判定是否组成为一个词。

如果S表示一连串特定顺序排列的词w1,w2,…,wn,换句话说,S可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。利用条件概率的公式,S这个序列出现的概率等于每一个词出现的概率相乘,

于是P(S)可展开为:

P(S)=P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1)

其中P(w1)表示第一个词w1出现的概率;P(w2|w1)是在已知第一个词的前提下,第二个词出现的概率;以次类推.

2. 最大熵(Maximum Entropy Modeling)

信息熵用来表示不确定度的度量,不确定度越大,熵值越大; 基于最大熵的分词是一种基于概率的分词;该分词的思想是:对已知词汇之间的关联度的进行分析建模,对未知的关联的不做任何假设。利用已知关联度进行分词。

最大熵模型的优点是基于特征的,允许和支持特征的感应和选择。

2. CRF

介绍

CRF是一种支持字典,词性标记的分词方法。

性能

通过在多个数据集上面的测试,获取其时间效率如下:

  • 时间效率:

在Intel Core 2 Duo 2.33GHz, Memory 3.7GB的配置下,对1M file的切分:

Corpus Word segmentation(s) POS tagging() #POS tags
PFR 3.4 28.0 42
HIT 3.4 13.0 28
CTB 3.4 20.3 36
  • 准确率:
Corpus F
PKU 0.937
MSRA 0.956
CityU 0.937
AS 0.946