命名实体识别调研

一、现有命名实体识别使用方法及达到的效果

现有的命名实体识别方法,主要包括隐性马科夫链,最大熵,CRF等。

根据综述:在这4种学习方法中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

但在实际实现中,仍然有不少采用ME的实现实例。但是可能是由于所找论文的质量原因,由ME实现的命名实体识别效果并不理想。反而是几个基于隐性马科夫链的实现效果较好。目前找到的唯一的基于CRF实现的实例效果并不是很好。

现将现有的一些实现及其效果罗列如下:

基于ME的方法:

1.南京大学2007硕士学位论文:吴宝琪《中文命名实体的识别方法研究及其实现》,对于人名识别:准确率为68.O%,召回率为40.2%,F值为50.5%对于地名识别:准确率为48.7%,召回率为31.1%,F值为39.O%对于组织名识别:准确率为51.2%,召回率为27.6%,F值为35.9%。其效果不好的原因由几个,一个是特征选择有待考量,二个是为了研究而研究,没有使用分词技术。但是论文中有一些可取的筛选方法。

2.哈工大2009年:付瑞吉,车万翔,刘挺《一种基于分类方法的音乐命名实体识别技术》音乐命名实体识别总的精确率、召回率和F值分别达到了89.89%,81.01%,87.93%。

3. 余传明,黄建秋,郭 飞。2011《从客户评论中识别命名实体》

从客户评论中识别命名实体

从客户评论中识别命名实体

中采用的几个模板,效果都不好。同样存在训练集太小的因素。

基于CRF的方法:

1.苏州大学2010年学位论文:史海峰《基于CRF的中文命名实体识别研究》。

命名实体 精确率P 召回率R F值
人名 98.4% 65.7% 78.8%
地名 96.3% 67.2% 79.2%
机构名 98.3% 78.2% 87.1%

作者分析可能产生了过拟合。本论文使用的训练集过小。

基于HMM的方法:

1.2004年哈工大:廖先桃 于海滨 秦兵 刘挺《HMM与自动规则提取相结合的中文命名实体识别》。

HMM与自动规则提取相结合的中文命名实体识别

HMM与自动规则提取相结合的中文命名实体识别

 

2.2006年中科院:俞鸿魁,张华平,刘群,吕学强,施水才《基于层叠隐马尔可夫模型的中文命名实体识别》。

封闭测试:

基于层叠隐马尔可夫模型的中文命名实体识别 封闭测试

基于层叠隐马尔可夫模型的中文命名实体识别 封闭测试

开放测试(人民日报1998.6):

基于层叠隐马尔可夫模型的中文命名实体识别 开放测试

基于层叠隐马尔可夫模型的中文命名实体识别 开放测试

总结:

最大熵方法在理论上有最好的效果,从CoNLL.2003会议的报告来看,最大熵模型相对更适合于处理命名实体识别问题,在参赛的16对选手中,有5对选手使用了最大熵模型。而且从竞赛的结果来看,英文的命名实体识别竞赛的前三名和德语的命名实体识别竞赛的前两名都采用了最大熵的方法,但是训练成本比较高。在CRF方面的研究还比较少。HMM模型看来能够取得的效果也不差,可以再HMM上加以进一步改进以提高其效果。

发表评论

电子邮件地址不会被公开。 必填项已用*标注