一些分词软件的简单词性标注测试

今天看了下jieba分词的源代码,因为接下来要做POS,就顺便对比了下各家分词的标注效果,不过懒得去准备一堆数据测试了。顺手拿了几个例子去测试,测试的分词软件有哈工大的LTP,计算所的NLPIR(ICTCLAS),jieba分词,还有计算语言学研究室的CorpusWordParser

测试句子我对电影的爱

CorpusWordParser:我/r 对/a 电影/n 的/u 爱/v

LTP:我/r 对/p 电影/n 的/u 爱/n

NLPIR:我/r 对/p 电影/n 的/u 爱/v

jieba分词:我 r 对 p 电影 n 的 uj 爱 n

测试句子一打啤酒

CorpusWordParser:一/m 打/v 啤酒/n

LTP:一/d 打/v 啤酒/n

NLPIR:一/m 打/v 啤酒/n

jieba分词:一打 m 啤酒 n

姑且放下各家词性标注集的差异来讨论这两个例子反映的差异,其实就算考虑标注集差异标注错的还是错的,我本意就是想测试下它们对那些多词性的词的标注效果,例子中就是可以作动词和量词的“打”和动词和名词的“爱”,计算语言学研究室和计算所的首先对这些例子是全部标注错了,计算语言研究所的主页上有词典,我猜测他们用的就是那份词典,因为这份词典里面每一个词只有一个词性标签,这应该是标注错误的根本原因了。而且这份词典应该是比较旧的,用词应该是正式文本,在网络环境下很多词都没有。这两个例子中jieba效果最好,不过我暂时还不清楚jieba那个“爱”是怎么标注正确的,它的词典里面我找不到带有n词性标签的“爱”一词。这样对比下来如果是用来做搜索引擎的话jieba应该是不错的选择,中科院那个做的比较复杂了,语言研究室那个太旧了而且算法都不知道是什么不能保证效果,哈工大那个还具有依存句法分析等功能,如果是做文本分析方面的话LTP应该是更好的选择