pyhanlp 共性分析与短语提取内容详

pyhanlp 共性分析与短语提取内容详

By dffgghgh at 2019-02-18
0人收藏 • 894人看过

HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。


共性分析


 


图4.JPG


互信息mi,左熵lr,右熵re,详细解释见下文


信息论中的互信息


图5.JPG 




一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)。


根据熵的连锁规则,有


 


1| H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)


 



登 录


现在注册

QQ  登 录    Weibo  登 录    GitHub  登 录