最大熵模型是最大熵原理在分类问题上的应用

最大熵原理:

学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型

直观的,最大熵原理认为,概率模型首先要满足已有约束,对于不确定部分,做‘等可能’约束

最大熵模型

将最大熵原理应用到分类问题就得到了最大熵模型

假设分类模型是一个条件概率分布: $$ P(Y X) P(Y X)$$ ,输出Y
对于训练数据集合 ,学习的目标是寻找最好的分类模型 $$P(Y X)$$

假设描述数据真实模型的特征函数为,只有当x的类别是y的时候有,否则

特征函数关于经验分布的期望为:

特征函数关于模型$$P(Y X)\tilde{P}(X)E_p(f) = \sum_{x,y} \tilde{P}(x)P(y x)f(x,y) $$
假如模型$$P(Y X)E_\tilde{p} (f) = E_p (f)$$

因此,最大熵模型的学习等价于下面优化问题:

上面公式中,经验分布(概率)是指给定数据集上的统计分布(概率),所以都是常量

这里,可以将最优化原始问题转化为无约束最优化的对偶问题

极大似然估计

已知训练数据的经验概率分布$$P(X Y)P(Y X)$$的对数似然函数表示为:
TOP