最大熵模型是最大熵原理在分类问题上的应用
最大熵原理:
学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型
直观的,最大熵原理认为,概率模型首先要满足已有约束,对于不确定部分,做‘等可能’约束
最大熵模型
将最大熵原理应用到分类问题就得到了最大熵模型
假设分类模型是一个条件概率分布: $$ P(Y | X) P(Y | X)$$ ,输出Y |
对于训练数据集合 ,学习的目标是寻找最好的分类模型 $$P(Y | X)$$ |
假设描述数据真实模型的特征函数为,只有当x的类别是y的时候有,否则
特征函数关于经验分布的期望为:
特征函数关于模型$$P(Y | X)\tilde{P}(X)E_p(f) = \sum_{x,y} \tilde{P}(x)P(y | x)f(x,y) $$ |
假如模型$$P(Y | X)E_\tilde{p} (f) = E_p (f)$$ |
因此,最大熵模型的学习等价于下面优化问题:
上面公式中,经验分布(概率)是指给定数据集上的统计分布(概率),所以都是常量
这里,可以将最优化原始问题转化为无约束最优化的对偶问题
极大似然估计
已知训练数据的经验概率分布$$P(X | Y)P(Y | X)$$的对数似然函数表示为: |