网上有关“最大熵模型的概述”话题很是火热,小编也是针对最大熵模型的概述寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。
“熵”最初是热力学中的一个概念,上世纪40年代,香农首先在信息论中引入了信息熵的概念。信息熵用来表示不确定度的度量,不确定度越大,熵值越大。极限情况,当一个随机变量均匀分布时,熵值最大;完全确定时,熵值为0
第一次系统提出最大熵的原理的一般认为是Jaynes,后来有人提出了相应的算法来估计对应的统计模型的参数。由于当时计算条件的限制,最大熵模型在人工智能和自然语言处理领域都没有得到广泛应用。上世纪90年代,IBM的研究员应用重新深入的研究了这个问题,系统地描述了条件最大熵的框架和实现算法,并在自然语言处理任务上取得了非常好的效果,引起了人们的重视。很快条件最大熵模型技术得到了广泛的传播,在自然语言处理的各个领域都取得了巨大的成功,在此基础上的一些深入研究工作也不断展开。最大熵模型已经成为近年来自然语言处理领域最成功的机器学习方法。
假设我们的分类任务或者预测任务的类别为y,而我们能够依据的上下文信息记为x。我们希望在不同的给定的上下文x条件下,统计模型能够给出判为不同类别y的概率值。因此,我们希望能够建立一种区分性的条件概率模型(注意,我们这里仍然用了的表示形式,但是此处的意义表示的是整个的概率分布,也不再表示具体的实例)。我们用来表示所有这种条件概率模型的集合,而我们期望得到的模型就是中的一种。所谓的条件最大熵模型,就是在一定约束下条件熵最大的模型。
所谓的约束,也就是我们已知的信息,可以认为我们希望模型在这些信息上能和训练数据匹配。而熵最大,则表明除约束外,我们不再做未知的假设。在条件最大熵模型中,约束是通过特征的形式来体现的。这里的特征和语音识别等领域的特征有所不同,它表示成和的函数的形式,表示了x的某种属性和y的共现情况。特征函数理论上可以取任何实数值(早期因为训练算法的原因只能取正值),在自然语言处理领域一般表示为0-1的指示函数的形式,例如:
我们定义特征函数f的经验期望如下:
表示样本在训练语料中出现的经验概率:
而特征函数f的模型期望为:
最大熵模型的约束就是使得任意特征的经验期望和模型期望相等:
我们认为我们定义的特征集合描述了训练样本的信息,而我们的模型在这些信息的层面上和训练数据保持了一致。
我们将满足这些约束的条件概率的中的一个子集定义为,而条件熵的定义为:
那我们需要得到的就是在中条件熵最大的模型p:
根据概率公式的定义,我们还有另外一个约束:
那么[]和[]构成了一个约束最优化问题,可以用拉格朗日乘子法来计算:
可以解得模型p的形式为:
这就是条件最大熵模型的形式,而对应的
这里的拉格朗日乘子相当于特征的权重,为了以后讨论的方便,换用表示:
如果已知模型是上式的形式,那么在训练数据上的log似然值为:
通过上式我们可以发现,通过最大似然求解最优权将和的结果是一样的。也就是说在约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。
最大熵模型(maximum entropy model, MaxEnt) 是很典型的分类算法,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。
理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。
我们知道熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定。也就是随机变量最随机,对其行为做准确预测最困难。最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断。这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。(在已知若干约束的情况下,我们建模时应该让模型满足这些约束,而对其它则不作任何假设。)
将最大熵原理应用于分类问题,得到的就是最大熵模型。对于这样的一个问题:给定一个训练数据集:
其中 表示输入, 表示输出, X 和 Y 表示输入和输出空间, N 为样本的个数。
我们的目标是:利用最大熵原理选择一个最好的分类模型,即对于任意给定的输出入 , 可以以概率 输出 。
按照最大熵原理,我们应该优先保证模型满足已知的所有约束。这些约束该如何定义呢?我们的思路是:从训练数据 T 中抽取若干特征,然后要求这些特征在 T 上关于经验分布 的数学期望与它们在模型中关于 的数学期望相等。这样,一个特征就对应一个约束。
有了上面定义的特征函数和经验分布,就可以进一步定义我们所需的约束条件了。
关于“最大熵模型的概述”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!
本文来自作者[清议谣]投稿,不代表绿康号立场,如若转载,请注明出处:https://nmgjkcy.com/lukang/617.html
评论列表(3条)
我是绿康号的签约作者“清议谣”
本文概览:网上有关“最大熵模型的概述”话题很是火热,小编也是针对最大熵模型的概述寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。“熵”最初是热力学...
文章不错《最大熵模型的概述》内容很有帮助