PRML Notes - 3.4 Bayesian Model Comparison

Chilly_Rain posted @ 2012年6月12日 22:41 in Pattern Recognition and Maching Learning , 2854 阅读

贝叶斯方法避免过拟合是通过边缘化模型参数而实现的,而不是像极大似然那样来做点估计。这样,不同的模型可以使用全部数据来做训练,并进行比较,而不是像CV那样需要拆出一部分来做检验。

假设我们有L个模型,\(M_i, i = 1...L \)。训练数据是从其中一个模型中生成的,即其中有一个是真实模型,但是我们并不确定是哪一个。这种先验的不确定性可以通过先验的均匀分布来表达,而相应的后验分布则表达了我们在观测到数据后,对各个模型的偏好程度。

\[ p(M_i|D) \propto p(M_i) p(D|M_i) \]

由于前面使用的均匀分布做为先验,区分度主要落在了model evidence上面,即\( p(M_i|D) \),它表达了训练数据对各个模型的偏好程度。这个值也称为边缘似然性,因为它是对整个模型的似然性(不是针对某一个参数值)。两个模型的model evidence的比例称为贝叶斯因子。

\[ Bayes Factor = \frac{p(D|M_i)}{p(D|M_j)} \]

一旦我们得到的对各个模型的后验分布,我们就可以使用它来形成一个混合的预测分布,各个模型以后验概率做为权重对其输出的响应值进行加权。一种简化的方式是使用后验最高的模型来做预测,这个选择的过程就称为模型选择。

对于一个参数模型,model evidence的表达式为

\[ p(D|M_i) = \int p(D|w, M_i) p(w|M_i) dw \]

做一些近似的考虑,假设参数的后验分布尖锐的分布在最大值\(w_{MAP}\)周围,宽度为\(\delta w_{posterior}\),并假设参数的先验为\( p(w) = 1/\delta w_{prior}\),那么model evidence可以写成

\[ p(D) = \int p(D|w) p(w) dw = p(D|w_{MAP}) \frac{\delta w_{posterior}}{\delta w_{prior}} \]

对应地,其对数似然性为

\[ lnp(D) = lnp(D|w_{MAP}) + \frac{\delta w_{posterior}}{\delta w_{prior}} \]

由上式可知,当似然性越高时,evidence值越大,然而当参数值极好地拟合训练数据时,evidence越小,即模型复杂度越高,evidence越小。最优的模型应该是在两都之间取一个折中。

从模型生成数据集的角度来看,实际上,过于简单的模型灵活性不够,只能以较低的可能性生成给定的训练数据,而过于复杂的模型则灵活性过大,可能产生的数据集种类更多,产生给于训练数据的可能性也变低(概率被平分)。

对于一个特定的数据集,有可能存在非真实模型的model evidence高于真实模型,而期望意义上这是不可能存在的。假设有两个模型,其中\(M_1\)为真实模型,那么二者在所有数据集上的平均贝叶斯因子表达式为

\[\int p(D|M_1) ln \frac{p(D|M_1)}{p(D|M_2)} dD \]

这个统计量称为KL距离,当且仅当两个分布相同是取零,其它情况下均大于0,因此平均意义下贝叶斯因子是偏向于选择真实模型的。

与其它方法一样,贝叶斯模型选择是对模型的形式有所假设的。例如,当先验分布是improper的时候,model evidence不是良定义的。但是先得到两个模型的贝叶斯因子的表达式,再取极限仍然有可能得到一些有用的结论。

虽然贝叶斯模型比较方法可以省去CV的过程,但是保留一份独立的测试数据来做最终系统的效果评估仍然是明智之举。

 

Avatar_small
ningyuwhut 说:
2015年6月02日 13:39

当似然性越高时,evidence值越大,然而当参数值极好地拟合训练数据时,evidence越小,即模型复杂度越高,evidence越小
这句话应该怎么理解呢?

Avatar_small
UBSE +2 Question Pap 说:
2022年8月16日 21:08

Every year the UK Board Intermediate 1st and 2nd year final Examination tests will be held in between March to April months with New Syllabus as per Boar Provided Text Books for Regular and Private Students.

Avatar_small
AADHAAR PVC CARD 说:
2022年11月05日 16:03

India focuses on upgrading and digitizing different public systems. The Aadhaar card is an important document. Is among the government upgrading projects. The UIDAI (Unique identification authority of India) has recently announced the new Aadhaar card new changes. Indian Aadhaar cardholders can order for Aadhaar in PVC Card.The Aadhaar PVC can resist any weather (rain) and lasts long. AADHAAR PVC CARD All types of Aadhaar cards, e-Aadhaar, an mAadhaar, Aadhaar letter, and Aadhaar card, are valid. The UIDAI approves all the said cards for the Indian citizens. Anyone can access and order an Aadhaar Plastic card through online services.

Avatar_small
modelpapers2020.in 说:
2023年7月02日 10:36

The Karnataka State Secondary Education Examination Board has made the KSEEB 9th exam available for download. These tests had previously been scheduled for June. The new Karnataka 9th Question Paper will be modelpapers2020.in released by the board.The Karnataka State Secondary Education Examination Board has downloaded this item and the official 9th Karnataka website. Previously, these tests were scheduled for June through July.The Karnataka test schedule, pace, and rules are all provided.


登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter