统计计算第五节课，Mante Calor方法（二）——减小估计量的方差

大家好，我是讯享网，很高兴认识大家。

这是我上的统计计算课讲的主要内容，写在这可以互相交流，有些地方我不是很理解的会标出来（用加粗斜体*标出），求大佬在留言处表达自己的看法，另外如果有啥问题也可以在留言处留言，如果我看到了会回复

这次的内容较为分散，知识点较多，这次的文章结构采用顺序写法，知识点之间的结构是以一个知识点为中心，向不同方向扩展，但达成的目的相同

背景：回忆MC方法要解决的问题是计算积分 $I=\int_a^b f(x)h(x)dx$ ，用到的估计量为 $\hat{I_n}=\frac 1n\sum_{i=1}^n h(x_i)$ 其中 $x_i$ 独立地从分布 $f (x)$ 抽样得到，一个潜在的问题是：如果f(x)和h(x)不匹配，即如果积分是由f(x)值很小的一片区域A决定，那么可能会出问题，因为我们可能无法从区域A中抽样出足够多的样本点，会使方差变大。解决的办法也很简单：就是从A中抽出足够多的样本点，这就产生了importance sampling（IS） 方法。

IS

估计量
构造 $q (x)$ 去适应被积函数 $f (x) h (x)$ ，解决上述的不匹配问题，其中 $q (x)$ 满足，当 $f(x)h(x)\ne0$ 时， $q(x)\ne0$
则此时积分的表达式可以写成 $I=\int_a^bh(x)\frac{f(x)}{q(x)}q(x)dx=E_q(h(x)w(x))$ 其中 $w(x)=\frac{f(x)}{q(x)}$
则估计量为 $I_n^{IS}=\frac 1n\sum_{i=1}^nh(x_i)w(x_i)$ 其中 $x_i$ 独立地从分布 $q (x)$ 抽样得到

估计量的均值和方差
记 $t (x) = h (x) w (x)$ ,则容易算出 $E(I_n^{IS})=I$ $\begin{aligned} Var(I_n^{IS})=& \frac 1n\int\frac {(f(x)h(x))^2}{q(x)}dx-I^2 \\ =& \frac 1n\int\frac {(f(x)h(x)-Iq(x))^2}{q(x)}dx \end{aligned}$ 从表达式可以看出以下事情：（1）该估计是无偏的
（2）当 $q(x)\propto f(x)h(x)$ 时，方差最小

回忆（一）中的收敛速率 $P(|\hat {I_n}-I|<\frac{\sigma}{\sqrt n\delta})>1-\delta$ 上面的IS估计量就是让 $\sigma$ 减小，以加快收敛

特别的，当f(x)，h(x)都是正态分布时，**的q(x)也是正态分布，并且均值在f和h的均值之间（简单计算即得）

SNIS（self-normalized IS）

背景：当f或q不为规范时（即积分不为1）的情况

估计量
可以把积分写成如下形式 $I=\frac{\int_a^bh(x)\frac{f(x)}{q(x)}q^*(x)dx}{\int_a^b\frac{f(x)}{q(x)}q^*(x)dx}$ 其中 $q^*(x)$ 为规范化后的函数，则估计量为 $I_n^{SNIS}=\frac{\sum_{i=1}^nh(x_i)w(x_i)}{\sum_{i=1}^nw(x_i)}$ 其中 $x_i$ 独立地从分布 $q (x)$ 抽样得到

期望和方差
（1）有偏，但依概率收敛到 $I$ （自证）
（2）方差的估计如下 $Var(I_n^{SNIS})\approx \frac{\sigma^2_{q,sn}}{n}=\frac {E_q(w(x)^2(h(x)-I)^2)}{n}\\ =\frac{\int_a^b\frac{(f(x)h(x)-If(x))^2}{q(x)}dx}{n}$
从该表达式可以看出 1）此统计量方差的表达式和IS的很相似，但不同
2）没有 $q (x)$ 能让方差为0
3）有人证过 $q (x)$ 的最优形式（让方差最小）为 $q(x)\propto |h(x)-I|f(x)$ ，可以用此公式算出方差 $\sigma^2_{q,sn}$ 理论上能达到的最小值为 $E_f(|h(x)-I|))^2$ ，这意味着SNIS能将减小原始MC方法的方差的比例为 $\frac{\sigma^2_{q,sn}}{\sigma^2}\geq \frac{(E_f(|h(x)-I|))^2}{E_f(h(x)-I)^2}$

IS和拒绝抽样方法的比较（待完善）

IS	拒绝抽样
优点：没有Mq(x)需要盖住f(x)的条件，能减小方差
缺点：需要记录w(x)	缺点：抽样效率低

q(x)常用的寻找办法

上述只是理论上找出能让方差最小的 $q (x)$ 的形式，但如果找出的 $q (x)$ 的形式如果较为复杂，则不便于从 $q (x)$ 中抽样 $x$ ，所以下面介绍一些实际中常用 $q (x)$ 的寻找方法

讯享网

指数分布族
当 $f (x)$ 属于指数分布族 $f(x)=g(x)e^{\eta(\theta_0)^TT(x)-A(\theta_0)}$ 时，通常选择 $q(x)=g(x)e^{\eta(\theta)^TT(x)-A(\theta)}$ 的形式，并且找出一个 $\theta$ 使得方差较小，此时IS估计量为 $I_n^{IS}=\frac1ne^{A(\theta)-A(\theta_0)}\sum_{i=1}^nh(x_i)e^{(\eta(\theta_0)-\eta(\theta))^TT(x_i)}$ 其中 $x_i$ 独立地从分布 $q (x)$ 抽样得到

海森矩阵与正态分布方法
假设我们已经找到了 $t (x)$ (之前定义过)的极大值点 $x^*$ ，则由泰勒展开可以得到 $ln(t(x))\approx ln(t(x^*))-\frac12(x-x^*)^T(-H^*)(x-x^*)\\ 则有\quad t(x)\approx t(x^*)e^{-\frac12(x-x^*)^T(-H^*)(x-x^*)}$ 所以可以取 $q(x)=N(x^*,-H^*)$ ，其中 $H^*$ 为 $l n (t (x))$ 在 $x^*$ 处的海森矩阵

混合正态方法
由于被积函数可能出现一些多峰的情况，所以为了让样本的密度函数与被积函数的形状更匹配，可以用混合正态作为 $q (x)$ ，此时从 $q (x)$ 中抽样有两种抽样方法，第一种是直接抽，第二种是先抽角标，再从对应角标的正态中抽样，第二种方法的优点是抽样速度更快，缺点是方差会比第一种更大

自适应IS

通过上面的讨论，我们发现找一个让估计量方差较小并且便于抽样的 $q (x)$ 是一件困难的事情，尤其是对于刚才讨论的“指数分布族”和“混合正态方法”，我们已经确定了 $q (x)$ 的形式，但还未确定参数，如何找一个较好的参数似乎是首要问题，本节将介绍寻找参数的方法（本质上仍然是优化问题，所以很自然地我们想到应该迭代地去找）

假设q(x)属于分布族q(x, $\bm\theta$ )，回忆IS估计量的方差的表达式，可得 $\theta=\mathop{\arg\min}\limits_{\theta}\int\frac{(h(x)f(x))^2}{q(x,\theta)}dx$ 机智的你可以通过上式写出 $\theta$ 的递推式 $\bm{\theta_{k+1}=\mathop{\arg\min}\limits_{\theta}\frac1{n_k}\sum_{i=1}^{n_k}\frac{(h(x_i)f(x_i))^2}{q(x_i,\theta_k)^2}\uad x\sim q(x,\theta_k)}$ 可以发现想要优化这个式子有点困难，所以我们的想法是不用方差来评价，换一种评价方法，首先回忆一下IS方法得到的中什么样的 $q (x)$ 是好的，没错，就是 $q(x)\propto t(x)$ 的时候，如果将 $t (x)$ 标准化成密度函数 $t^*(x)$ 的话，也就是说 $q(x)=t^*(x)$ 的时候 $q (x)$ 最好，还记得我们在第一节课基础知识中提到的KL距离吗，正是度量分布之间的距离的一种方法，恰好可以用于此处的优化问题。
于是我们的优化问题变成了 $\begin{aligned} \theta=\mathop{\arg\min}\limits_{\theta}D_{KL}(t^*\|q_\theta)=&\mathop{\arg\min}\limits_{\theta}E_{t^*}ln(\frac{t^*(x)}{q_\theta(x)})\\ = & \bm{\mathop{\arg\max}\limits_{\theta} E_{t^*}ln(q_\theta(x))} \end{aligned}$ 机智的你再次可以通过上式写出 $\theta$ 的递推式 $\bm{\theta_{k+1}= \mathop{\arg\max}\limits_{\theta} E_{\theta_k}\frac{ln(q(x,\theta))h(x)f(x)}{q(x,\theta_k)}}$ 假设 $q (x)$ 属于指数分布族 $q(x)=g(x)e^{\theta^Tx-A(\theta)}$ 写成离散形式即为 $\begin{aligned} \theta_{k+1}=& \mathop{\arg\max}\limits_{\theta}\frac1{n_k}\sum_{i=1}^{n_k}\frac{h(x_i)f(x_i)}{q(x_i,\theta_k)}ln(q(x_i,\theta))\\ =& \mathop{\arg\max}\limits_{\theta}\frac1{n_k}\sum_{i=1}^{n_k}H_i ln(q(x_i,\theta))\\ =&\mathop{\arg\max}\limits_{\theta}\frac1{n_k}\sum_{i=1}^{n_k}H_i(\theta^Tx_i-A(\theta)) \end{aligned}$
则可以通过求解下式得到 $\theta_{k+1}$ $\bm{\frac{\partial}{\partial \theta}A(\theta)=\frac{\sum_{i=1}^{n_k}H_ix_i}{\sum_{i=1}^{n_k}H_i}}$
特别的，当 $q(x)=N(\theta,I)$ 时， $\theta_{k+1}=\frac{\sum_{i=1}^{n_k}H_ix_i}{\sum_{i=1}^{n_k}H_i}$
当 $q(x)=N(\theta,\Sigma)$ 时， $\theta_{k+1}=\Sigma^{-1}\frac{\sum_{i=1}^{n_k}H_ix_i}{\sum_{i=1}^{n_k}H_i}$

控制变量法(Control Variates)(CV)

原理
构造新的估计量 $I_n^{ISCV}=I_n^{IS}-\lambda(J_n-J)$ 其中 $E(J_n)=J$ ，则 $I_n^{ISCV}$ 显然是 $I$ 的一个无偏估计，其方差为 $Var(I_n^{ISCV})=Var(I_n^{IS})-2\lambda Cov(I_n^{IS},J_n)+\lambda^2Var(J_n)$ 取 $\hat{\lambda}=\frac{Cov(I_n^{IS},J_n)}{Var(J_n)}$ 可得估计量 $I_n^{ISCV}$ 的方差的最小值，易算出此最小方差比原始方差 $Var(I_n^{IS})$ 小，实际操作中 $\hat{\lambda}$ 由对应分布的样本估计

$\bm{J_n}$ 的构造
通常来说，为了让方差尽可能小，我们希望 $Cov(I_n^{IS},J_n)$ 尽可能大，所以直观上我们希望 $J_n$ 的表达式与 $I_n^{IS}$ 相似，这样其相关性会变高，再兼顾上易于计算 $J_n$ 的期望，我们构造出的 $J_n$ 的表达式如下 $J_n=\bar{w}=\frac1n\sum_{i=1}^nw(x_i)\uad x\sim q(x,\theta_k)$ 此时 $E(J_n)=1$ $I_n^{ISCV}=I_n^{IS}-\lambda(\bar{w}-1)$

Rao-Blackwellization条件期望法（RB）

原理
首先考虑一般情况，我们要估计 $I = E (h (X, Y))$ ,其中 $(X, Y)$ 的联合分布为 $f (x, y)$ ，假设我们可以显式地算出 $\bm{E(h(X,Y)|Y)}$ ，则由公式 $\bm{E(E(h(X,Y)|Y))=E(h(X,Y))}$ ，我们可以构造出RB估计量 $I_n^{RB}=\frac1n\sum_{i=1}^nE(h(x_i,y_i)|y_i)$ 则由公式 $\bm{Var(h(X,Y))=Var(E(h(X,Y)|Y))+E(Var(h(X,Y)|Y))}$ 可得RB估计量的方差要小于原始蒙特卡罗估计的方差

与拒绝抽样方法结合构造出具体的算法
假设拒绝抽样在随机时间M(随机时间的定义此处不给出，从名字直观理解就行）时停止抽样，此时得到n个样本 $x_1,......,x_n$ ，记进行拒绝操作前的原始样本为 $y_1,......,y_n$

原始的拒绝方法估计量为 $I_n^{MC}=\frac1n\sum_{i=1}^Mh(y_i)\bm{1}_{\{u_i<w(y_i)\}}$ RB估计量为 $I_n^{RB}=\frac1n\sum_{i=1}^Mh(y_i)v(y_i)$ 其中 $v(y_i)=E_{U_i}(\bm{1}_{\{U_i<w(y_i)\}}|y_i)$