2025年《统计学习方法》啃书手册｜LDA模型实战：理解模型的假设、要素与学习

大家好，我是讯享网，很高兴认识大家。

(一) LDA模型的假设

LDA模型作为概率图模型的板块表示
讯享网

上图是LDA模型作为概率图模型的板块表示。从中可以看出LDA模型的基本假设：

文本中每个位置的话题相互独立；满足 $P(\textbf{z}_m|\psi) = \prod_{n=1}^{N_m} P(z_{mn}|\psi)$ ，其中 $\psi$ 为所有影响 $z_m$ 的参数；也可以引入平均场理论，将其理解为参数以平均作用效果替代了单个作用效果的加和。
文本中每个位置的单词由该位置对应话题的单词分布决定；即 $w_{mn} = Mult(\varphi_{z_{mn}})$ 。
文本中每个位置的单词相互独立，即经典的“词袋模型”；不考虑文本中单词的顺序，并假设文本中的每个单词同等重要；满足 $P(\textbf{w}_m|\psi) = \prod_{n=1}^{N_m} P(w_{mn}|\psi)$ ，其中 $\psi$ 为所有影响 $w_m$ 的参数。
不同话题的单词分布相互独立；满足 $P(\theta|\alpha) = \prod_{m=1}^M P(\theta_m|\alpha)$ ；也满足 $P(z_{mn}|\theta_1,\theta_2,\cdots,\theta_M) = P(z_{mn}|\theta_m)$ ， $n=1,2,\cdots,N_m$ 。
不同文本的话题分布相互独立；满足 $P(\varphi|\beta) = \prod_{k=1}^K P(\varphi_k|\beta)$ 。

(二) LDA模型的要素

LDA模型的随机变量：

所有文本的文本序列（文本序列的集合） $\textbf{W} = \{\textbf{w}_1,\textbf{w}_2,\cdots,\textbf{w}_M\}$ 是LDA模型的观测随机变量的数据。

所有文本的话题序列（话题序列的集合） $\textbf{Z} = \{ \textbf{z}_1,\textbf{z}_2,\cdots,\textbf{z}_M \}$ 是LDA模型的隐随机变量的数据。

LDA模型的随机变量的取值范围：

单词的取值范围，即所有文本中不同的单词的集合，称为单词集合，记作 $\{ w_1,w_2,\cdots,w_V \}$ ，其中 $V$ 为文本中所有不同的单词的数量。

话题的取值范围，称为话题集合，记作 $\{ z_1,z_2,\cdots,z_K \}$ ，其中 $K$ 为话题数量。

LDA模型的超参数：

文本的话题分布的先验分布（狄利克雷分布）的参数 $\alpha$ ；实际上给出了话题序列的集合的先验分布 $p(\textbf{Z}|\alpha)$ 。

话题的单词分布的先验分布（狄利克雷分布）的参数 $\beta$ ；实际上给出了单词序列的集合的先验分布 $p(\textbf{W}|\textbf{Z},\beta)$ 。

LDA模型的参数：

话题数量 $K$ 。

LDA模型的需要求解的模型参数：

文本的话题分布 $\theta = \{ \theta_1,\theta_2,\cdots,\theta_M \}$ 。

话题的单词分布 $\varphi = \{ \varphi_1,\varphi_2,\cdots,\varphi_K \}$ 。

话题序列的集合的后验概率分布 $p(\textbf{Z}|\textbf{W},\alpha,\beta)$ 。

以上模型要素之间的关系，可以通过LDA模型训练的输入和输出体现：

输入：文本序列的集合 $\textbf{W}$ ；超参数 $\alpha$ 和 $\beta$ ；话题数量 $K$ 。
输出：话题序列的集合 $\textbf{Z}$ ；文本的话题分布 $\theta$ ；话题的单词分布 $\varphi$ 。

(三) LDA模型的学习

LDA模型的学习，有两种基本思路：

通过求解不完全数据的对数似然函数 $\ P(\textbf{W}|\theta,\varphi)$ 的极大似然估计，得到参数 $\theta$ 和 $\varphi$ 的估计，进而得到话题序列的集合 $\textbf{Z}$ 的估计。
通过求解后验概率分布 $p(\textbf{Z}|\textbf{W},\alpha,\beta)$ 的极大后验概率估计，得到话题序列的集合 $\textbf{Z}$ 的估计，进而可以得到参数 $\theta$ 和 $\varphi$ 的估计。

【延伸阅读】极大似然估计与最大后验概率估计 - 张小磊的文章 - 知乎

LDA模型的不完全数据的似然函数是：
$p(\textbf{W}|\theta,\varphi) = \prod_{m=1}^M \bigg\{ \prod_{n=1}^{N_m} \Big[ \sum_{k=1}^K p(z_{mn} = k|\theta_m) \ p(w_{mn}|z_{mn} = k,\varphi) \Big] \bigg\}$
LDA模型的后验概率分布是：
$p(\textbf{Z}|\textbf{W},\alpha,\beta) = \frac{p(\textbf{W},\textbf{Z}|\alpha,\beta)}{p(\textbf{W}|\alpha,\beta)} = \frac{p(\textbf{W}|\textbf{Z},\beta) \ p(\textbf{Z}|\alpha)}{p(\textbf{W}|\alpha,\beta)}$
其中
$\begin{aligned} p(\textbf{W}|\textbf{Z},\beta) & = \int p(\textbf{W}|\textbf{Z},\varphi) \ p(\varphi|\beta) \ d \varphi \\ p(\textbf{Z}|\alpha) & = \int p(\textbf{Z}|\theta) \ p(\theta|\alpha) \ d \theta \\ p(\textbf{W}|\alpha,\beta) & = \int \Bigg[ \prod_{k=1}^K p(\varphi_k|\beta) \Bigg] \Bigg[ \prod_{m=1}^M \int p(\theta_m|\alpha) \prod_{n=1}^{N_m} \bigg[ \sum_{z_{mn} \in Z} p(z_{mn}|\theta_m) p(w_{mn}|z_{mn},\varphi) \bigg] \ d \theta_m \Bigg] \ d \varphi \\ \end{aligned}$
显然，无论是哪一种思路，直接估计都是很困难的。

吉布斯抽样的思路

基于第二种思路，我们使用吉布斯抽样，获得后验概率分布后验概率分布 $P(\textbf{Z}|\textbf{W},\alpha,\beta)$ 的样本集合，也就得到了话题序列的集合 $\textbf{Z}$ 的估计，进而可以得到参数 $\theta$ 和 $\varphi$ 的估计。

变分EM推理的思路

基于第一种思路，我们引入变分分布 $q^*(\textbf{Z},\theta|\gamma,\eta) \approx p(\textbf{Z},\theta|\textbf{W},\alpha,\beta)$ ，通过KL散度大于等于零的性质，得到 $\ P(\textbf{W}|\theta,\varphi)$ 的证据下界。然后，使用变分EM算法对证据下界进行最大化；得到证据下界取得最大值时，参数 $\alpha$ 和 $\beta$ 的后验参数，以及已知参数 $\gamma$ 和 $\eta$ 的变分分布。通过 $\beta$ 的后验参数可以得到模型参数 $\varphi$ 的估计，通过参数 $\alpha$ 和 $\beta$ 以及变分分布，可以得到模型参数 $\theta$ 的估计和话题序列的集合 $\textbf{Z}$ 的估计。