2025年7种经典推荐算法模型的应用，java面试 hashmap

大家好，我是讯享网，很高兴认识大家。

▐ 算法原理

逻辑回归LR(Logistic Regression)模型作为经典的机器学习分类模型，以其可解释性强、实现简单、线上高效等优点在线上应用中被大量使用。逻辑回归模型主要有两部分构成：

线性回归
逻辑函数

在机器学习中，线性回归模型可记为：

而逻辑函数使用的为sigmoid函数：

由(1)和(2)可推出LR模型的数学表达式为

在线性回归模型(1)中，是具体的某一个特征值，是该特征值的权重，是模型的输出。该公式可以直白的解释为模型的输出结果是由输入进行线性加权求和得到的。而逻辑函数(2)的作用是将线性回归模型的输出映射到[0,1]，输出一个概率值。商品推荐的场景中如用户对某个item进行点击记为1，未点击记为0。

▐ 解决的问题

LR是一个基本的回归模型，可以对输入进行一些线性运算得到一个预测的输出值。预测值可以是用户点击某个商品的概率，也可以是用户下单的概率，其含义具体业务具体分析。

▐ 算法原理

FM(Factorization Machine)。LR作为一个基础的回归模型，主要原理是通过对各个特征进行线性加权得到预测值，但是其并没有考虑组合特征对模型的影响，比如一名单身女性在晚上观看李佳琦直播概率显然是大于一名妈妈的，这里面包含的组合特征单身女性-晚上在LR中就体现不到。因此相比LR仅对一阶特征进行建模，FM引入了二阶特征，增强了模型的学习能力和表达能力。

FM的数学表达式如下:

如果FM仅仅是在模型的表达式上加入了二阶特征，它的应用绝不会这么广泛，只从式(4)中就可以看出表达式上其实相对于LR的改进是很简单的：在模型中引入输入特征两两组合进行乘积就行了。但是这样会引入一个很大的问题：参数的数目直接从个爆炸增长为个，这对于特征维度动辄上千上万数量级的推荐系统来说是断然不能接受的。

面对这么大的参数矩阵很容易想到将其进行矩阵分解，我们首先观察一下参数矩阵

可以看到参数矩阵是实对称矩阵，可以想到正定矩阵是可以很优雅的进行分解的：

特别地，在稀疏矩阵中的情况下，便可满足式(6)的近似相等。

设，则式(4)中的模型参数可表示为。

因此限定参数矩阵为正定矩阵的情况下，FM的二阶特征的表达式可推导如下:

对比式(6)和式(7)可知，FM的计算复杂度由降至，而k的值又是一个可根据业务情况硬编码的值，式(7)的推导使得FM的时间复杂度降至线性复杂度，无论是对于模型的离线训练还是在线推理均使得二阶特征组合成为可能。

▐ 解决的问题

FM通过引入二阶特征实现了模型学习能力及表达能力的提升，并且利用正定矩阵和稀疏矩阵的性质将二阶特征的计算降低至线性复杂度，也因此成为工业界常用的特征工程算法。

FFM

▐ 算法原理

FFM(Field-aware Factorization Machine)。从名字上看，相较于FM， FFM多了一个F，在实现上也是如此。

FFM的数学表达式如下:

从式(8)可以看出FFM相比于FM的不同点在于二阶特征组合的系数上，FFM的权重矩阵比FM多了一维。其算法思想是这样的：以前言中的商品推荐的训练数据举例，在进行one-hot编码时，我们将不同的字段的特征进行编码然后拉平送进模型进行训来，比如字段天猫会员等级T1和天猫会员等级T3这俩字段被独立为两个独立的特征。然而实际情况却是这俩字段其实是对同一个字段天猫会员等级的不同描述。因此在FFM中引入了field的概念:每一维的特征都有对应的field，在进行二阶特征组合时某一维特征对于不同field的特征其所对应的隐向量是不同的。假设所有特征共包含f个filed，则FFM权重矩阵,相比于FM的权重矩阵，多出的维便对应着FFM中引入的field的数目。