1. 问题提出

对于下图的数据集，用户数量 $n_u = 4$ ，电影数量 $n_m=5$ 。

Movie	Alice (1)	Bob (2)	Carol (3)	Dave (4)
Love at last	5	5	0	0
Romance forever	5	?	?	0
Cute Puppies of love	?	4	0	?
Nonstop car chases	0	0	5	4
Swords vs. karate	0	0	5	?

如何怎样预测位置的值？

2. 解决思路

假设对于每一部电影，都有一个对应的特征集合， $x_1$ 表示一部电影为爱情片的程度， $x_2$ 表示一部电影为动作片的程度。

Movie	Alice (1)	Bob (2)	Carol (3)	Dave (4)	$x_1$ (romance)	$x_2$ (action)
Love at last	5	5	0	0	0.9	0
Romance forever	5	?	?	0	1.0	0.01
Cute Puppies of love	?	4	0	?	0.99	0
Nonstop car chases	0	0	5	4	0.1	1.0
Swords vs. karate	0	0	5	?	0	0.9

每个电影都可以用一个特征向量来表示。可以得到第 $i$ 部电影的特征向量 $x^{(i)}=\left[\begin{array}{l}1 \\ x_1^{(i)} \\ x_2^{(i)}\end{array}\right]$ ，其中 $x^{(i)}_0=1$ 为截距特征。对于每个用户 $j$ 学习一个参数 $\theta^{(j)}\in \mathbb{R}^3$ ，用来预测用户 $j$ 对电影 $i$ 的打分为 $(\theta^{(j)})^Tx^{(i)}$ 。

例如， $x^{3}=\left[\begin{array}{l}{1} \\ 0.99 \\ 0 \end{array}\right]$ ，假设通过计算得到的 $\theta^{(1)}=\left[\begin{array}{l}0 \\ 5 \\ 0 \end{array}\right]$ ，那么预测的用户 Alice 对 Cute puppies of love 电影的打分为 $(\theta^{(1)})^Tx^{(3)}=4.95$ 。

3. 问题公式化

$n$ 电影的特征数量
如果用户 $j$ 给电影 $i$ 打过分， $r(i,j)=1$ ，否则 $r(i,j)=0$
$y^{(i,j)}$ 用户 $j$ 给电影 $i$ 的打分
$\theta^{(j)}$ 用户 $j$ 的参数向量， $\theta^{(j)}\in \mathbb{R}^{n+1}$
$x^{(i)}$ 电影 $i$ 的特征向量
对于用户 $j$ 和电影 $i$ ，预测的打分为 $(\theta^{(j)})^Tx^{(i)}$
$m^{(j)}$ 用户 $j$ 评价的电影数量

优化目标

学习 $\theta^{(j)}$ ：

\min_{\theta^{(j)}}{\frac{1}{2m^{(j)}}\sum_{i:r(i,j)=1}\left((\theta^{(j)})^Tx^{(i)}-y^{(i,j)}\right)^2+\frac{\lambda}{2m^{(j)}}\sum_{k=1}^{n}\left(\theta^{(j)}_k\right)^2}

其中， $\frac{\lambda}{2m^{(j)}}\sum_{k=1}^{n}\left(\theta^{(j)}_k\right)^2$ 为正则化项（正则化讲解详见https://blog.gabrielme.xyz/ML-7-2）。

由于 $m^{(j)}$ 不会影响 $\theta^{(j)}$ 的最小值，所以公式可化简为：

\min_{\theta^{(j)}}{\frac{1}{2}\sum_{i:r(i,j)=1}\left((\theta^{(j)})^Tx^{(i)}-y^{(i,j)}\right)^2+\frac{\lambda}{2}\sum_{k=1}^{n}\left(\theta^{(j)}_k\right)^2}

学习 $\theta^{(1)}, \theta^{(2)}, \ldots, \theta^{\left(n_{u}\right)}$ :

\min _{\theta^{(1)}, \ldots, \theta^{\left(n_{u}\right)}}J\left(\theta^{(1)}, \theta^{(2)}, \ldots, \theta^{\left(n_{u}\right)}\right)

即：

\min _{\theta^{(1)}, \ldots, \theta^{\left(n_{u}\right)}} \frac{1}{2} \sum_{j=1}^{n_{u}} \sum_{i: r(i, j)=1}\left(\left(\theta^{(j)}\right)^{T} x^{(i)}-y^{(i, j)}\right)^{2}+\frac{\lambda}{2} \sum_{j=1}^{n_{u}} \sum_{k=1}^{n}\left(\theta_{k}^{(j)}\right)^{2} \\

梯度下降法更新：

\begin{aligned} &\theta_{k}^{(j)}:=\theta_{k}^{(j)}-\alpha \sum_{i: r(i, j)=1}\left(\left(\theta^{(j)}\right)^{T} x^{(i)}-y^{(i, j)}\right) x_{k}^{(i)}(\text { for } k=0) \\ &\theta_{k}^{(j)}:=\theta_{k}^{(j)}-\alpha\left(\sum_{i: r(i, j)=1}\left(\left(\theta^{(j)}\right)^{T} x^{(i)}-y^{(i, j)}\right) x_{k}^{(i)}+\lambda \theta_{k}^{(j)}\right)(\text { for } k \neq 0) \end{aligned}

其中， $\sum_{i: r(i, j)=1}\left(\left(\theta^{(j)}\right)^{T} x^{(i)}-y^{(i, j)}\right) x_{k}^{(i)}+\lambda \theta_{k}^{(j)}$ 可以表示为 $\frac{\partial}{\partial \theta_{k}^{(j)}}J\left(\theta^{(1)}, \theta^{(2)}, \ldots, \theta^{\left(n_{u}\right)}\right)$ 。

文章内容整理自吴恩达机器学习视频教程。

Gabriel's

[机器学习] 16-2 推荐系统-基于内容的推荐算法

1. 问题提出

2. 解决思路

3. 问题公式化

优化目标

[树莓派] 在树莓派4B上手动编译whl文件安装python的MNN包