如果我们把最后的1也视为参数,那么我们有:
展示在图上,我们的目标就是找到最接近观测点的一条直线
注意一点,我们的核心目标是找到模型最贴切的参数,这一组参数下的模型在所有可能的数据中有最小的误差函数
所有可能的意思是训练数据和非训练数据
写成矩阵的形式,MSE可以表示为:(这里β是线性回归的系数)
为了找到最小值, 我们可以将MSE对β进行求导
(推导过程可见机器学习笔记:线性回归_UQI-LIUWJ的博客-CSDN博客 1)
令关于β的偏导为0,那么有:
β*又称最小二乘法ordinary least squares (OLS)
但是,偏导为0不一定表示它就是最小值点,因为有可能是:
极小值点、极大值点、鞍点(在某一些维度是极小值,某一些维度是极大值)
那么,如何说明它是极小值点呢?
我们先回忆一下一元二次方程
对于多维度函数,我们考虑它的何塞矩阵(Hessian Matrix)
我们回顾一下正定和负定:
正定性见:NTU 21fall-CE 7454(deep learning for data science)笔记_UQI-LIUWJ的博客-CSDN博客 2.10
对于极小值、极大值和鞍点,我们有:
(直接类比,大于0相当于向上开口;小于零相当于向下开口)
二阶偏导,也就是何塞矩阵,是一个半正定矩阵,我们从定义上就可以说明之:
对任何一个非零向量z,
令a=Xz,=a的每个维度的平方和,肯定大于等于0
所以Hessian矩阵半正定,即一阶偏导为0的点是极小值点。
而又由于MSE是一个凸函数,所以极小值点也就是最小值点
如果点的数量n比特征的维度p大,并且至少p个点是线性无关的,那么 满秩,即可逆
反之,如果特征的数量p比点的数量n多,那么不可逆
将所有结果压缩到[0~1]上——可以用来进行二元分类,σ(x)表示了一个类的概率
对于一个随机变量,假设类别1的概率是θ,类别0的概率是1-θ
那么,出现n次1和m次0的概率是:
取log+极大似然估计,有:
将上式对θ求导,有,结果也是符合直观的
我们引入逻辑斯蒂回归的损失函数:交叉熵