12ma-e3-8.4：最小二乘法的原理

这次讲12MA-E3-8.4，内容和上一节关联紧密，是专门用来辅助我们解出经验回归方程的。虽然很短，但能让整个最小二乘法的原理变得非常清晰。先把那个方程组写出来，然后求导后得到新的形式。别急着化简，先把这些变量都换回去，方便咱们研究误差性质。你看右边都是0，把左边的-2除过去就可以了，也就是直接把它丢掉，0除以非零数肯定还是0。这下得到的式子特别简洁直观。方程（1）就说明了一点：经验回归直线能让误差的和为0。换句话说，数据点在预测值的上下分布得比较均匀。有时模型可能高估，有时又低估，但不会一直偏向某一边。这就好比把数据点分成两份，预测直线不会压在所有点上面，也不会垫在所有点下面。最小二乘法是怎么保证这一点的呢？别忘了方程解出来的那个结论——直线必须过均值点。既然解方程的每一步都互为充要条件，那我们就严格证明了：只有当预测直线过数据均值点时，预测误差的平均值才能为0。图4.1里有三条符合条件的直线（A、B、C），看着确实挺直观的吧？方程（2）告诉我们经验回归直线还有个特点：误差乘以x之后的和依然为0。这意味着误差的波动在x轴上要平衡均匀地分布。咱们再看图4.1中的三个图。A图在左边积攒了大量负误差，右边是正误差；C图刚好反过来。这两个图的共同点是它们的总误差和为0，但B图的误差在x轴方向上才是均匀分布的。为什么会这样呢？因为咱们给误差加权了。A图左边x小的地方负误差很多，但相对影响减弱了；右边x大的地方正误差很多，相对影响被加强了。结果A图的加权平均值显著大于0。C图情况正好相反。加权平均值就体现了A和C的不对称性。所以这个条件就要求误差的波动在x轴方向尽量均匀分布。有了这个条件，咱们就能从无数过均值点的直线里挑出一条确定斜率了。这样一来，咱们就确定了唯一的经验回归直线，自然也清楚了它的误差性质。