最小二乘

最小二乘法又称最小平方法,是一种优化方法,其主要思路是最小化残差的平方和,残差是观测数据和预测值之间的差值

“Least squares” means that the overall solution minimizes the sum of the squares of the errors made in the results of every single equation.

The most important application is in data fitting. The best fit in the least-squares sense minimizes the sum of squared residuals, a residual being the difference between an observed value and the fitted value provided by a model.

上面是从维基百科上摘录的关于最小二乘的描述

When the observations come from an exponential family and mild conditions are satisfied, least-squares and maximum-likelihood estimates are identical.

这就是为啥逻辑回归使用极大似然估计和最小二乘方法不谋而合的原因,更多参考[这里](Charnes, A.; Frome, E. L.; Yu, P. L. (1976). “The Equivalence of Generalized Least Squares and Maximum Likelihood Estimates in the Exponential Family”. )

分类器评估

以二分类器为例

评估分类器可信度的一个基本工具是混淆矩阵(confusion matrix),保存了预测分类和真正分类的关系表格

confusion-matrix

几个常用指标:

  1. TP rate(真阳率):

  2. FP rate(假阳率):

  3. Precision(准确率) : 预测值是Positive的集合中,真正是Positive的比例,

  4. Recall(召回率): 观测值为Positive的集合中,被正确判定为Positive的比例,

  5. Accuracy(精度): 预测正确的比例,

  6. F值:融合准确度和召回率,

上图这些都属于静态的指标,当正负样本不平衡时它会存在着严重的问题。极端情况下比如正负样本比例为1:99(这在有些领域并不少见),那么一个基 准分类器只要把所有样本都判为负,它就拥有了99%的精确度,但这时的评价指标是不具有参考价值的。

另外就是,现代分类器很多都不是简单地给出一个0或1的分类判定,而是给出一个分类的倾向程度,比如贝叶斯分类器输出的分类概率。对于这些分类器,当你取不同阈值,就可以得到不同的分类结果及分类器评价指标,依此人们又发明出来ROC曲线以及AUC(曲线包围面积)指标来衡量分类器的总体可信度。

ROC曲线最初源于20世纪70年代的信号检测理论,描述的是分类混淆矩阵中FPR-TPR两个量之间的相对变化情况。如果二元分类器输出的是对正 样本的一个分类概率值,当取不同阈值时会得到不同的混淆矩阵,对应于ROC曲线上的一个点。那么ROC曲线就反映了FPR与TPR之间权衡的情况,通俗地 来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上屈,AUC就越大,反映了模型的分类性能就越好。当 正负样本不平衡时,这种模型评价方式比起一般的精确度评价方式的好处尤其显著。一个典型的ROC曲线如下图所示:

confusion-matrix

参考:1,2,3

坐标下降(上升)法

比如优化这个问题: ,坐标下降的过程:

即,每次只将W看作的函数,进行求导优化,而其他的视为常数

优化过程如下图:

coordinate-descent

椭圆代表了二次函数的各个等高线,变量数为2,起始坐标是(2,-2)。图中的直线式迭代优化的路径,可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的,因为每一步只优化一个变量。

凸优化问题

$$ \begin{aligned} \min_{w} ~& f(x)
s.t.~& g_i(w) \leq 0, i=1,2,…,N
&h_i(x)=0, i=1,2,…,M \end{aligned} $$ 其中,f(x)和g(w)是R^N 上的连续可微凸函数,h(w)是R^N 上的仿射函数,即满足

当目标函数f(x)是二次函数,约束函数g(x)是仿射函数时,上述凸最优化问题成为凸二次规划问题

VC维理论

对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2^h种形式分开,则称函数集能够把h个样本打散,函数集的VC维就是它能打散的最大样本数目h。

VC维反映了函数集的学习能力,VC维越大则学习机器越复杂,所以VC维又是学习机器复杂程度的一种衡量。

还不是很明白,感觉VC维就像是分类函数中的参数个数相关

数据倾斜(unbalanced)

非度量方法(nonmetric method)

岭回归(RidgeRegression) and 套索回归(LASSO)

二次规划

一类特殊的非线性规划,目标函数是二次函数,约束条件是线性的,一般形式: $$ \begin{align} \min f(x) &= \min~(\frac{1}{2}x^TQx+c^Tx)
&s.t. Ax<b \end{align} $$

正定矩阵

最大熵原理

最大方差理论

拉格朗日乘数

松弛求解

在实验数据处理和曲线拟合问题中,求解超定方程组非常普遍。这时常常需要退一步,将线性方程组的求解问题改变为求最小误差的问题。形象的说,就是在无法完全满足给定的这些条件的情况下,求一个最接近的解

比较常用的方法是最小二乘法。最小二乘法求解超定问题等价于一个优化问题,或者说最小值问题,即,在不存在使得的情况下,我们试图找到这样的x使得最小,其中表示范数。

模拟退火(SA,Simulated Annealing)

模拟退火是一种贪心算法,但是它的搜索过程引入了随机因素

模拟退火算法以一定的概率来接受一个比当前解要差的解,因此有可能会跳出局部的最优解,达到全局的最优解。

这个概率随着时间推移逐渐降低,这样才能趋于稳定

区别于爬山算法(Hill Climbing),爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。

more

MachineLearning vs DataMining

A lot of common topics: Clustering, Classification…

幂定律(包括zipf定律和80/20法则) , 马太效应

TOP