Processing math: 100%

这篇笔记主要记录机器学习中的常用数学:

  1. 几何运算
    1. 矩阵秩
    2. 矩阵运算
    3. 矩阵梯度
  2. 分布
    1. 高斯分布
    2. 伯努力分布(0-1分布)
    3. 二项分布
  3. 期望,方差,协方差,相关系数

常用的几何运算(Geometric Operation)

几个共用变量:

Amn=(A11A12A1nA21A22A2nAm1A12Amn) function f: mn

1. 矩阵秩

假设m=n,A的秩为:trA=ni=1Aii

2. 矩阵运算

矩阵加法

矩阵乘法

矩阵间乘法满足:

  1. 结合率: (AB)C=A(BC) 有常数时,(λA)B=A(λB)
  2. 分配率: A(B+C)=AB+AC(A+B)C=AC+BC

不满足

  1. 交换率: AB有意义,但BA不一定有意义,且即便有意义,也不一定有AB=BA,正因为如此,(A+B)2A2+2AB+B2

更多参考

3. 矩阵梯度

f(A)Amn=(fA11fA12fA1nfA21fA22fA2nfAm1fA12fAmn)

例子: A是2×2的矩阵,f(A)=32A11+5A212+A21A22,则有:

注意,这里f(A)是一个‘纲量’,即不是向量或矩阵

f(A)A=(3210A12A22A21)

常用等式:

ATf(A)=(Af(A))T AA=A(A1)T AtrAB=BT AtrABATC=CAB+CTABT

常用的分布

高斯分布

高斯分布,也称正太分布

  1. 一维高斯分布 分布:N(μ,σ),其中μ是期望,σ是方差
    密度函数为:p(x;μ,σ)=1σ2πexp{(xμ)22σ2}

  2. 高维高斯分布 分布:N(μ,Σ),其中,μ是期望向量,Σ是对称半正定协方差矩阵
    密度函数:p(x;μ,Σ)=1|Σ|1/2(2π)n/2exp{12(xμ)TΣ1(xμ)}

伯努利分布(the Bernoulli distribution)

伯努利分布也称为0-1分布, 是指随机变量仅仅取值0和1的离散概率分布.

二项分布(Binaomial Distribution)

二项分布即重复n次的伯努利试验。在每次试验中只有两种可能的结果,而且是互相对立的,是独立的,与其它各次试验结果无关,结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验。

期望,方差,协方差,相关系数

设X,Y是两个独立的随机变量,我们获取一组(X,Y)的观测集合D=(x1,y1),(x2,y2),..,(xn,yn)

当观测集合足够大的时候,我们可以认为观测数据可以很好的表示原始数据分布,因此可以利用观测数据上的期望,方差代表原始数据的期望和方差

基本概念

  1. 期望(Expectation):即随机变量取值的均值

    EX=1NNi=1xiEY=1NNi=1yi
  2. 方差:描述随机变量的取值和其期望的偏离程度

    Var(X)=E((XE(X))2)=E(X22XE(X)+(E(X))2)=E(X2)2E(X)E(X)+(E(X))2=E(X2)2(E(X))2+(E(X))2=E(X2)(E(X))2
  3. 协方差:衡量两个随机变量的偏离程度

    Cov(X,Y)=E((XEX)(YEY)=E(XY)E(X)E(Y)

    方差是在X=Y时的协方差,即Cov(X,X)=Var(X)

    协方差性质:

    1. 独立随机变量的协方差为0
    2. 线性组合:Cov(mi=1aiXi,nj=1bjYj)=mi=1nj=1aibjCov(Xi,Yj)
  4. 相关系数:衡量两个随机变量的线性相关程度[-1, 1],1,-1分别表示正负相关,0表示线性不相关 Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)

计算协方差

TODO 整理 1,2,3

TOP