线性分类器

线性判别函数

一般形式:

g(x)=wixi+w0=wTx+w0g(x) = \sum w_i x_i + w_0 = \mathbf{w}^T\mathbf{x} + w_0

wiw_i 为加权因子,w0w_0 为阈值权。

常用 g=wTx+w0g=\mathbf{w}^T\mathbf{x}+w_0 简化表示。

二分类中用线性判别函数 gg,规则为:

  • g<0ω1g<0\to\omega_1.

  • g>0ω2g>0\to\omega_2.

则判别平面即 g=0g=0.

或采用增广矩阵:y=1x\mathbf y=\lang 1\mid\mathbf x\rang,因此可以把它简化成 aTya^Ty.

a=w0wa=\lang w_0\mid\mathbf{w}\rang 为增广权向量。在增广空间中 aTy=0a^Ty=0 确定一个过原点的分类面。

多分类转二分类:AA vs Aˉ\bar A,或者做 O(n2)O(n^2) 个分类器一一做二分类,最后投票。

垂直平分分类器

是一种线性分类器。

分类面取两类均值连线的中垂线。即

m1=1n1Pω1Pm2=1n2Qω2Qw=m1m2w0=wTm1+m22\begin{aligned} \mathbf m_1 &=\frac 1{n_1}\sum_{P\sim\omega_1} P\\ \mathbf m_2 &=\frac 1{n_2}\sum_{Q\sim\omega_2} Q\\ \mathbf w &=\mathbf m_1-\mathbf m_2\\ w_0 &=-w^T\frac{\mathbf m_1+\mathbf m_2}2 \end{aligned}

然后以 wTx+w0\mathbf w^Tx+w_0 为分类面。

Fisher 投影

这里只讲 RDR\mathbb R^D\to\mathbb R.

用 Fisher 降维。

思想:将二分类的样本投影到直线 y=wTxy=w^Tx 上,最大化均值之差、最小化类内方差。

具体做法:

先定义类内离散度矩阵

S1=Pω1(Pm1)(Pm1)T.S2=Qω2(Qm2)(Qm2)T.SW=S1+S2S_1 = \sum_{P\sim\omega_1} (P-\mathbf m_1)(P-\mathbf m_1)^T.\\ S_2 = \sum_{Q\sim\omega_2} (Q-\mathbf m_2)(Q-\mathbf m_2)^T.\\ S_W=S_1+S_2

然后是类间的离散度矩阵

SB=(m1m2)(m1m2)TS_B=(m_1-m_2)(m_1-m_2)^T

接下来最小化 Rayleigh 商:

J(w)=wTSBwwTSwwJ(\mathbf w)=\frac{w^TS_Bw}{w^TS_ww}

用 Lagrange 乘子法得到

w=Sw1(m1m2).\mathbf w^\ast=S_w^{-1}(m_1-m_2).

此时将样本点先投影到 y=wTxy=w^{\ast T}x,然后在直线上取一个分割点(通常取 (m1+m2)/2(m_1+m_2)/2 即中点)。

感知机

唯一真神。

y=f(wTx+θ)y=f(w^Tx+\theta)

ff 激活函数引入非线性部分。

由于类 2 的判据是内层 <0<0,为了方便将类 2 的分量都乘以 1-1,这样 aTya^Ty 都会落在第一象限(大于 00)。

用惩罚函数 JJ.

最小化 JJ,通过梯度下降。