Bayes 分类器

本质上是对样本在每个类内的分布做了假设。

下面不妨假设：

二分类 $\omega_1,\omega_2$ ;
两类类内均满足正态分布，即 $x|\omega_1\sim N_1(\mu_1, \sigma_1), x|\omega_2\sim N_2(\mu_2, \sigma_2)$ .

可以理解为确定下图中的分界线 $x_0$ .

根据假设，我们可以立刻确定，某个样本 $x$ 在类内的概率 $P(x|\omega_1),P(x|\omega_2)$ 是正态的（参数后面才确定）。

进一步，如果训练集已知（这个总不能未知吧…），还可以求出两类分别的均值和方差（作为上面正态分布的参数），以及样本空间中两类的概率 $P(\omega_1),P(\omega_2)$ （通过训练集中的频率确定）。

最小错误率

很简单的。最小化错误概率。

假设采样为 $x$ ，分别将其分类为 $\omega_1,\omega_2$ 的正确概率为

$\begin{aligned} P(\omega_1|x)&=\dfrac{P(x|\omega_1)\cdot P(\omega_1)}{P(x)}\\ P(\omega_2|x)&=\dfrac{P(x|\omega_2)\cdot P(\omega_2)}{P(x)} \end{aligned}$

取较大的即可。特别地，因为 $P(x)$ 公共，且有的时候概率会比较小，实践上通常比较 $\log P(x|\omega_\circ) + \log P(\omega_\circ)$ .

对。交叉熵的味道来了。

最小风险

然而假阳性和漏判的权重通常不同。假设将类 $j$ 分类为类 $i$ 的风险（权重）为 $L(i|j)$ ，那么最终比较的量就不是 $P(\omega_\circ|x)$ 而是对所有的风险求和，即

$\argmin_{k} \sum_{i} L(k|i)P(\omega_i|x)$

这样就相当于最小化了风险。

最小最大

问题是，训练集常常不是对整个空间的均匀采样。因此频率有的时候不能作为 $P(\omega_\circ)$ . 有没有不依赖样本分布的分类方案？

参考 min-max 搜索，直接让对手（大自然？）生成一个最史的分布 $D$ ，然后最大化这个时候的正确率（或者最小化风险）。

… 算不动了摸鱼。

正态特例、错误率和其他

正态是一个“椭圆形的”分布。因此 $\sigma$ 相同的时候分界线就是中垂线。

错误率上限可以计算。