绪论

人类太强大了。因此模仿人类识别的过程。

概念

模式(Pattern):人类将客观事物分成相似又不相同的个体组成的集合或类别的过程中,这些个体客观事物称为 模式。即被分类的对象。

分类(Classification):将模式划分到几个指定类别之一的过程。

模式识别(Pattern Recognition):对模式进行描述、分类、解释的过程。本质上分类就是模式识别。

应当用计算机进行识别。效率高、速度快、可量化。

模式识别和模式识别的关系:模式识别是 AI 的理论基础;是 AI 的一个重要分支。

主要研究方向

基础理论:模式表示与分类、机器学习等。

视觉信息处理:图像处理和 CV.

语音语言信息处理:语音识别、NLP、机器翻译等。

各种数据分析优化:飞行器要测信号分析、结构设计优化、工况环境感知等。

模式识别系统基本框架

系统框架包括训练过程和识别过程。

训练过程:已知样本 -> 特征提取和选择 -> 分类器设计

识别过程:未知样本 -> 特征计算 -> 分类决策 -> 分类结果。

样本和样本集:被分类的模式及其总体。

类别:样本空间上定义的子集(等价类),一般用 ω\omega 表示。二分类一般用 ω1,ω2\omega_1,\omega_2. 或者用数字 1/1-1/1 或者 0/10/1.

已知样本和未知样本:判定标准为类别是否已知。未知样本的特征是已知的。

特征和特征值:特征也称属性,是用来体现类别区别的数学测度(一种或几种)。特征的值就是特征值。

特征向量和特征空间:由被识别的样本确定的一组基本特征组成了特征向量。样本的特征构成了特征空间。空间的维数就是特征的个数。

监督

有监督识别 / 无监督识别 / 半监督识别。

区别在于学习的样本类别是否已知。

无监督主要是聚类。(?)

半监督:(小)部分有标记。

方法

  • 统计模式识别
    • 线性分类器
    • Bayes 分类器
    • 非线性分类器
  • 神经网络
  • 句法模式识别
    • 自动机

性能评价

混淆矩阵。以二分类为例:

实际 ω1\omega_1 实际 ω2\omega_2
预测 ω^1\hat\omega_1 TP 正确 FP 误报(假阳性)
预测 ω^2\hat\omega_2 TN 漏报 FN 正确

多分类类似。总之,该矩阵的对角线反应正确程度。

精确率和召回率:

精确率 Precision=TPTP+FP\text{Precision}=\dfrac{\text{TP}}{\text{TP}+\text{FP}}

召回率 Recall=TPTP+FN\text{Recall}=\dfrac{\text{TP}}{\text{TP}+\text{FN}}

PR 曲线:以每个样本的置信度为分界线,分别求得精确率和召回率。然后画曲线。

平衡点 BEP:P=R

F-score

敏感性:TPR = 召回率

特异性:SPC = TN / (TN + FP)

准确率:ACC = (TP + FN) / ALL

ROC 曲线:TPR 纵轴、FPT 横轴。

AUC 曲线:ROC 曲线下面积(积分)。

作业

线性分类器:线性分类器基础、垂直平分分类器、Fisher 投影准则。

讨论为什么 Fisher 是线性分类器。