Logistic回归

基于Logistic回归和Sigmoid的分类

Logistic回归分类器:

$$z=w^Tx$$
$$x=(x_0, x_1, …, x_n) \qquad (待分类数据)$$
$$w=(w_0, w_1, …, w_n) \qquad (最佳回归系数)$$
$$\sigma(z)=\frac{1}{1+e^{-z}} \qquad(Sigmoid 函数)$$

  • 当$\sigma(z)>0.5$时,数据被归为1类
  • 当$\sigma(z)<0.5$时,数据被归为0类

基于最优化方法的最佳回归系数的确定

函数$f(x,y)$的梯度表示为:
$$\nabla{f(x,y)}=\binom{\frac{\partial{f(x,y)}}{\partial{x}}}{\frac{\partial{f(x,y)}}{\partial{y}}}$$

梯度算法的迭代公式:
$$w:=w+\alpha\nabla_wf(w)$$

  • $\alpha$ 移动步长
  • $\nabla_wf(w)$ 移动方向

决策树

信息增益

划分数据集的最大原则是:将无序数据变得更加有序。

在划分数据集之前之后信息发生的变化称为信息增益。

信息增益()定义为信息的期望。如果待分类的事务可能划分在多个分类中,则符号$x_i$的信息定义为:

$l(x_i) = -\log_2p(x_i)$

为了计算熵,我们需要计算所有类别所有可能值包含的信息期望,通过下面公式得到:

$H = - \sum_{i=1}^np(x_i)\log_2p(x_i)$


其中n是分类的数目。

k-近邻算法

工作原理

存在一个训练样本集,样本集中每个数据都存在标签(即分类)。
输入的测试数据(没有标签)的每个特征与样本集中的每个特征进行比较,
然后算法提取样本集中特征最相似数据(最邻近)的分类标签。
通常,我们只选择数据集样本集中前k个最相似的数据。
最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

k-近邻算法的一般流程

对未知类别的数据集中的每个点(一个向量)一次执行一下操作:

  1. 计算已知类别数据集中的点与当前点之间的距离;
  2. 按照距离递增次序排序;
  3. 选取与当前点距离最小的k个点;
  4. 确定k个点所在类别的出现概率;
  5. 返回前k个点出现概率最高的类别作为当前点的预测分类。

Inkscape 基础

快捷键

  • Ctrl+arrow: 平移画布
  • Ctrl+B: 显示/隐藏滚动条
  • -/+: 缩小/放大画布
  • `/Shift+`: 回到/恢复缩放比例
  • Ctrl+Tab: 在文档见循环切换
  • Ctrl: 水平或垂直移动/保持宽高比/以15度整数倍旋转
  • F1/Space: 选择工具
  • Ctrl+G/U: 组合/解散群组
  • Ctrl+click: 选择群组中的一个对象
  • Ctrl+D: 复制对象
  • Home/End: 置于顶层/底层
  • PgUp/PgDn: 上移/下移
  • Tab/Shift+Tab: 选择叠放对象
  • Alt+drag: 拖动选择的对象
  • Ctrl+Shift+C: 形状转换为路径

何谓机器学习

机器学习

简单的来说,机器学习就是把无序的数据转换为有用的信息。

机器学习的组要任务及相关算法

监督学习的用途
k-近邻算法 线性回归
朴素贝叶斯和算法 局部加权线性回归
支持向量机 Ridge 回归
决策树 Lasso 最小回归系数估计
无监督学习的用途
K-均值 最大期望算法
DBSCAN Parzen 窗设计