跳转至

2 距离度量

距离度量的性质

非负性:dist(x_i,x_j)\ge 0

同一性:dist(x_i,x_j)=0\Leftrightarrow x_i=x_j

对称性:dist(x_i,x_j)=dist(x_j,x_i)

传递性:dist(x,y)\le dist(x,z)+dist(z,y)

常用距离

闵可夫斯基距离

\displaystyle dist(x_i,x_j)=\left(\sum_{u=1}^n|x_{iu}-x_{ju}|^p\right)^\frac1p

  • p=2:欧氏距离
  • p=1:曼哈顿距离(街区距离)

主要应用在连续属性上

离散属性

如果可以比较:\{Young,Mid-life,Elder\}\Rightarrow\{1,2,3\}

如果不可以比较:\{Plane,Train,Ship\}

VDM 处理离散无序属性

记:

  • m_{u,a} 表示在属性 u 上取值为 a 的样本数
  • m_{u,a,i} 表示在 C_i 中在属性 u 上取值为 a 的样本数
  • k 为样本簇数

则属性 u 在两个离散值 a,b 的 VDM 距离为: $$ VDM_p(a,b)=\sum_{i=1}^k\left|\frac{m(u,a,i)}{m(u,a)}-\frac{m(u,b,i)}{m(u,b)}\right|^p $$

处理混合属性

假定有 n_c 个有序属性,n-n_c 个无序属性,令有序属性排列在无需属性之前,则 $$ MinkovDM_p=\left(\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum_{u=n_c+1}^nVDM_p(x_{iu},x_{ju})\right)^\frac1p $$

处理加权距离

  • 样本中不同属性的重要性不同时

  • 以 Minkov 距离为例: $$ dist_{wmk}(i,j)=\left(\sum_{u=1}^nw_u|x_{iu}-x_{ju}|^p\right)^\frac1p $$

定义距离的准则

  • 满足距离的条件
  • 距离越大,相似度越小
本文阅读量