2 距离度量
距离度量的性质
非负性:dist(x_i,x_j)\ge 0
同一性:dist(x_i,x_j)=0\Leftrightarrow x_i=x_j
对称性:dist(x_i,x_j)=dist(x_j,x_i)
传递性:dist(x,y)\le dist(x,z)+dist(z,y)
常用距离
闵可夫斯基距离
\displaystyle dist(x_i,x_j)=\left(\sum_{u=1}^n|x_{iu}-x_{ju}|^p\right)^\frac1p
- p=2:欧氏距离
- p=1:曼哈顿距离(街区距离)
主要应用在连续属性上
离散属性
如果可以比较:\{Young,Mid-life,Elder\}\Rightarrow\{1,2,3\}
如果不可以比较:\{Plane,Train,Ship\}
VDM 处理离散无序属性
记:
- m_{u,a} 表示在属性 u 上取值为 a 的样本数
- m_{u,a,i} 表示在 C_i 中在属性 u 上取值为 a 的样本数
- k 为样本簇数
则属性 u 在两个离散值 a,b 的 VDM 距离为: $$ VDM_p(a,b)=\sum_{i=1}^k\left|\frac{m(u,a,i)}{m(u,a)}-\frac{m(u,b,i)}{m(u,b)}\right|^p $$
处理混合属性
假定有 n_c 个有序属性,n-n_c 个无序属性,令有序属性排列在无需属性之前,则 $$ MinkovDM_p=\left(\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum_{u=n_c+1}^nVDM_p(x_{iu},x_{ju})\right)^\frac1p $$
处理加权距离
-
样本中不同属性的重要性不同时
-
以 Minkov 距离为例: $$ dist_{wmk}(i,j)=\left(\sum_{u=1}^nw_u|x_{iu}-x_{ju}|^p\right)^\frac1p $$
定义距离的准则
- 满足距离的条件
- 距离越大,相似度越小