首頁 » 度量特征属性那么和的相

度量特征属性那么和的相

 聚类是观察式学习在聚类前可以不知道类别甚至不给定类别数量是无监督学习的一种。均值-算法是一种迭代求解的聚类分析算法所谓聚类问题就是给定一个元素集合其中每个元素具有个可观察属性使用某种算法将划分成个子集要求每个子集内部的元素之间相异度尽可能低而不同子集的元素相异度尽可能高其中每个子集叫做一个簇。 相异度计算 用通俗的话说相异度就是两个东西差别有多大。

 

 在数学上对相异度的定义指的是设其中是两个元素项各自具有个可度量 工作职能邮件数据库 特征属性那么和的相异度定义为其中为实数域也就是说相异度是两个元素对实数域的一个映射所映射的实数定量表示两个元素的相异度。 在计算不同元素的相异度上我们采用欧几里得距离来作为相异度其意义就是两个元素在欧氏空间中的集合距离因为其直观易懂且可解释性强被广泛用于标识两个标量元素的相异度。

 

 欧几里得距离的定义如下 在真

实应用中经常会出现元素项的取值问题取值范围大的属性对距离的影响高于取值范围小的属性比如在模型的属性中的取值往往要远大于的取值这样不利于真实反映真实的相异度为了解决这个问题一般要对属性值进行规格化。 规格化的意思就是 检查是否有任何损坏 将各个属性值按比例映射到相同的取值区间通常将各个属性均映射到[,]区间这样是为了平衡各个属性对距离的影响。

 

 映射公式为 表示所有元素项中个属

性的最大值和最小值是集合中的一个属性指标。 -聚类算法 把近两年内还有订购记录的客户设定为一个元素集合其中每个元素有个具有可观察的属性近度频度值度。 元素集合按照-聚类算法把他分为个聚类子集 把集合中每一个元素客户的属性进行规格化是基于按照映射公式把各个属性均映射到[,]区间的 结果 对集类 香港新聞 法合的各个属性进行加权处理加权属性权重法确定的权向量中对应的权重加权后的集合 从集合中随机选取个元素 作为作为个簇的各自的中心 分别计算剩下的元素到个簇中心的相异度按照欧几里得距离度量将这些元素分别划归到相异度最低的簇 根据聚类结果重新计算个簇各自的中心计算方法是取簇中所有元素各自维度的算术平均数 将集合中全部元素按照新的中心重新聚类

返回頂端