CWYAlpha

Just another WordPress.com site

Thought this was cool: 聚类结果除了目测,如何度量靠谱?

leave a comment »


有人问我关于聚类结果度量的问题,我经验也不足,大体想了下:

1、最靠谱的目测?

2、运气好如果样本有标记,那么用分类的一些度量方法就好;

3、簇内距离的均值、方差;簇间距离的均值、方差;

4、熵?

===

网上一篇小文章,介绍了一下:Liupq的博客

数据聚类的目标是用某种相似性度量的方法将数据组织成有意义的和有用的各组数据.

由于基因表达谱数据的特殊性,要求新的方法除了具有能够发现数据间的真正关系,分类精度高,方法简单,速度快,鲁棒性强(在分类算法受到随机干扰及其它不确定因素影响时能够保持较高的分类精度) 这些特点外,还要求分析结果可视化程度好,可解释性强,具有很好的统计学和生物学意义.

几点疑问:(1)鲁棒性具体是如何衡量的?(2)什么叫可解释性好.

A算法聚出了五个类,B算法聚出了四个类,哪一个算法好呢?有一个一致的标准吗?还是依赖于生物学家的经验?聚类算法中一般都有有些输入参数,如在Figueroa的方法中有一个EPSILON,Xiaowen Liu的”Computing the maximum similarity bi-cluster of gene expression data”中有alpha,gamma等,输入某个大小参数的依据是什么?如果参数不同的话,结果是不同的.

看了Xiaowen Liu的文章后初步感觉,算法并不是多么的高深,更多的工作量是在对程序的测试与其它方法结果的比较上.一个是速度的,一个聚类结果上的(什么样的结果算是准确的呢,标准是什么?).

下文中提到了为什么聚类分析不能被人接受和利用,有三点:

[A03] Gelbard R, Goldman O, Spiegler I. Investigating diversity of lustering methods: An empirical comparison. Data & Knowledge Engineering, 2007,63(1):155-166.

(1) Firstly, there is a standardization problem. Different clustering algorithms produce different clusters and there is no clear-cut and standard method to compare them.
(2) Secondly, the interpretation for the various clusters formed, and their implementation in the original environment is not defined. Managers and business users hardly know the value of what they can attain by performing clustering using whatever technique. Indeed, the clustering process is unpredictable and sometimes even inconsistent.  Different programs generally divide the same dataset differently. This diversity makes the clustering process difficult.
(3) Furthermore, there is no clear way to measure and evaluate the quality of a clustering algorithm.

聚类结果相似性的度量

文[A01]中讲到了类相似性度量的方法,分两类来讲的,一是分类已知的前提下的度量(测试前我们知道,但是测试程序是不知道的,主要是用来作测试的程序吧,如对模拟数据的测试就是这样。),二是分类未知的前提下的相似性度量。

在分类已知前提下,假定TC分别是已知聚类矩阵和求解出的聚类矩阵,其结构是每个元素为0或是1,若Cij=1,则i,j在聚中属于同一个类,否则不属于一个类.相似性可以Minkowski measure进行度量:

image

这里,nk,l对(i,j)的数量,且Tij=k, Cij=l.公式的值越小,聚类结果越好.还可以用如下Jaccard系数进行度量,系数越大聚类结果越好.

image

当分类结果未知时.以对聚类结果的相以性度量分为同质性(homogeneity),分离性(separation).最后得到的有实际意义的分类具有这样两个特点,一是组内的样本具有内聚的结构;二是组与组之间被很好的分开.对于指纹数据(fingerprin date),同质性是通过同类中一个无素的指纹与类中其余元素之间的平均相似度来评价(evalued)的(原文:For fingerprint data, homogeneity is evalued by the average similarity of an element and that of its cluster).确切的讲,如时cl(u)是u所在的类,F(X),F(U)分别是类X和无素u的指纹.那么:

image

分离性是通过聚类指纹间的权重平均相似度来评价的(Separation is evalued by the weighted average similarity between cluster fingerprints).如果聚类结果是X1,X2… …Xt,

则:image

image

您可能也喜欢:


Spectral Clustering[谱聚类]


A Tutorial on Clustering Algorithms-朴素聚类小知识


k-means聚类算法[C语言]


Bag-Of-Words中K-Means聚类的效率优化


Mallet:自然语言处理工具包

无觅

相关文章

from 丕子: http://www.zhizhihu.com/html/y2012/3900.html

Written by cwyalpha

八月 30, 2012 在 1:22 上午

发表在 Uncategorized

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: