CWYAlpha

Just another WordPress.com site

Thought this was cool: 微博上关于LDA和PLSA的讨论

leave a comment »


自己对PLSA和LDA从来没去仔细的推导和实现过,资质太差,也没专门拿出时间来去搞。最近理解了一下,已经没多么的难了。打算最近写个自己理解、推导、代码、例子。

偶然看见微博上余凯、张栋等人关于这个问题的探讨,摘录下来,为自己以后对这两个模型做推导或者实现的时候,有些指导的意义:

(如果您不愿意我将您的观点记录再次,那么给我说,我去掉,我只是觉得,在我自己还没有理解和观点的情况下,这些对我有指导意义)

===

@老师木
PCA,及其差不多等价的LSI, pLSI, LDA(topic model) 相对于k-means的进步之处在于,使用基重构样例时不再限定仅用一个基来表示,正是这一点使得LSI处理文本时可以反映同义词、多义词现象。Hongyuan Zha, Chris Ding等人的工作也揭示,换一个角度看时,K-MEANS和PCA等价。
十一郎1983://@张栋_机器学习:呵呵,基于 PLSA, Hofmann 写 Paper 同时,顺便还做了个创业公司 //@余凯_西二旗民工: 没有prior加个prior,属于定式思维。在传统文本分类或聚类模型上,一个文章一topic, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后(10月12日 18:15)

 回复
朱洪波_机器学习:lda都成月经话题了,不过这次讨论的比较到位//@计算广告-陈晓光: LDA只是拉开了一个序幕,nonparametric 的hierarchical dirichlet processes和gaussian process才是漂亮的地方。//@老师木: plsi是mle,lda是bayesian。数据量很多时,bayesian 趋向于mle,对lda性能上不应有很大期待 (10月12日 16:34)

 回复
朱洪波_机器学习:跟风宣传一下:不要因为模型复杂公式很长就盲目觉得lda很酷很牛b。相比之下,plsa又好实现,效果还不赖。 //@余凯_西二旗民工: LDA的一个问题在于Variational Inference,这是个approximation, 导致模型hyper参数的估计不consistent. //@高斌MS:我以前在多个文本数据集上的实验结果也表明PLSI好过LDA (10月12日 16:11)

 回复
朱洪波_机器学习:这个先验有一个贝叶斯主义的”通病”。与其关注谁比谁好,我觉得还不如关注如何与有监督相结合更有意义//@张栋_机器学习: LDA 的 Dirichlet Prior 为 0 时,就是 PLSA //@余凯_西二旗民工: PLSI和NMF是一回事,但Thomas Hofmann的sampling process很有开创性 LDA的贡献被夸大了,实际效果也不比PLSI好(10月12日 16:04)

 回复
朱洪波_机器学习: 我的观点是lda很热。但是plsa才是经典。lda的优点很多情况下是强加的。实际应用时,我偏向使用plsa//@余凯_西二旗民工:多说一句,为什么说PLSA的贡献更大。没有prior加个prior,属于定式思维。 (10月12日 15:57)

 回复
张栋_机器学习:呵呵,基于 PLSA, Hofmann 写 Paper 同时,顺便还做了个创业公司 //@余凯_西二旗民工: 没有prior加个prior,属于定式思维。在传统文本分类或聚类模型上,一个文章一topic, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后还在玩topic model (10月12日 15:56)

 回复
代谢聚类谨:我早就发现这两者等价了,怎么没想到发文章呢? (10月12日 15:45)

 回复
蒋琪夏:plsa的最大贡献我觉得是两个:1)对human的writing过程进行了非常简洁且reasonable的建模;2)基于1)的mixed-membership的想法很赞 (10月12日 15:45)

 回复
_小冰九月要努力完成任务:其实还是不明白把kmeans和pca理解成等价有什么好处呢?(10月12日 15:40)

 回复
余凯_西二旗民工:多说一句,为什么说PLSA的贡献更大。没有prior加个prior,属于定式思维。而在传统文本分类或聚类模型上,一个文章一topic,提出document->topic->word的sampling process, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后还在玩topic model (10月12日 15:38)

 回复
张栋_机器学习:是这样。LDA 的 Dirichlet Prior 为 0 时,就是 PLSA //@余凯_西二旗民工: PLSI和NMF是一回事,但当时Thomas Hofmann的sampling process很有开创性。从PLSI到LDA,LDA的贡献被夸大了,实际效果也不比PLSI好 (10月12日 15:23)

 回复
余凯_西二旗民工:PLSI和NMF是一回事,但当时Thomas Hofmann的sampling process很有开创性。从PLSI到LDA,LDA的贡献被夸大了(个人觉得),实际效果也不比PLSI好。 (10月12日 14:27)

 回复
老师木:回复@复旦李斌:unsupervised learning和supervised learning已经大一统到minimum description length的框架下了。 (10月12日 13:33)

复旦李斌:回复@老师木:。。。期待Chris Ding能把所有的unsupervised learning方法都等价起来。。。前面看到有人把SVM、神经网络、deep learning也等价起来了,眼看supervised learning和unsupervised learning都要大一统了。。。 (10月12日 13:30)

老师木:回复@复旦李斌: 有些是有点牵强,就当成一种有趣的理解去看也不错。 (10月12日 13:26)

复旦李斌:Chris Ding把kmeans和NMF、pLSA、PCA都等价起来了。。。可我觉得有些很牵强。。。 (10月12日 13:25)
========
余凯_西二旗民工
多说一句,为什么说PLSA的贡献更大。没有prior加个prior,属于定式思维。而在传统文本分类或聚类模型上,一个文章一topic,提出document->topic->word的sampling process, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后还在玩topic model
尚goodman:LDA为什么比plsa好,在于这个asymmetric prior的用法。hanna wallach的 rethinking lda why priors matter 说得很清楚了。对于短文本,这样的差距更大 (今天 03:54)

heavenfireray:回复@自个儿挖坑-rj:一个很大的区别是,Guassian在高维文本空间里会死啊~~~不经谨慎实验,不要轻易尝试直接在文本空间里用Guassian。 (10月12日 17:01)

heavenfireray:回复@余凯_西二旗民工:我倒觉得理解成一个向量代表一个topic还挺顺的。基于这种理解,近期各种基于矩阵、高阶(非矩阵直接相乘,类似于线性到非线性)的factorization方法就算一脉相承了~~~ (10月12日 16:59)

余凯_西二旗民工:回复@heavenfireray: 关于LSI思想理解没错,但是,LSI的联系到topic比较牵强。 (10月12日 16:56)

heavenfireray:其实,LSI就有这思想了。从矩阵分解角度来看,PLSA可以理解成给矩阵分解加上概率化。LDA则属于典型的bayesian方法了。。。加prior,然后关注点集中到如何Inference。插个嘴,byesian套路似乎比较适合发paper啊~~~变结构,加先验,各种Inference方法,and so on… //@余凯_西二旗民工: PLSA的贡献更大 (10月12日 16:53)

 回复
自个儿挖坑-rj:pLSA和GMM的本质却别在哪儿?如果把每个gaussian看成一个topic,GMM是不是也就成了pLSA (10月12日 16:25)

 回复
朱洪波_机器学习: 我的观点是lda很热。但是plsa才是经典。lda的优点很多情况下是强加的。实际应用时,我偏向使用plsa//@余凯_西二旗民工:多说一句,为什么说PLSA的贡献更大。没有prior加个prior,属于定式思维。 (10月12日 15:57)

 回复
张栋_机器学习:呵呵,基于 PLSA, Hofmann 写 Paper 同时,顺便还做了个创业公司 //@余凯_西二旗民工: 没有prior加个prior,属于定式思维。在传统文本分类或聚类模型上,一个文章一topic, 从而一个文章可以有多个topic,这是开创性的。Hofmann做了PLSA后,就一骑绝尘,玩别的去了,而Blei同学十年后还在玩topic model (10月12日 15:56)

 回复
余凯_西二旗民工:回复@蒋琪夏: 100%同意 (10月12日 15:55)

余凯_西二旗民工:回复@李良豪Luckycat: 读得很细嘛 [赞](10月12日 15:55)

蒋琪夏:plsa的最大贡献我觉得是两个:1)对human的writing过程进行了非常简洁且reasonable的建模;2)基于1)的mixed-membership的想法很赞 (10月12日 15:45)

 回复
李良豪Luckycat对了,加一句,hofmann在他2004年的论文Latent semantic models for collaborative filtering中也指出,他自然知道弄成LDA这种fully bayesian model更漂亮,可是为了避免高时间复杂度,他使用了tempered EM (10月12日 15:44)
===
您可能也喜欢:


线性判别分析(LDA), 主成分分析(PCA)


LDA,咱们一起来学习


latent Dirichlet allocation (LDA)


收集下2010之前的“基于LDA的Topic Model变形”的论文


[牛博阅读] 一个微博的时代来临了,未来?

无觅

相关文章

from 丕子: http://www.zhizhihu.com/html/y2012/3976.html

Written by cwyalpha

十月 14, 2012 在 11:38 上午

发表在 Uncategorized

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: