CWYAlpha

Just another WordPress.com site

Thought this was cool: LDA(latent dirichlet allocation)的应用

leave a comment »


主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文本表示的维度。这其实也很deep learning中的对特征的抽象有点相似,通过一些聚类等的思想,将一些细粒度的特征组合到一个新的空间上去,例如主题空间。

而且GibbsSampling的LDA实现也相对容易,可以参考一些代码。

最近看微博上志飞Google发起的帖子,大多业界用lda或者plsa的都表态了。腾讯的rickjin等。摘录一些,大家以后遇到类似的问题可以尝试下topic model。

===

rickjin:PLSA 和 LDA 在广告系统中做文本语义相似度的计算还是可以的,至少能保证弱语义相关性。另外,我们把 LDA inference 出来的 topic 用在了文本分类器中做feature, 可以显著的提升分类器的 precission/recall

机器学习那些事儿:在计算搜索query相似度时直接采用LSA了,因为SVD的效率在工业界已经很成熟。//@rickjin:回复@志飞Google:哦, 没有说清楚, 我指的是弱语义关联,比如 LDA 可以有效的用于计算 “柯南” 和 “火影忍者” 这两个 query 的相似度

机器学习那些事儿:打个比方,有1000万个样本,只用learning的100个topic做feature,结果可想而知//@余凯_西二旗民工:只用topic分类,效果不好,尤其是在训练样本多的时候。//@老师木: 只用topic作文本分类,效果怎样。

李沐mu:有公司用lda做cookie做user group,然后当feature用,效果挺好/@洪亮劼: 目前正在做LDA在大规模user profiling + personalization的工作。

张栋_机器学习:PLSA (dirichlet prior = zero 的 LDA)还是很实用的,我们用它解过几个工业界的问题

袁全V:我们在广告中在用lda做cookie-url grouping, 最近在尝试用来发现长尾语义

苏劲松XMUNLP:baidu好像把plsa用得挺好的,lda就不知道了。

您可能也喜欢:


latent Dirichlet allocation (LDA)


微博上关于LDA和PLSA的讨论


10 大移动应用趋势:移动支付上榜


一些创意和应用


线性判别分析(LDA), 主成分分析(PCA)

无觅

相关文章

from 丕子: http://www.zhizhihu.com/html/y2013/4219.html

Written by cwyalpha

三月 24, 2013 在 9:53 上午

发表在 Uncategorized

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: