CWYAlpha

Just another WordPress.com site

Thought this was cool: [原]LDA实现的两种方法

leave a comment »


       今天看到美帝一个实现LDA的法子,实现了一把,结果也对,参加方法2。可以对比方法1,计算量是降低了很多。

      但无论如何,有一个显著的开销是很大的,这就是每个Wm,n 都需要记录一个类标签,也就是代码中doc那个三维矩阵,x表示文档编号{0-15},y表示term编号{0-4},z表示label{0-1}

     假定文档有10M个(一千万),每篇文章1000个词,词典空间10K个,类标号100个,那这个矩阵的大小起码是 10M*1K*(3字节+1字节)= 40GB ?

     所以大规模计算肯定不能怎么表示,怎么搞呢?待续,我实现了一个,参见:http://weibo.com/1497035431/zoWcFqHt5

      

      我一直想把LDA彻底打通,但还是觉得差一些,这个周末两天,还是没有如愿 

    

      

例子来源:https://github.com/pennyliang/MachineLearning-C—code/blob/master/gibbs_sampling/SteyversGriffithsLSABookFormatted.pdf

方法1:https://github.com/pennyliang/MachineLearning-C—code/blob/master/gibbs_sampling/main.cpp

方法2:https://github.com/pennyliang/MachineLearning-C—code/blob/master/gibbs_sampling/main2.cpp

方法2算法流程

作者:pennyliang 发表于2013-3-31 21:36:16 原文链接
阅读:146 评论:0 查看评论

from pennyliang的专栏: http://blog.csdn.net/pennyliang/article/details/8744207

Written by cwyalpha

四月 11, 2013 在 3:53 上午

发表在 Uncategorized

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: