CWYAlpha

Just another WordPress.com site

Thought this was cool: 微博数据分析的进展,写在末日之前

leave a comment »


赶在末日之前,冲一下KPI。年底冲K的动力不是很足,因为今年已经写过8篇了,数量上大大超过去年啊,虽然其中仍然有很多重复或者反复的内容。

最近更新了微博数据分析的脚本,出发点是想在业余找点数据玩玩。之前@lijian001 哥哥的Rweibo包一出来,我就打算放弃模拟登录的思路了。不过课余没啥更好作业,所以就拿出来练手,顺便还初步学习尝试了一下XML。新浪老版本的登录程序还是可以用,新版的登录过程中用了更复杂的加密算法(RSA2),暂时还没有搞定。
有了一些数据,能够做的分析就很多了。初步能想到的还是三大块:基于内容的文本分析,基于关系的网络分析,基于转发的传播分析。由于是业余在做——工作本身也比较充实(此句写给我的老板看以防不测)——所以进展比较慢,目前有一些文本分析的初步尝试,比较有意思的一个例子是前两天看到最近在讲《计算广告学》的刘鹏老师@北冥乘海生 发了一条微博说“#数据挖掘趣题# 本人在今年年中大约三四个月没有上过微博,有谁能从我的帖子里发掘出原因?”,于是我从文本角度出发做了一个对比分析。虽然没办法挖掘真相,但还是能够呈现出一些特征。具体结果是这样:
微博数据分析的进展,写在末日之前 - 波波头一头 - 生活也是大事业

类似地,刚才又做了一下对@老师木 的分析,这算是最近突然火起来的一位老师。结果是这样:
微博数据分析的进展,写在末日之前 - 波波头一头 - 生活也是大事业


总的来说还蛮有意思的。就是这样。
代码都在GitHub,因为不大会用,经常不小心把密码神马的发上去,又不会删除记录,于是索性删掉了之前的库,结果那个库被人转发过于是不能建一个同名的新库了,所以只好丢在校内的那个库里。顺手说一句,我现在差不多还是每天登校内,但是基本上这网站应该没啥戏了吧,所以就不打算去更新他的脚本了。
最后,这些代码是在UBUNTU下面写的,在我的windows7上面也测试过,有一个小问题是在windows上做source()的时候,有一个文件会报错。应该都是编码的问题吧。折腾很久没搞定。

打完收工。

from 生活也是大事业: http://chen.yi.bo.blog.163.com/blog/static/1506211092012112062415714/

Written by cwyalpha

十二月 24, 2012 在 5:38 上午

发表在 Uncategorized

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: