对推特的研究(持续)

第一篇:Comparing Twitter and Traditional Media using Topic Models。

记录几个问题:1首先是使用topic model,文献中引入了twitter-LDA model用于发掘short document的topic。(还曾提到author-LDA model,把所有的short document组合成一个long document)这里的一大难题是LDA主题模型对short document的分析performance比较差.(我对这个模型的一个提问就是,仅仅发掘topic,忽略retweet的强大作用。例如一些表现情感的review,可能会加强原topic的表现力。我怀疑简单的处理丢失重要信息的可能性)

2文中提出了一个problem,如何给topic分类,topics可能属于一个大的范畴,其实这中间也包括clean操作,因为short document得出的topic可能dirty,如何自动归类很难,通过label?(分类的好处是能抓住一个人的focus)

3从中Another special property of Twitter is that it allows people to spread news through retweet messages 。这些topic大多是world,event-oriented的,这是twitter的一大特色。

总结:这篇文章另辟蹊径,focus在了twitter的content上,我觉得twitter上的噪音,互动,time等信息都有挖掘的可能与难度。

posted @ 2012-08-23 23:48  ChinaInterLude  阅读(315)  评论(0)    收藏  举报