师兄那边没什么进展,问一问也不好说,毕竟确实这个事搞不动,
问题出在什么地方呢,微博本身确实倒是有一些分类的方法,LDA 应该是不错的选择(当然有很多问题不好解决)。
trival的方法已经试完了,效果基本已经确定就那个样子了。
LDA 的话,labeled LDA和LDA都应该试试。主题模型对短文本效果很差,对于长文本吧...也没出找,现在的问题是微博数据真的是太垃圾了,根本不知道怎么下手。
问题最困难的地方在于,并不是把地方划归到某一个分类当中,而是说,要在所有的微博当中,提取出这个地方的位置语义。
神TMD位置语义。
分类什么的倒是可以做,做好了能干什么呢,就算是拿到了分类,通过分类我们难道试图提取什么出来吗?
目前看来最promise的方法可能就是在一个地方,对于拼起来的长有效微博进行LDA了。问题也有,最主要的还是效果不知道,因为微博所给的数据吧,都是那种话题比较泛泛的。
另一个我们也应该能思考得到,包含了任何和位置有一丁点关系都算的微博,在所有的微博里也只是一小部分,就算是微博本身也标记了位置信息了。
所以真的是,没什么好办法,如果要做些什么事情的话,可能就是LDA了,LDA获取微博的关键词,但是这之前很重要的一点就是要把没有用的微博过滤掉,并且,拼接出大的文档,来进行LDA。
浙公网安备 33010602011771号