中文锐推榜优化·二

郑昀@玩聚RT 20090812

 

一、Twitter 搜索索引的问题

    由于锐推榜利用的是 Twitter Search API 入口,所以是否能足够全地找到所有中文 Retweets(又名:锐推/RT/转推) ,很多时候取决于 twitter 自己的索引是否能正确地识别 tweet 所采用的语言。

    今年曾经有一度,长达一个月的时间,Twitter 的亚洲语言索引全部乱掉,日文、泰语、韩文、中文等语言写就的 Tweets 混乱地分布在不同国家语言的索引中,而日文和中文的索引几乎不再更新。所以说,Twitter 的搜索真的真的很需要 FriendFeed 这样的实时搜索技术专家支援。

    Twitter Search 不能良好地识别 Tweets 语言的结果,可能就是 中文锐推榜 会漏掉消息。

二、包含 RT 单词的消息并不都是锐推

    这个问题其实相当严重,最近至少发生过两次。上次是某人发消息送大礼,消息体内说请大家RT。结果 锐推榜 默认将第一个找到的转发消息正文作为上榜消息正文,于是很多人以为是 @rtmeme 要派送大礼。

    这次是 @faytoday 发消息求助,正文的“rt会走桃花运.”带了RT标志,于是锐推榜检测到足够多的转发次数后,就原样转发了这条消息,害得 @faytoday 回复说 @rtmeme 抢了他的风头。

    锐推榜只是搜索 tweets 文字中的 RT/Retweet/Retweeting/rTwt/转发:等单词,所以程序并不能明确判别一个 tweet 是不是锐推。

    但必须改进这一点。

    锐推榜针对“始发消息中含RT字样但并不是锐推”的情况,将自动在上榜消息前把找到的第一个消息发送者的用户帐号按照“RT @first_rtuser_id ”的格式加上,这样大家就不会误认为是 @rtmeme 在发推或评论了。

    举例:

    现在,统计程序检测到超过6个人在转发这条消息:“RT @Fenng: 有些公司的促销活动就是浪费。专门给爱占小便宜和钻空子的用户准备的。用户只有有需求才用你的网站,而不是凑热闹才用你的网站。”,那么它应该上榜;然后找到锐推榜所能索引到的第一个转发者ID是 @xuyangchina ,于是,这条上榜消息就变成了:

    “

RT @xuyangchina: RT @Fenng: 有些公司的促销活动就是浪费。专门给爱占小便宜和钻空子的用户准备的。用户只有有需求才用你的网站,而不是凑热闹才用你的网站。

    ”

    这样做的缺点就是,@rtmeme 本来可以在锐推传播路线图上处于第二传播梯队,现在不得不变成第三传播梯队。

    就是这样了。

参考资源:

1、《中文锐推榜的优化》2009-06-16

2、《中文锐推榜的一个里程碑》2009-06-19

3、《中文微博客的热门锐推用户榜》2009-06-25

Zing

posted @ 2009-08-12 19:45  旁观者  阅读(2258)  评论(0编辑  收藏  举报