随笔分类 - 语义应用 / 我的玩聚
摘要:如今有小伙伴看了当时这个产品的截图,觉得哎呀呀技术不错嘛,准吗?后来怎么样了?故事的开头我们猜到了,故事的结尾嘛……
阅读全文
摘要:这个算法的解释参见我的文章:《Hacker News与Reddit的算法比较》。
阅读全文
摘要:很少转载其他人的博文,但此位来自于QQ阅读团队的“啃饼随笔”博客,一直在撰写AI、文本挖掘、文本分类以及一些方法论方面的心得体会,尤其是本月初在玩聚网被连续关闭(第一财经周刊用封面故事《保证书的世界》报道了此事)(我也荣幸地成为了“北京开关厂厂长”)之后,啃饼博客针对玩聚网写了案例分析,把玩聚网创建以来的技术和产品路线做了一个回顾,也算是为玩聚网支持者和我们做了一个精彩点评。
阅读全文
摘要:因此设置一个转发水准度的阈值,比如要求每条上榜消息的转发水准度大于0.2,就能避免大明星、名人、人气王们随随便便发条消息就能上榜。
阅读全文
摘要:简单介绍下我们这个榜单与新浪自己的热门转发榜区别:
微博锐推榜 将无视明星推名人推,更关注草根推,更关注社会民生推,屏蔽无营养推。
微博锐推榜 将聚合以新浪微博为首的国内各大微博网站的热门转发消息。
阅读全文
摘要:而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。
阅读全文
摘要:大致的框架就是这样。玩聚HOT还在内测中(所以暂不提供RSS和微博帐号),不排除打散逻辑重新组合,但基本哲学应该就是这些了。
阅读全文
摘要:现在的重复内容检测逻辑是:
首先对文章内容较长的,是基于Shingle的重复检测办法;
其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。
这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。
阅读全文
摘要:leondellee抱怨说:“玩聚SR 最近老是有 N 多的Solidot、cnBeta、瘾科技上榜,就不能调整下阈值么... ”
阅读全文
摘要:锐推榜上榜阈值是否需要与Followers数目成正比?为何有时锐推榜删除转发第一人的评论呢?
阅读全文
摘要:早前写的注意事项。现放出来,也许对 PubSubHubbub 爱好者有帮助。
阅读全文
摘要:这样,这个信息过滤器既引入了微博客的实时性,又抑制了它的过度泛滥,还参考了Social Media用户在原体系中的活跃度、受欢迎程度等指标,能有效地摒弃质量不高的社会化媒体用户,算法不复杂,最终达到一个较好的过滤效果和效率。
阅读全文
摘要:不过,第一它们都没办法让你只看华人发的图,第二毕竟那只是Twitpic而已。
想了想,做这么一个东西其实很容易,但只监测 Twitpic 的图,应用点有局限性。
so,稍微扩展一下,鼓捣了几个小时,目前的 玩聚PP 服务可以支持对 Twitter 上传播的
* Twitpic ;
* Flickr ;
图片地址进行监测,把那些正在热播或者评论最多的热图找出来,并列出缩略图。
阅读全文
摘要:锐推榜针对“始发消息中含RT字样但并不是锐推”的情况,将自动在上榜消息前把找到的第一个消息发送者的用户帐号按照“RT @first_rtuser_id ”的格式加上,这样大家就不会误认为是 @rtmeme 在发推或评论了。这样做的缺点就是,@rtmeme 本来可以在锐推传播路线图上处于第二传播梯队,现在不得不变成第三传播梯队。
阅读全文
摘要:那么,从每一次转发中提取转发用户名以及转发顺序,加以合并统计,即可得到每一条上榜消息的传播总路线图。
阅读全文
摘要:那么,通过测量微转发(即Twitter术语中的“retweet(锐推)”,饭否术语中的“转发”)行动中的转发用户名,我们可以很容易获知在微传播过程中最核心节点、最频繁被锐推的关键用户。
于是这就是:热门锐推用户榜,只统计一周内的关键传播节点,一小时更新一次榜单。
阅读全文