随笔分类 - 语义应用
摘要:如今有小伙伴看了当时这个产品的截图,觉得哎呀呀技术不错嘛,准吗?后来怎么样了?故事的开头我们猜到了,故事的结尾嘛……
阅读全文
摘要:先介绍一下SimHash处理短文本合并重复的效果,再介绍一下2009年2月份我们做Twitter锐推榜时是如何做的。
阅读全文
摘要:前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起。下面着重说一下在现如今如何做个性化阅读。
阅读全文
摘要:现在再讲讲个性化阅读的过去、现在和未来,也算是这个话题的延续。
阅读全文
摘要:这个算法的解释参见我的文章:《Hacker News与Reddit的算法比较》。
阅读全文
摘要:很少转载其他人的博文,但此位来自于QQ阅读团队的“啃饼随笔”博客,一直在撰写AI、文本挖掘、文本分类以及一些方法论方面的心得体会,尤其是本月初在玩聚网被连续关闭(第一财经周刊用封面故事《保证书的世界》报道了此事)(我也荣幸地成为了“北京开关厂厂长”)之后,啃饼博客针对玩聚网写了案例分析,把玩聚网创建以来的技术和产品路线做了一个回顾,也算是为玩聚网支持者和我们做了一个精彩点评。
阅读全文
摘要:Amir Salihefendic(他是Plurk、Todoist的Co-Founder)在今年10月份撰文《How Hacker News ranking algorithm works 》完整地解释了Hacker News的Ranking算法,从中我们才得以知道那个神秘的“1.5”是什么。稍后我们还会拿这个排序规则与Reddit的排序规则做对比。
阅读全文
摘要:因此设置一个转发水准度的阈值,比如要求每条上榜消息的转发水准度大于0.2,就能避免大明星、名人、人气王们随随便便发条消息就能上榜。
阅读全文
摘要:简单介绍下我们这个榜单与新浪自己的热门转发榜区别:
微博锐推榜 将无视明星推名人推,更关注草根推,更关注社会民生推,屏蔽无营养推。
微博锐推榜 将聚合以新浪微博为首的国内各大微博网站的热门转发消息。
阅读全文
摘要:Social Computing Lab 最近发布了一个研究报告,其中一个结论是:名气和影响力没什么关联,比人们期望的弱得多;名气和影响力是两码事,关注者多并不等于有影响力,重要的是有多少人愿意转发你的 Tweet 。
阅读全文
摘要:Cutt.com在组织资讯时,我把它划分到Topic Engine一类,暂且不谈它的阅读模式和群体智慧。(Updated:我拼写错误,应该是“王靖雯”,这样就可以找到王菲)
阅读全文
摘要:原文地址:http://aimotion.blogspot.com/2010/07/working-on-sentiment-analysis-on.html
虽然是讲葡萄牙语下的情感分析,但作为一个入门指导也有可看之处。
阅读全文
摘要:Twitter 提供了两种 Streaming 接口,让第三方可以省却轮询,由 Twitter 主动把合适的数据推送过来,近乎实时。
阅读全文
摘要:主要通过三种方式。当然,算上各种公开的 twitter 第三方Proxy API ,会更多。
由于每一种方式都有请求频率限制,所以建议最终程序混合这三种方法,要么随机选择其一,要么按优先级逐次访问,如果访问不通,立刻切换到下一种。
阅读全文
浙公网安备 33010602011771号