老兵笔记-郑昀

参与软件开发这些年来，不断地遇到新领域新知识点，屡屡感受到新进入者的迷惑和彷徨，所以对遇到的每一个问题都详细记录问题现象、解决思路以及解决方案，并在blog中留下印迹，以备他日有心人google之而知之。
你们的新手之痛，你们的新业务发展之初的思路混沌，我都感同身受，所以欢迎和我一起探讨，知无不言言无不尽。

随笔分类 - 语义应用

04-WebFinger的利用 | 02.技术预研 | Social

摘要：Kuber 的 SocialBadge 还利用了 WebFinger ，从而可以根据用户输入的 Email 地址获取它的关联信息。当然 Kuber 还是走 Social Graph 来得到关联信息，因为 WebFinger 的数据能被 Social Graph 调用。阅读全文

posted @ 2010-05-26 13:57 老兵笔记阅读(1642) 评论(0) 推荐(0)

01-学习 Kuber 的 SocialBadge 好榜样 | 02.技术预研 | Social

摘要：最近 Kuber 推出了 SocialBadge ，是利用 google social graph api 做的。 SocialBadge 算是社会化推荐封闭社区的预研 demo 了。有了这个雏形，面向全球 Social 重度用户的个性化推荐计算有了可能。阅读全文

posted @ 2010-05-25 00:38 老兵笔记阅读(1472) 评论(0) 推荐(0)

Hunch：自动问答和决策机

摘要：可以认为这是一个理想的自动问答机器，利用协同过滤原理和语义技术，同时又有人工编辑审核问题和答案保证机器学习的质量。阅读全文

posted @ 2010-03-08 16:20 老兵笔记阅读(3976) 评论(0) 推荐(0)

实时Web数据的实时分析

摘要：实时分析大致有几种。阅读全文

posted @ 2010-03-06 21:53 老兵笔记阅读(8787) 评论(0) 推荐(0)

热推榜单的遏制策略

摘要：而从人类的感觉上，至少要能有几个标签，比如名词、动词、形容词等，才能证明一个tweet可能包含有一定信息量，值得被传播。所以强制要求有N个标签被检测到的规则，恰好能逼近这种人类的认知。阅读全文

posted @ 2010-01-23 23:14 老兵笔记阅读(4654) 评论(0) 推荐(1)

大中华之事件监测

摘要：大致的框架就是这样。玩聚HOT还在内测中（所以暂不提供RSS和微博帐号），不排除打散逻辑重新组合，但基本哲学应该就是这些了。阅读全文

posted @ 2010-01-18 03:36 老兵笔记阅读(3509) 评论(0) 推荐(0)

谈热文榜的自动去重

摘要：现在的重复内容检测逻辑是：首先对文章内容较长的，是基于Shingle的重复检测办法；其次对文章很短的，比如cnBeta摘要输出的RSS内容，比如Solidot，比如南方报业旗下的RSS内容，先提取标签，然后计算文章的标签相似度。这两种办法算起来很快，但未必总能检测出来重复，继续积累吧。阅读全文

posted @ 2010-01-07 01:00 老兵笔记阅读(2738) 评论(0) 推荐(1)

Popular榜单能做到小众化吗？

摘要：leondellee抱怨说：“玩聚SR 最近老是有 N 多的Solidot、cnBeta、瘾科技上榜，就不能调整下阈值么... ” 阅读全文

posted @ 2009-11-20 00:22 老兵笔记阅读(2385) 评论(0) 推荐(0)

锐推榜的平衡策略

摘要：锐推榜上榜阈值是否需要与Followers数目成正比？为何有时锐推榜删除转发第一人的评论呢？阅读全文

posted @ 2009-11-16 17:39 老兵笔记阅读(1057) 评论(0) 推荐(0)

少数人的智慧

摘要：即，选择一个高质量专家池，可以是你组建的团队，也可以是你选中的专家群，即使是相当小的一个群体，你的推荐系统也会有一个非常好的开端。少数人的智慧，此时此刻，可以解决推荐系统的冷启动问题。这也是玩聚SR最开始选择Experts Pool作为起源，一上来就有很好信息过滤器效果的原因。阅读全文

posted @ 2009-11-05 18:17 老兵笔记阅读(1535) 评论(0) 推荐(0)

SR采用PubSubHubbub协议实时接收GReaderSharedItems更新

摘要：早前写的注意事项。现放出来，也许对 PubSubHubbub 爱好者有帮助。阅读全文

posted @ 2009-10-29 19:45 老兵笔记阅读(1258) 评论(0) 推荐(0)

语义与特征

摘要：在语义的世界里，可以近似地说：万事万物都是特征提取。你只要找到特征，事情就好办。如果你找不到明确的特征，那么什么样的机器智能也无法准确地帮助你。多数时候，唯一的麻烦在于，你所认为的特征，实际上不是特征。。。阅读全文

posted @ 2009-10-27 17:23 老兵笔记阅读(1813) 评论(1) 推荐(0)

基于Google Reader发展起来的个性化推荐系统之三大问题

摘要：项亮在《关于GRSuggest的一些思考》中说：“去重的问题，这个问题在文章推荐中非常常见，很多文章都被转载N次了，经常发现一个几年前的老贴又被转载，其实我的推荐系统本身也是转载”。这个延伸出来的是3个常见问题，确实不好解决。阅读全文

posted @ 2009-10-04 01:50 老兵笔记阅读(8790) 评论(3) 推荐(0)