随笔分类 - 语义应用
摘要:ZapTxt的提醒姗姗来迟,都已经设定了半个月了,才终于给我送过来一篇Alert。
我在上一篇《个性化阅读的过去和未来【一】》中提到:“Zaptxt,也是同样的思路,搜索范围也是非常广,从你指定的RSS Feed、新闻站点到招聘贴士,只要符合你的关键词,就可以筛选出来以某种方式投递给你。既可监视你的Feed列表,也可以专门监视特定网站。”
阅读全文
摘要:Connections Engine,是大势所趋,无论你是用人工做,还是机器做,都必须能够揭示出不同事物之间的关系。雷鸣的酷我早已经在这方面迈出一大步了,揭示了不同明星之间的关系甚至是远近程度,是国内Topic的先行者。
我们的尝试是基于过去大半年累计下来的数以万计的热点(不是文章,而是每天各个领域的主题自动聚合,社会的、娱乐的、财经的、电影的等等),经过自动分析而展现出来的这两种关系:
热点故事与人、组织之间的关系,具体的例子:刘德华被封杀,红楼选秀法律问题;
人、组织之间的关系,具体的例子:刘德华,陈晓旭,雅虎。
我们称之为“关联点”,一个技术性很强的术语。你可以在不同关联点、热点故事之间导航,看到他们为何有关系。每一个关联点就是一个Topic,这样把历史上所有的热点做了一个自动整合,形成了Topic Engine。这种Topic Engine就有点类似于搜索引擎的整合搜索,把某一个人物的搜索结果条理化、主题聚合化,使得人们阅读的时候直接看到事件、看到热点,而不是一篇一篇一页一页的孤零零需要人脑处理的资讯文章。
阅读全文
摘要:也希望我们在这个学习创业的过程中,能够既动手也动脑,象袁岳说的“当然如果动手者还擅长动脑,或者动脑者还擅长动手动脚则可蒙受上帝特别的祝福,但在这里最不可缺少的是行动,一切知识的真正创新和进步与行动而不只是思想本身密切相关。”
其实,我也是2005年就想做这件事了,但那时候因为移动数据领域的经验蛮多的而就是没做过互联网业务,所以瞻前顾后,呆在神州泰岳做了一年飞信。那么现在既然已经下决心动手开始做了,那就要知道“动手需要主意、勇气与行动本身,与思想相比,动手有更高的成本,也因为实际的行动要牵涉影响周围的环境,而需要与此相应的社会调适能力,动手因会引起一系列与此相应的后果而需要去面对”!
阅读全文
摘要:那么是否可以存在一个服务,象watchmojo所说的那样(News is Still a Wide Open Game),兼容并蓄,囊括编辑模式、机器智能模式、群众智慧模式,杀入新闻聚合服务领域呢?
对此,Google黑板报有一个注脚“Larry Page说,搜索就是发现内容…,而维基百科发现了一个更好的方法来组织信息。他似乎很喜欢这种同时使用人力、流程和机器的模型。所以这是另一项证据,表明谷歌正敞开胸怀,寻求可扩展的方法来利用人的力量。”
watchmojo给出的答案是“Topix + TechMeme + Digg”。
你的呢?
阅读全文
摘要:你是否每天经常访问许多站点,来跟踪你感兴趣的新闻或博客?
你订阅的Feed是否每天都有太多太多的文章,根本读不过来?
你需要保持敏锐的触觉,但它是不是花费了你太多时间?
阅读全文
摘要:离开了读者的主动参与,digg仅仅是一个空中花园。
而玩聚(OneJoo)本身就有爬虫四处搜集中文博客世界和论坛世界的文章,抓回来后用文本挖掘算法计算出热点话题以及时间脉络,在没有用户参与到玩聚(OneJoo)网站内容建设之前,已经每天能够量产各个领域的成百热门话题了,以此来吸引读者。然后才来用互动手段争取那10%的参与者留下来,并刺激89%的潜水者浮出水面。
玩聚(OneJoo)已经靠自己把棍立起来了,并且涂上了蜂蜜,剩下的事情就是召唤蚂蚁们找到它们感兴趣的棍了,然后进一步允许蚂蚁们自己立棍,玩聚帮他涂上蜂蜜。而digg提供了一个场子和比赛规则,希望用户把棍立起来。在原始积累期间,玩聚(OneJoo)的做法更有竞争优势。
阅读全文
摘要:由于以下三大原因,在中国,玩聚(OneJoo)将在信息过滤器上超越techmeme的成就:
第一点,techmeme、tailrank们一旦算出一个话题,就此“凝固”,成为历史的一部分。既不会随着事件的不断演变而话题自生长,也不会随着历史人物的不断成长而围绕着这个人物而生长出不同的话题。人们看过一个话题之后,很难再次光临这个话题页面。
而玩聚则致力于解决“时间脉络”问题。
第二点,techmeme监控的是数以万计的精英博客以及新闻媒体,而在中国,各个领域中都藏龙卧虎,玩聚则致力于监控大多数有价值的中文博客,几百万甚至未来上千万的长尾。
第叁点,互动,还是互动,围绕话题,形成社区氛围,通过暗示、激励增加人们的参与度!
阅读全文
摘要:2006年3月,我开始寻找符合中国特色的meme engine之路,很快发现只有文本挖掘算法才能做这件事情。
博客内容的文本挖掘,在中国还有一个大问题要解决。博客比新闻要复杂得多得多。2006年9月,我和中科院软件所的张俊林张博士等一起创建了玩聚网,瞄准信息过滤器和人过滤器的未来大方向。
阅读全文
摘要:玩聚,一直在路上,朝着成为中国的 techmeme并超越techmeme进一步成为互联网用户的信息过滤器的方向稳步前进。
我们上星期再次优化了互联网热点新发现算法,确实精度提高了很多,可以从爬虫抓取到分类到输出热点整个流程不用任何人工不用编辑审核就直接放出来给普通用户看了。
现在6月8日、10日、11、12、13日这五天的热点就是高精度算法的结果,已经非常准了,目测比以前精度高了两倍到三倍。
敬请观看玩聚实验室效果:
http://www.onejoo.com:8000/
阅读全文
摘要:假定发掘粒度这个词,sayonly指三种含义:
发掘出你可能感兴趣阅读的人;
发掘出你可能感兴趣的主题【可能你知道这个主题,也可能你还不知道它的存在,比如新热点,比如久远的主题】
发掘出你可能感兴趣阅读的文章。
阅读全文
摘要:玩聚上线运行:
http://www.onejoo.com/
你可以认为这是一个Web3.0的探索雏形,还在路上。
玩聚的大方向是:
如何更快、更准地帮助用户找到他所需要的信息。
这也就是以前搜索引擎诞生的原因。但搜索引擎仅仅是一种解决办法,而且还远不完美。
这将是玩聚致力的方向,现在的外在形式还不足以展现这些理念,但也不远了。
玩聚的两个理念是:
按主题重组织全网内容;
按人重组织全网内容。
我曾经在《技术英雄会【四】:也谈如何发掘到需要的内容和英雄 》中提到了三种常见解决办法。
解决这个需求还有第四种方式:
“写作即交互”模式:博客/论坛的写作即交互,分析写作即可获知用户兴趣、获知互联网热点,更精准地推送内容。
这就是Web3.0玩互联网内容和用户的精髓之所在。
玩转这些需要一项特殊技能:自然语言处理和文本挖掘能力。
虽然掌握这两种技能的网站不算太少,但能做到我们这种层面的寥寥无几。
虽然玩
阅读全文
浙公网安备 33010602011771号