随笔分类 - 语义

摘要:先介绍一下SimHash处理短文本合并重复的效果,再介绍一下2009年2月份我们做Twitter锐推榜时是如何做的。 阅读全文
posted @ 2012-06-12 18:05 旁观者 阅读 (13455) | 评论 (0) 编辑
摘要:前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起。下面着重说一下在现如今如何做个性化阅读。 阅读全文
posted @ 2011-04-17 23:47 旁观者 阅读 (7465) | 评论 (2) 编辑
摘要:集中回答一下网友对互联网信息监测的提问。 阅读全文
posted @ 2011-03-07 00:31 旁观者 阅读 (1853) | 评论 (0) 编辑
摘要:构建一个memeTracker应用,如果想要尽量全地涵盖互联网热点,从新浪微博、Twitter等国内外微博客网站的实时信息流出发算是一个比较省力的做法。 阅读全文
posted @ 2010-12-21 20:44 旁观者 阅读 (5194) | 评论 (1) 编辑
摘要:Cutt.com在组织资讯时,我把它划分到Topic Engine一类,暂且不谈它的阅读模式和群体智慧。(Updated:我拼写错误,应该是“王靖雯”,这样就可以找到王菲) 阅读全文
posted @ 2010-07-27 00:54 旁观者 阅读 (6430) | 评论 (4) 编辑
摘要:原文地址:http://aimotion.blogspot.com/2010/07/working-on-sentiment-analysis-on.html 虽然是讲葡萄牙语下的情感分析,但作为一个入门指导也有可看之处。 阅读全文
posted @ 2010-07-22 00:55 旁观者 阅读 (2508) | 评论 (0) 编辑
摘要:可以认为这是一个理想的自动问答机器,利用协同过滤原理和语义技术,同时又有人工编辑审核问题和答案保证机器学习的质量。 阅读全文
posted @ 2010-03-08 16:20 旁观者 阅读 (3359) | 评论 (0) 编辑
摘要:实时分析大致有几种。 阅读全文
posted @ 2010-03-06 21:53 旁观者 阅读 (8255) | 评论 (0) 编辑
摘要:而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。 阅读全文
posted @ 2010-01-23 23:14 旁观者 阅读 (4485) | 评论 (0) 编辑
摘要:大致的框架就是这样。玩聚HOT还在内测中(所以暂不提供RSS和微博帐号),不排除打散逻辑重新组合,但基本哲学应该就是这些了。 阅读全文
posted @ 2010-01-18 03:36 旁观者 阅读 (3343) | 评论 (0) 编辑
摘要:现在的重复内容检测逻辑是: 首先对文章内容较长的,是基于Shingle的重复检测办法; 其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。 这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。 阅读全文
posted @ 2010-01-07 01:00 旁观者 阅读 (2433) | 评论 (0) 编辑
摘要:在语义的世界里,可以近似地说:万事万物都是特征提取。 你只要找到特征,事情就好办。 如果你找不到明确的特征,那么什么样的机器智能也无法准确地帮助你。 多数时候,唯一的麻烦在于,你所认为的特征,实际上不是特征。。。 阅读全文
posted @ 2009-10-27 17:23 旁观者 阅读 (1253) | 评论 (1) 编辑
摘要:下面会罗列 Finding Better Experts/Friends 的五大手法,请注意,前面提到的“写手”只是Experts的一小部分,每个垂直领域都会有很多专家,或声名显赫或不为人知或因复杂系统的默不作声而被隐藏。 阅读全文
posted @ 2009-09-03 02:16 旁观者 阅读 (8528) | 评论 (4) 编辑
摘要:社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值。 阅读全文
posted @ 2009-08-31 00:26 旁观者 阅读 (7652) | 评论 (0) 编辑
摘要:以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。 阅读全文
posted @ 2009-08-30 19:12 旁观者 阅读 (5540) | 评论 (0) 编辑
摘要:好了,就是这些了。这就是2009年7月和8月国外情感分析方向的一些进展。 阅读全文
posted @ 2009-08-19 20:21 旁观者 阅读 (5131) | 评论 (2) 编辑
摘要:舆情监测和口碑监测都属于一个路子。常有人问到自然语言处理技术在其中如何上手实用。下面简单说一下。 阅读全文
posted @ 2009-07-04 01:46 旁观者 阅读 (14699) | 评论 (0) 编辑
摘要:昨天,Techmeme宣布雇佣编辑了,是个女的。老外主要的担心在于客观不客观偏颇不偏颇上,这一点与我们国内的考虑大相径庭。但Gabe的反驳也很有力:Techmeme从来都不是客观的,因为人生就不公平!Techmeme将总会带有偏颇,因为是人建造了它!(听上去是不是像keso?) 阅读全文
posted @ 2008-12-04 14:00 旁观者 阅读 (1129) | 评论 (0) 编辑
摘要:和有道的推广人员聊,我反映的也是大家做研发最经常遇到的问题。由于新闻聚合的根本涉及自然语言处理的文本相似性计算,所以各种新闻聚合产品也都是一个毛病(跟我们最开始的玩聚热点一样)。 阅读全文
posted @ 2008-09-21 17:18 旁观者 阅读 (4081) | 评论 (2) 编辑
摘要:答某位网友的询问。 语义,是一条艰难的旅程。 语义,只能做到一些特定的事情而已,算法的正确率是有限的,到了某种精度后,再提高一点点就需要花费大量的时间和耐性。 但,它是一个没有天花板的空间。 这里水很深,全球高手如云,但一旦进入,就上不封顶,有极大的发展空间。 它绝对不是一个人能做成的事情,需要很多人很多钱很多机器。 阅读全文
posted @ 2008-07-15 22:53 旁观者 阅读 (1123) | 评论 (0) 编辑
摘要: 这里有三个答案。 一个是,针对微软整个互联网体系的广告主的。简单地说,就是利用Powerset的语义技术加强Contextual Advertising(粗糙的翻译就是:上下文广告),提高微软互联网体系中的广告转化率。众所周知,Google拥有地球上最强的关联广告引擎,非 Yahoo!所能望其项背,并与之合作。不光是微软Live Search需要高转化率的Contextual Advertising,MSN、Live等都需要有这个武器,才能在未来的广告世界中勉强站住脚。想想看,Google最近的Google Trends流量分析、Ad Planner、雅虎谷歌广告合作等一系列大的小的布局,用不了几年工夫,估计就赢者通吃整个生物链了。 另一个是,针对搜索用户的。即Powerset的语义搜索是Google关键词搜索进化的下一步,理应提供给用户更高的用户搜索体验。这里,Powerset往往强调的是,它们能够更精准地体会用户搜索的意图,给出更符合用户需求的搜索结果。 这里容易被质疑的是,统计表明,目前搜 阅读全文
posted @ 2008-07-09 00:37 旁观者 阅读 (804) | 评论 (1) 编辑