2012.12.11 - 例会中关于知识图谱的交流

Posted on 2013-02-18 15:51  SnakeHunt2012  阅读(157)  评论(0)    收藏  举报

这篇文章来自SCIR-TM组例会内部的交流邮件

秦老师我想知道现在的搜索引擎有没有发展到可以根据你的搜索过程进行机器学习的程度。这方面现在有成型的算法或者理论么?有人在做这件事情么?

刚才大概读了一下Google的这个项目,这个搜索方式很像是老AI那时候的风格,当年。

突然觉得Google这么做别有用心,他们现在是想让搜索引擎能按照人脑方式做搜索,将来就有可能将搜索引擎做成脑。

眨一看好像就是普通的搜索,跟广告似的,但这跟广告性质完全不一样,广告是你点进去就完事了,而这个你点一个完后还得点。你想你搜个东西,搜到之后他给你 列出一堆关联吧,其实这个时候你的脑跟他在做同样的工作,你的脑在联想,因为你搜的这个东西是你提取出来的关键词,你想搜到的结果跟这个此时不匹配的,你 想用这个词像激发你的脑一样激发Google,换句话说是提示Google希望他向你一样联想出他想要的东西。那好,现在Google他现在简单地尝试着 给你一些他的联想,这些联想初期可能就是一些简单的匹配相似词语,但是你得选啊,你要是在这里面看到了跟你的想法一样的,也就是与你的联想符合的结果,你 一定会点进去的,因为那是你的目标,你这一点不是白点,你点完就被记录了,说某某时候,这个关键词或图片跟内个关键词或图片发生了一次联想。你一次联想不 够啊,你点击去之后他又提示你了,你又点进去,这样他会学习你联想的方法,这是在学习你思考的方法。

现在Google不仅想用机器学习为你服务,还想用你的脑袋为他的引擎服务,这样正反馈。


炸一看这好像跟广告似的,但这次意义完全不同。
之 前的搜索引擎是一次就达到目的,搜索两次你不知道他们之间的关系,而且次数太少,进入人家的网站就获得不了其他信息了,而现在不一样。比如说,你在输入框 中输入一个词,其实你的这个次跟你的想法不完全匹配,这个词是你的想法提炼出来的,换句话说是你的一长句话甚至在大脑内哈你没形成话就提炼出来的,你心里 有目标,希望他能根据这个关键词联想出你的脑袋里这个词背后的东西。而这时候浏览器也没干别的,他不是简单的相似词匹配,而是进行一种模拟联想,发展初期 这种联想可能就是就简单的关键词抽取,然后从别的词条上匹配相似次,但是他给你摆出一堆图片,这些图片不是直接到达别的网站,而是进一步搜索,那现在你看 到这堆图片了,如果有跟你的联想一样的你就会点进去,进行下一步搜索。既然你点了,就说名这个词条跟你的联想的匹配程度是最大的,相比与其他图片,他会记 住这些信息。你这一点不要紧,他就是在偷偷学习你联想算法,因为你觉得这幅图片更有可能达到目的,所以他会几下来你的神经是怎么一步一步找到答案的。

引擎会学习这个过程,即使你是漫无目的的搜索,他也会学习你怎么进行白日梦,而且这个时候最要紧。我的一个心理老师告诉过我,我们也做过这样的实验,人的潜 意识是连自己都不知道的,因为意识对潜意识有着一种回避机理,而作为外人,怎么看到一个人的潜意识呢?就让他自由联想,毫无束缚的自由联想,虽然看上去你 是随便想的,但是按照精神分析的观点,任何人不可能做完全随机的联想,这就好像横行对行星的作用一样,他以为自己是在自由地做匀速直线运动,但悲剧地是他 实际上是被一个横星拽着,一直是在围绕者潜意识在运动,永远走不不出自己心里的这个定势,即便他在可以做离心运动,他也是在做这个定圆心的有规则运动,这 个自认为自由的联想是有规律的,而这个潜意识还不仅仅是恒星而已,这是一个黑洞,因为潜意识很阴险,他会不让你知道是他让你这么做的,你的任何一个自认为 随意的动作其实都不是随意的,都是他在做,你看《精神分析导论》就会明白这一点。你在清醒的时候潜意识是严格保护自己不被人看见的,你越清醒越是这样。而 你在做白日梦的时候却是你潜意识暴露的最佳时间,所以精神分析的通常手段就是问你晚上做过什么梦,或者给你根笔,让你随便写。我们就做过这样的实验,我们 就联想了十几个词,老师就可以分析得很准确了。

这样的话,搜索引擎就会知道,某某时间,这个词条跟你选的这个图片发生一次正确的联想,紧接着这个图片又向另一幅图片产生联想。这样进行模型的训练,就而就是他就摆脱简单的相似词匹配,就 像之前我跟刘老师提出的那个想法一样,Google想训练这个模型,而他的资源与我们能喂给主页机器人的资料可多多了,而且这充份利用和学习了人的联想线 索。

我突然感觉这次Google特别别有用心,他现在是想尝试替人类联想,他帮你 联想,你也在帮他学习联想,他想让你来训练这个模型。慢慢的他会越来越知道怎么进行联想,他能提人类联想,那他就有一天就可以成为脑,他有无限的资料能学 习,只不过不会学习,等他学会了怎么学习,就不用我们教他怎么学了。

其实我觉得搜 索引擎一直都可以这么做,只不过这次他加强了力度,想以图片为切入点找找门路,淡化目的性,因为我们平常搜资料目标性太强,引擎获得我们目标的工作太困 难,所以只获得我们有目标的联想而没有目标对他的成长来说好处并不大,图片就不一样,一般我们闲的没事才翻图片,这时候目标不是很强,这时候的资料对引擎 来说养分就比较好吸收。

这是一个特别危险的想法,危险到我都开始感兴趣了。