机器人会偷走你的饭碗吗——写作篇

译者:丫丫丫


詹森·科特克

我叫同事克里斯·威尔森(Chris Wilson)造一个机器人版的詹森·科特克(Jason Kottke)出来,因为真人版看起来时不时需要休息一下。科特克在1998年开通了他的同名博客,当时博客才刚刚兴起。网络世界从那以来发生了巨大的变化,不过Kottke.org网站一直保持着活力。我喜欢这个网站的一个原因是我和科特克有许多共同爱好:科学、技术、迈克尔·路易斯(Michael Lewis)、字体设计、《纽约客》、大卫·福斯特·华莱士(David Foster Wallace)、《监听风云》(The Wire),还有朝鲜。然而很多博客上都有这些东西。科特克的天才之处在于他能发现其他人没发现的链接。每天我都会在Twitter、Facebook、邮件以及成打成打的博客中看到成百上千的链接。但科特克每天上传的五六个链接里,总有那么两三个是我根本没见过的,而几乎每个链接都会把我带到网络中某个令人惊叹的角落。

网络上曾经有许多像科特克一样博主。在博客盛行时,20世纪90年代后期至2006年前后,像科特克这种“链接博客”的形式是主流。诸如约翰·巴格的“机器人智慧”(John Barger's Robot Wisdom)之类的博客对读者来说很有用——网络上每天都有新东西,而你进入一个链接博客就能找到最好的,那就让博主好好展现他们对于网络娴熟的挖掘能力吧。

现在也还有几个人气很旺的链接博客:Boing Boing(主要跟踪互联网的各类网页,并在网页上贴出有趣的网站链接,供读者点击接入),Daring Fire (知名博客)和The Drudge Report(一家新闻集合网站)是公认的典范。但这种网站形式正在走下坡路。比如,巴格现在就不写博客了,他转去写微博,并且利用他的RSS阅读器分享链接。诸如Reddit、Digg、Hacker News等网站都允许读者上传链接,并且通过投票来进行排行。如需其它服务,就像是查找博客、Twitter和Facebook上发布的最流行的东西,加比·里维拉(Gabe Riveraa)的 TechmemeMemeorandumMediagazer等网站都能提供。一天好几次我都收到Summify发来的邮件,这是一项很棒的服务,它会将Twitter上我关注的人分享最多的链接发给我。科特克现在博文更新得少了,他把更多的时间花在建立名为“Stellar”的链接收集服务器上,这将带给你Twitter、Flickr、You Tube和Vimeo上人们最喜欢的东西。

为什么这些新的运作系统取代了科特克一类的博客?原因很明显。手工版链接博客取决于一个,或者几个人给无穷无尽的新信息分类的能力。“总有那么些天,你真的不想干了,”科特克说。“每天都要看那么多东西,基本上都差不多——要不都一样有趣,要不都一样无聊。很难保持那种发掘的劲头,几乎找不到你从没见过的东西。从开始算起,我已经上传了1.5万,可能2万条链接。我一直在不断缩小那些新鲜而有趣的内容的范围。”

用计算机技术术语来说,科特克的博客不可扩展,没有上规模。这有点惭愧。收集网络热文的服务系统很是有用,但它们缺乏编辑性。Techmeme和Summify所罗列的链接仅代表网络中一大群人的信息偏好。而科特克的博客内容却是一个人不可不看的。网络上应兼具这两种类型的链接整合,但我还是希望看到更多人开通精心编辑的、条理清晰的链接博客。问题在于,这么难做的一件事情,怎么才能做大呢?

机器特克(Robbotke)应运而生。最近几周,克里斯·威尔逊(Chris Wilson)一直在构造一个用于自动发布链接的机器,这些链接很可能会出现在Kottke.org上。机器特克并不是来取代真科特克的;我们只是想得到詹森·科特克每天可能会上传的链接。

你可以点这儿体验下机器特克。它是怎么工作的呢?我们先是一点点地扒詹森·科特克每天可能看的资源——所有他发布过的链接的来源网站,以及他在Twitter上关注的每一个人的分享。难度最大的是从机器特克所收集的内容中选出最好的、最符合科特克风格的链接。好在真人科特克对其发布的内容做了精心分类,标注了关键词,这对我们很有帮助。每当机器特克找到一个链接,它会根据它所知道的科特克喜欢的话题进行搜索——找到的越多,文章的排名就越靠前。

搜索结果喜人:就在我写这些内容的这会儿,机器特克上排在首位的是一段科学探秘的视频,讲的是自行车如何在行进过程中,即使无人驾驶也可以保持平衡。机器特克有时也会严重跑题:今天机器特克推荐的链接还包括2010年的《华盛顿邮报》有关伊拉克战争花销的专栏(对于科特克来说太陈旧、太过于政治化),迈克尔·摩尔(Michael Moore)的访谈(也过于政治化),以及犬儒-C(Cynical-C)博客的流量(噢,这完全违背了我的初衷)。

我的结论是:机器特克远非完美,但也可圈可点。再努把力,多来点人工智能的专业知识,我相信机器特克胜出的机会还是挺多的。

当问及詹森·科特克的看法时,他回答地很巧妙。“嗯,”他停顿了几秒钟,说,“我觉得有些还不错,有些就差了点。最大的问题在于链接并不是最最必要的因素。人们跟我说,他们喜欢我的网站是冲着我对于这些链接的评论——怎样呈现这些链接,用什么方式打动人心。机器特克在这点上差很多。”

科特克说得很对。机器特克不会写评论,不会加标题,不会剪辑文中精华。应该说,它“目前“还不会做这些。我们需要大家的帮助来完善机器特克。如果你精通编码并对人工智能和媒体感兴趣,请联系*克里斯·威尔森(Chris Wilson),帮我们看看机器特克的源程序吧。(注:源代码用的是Python)(*原文有链接)

我们需要大家的帮助。因为真人科特克发文越来越慢了。“我之所以开始建立Stellar,是因为上传博文基本上透支了我所有精力,”他说。2006和2007年间,几乎所有醒着的时候,他都在上网搜链接,常常弄得灰心丧气。“后来,大概六到八个月的样子,我的工作效率突然提高了,”科特克说。他把这归因于经验——“我累计搜索时间大概有1万小时”,以及新型工具——比如Twitter。“我发现可以用更少的时间更新网页——现在每天我只花几个小时在Kottke.org网站上,”他说。“现在内容少了,每个链接下我所写的东西也少了,而且我也不再像以前那样对一些有趣的内容进行深度研究了。”

当我问他是否计划关闭Kottke.org网站时,他含糊其词。“我可能不会再把网站当做全职工作来做,但我不会停止发博文,”他说。“我要对网站读者负责,而且写博客也是我喜欢做的事,只是不再喜欢整天泡在博客上。”

那么,机器特克的优点恰恰在于:它不知疲倦。

***

在本系列中,我一直都在关注能够代替人类进行高技能作业的机器。我谈到了我父亲的职业——药剂师,还有我妻子的医学专业——病理学。现在是时候好好照照镜子面对现实了。作为一个作家,我喜欢把自己的这种写作能力看作人类的独门绝技。我有自己的专栏,写些读者关心的事,我试图用文字激发人们的情感,或高兴,或惊讶,或愤怒。机器现在还不能完成这么有创造性的工作。但随着我对自动化新闻报道的深入探索,以及我们在机器特克上的收获,我发现我的工作对机器人来说好像也不是不可能完成的任务。

每个工作日的上午我都在重复同样的事情。首先,登录六七个科技新闻网站,打开几十篇文章。我会迅速地浏览每篇文章的标题,看一看内容,然后脑子里开始想:“它够不够有趣?如果不够,跳过”。遇到吸引我的内容时,又在头脑中进行另一番斗争:“我能够找到个独特的视角么?会有读者关心这个问题么?”这些程序是无意识的,有时也未必是按部就班的。我常常会被邮件或者电话打断。如果头一天整晚都在照顾小宝宝,我可能也就在Facebook上打发打发时间,而不是专心找可以写的题材。看吧,这就是人的弱点。假如我是个机器人,我将一丝不苟地遵循指令,说不定还能写出更好的文章来。

这也是如今自动化新闻报道的理论依据:不管我们承认与否,很多撰稿人在工作时,或多或少的都循着同样的步子。我们是怎样写出一篇通讯社新闻的?最重要的信息打头阵——陪审团发现什么证据啦,谁被杀啦,哪个队赢啦;接下来谈谈细节。甚至连品味较高的文章也有自己的结构框架。前《纽约客》撰稿人丹·鲍姆(Dan Baum)曾透露这本知名杂志的编辑给他的一点建议:"你想用什么叙述方式都可以,但是你要知道,当我拿到你的稿子,还是会把它们打乱然后重新按时间顺序排列。"所以,《纽约客》文章的模板是:1)描述先发生了什么事;2)描述接下来发生了什么事;3)如果还没讲完,重复步骤2);如果讲完了,文章到此结束。

目前而言,没有哪台计算机能写出符合《纽约客》水平的文章。但机器能为人们做很多生搬硬套的琐事。来看看网站FriscoFan.com上的一则简报吧,每次旧金山巨人队(San Francisco Giants)有比赛,这个网站都会报道。

巨人队3-1横扫洛基队

瑞恩·沃格松(Ryan Vogelsong)七局里面表现完美,第三局迈克·方特诺特(Mike Fontenot)全取三分,确定了巨人队的领先地位,旧金山3-1轻取科罗拉多。

第三局接近尾声时双方还是没有任何得分,之后方特诺特接到对方先发投手朱莱斯·夏辛(Jhoulys Chacin)来球,打出一记全垒打,使得安德斯·托瑞斯(Andres Torres)和沃格松(Vogelsong)跑垒得分,巨人队抓住机会掌握了比赛局势。

一次高水平比赛后,本年度沃格松投球成功率提高到13-7。比赛中他四次安打均未失分,四次三振,无保送上垒。剩下2/3的比赛圣地亚哥·卡西拉(Santiago Casilla)都在尝试补救,那是他那次赛季第六次这么做了,最后巨人队无安打无上垒,一人出局,无人保送。夏辛落后(11-14),八次击打中丢失了两次得分机会,三次三振,七局内无人上垒。

这篇新闻是由计算机编写的。其实在FriscoFan网站上的所有文章都是机器完成的。网站的创建公司是Automated Insights(前身为StatSheet,一家专门从事运动比赛数据统计服务的厂商,成立于2007年11月),公司旗下有将近400个FriscoFan这样的网站,每一个都专门报道美国职业棒球联盟(MLB)的比赛和美国大学体育总会(NCAA)篮球队的新闻。Automated Inshights生成文章的过程和人写稿子是一样的。先浏览所有数据。然后选择一个比较合适的口吻来描述——譬如,一个家乡球迷寄予厚望的球员或球队输了比赛,“作者”的文字读起来也会垂头丧气。接下来,计算机会根据比分查阅一个巨大的词组数据库,寻找合适的语言来编写这篇文章。如果某个球队轻松击败了对手,你就会看到类似“巨人队横扫洛基队”这样的标题。


Automated Insights执行总裁罗宾·艾伦

Automated Insights的文章虽然几乎没有独创性可言,但也并没有很明显的机器痕迹。(我曾看过很多人写的文章,还没这机器写的连贯呢。)而机器作文的廉价和省时也弥补了它在独创性上的缺陷。公司的创建者兼执行总裁罗宾·艾伦(Robbie Allen)雇了几个写作好手,他们的工作就是每天绞尽脑汁想那些诸如“top-notch outing(高水平比赛)”的词,然后把它们放进数据库里。通过自动化,艾伦可以把这些人的努力转化成数目可观的文章。“去年大学篮球季期间,我们推出了64,000篇文章,”艾伦说:“我算过,这相当于一百个作者每天写四篇。”

Automated Insights想做的不只是用机器取代人类写作,而是超越人类。因为体育新闻撰稿人的要价都很高,你永远不可能雇一个人跟踪报道某个没多少人关注的小队。然而Automated Insights可以做到跟进每一个球队。下半年它还会扩展其他业务——公司刚刚得到一大笔专用资金——到时,它还能报道每家公司的股市波动,或报道美国每个小镇的所有天气变化。公司的主要竞争对手Narrative Science也有同样的远大抱负。

然而现在艾伦的策略还欠缺一点:创造性。尽管我承认我的工作有程序可循,不过我的专栏也有很多计算机无法掌握的元素——比如令人眼前一亮的文字游戏,难以抗拒的论据,还有针锋相对的措辞。今年我在《Slate》上的两篇最受欢迎的文章灵感都并非来自枯燥的网络搜索,它们是在无意之间闪现在我的脑海里的——其中一篇是抱怨人们总是错误地在句号后面用了两个空格,另外一篇痛斥势利小人把信息泄露给国家公共电台。(这种灵感每星期在我洗澡的时候至少有那么一次。)

计算机能想出这样的话题么?目前还不行。如果我们要把人类的创造力定义为某种娱乐别人的能力,机器似乎还不适合完成这项任务——因为计算机最擅长的就是复制,而不是创造全新的东西。软件可以把“top-notch outing”这样的词用到文章中,但是它不可能因为觉得“top-notch outing”这种说法很无趣而用另外的词代替它。

在我咨询过的计算机和语言专家中,没人能告诉我如何让计算机发展实现从模仿到创新的飞跃。但是他们都指出最近计算机发展在这方面有所进步。谷歌的一个团队正在尝试教计算机翻译诗歌——即便对人类来说也是个难题,目前实验已取得了一些进展。同时,华盛顿大学的研究员克洛伊·基顿(Chloe Kiddon)和尤里·布朗(Yuriy Brun)成功教会机器在恰当的时机说出——“她就这么说的!”

看看计算机如今的成果及其发展之迅速,Automated Insights的艾伦如今非常确信,机器发展是不可能停下脚步的。他说:“因为这是算法问题,它只会随着时间的迁移不断进步。未来五年,我们的机器写出的文章会和外面最棒的体育报道一样好。到时候,人类可就没多少优势了。”艾伦的话到底会不会成真,我很难想象。不过话说回来,五年对于计算机来说真的是很长,要跟他打赌可不太明智。

 
 
转自  http://select.yeeyan.org/view/231604/337390
posted @ 2013-01-02 11:00  renly2013  阅读(215)  评论(0编辑  收藏  举报