机器人会偷走你的饭碗吗——写作篇

詹森·科特克

我叫同事克里斯·威尔森（Chris Wilson）造一个机器人版的詹森·科特克（Jason Kottke）出来，因为真人版看起来时不时需要休息一下。科特克在1998年开通了他的同名博客，当时博客才刚刚兴起。网络世界从那以来发生了巨大的变化，不过Kottke.org网站一直保持着活力。我喜欢这个网站的一个原因是我和科特克有许多共同爱好：科学、技术、迈克尔·路易斯（Michael Lewis）、字体设计、《纽约客》、大卫·福斯特·华莱士（David Foster Wallace）、《监听风云》（The Wire），还有朝鲜。然而很多博客上都有这些东西。科特克的天才之处在于他能发现其他人没发现的链接。每天我都会在Twitter、Facebook、邮件以及成打成打的博客中看到成百上千的链接。但科特克每天上传的五六个链接里，总有那么两三个是我根本没见过的，而几乎每个链接都会把我带到网络中某个令人惊叹的角落。

网络上曾经有许多像科特克一样博主。在博客盛行时，20世纪90年代后期至2006年前后，像科特克这种“链接博客”的形式是主流。诸如约翰·巴格的“机器人智慧”（John Barger's Robot Wisdom）之类的博客对读者来说很有用——网络上每天都有新东西，而你进入一个链接博客就能找到最好的，那就让博主好好展现他们对于网络娴熟的挖掘能力吧。

现在也还有几个人气很旺的链接博客：Boing Boing（主要跟踪互联网的各类网页，并在网页上贴出有趣的网站链接，供读者点击接入），Daring Fire （知名博客）和The Drudge Report（一家新闻集合网站）是公认的典范。但这种网站形式正在走下坡路。比如，巴格现在就不写博客了，他转去写微博，并且利用他的RSS阅读器分享链接。诸如Reddit、Digg、Hacker News等网站都允许读者上传链接，并且通过投票来进行排行。如需其它服务，就像是查找博客、Twitter和Facebook上发布的最流行的东西，加比·里维拉（Gabe Riveraa）的 Techmeme、Memeorandum和Mediagazer等网站都能提供。一天好几次我都收到Summify发来的邮件，这是一项很棒的服务，它会将Twitter上我关注的人分享最多的链接发给我。科特克现在博文更新得少了，他把更多的时间花在建立名为“Stellar”的链接收集服务器上，这将带给你Twitter、Flickr、You Tube和Vimeo上人们最喜欢的东西。

为什么这些新的运作系统取代了科特克一类的博客？原因很明显。手工版链接博客取决于一个，或者几个人给无穷无尽的新信息分类的能力。“总有那么些天，你真的不想干了，”科特克说。“每天都要看那么多东西，基本上都差不多——要不都一样有趣，要不都一样无聊。很难保持那种发掘的劲头，几乎找不到你从没见过的东西。从开始算起，我已经上传了1.5万，可能2万条链接。我一直在不断缩小那些新鲜而有趣的内容的范围。”

用计算机技术术语来说，科特克的博客不可扩展，没有上规模。这有点惭愧。收集网络热文的服务系统很是有用，但它们缺乏编辑性。Techmeme和Summify所罗列的链接仅代表网络中一大群人的信息偏好。而科特克的博客内容却是一个人不可不看的。网络上应兼具这两种类型的链接整合，但我还是希望看到更多人开通精心编辑的、条理清晰的链接博客。问题在于，这么难做的一件事情，怎么才能做大呢？

机器特克（Robbotke）应运而生。最近几周，克里斯·威尔逊（Chris Wilson）一直在构造一个用于自动发布链接的机器，这些链接很可能会出现在Kottke.org上。机器特克并不是来取代真科特克的；我们只是想得到詹森·科特克每天可能会上传的链接。

你可以点这儿体验下机器特克。它是怎么工作的呢？我们先是一点点地扒詹森·科特克每天可能看的资源——所有他发布过的链接的来源网站，以及他在Twitter上关注的每一个人的分享。难度最大的是从机器特克所收集的内容中选出最好的、最符合科特克风格的链接。好在真人科特克对其发布的内容做了精心分类，标注了关键词，这对我们很有帮助。每当机器特克找到一个链接，它会根据它所知道的科特克喜欢的话题进行搜索——找到的越多，文章的排名就越靠前。

搜索结果喜人：就在我写这些内容的这会儿，机器特克上排在首位的是一段科学探秘的视频，讲的是自行车如何在行进过程中，即使无人驾驶也可以保持平衡。机器特克有时也会严重跑题：今天机器特克推荐的链接还包括2010年的《华盛顿邮报》有关伊拉克战争花销的专栏（对于科特克来说太陈旧、太过于政治化），迈克尔·摩尔（Michael Moore）的访谈（也过于政治化），以及犬儒-C（Cynical-C）博客的流量（噢，这完全违背了我的初衷）。

我的结论是：机器特克远非完美，但也可圈可点。再努把力，多来点人工智能的专业知识，我相信机器特克胜出的机会还是挺多的。

当问及詹森·科特克的看法时，他回答地很巧妙。“嗯，”他停顿了几秒钟，说，“我觉得有些还不错，有些就差了点。最大的问题在于链接并不是最最必要的因素。人们跟我说，他们喜欢我的网站是冲着我对于这些链接的评论——怎样呈现这些链接，用什么方式打动人心。机器特克在这点上差很多。”

科特克说得很对。机器特克不会写评论，不会加标题，不会剪辑文中精华。应该说，它“目前“还不会做这些。我们需要大家的帮助来完善机器特克。如果你精通编码并对人工智能和媒体感兴趣，请联系*克里斯·威尔森（Chris Wilson），帮我们看看机器特克的源程序吧。（注：源代码用的是Python）（*原文有链接）

我们需要大家的帮助。因为真人科特克发文越来越慢了。“我之所以开始建立Stellar，是因为上传博文基本上透支了我所有精力，”他说。2006和2007年间，几乎所有醒着的时候，他都在上网搜链接，常常弄得灰心丧气。“后来，大概六到八个月的样子，我的工作效率突然提高了，”科特克说。他把这归因于经验——“我累计搜索时间大概有1万小时”，以及新型工具——比如Twitter。“我发现可以用更少的时间更新网页——现在每天我只花几个小时在Kottke.org网站上，”他说。“现在内容少了，每个链接下我所写的东西也少了，而且我也不再像以前那样对一些有趣的内容进行深度研究了。”

当我问他是否计划关闭Kottke.org网站时，他含糊其词。“我可能不会再把网站当做全职工作来做，但我不会停止发博文，”他说。“我要对网站读者负责，而且写博客也是我喜欢做的事，只是不再喜欢整天泡在博客上。”

那么，机器特克的优点恰恰在于：它不知疲倦。

***

在本系列中，我一直都在关注能够代替人类进行高技能作业的机器。我谈到了我父亲的职业——药剂师，还有我妻子的医学专业——病理学。现在是时候好好照照镜子面对现实了。作为一个作家，我喜欢把自己的这种写作能力看作人类的独门绝技。我有自己的专栏，写些读者关心的事，我试图用文字激发人们的情感，或高兴，或惊讶，或愤怒。机器现在还不能完成这么有创造性的工作。但随着我对自动化新闻报道的深入探索，以及我们在机器特克上的收获，我发现我的工作对机器人来说好像也不是不可能完成的任务。

每个工作日的上午我都在重复同样的事情。首先，登录六七个科技新闻网站，打开几十篇文章。我会迅速地浏览每篇文章的标题，看一看内容，然后脑子里开始想：“它够不够有趣？如果不够，跳过”。遇到吸引我的内容时，又在头脑中进行另一番斗争：“我能够找到个独特的视角么？会有读者关心这个问题么？”这些程序是无意识的，有时也未必是按部就班的。我常常会被邮件或者电话打断。如果头一天整晚都在照顾小宝宝，我可能也就在Facebook上打发打发时间，而不是专心找可以写的题材。看吧，这就是人的弱点。假如我是个机器人，我将一丝不苟地遵循指令，说不定还能写出更好的文章来。

这也是如今自动化新闻报道的理论依据：不管我们承认与否，很多撰稿人在工作时，或多或少的都循着同样的步子。我们是怎样写出一篇通讯社新闻的？最重要的信息打头阵——陪审团发现什么证据啦，谁被杀啦，哪个队赢啦；接下来谈谈细节。甚至连品味较高的文章也有自己的结构框架。前《纽约客》撰稿人丹·鲍姆（Dan Baum）曾透露这本知名杂志的编辑给他的一点建议："你想用什么叙述方式都可以，但是你要知道，当我拿到你的稿子，还是会把它们打乱然后重新按时间顺序排列。"所以，《纽约客》文章的模板是：1）描述先发生了什么事；2）描述接下来发生了什么事；3）如果还没讲完，重复步骤2）；如果讲完了，文章到此结束。

目前而言，没有哪台计算机能写出符合《纽约客》水平的文章。但机器能为人们做很多生搬硬套的琐事。来看看网站FriscoFan.com上的一则简报吧，每次旧金山巨人队（San Francisco Giants）有比赛，这个网站都会报道。

巨人队3-1横扫洛基队

瑞恩·沃格松（Ryan Vogelsong）七局里面表现完美，第三局迈克·方特诺特（Mike Fontenot）全取三分，确定了巨人队的领先地位，旧金山3-1轻取科罗拉多。

第三局接近尾声时双方还是没有任何得分，之后方特诺特接到对方先发投手朱莱斯·夏辛（Jhoulys Chacin）来球，打出一记全垒打，使得安德斯·托瑞斯（Andres Torres）和沃格松（Vogelsong）跑垒得分，巨人队抓住机会掌握了比赛局势。

一次高水平比赛后，本年度沃格松投球成功率提高到13-7。比赛中他四次安打均未失分，四次三振，无保送上垒。剩下2/3的比赛圣地亚哥·卡西拉（Santiago Casilla）都在尝试补救，那是他那次赛季第六次这么做了，最后巨人队无安打无上垒，一人出局，无人保送。夏辛落后（11-14），八次击打中丢失了两次得分机会，三次三振，七局内无人上垒。

这篇新闻是由计算机编写的。其实在FriscoFan网站上的所有文章都是机器完成的。网站的创建公司是Automated Insights（前身为StatSheet，一家专门从事运动比赛数据统计服务的厂商，成立于2007年11月），公司旗下有将近400个FriscoFan这样的网站，每一个都专门报道美国职业棒球联盟（MLB）的比赛和美国大学体育总会（NCAA）篮球队的新闻。Automated Inshights生成文章的过程和人写稿子是一样的。先浏览所有数据。然后选择一个比较合适的口吻来描述——譬如，一个家乡球迷寄予厚望的球员或球队输了比赛，“作者”的文字读起来也会垂头丧气。接下来，计算机会根据比分查阅一个巨大的词组数据库，寻找合适的语言来编写这篇文章。如果某个球队轻松击败了对手，你就会看到类似“巨人队横扫洛基队”这样的标题。

Automated Insights执行总裁罗宾·艾伦

Automated Insights的文章虽然几乎没有独创性可言，但也并没有很明显的机器痕迹。（我曾看过很多人写的文章，还没这机器写的连贯呢。）而机器作文的廉价和省时也弥补了它在独创性上的缺陷。公司的创建者兼执行总裁罗宾·艾伦（Robbie Allen）雇了几个写作好手，他们的工作就是每天绞尽脑汁想那些诸如“top-notch outing（高水平比赛）”的词，然后把它们放进数据库里。通过自动化，艾伦可以把这些人的努力转化成数目可观的文章。“去年大学篮球季期间，我们推出了64,000篇文章，”艾伦说：“我算过，这相当于一百个作者每天写四篇。”

Automated Insights想做的不只是用机器取代人类写作，而是超越人类。因为体育新闻撰稿人的要价都很高，你永远不可能雇一个人跟踪报道某个没多少人关注的小队。然而Automated Insights可以做到跟进每一个球队。下半年它还会扩展其他业务——公司刚刚得到一大笔专用资金——到时，它还能报道每家公司的股市波动，或报道美国每个小镇的所有天气变化。公司的主要竞争对手Narrative Science也有同样的远大抱负。

然而现在艾伦的策略还欠缺一点：创造性。尽管我承认我的工作有程序可循，不过我的专栏也有很多计算机无法掌握的元素——比如令人眼前一亮的文字游戏，难以抗拒的论据，还有针锋相对的措辞。今年我在《Slate》上的两篇最受欢迎的文章灵感都并非来自枯燥的网络搜索，它们是在无意之间闪现在我的脑海里的——其中一篇是抱怨人们总是错误地在句号后面用了两个空格，另外一篇痛斥势利小人把信息泄露给国家公共电台。（这种灵感每星期在我洗澡的时候至少有那么一次。）

计算机能想出这样的话题么？目前还不行。如果我们要把人类的创造力定义为某种娱乐别人的能力，机器似乎还不适合完成这项任务——因为计算机最擅长的就是复制，而不是创造全新的东西。软件可以把“top-notch outing”这样的词用到文章中，但是它不可能因为觉得“top-notch outing”这种说法很无趣而用另外的词代替它。

在我咨询过的计算机和语言专家中，没人能告诉我如何让计算机发展实现从模仿到创新的飞跃。但是他们都指出最近计算机发展在这方面有所进步。谷歌的一个团队正在尝试教计算机翻译诗歌——即便对人类来说也是个难题，目前实验已取得了一些进展。同时，华盛顿大学的研究员克洛伊·基顿（Chloe Kiddon）和尤里·布朗（Yuriy Brun）成功教会机器在恰当的时机说出——“她就这么说的！”

看看计算机如今的成果及其发展之迅速，Automated Insights的艾伦如今非常确信，机器发展是不可能停下脚步的。他说：“因为这是算法问题，它只会随着时间的迁移不断进步。未来五年，我们的机器写出的文章会和外面最棒的体育报道一样好。到时候，人类可就没多少优势了。”艾伦的话到底会不会成真，我很难想象。不过话说回来，五年对于计算机来说真的是很长，要跟他打赌可不太明智。

转自 http://select.yeeyan.org/view/231604/337390

posted @ 2013-01-02 11:00 renly2013 阅读(215) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

renly2013

人工智能相关资料收集整理（感谢那些无私奉献的人）

机器人会偷走你的饭碗吗——写作篇

巨人队3-1横扫洛基队

公告