统计NLP在千词英语中的挑战与突破
统计NLP在千词英语中的挑战与突破
2016年4月4日 · 4分钟阅读
小时候,我最喜欢的电视节目都有会说话的计算机。现在长大了,仍然没有真正会说话的计算机。至少不是真正意义上的对话。我们可以让计算机说些内容——但我希望它们能主动告诉我们信息,并且能听、能读。为什么这如此困难?
事实证明,我们说的几乎所有话都可能有很多种不同的含义,但我们没有注意到,因为大多数含义都会显得奇怪、愚蠢或根本不可能。如果我说:
我穿着裙子看了一场电影
你会问我:
是你穿着裙子,还是电影穿着裙子吗?
甚至想到这个都很奇怪。但计算机可能会,因为还有其他类似的情况:
电视里放了一个穿裙子的女孩
无约束词汇
如果设定固定约束如"人穿裙子",而"电影不是人",当有人谈论"修饰剧本"时系统如何应对?即使以前从没有人这样说过,未来也可能出现。语言具有创造性,例外才是常态。
词汇以其他方式组合在一起。人们曾经认为解决方案是告诉计算机大量事实。但某天醒来时,你却在编写"电影不穿裙子"这样的事实,不禁疑惑哪里出了问题。实际上情况更糟——不仅事实太多,而且大多数甚至不是真正的事实!
人们确实尝试过这种方法。我们发现世界是由各种条件和例外构成的。
现在我们只是给计算机看大量大量的词汇。我们放弃了让它理解"裙子"是什么的尝试。我们让"裙子"只是一些字母。但如果它多次看到"裙子"出现在"女孩"周围("女孩"也只是其他字母,而这些字母又出现在其他字母周围),它就能做出很好的猜测。
它并不总是猜对,但我们可以知道它猜对的频率,并思考如何帮助它更好地学习。我们有一个数字指标,可以一点点地慢慢提高它。
无约束词汇
专注于基准任务的潜在问题是古德哈特定律。人工智能社区意识到这个问题,并在避免它方面做得很好。
(我学到的一点是,如果你付钱让很多人尝试,他们非常擅长让数字变大。关键是要选择那些数字,当它们变大时,他们不得不做出真正有益的贡献。这比听起来更难。有些人说没有这样的数字。我要求他们展示用其他方式做出的更多贡献,但他们从来做不到。)
与其告诉计算机事实,我们需要做的是告诉它如何学习。
我们提出的让计算机说话、听或读得更好一点的想法,可以用来让它看得或计划得更好一点,反之亦然。当我们停止告诉它"电影不穿裙子"这样的事情后,事情才真正开始发展。
每项工作仍然只能让我们的数字提高一点点,数字越大,提高就越难。但这是一个好问题。既然计算机已经能够很好地阅读,我认为我们应该能够做一些相当伟大的事情。我们应该让它们读什么?
关于作者:Matthew是人工智能技术的领先专家,于2009年完成博士学位,并花了5年时间发表关于最先进NLP系统的研究。他于2014年离开学术界,编写了spaCy并创立了某机构。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号