你的AI技能比你想象的要低

标签：AI，技能，初创公司

我们正处于AI热潮的中间。这并不意味着让你的AI创业成功很容易。我认为，任何试图围绕人工智能建立业务的人都会遇到一些重要的陷阱。

作者：Ric Szopa，Inovo.vc

我们正处于AI热潮的中间。机器学习专家掌握非凡的薪水，投资者很高兴在会见AI初创公司时敞开心扉和支票簿。这是正确的：这是每代发生一次的转型技术之一。技术将留在这里，它将改变我们的生活。

这并不意味着让你的AI创业成功很容易。我认为 ，任何试图围绕人工智能建立业务的人都会遇到一些重要的陷阱。

我的儿子和我，使用艺术风格转移处理图像。这项技术激发了我对深度学习的迷恋。

你的AI技能的价值正在下降

2015年，我还在谷歌并开始玩DistBelief（他们后来将其重命名为 TensorFlow）。它很糟糕。写作很难尴尬，主要的抽象并不符合你的预期。让它在Google的构建系统之外工作的想法是一个白日梦。

在2016年底，我正在研究在组织病理学图像中检测乳腺癌的概念验证。我想使用转移学习：采用 Inception，谷歌当时最好的图像分类架构，并重新训练我的癌症数据。我会使用Google提供的预训练过程中的权重，只需更改顶层以匹配我正在做的事情。在TensorFlow经过长时间的试验和错误之后，我终于想出了如何操纵不同的层，并使其大部分工作。它花费了大量的毅力并阅读了TensorFlow的资料来源。至少我不必过于担心依赖关系，因为TensorFlow人员慷慨地准备了Docker镜像。

在2018年初，由于缺乏复杂性，上面的任务不适合实习生的第一个项目。感谢 Keras （TensorFlow上的一个框架）你可以用几行Python代码来完成它，并且它不需要深入了解你在做什么。仍然有点痛苦的是超参数调整。如果您有深度学习模型，您可以操作多个旋钮，如图层的数量和大小等。如何获得最佳配置并非易事，而且一些直观的算法（如网格搜索）效果不佳。你最终进行了大量的实验，感觉更像是一门艺术，而不是一门科学。

在我写这些文字（2019年初）时，谷歌和亚马逊提供自动模型调整服务（Cloud AutoML， SageMaker），微软正计划这样做。我预测手动调整将成为渡渡鸟的方式，并且很好地解决问题。

我希望你能看到这里的模式。什么是困难变得容易，你可以实现更多，同时减少理解。 过去的伟大工程技术开始听起来相当蹩脚，我们不应期望我们目前的成就将来会更好。 这是一件好事，也是一个惊人进步的标志。我们将这一进步归功于谷歌等公司，他们正在大力投资这些工具，然后免费赠送给他们。他们这样做的原因是双重的。

你商品化后的办公室。

首先，这是尝试将其实际产品（即云基础设施）的补充商品化。在经济学中，如果你倾向于一起购买，两种商品是互补的。一些例子：汽车和汽油，牛奶和谷物，培根和鸡蛋。如果其中一个补充的价格下降，对另一个的需求将会上升。云的补充是运行在它上面的软件，而AI的东西也具有很好的属性，它需要大量的计算资源。因此，使其开发尽可能便宜是很有意义的。

特别是谷歌如此热衷于人工智能的第二个原因是它们在亚马逊和微软方面具有明显的比较优势。他们早些时候就开始了，毕竟他们推广了深度学习的概念，所以他们设法抓住了很多人才。他们在开发AI产品方面拥有更多经验，这为他们开发必要的工具和服务提供了优势。

尽管取得了令人兴奋的进展，但 对于那些在人工智能方面投入巨资的公司和个人来说，这都是坏消息。今天，他们为您提供了坚实的竞争优势，因为培养一名称职的ML工程师需要花费大量时间阅读论文，并且需要坚实的数学背景。但是，随着工具越来越好，情况就不再如此。它将更多地是阅读教程而不是科学论文。如果你很快就没有意识到自己的优势， 那么一群带图书馆的实习生可能会吃你的午餐。特别是，如果实习生有更好的数据，这将我们带到下一点......

数据比花哨的AI架构更重要

假设你有两个AI启动创始人，Alice和Bob。他们的公司筹集了相同数量的资金，并在同一市场上激烈竞争。爱丽丝投资于最佳工程师，博士在人工智能研究方面有良好的记录。鲍勃雇用平庸但能干的工程师，并投资她（“鲍勃”是罗伯特的简称！）钱以获得更好的数据。你打赌你的钱在哪家公司？

我的钱将直接归于鲍勃。为什么？从本质上讲，机器学习的工作原理是从数据集中提取信息并将其传递给模型权重。更好的模型在这个过程中更有效（在时间和/或整体质量方面），但假设一些充分基线（即模型实际上是在学习某些东西）， 更好的数据将胜过更好的架构。

为了说明这一点，让我们进行快速而肮脏的测试。我创建了两个简单的卷积网络，一个是“更好”的网络，另一个是“更差”的网络。最好的模型的最后一个密集层有128个神经元，而较差的一个只需要64个。我在MNIST数据集的子集上训练他们增加大小，并绘制模型在测试集上的精确度与数量他们接受过训练的样本。

蓝色是“更好”的模式，绿色是“更糟糕”的模式。

训练数据集大小的积极影响是显而易见的（至少在模型开始过度拟合和准确平台之前）。我的“更好”模型，蓝线，明显优于“更糟糕”的模型，绿线。不过，我想指出的是，训练的40个样本的“雪上加霜”模型的精确度更好，在30个样本比“更好”模式！

在我的玩具示例中，我们处理的是一个相对简单的问题，我们有一个全面的数据集。在现实生活中，我们通常没有这样的奢侈品。在许多情况下，您永远不会逃避图表中增加数据集具有如此显着效果的部分。

更重要的是，爱丽丝的工程师实际上并没有与鲍勃的人竞争。 由于人工智能社区的开放文化及其对知识共享的重视，他们还与谷歌，Facebook，微软和全球数千所大学的研究人员展开竞争。如果您的目标是解决问题（而不是对科学作出原创贡献，那么）采用文献中描述的最佳表现并将其重新训练成您自己的数据是一个经过实战检验的策略。如果现在没有什么可用的东西，通常需要等待一两分钟，直到有人提出解决方案。特别是你可以做一些事情，比如举办一场Kaggle比赛，以激励研究人员调查你的特定问题。

良好的工程设计始终很重要，但如果您正在进行人工智能，那么数据就是创造竞争优势的原因。然而，十亿美元的问题是，如果你能够保持自己的优势。

在AI中，保持竞争优势很难

凭借她优秀的数据集鲍勃成功地与爱丽丝竞争，她做得很好。她推出了自己的产品，并且正在稳步增加市场份额。她甚至可以开始聘请更好的工程师，因为街上的一句话就是她的公司就是这样的地方。

照片来自 Alex Holyoake 在 Unsplash上

查克有一些追赶工作要做，但他有很多的钱比鲍勃。在构建数据集时，这很重要。通过向其投入资金来加速工程项目非常困难。事实上，分配太多新人可能会阻碍发展。但是，创建数据集是一种不同的问题。通常，它需要大量人工操作 - 您可以通过雇用更多人来轻松扩展它。或者可能是有人拥有数据 - 那么你所要做的就是支付许可费。无论如何 - 这笔钱让它变得更快。

为什么Chuck能够筹集到比Bob更多的钱？

当创始人提出一轮谈判时，他们试图平衡两个可能相互矛盾的目标。他们需要筹集足够的钱才能获胜。但他们不能筹集太多资金，因为这会导致过度稀释。以外部投资者为特征意味着出售部分公司。创始团队必须在创业公司中保持足够的股份，以免他们失去动力（开办创业公司是一项艰苦的工作！）。

另一方面，投资者希望投资具有巨大潜力上涨的创意，但他们必须控制风险。随着感知风险的增加，他们会为他们支付的每一美元要求更大的公司。

当鲍勃筹集资金时，人工智能实际上可以帮助她的产品，这是一种信念的飞跃。无论她作为创始人的素质，还是她的团队有多好， 但她所攻击的问题根本就是难以解决的问题并非不可能。查克的情况非常不同。他知道这个问题很容易处理：Bob的产品就是生动的证据！

鲍勃对这一挑战的潜在回应之一是提出另一轮回合。她应该处于有利位置，因为（暂时）她仍然在比赛中领先。但是，情况可能更复杂。如果Chuck可以通过战略关系保护对数据的访问，该怎么办？例如，假设我们正在谈论癌症诊断初创公司。查克可以利用他在一家重要医疗机构的内部职位，并与该机构达成一份甜心协议。它很可能是不可能的鲍勃匹配的是。

您的产品应该是可防御的，理想情况是通过深层护城河。

那么，您将如何为AI产品构建可 维护的竞争优势？前段时间，我有幸与微软研究院的Antonio Criminisi交谈。他的想法是该项目的秘密酱不应该只包含AI。例如，他的 InnerEye 项目使用AI 和用于分析放射图像的经典（不是基于ML）计算机视觉。在某种程度上，这可能与您首先进行AI启动的原因不一致。只是在模型上抛出数据并看到它工作的能力是非常有吸引力的。然而，传统的软件组件，其中需要程序员思考算法并利用一些难以获得的领域知识，更难以重现。

AI最好像杠杆一样使用

对业务进行分类的一种方法是，它是直接增加价值，还是为某些其他价值来源提供杠杆。我们以一家电子商务公司为例。如果您创建了新的产品系列，则可以直接添加值。没有什么，现在有小部件，客户可以支付它们。另一方面，建立新的分销渠道是一个杠杆。通过开始在亚马逊上销售您的小部件，您可以将销售量翻倍。削减成本也是杠杆。如果您与中国小部件供应商达成更好的协议，您可以将毛利率翻倍。

杠杆比直接施力更有可能使针头移动。但是，杠杆仅在与直接值源耦合时才起作用。如果你加倍或加倍，一个微小的数字不会停止。如果您没有可出售的小部件，获得新的分销渠道是浪费时间。

在这种情况下我们应该如何看待AI？有很多公司试图将AI作为他们的直接产品（用于图像识别的API等）。如果您是AI专家，这可能非常诱人。然而，这是一个非常糟糕的主意。首先，您正在与Google和亚马逊等公司竞争。其次，制作真正有用的通用AI产品非常困难。例如，我一直想使用Google的 Vision API。不幸的是，我们从未遇到过需求与产品充分匹配的客户。它总是太多或不够，定制开发比在圆孔中安装方形钉更好。

更好的选择是将AI视为杠杆。您可以采用现有的，有效的商业模式，并通过AI增强它。例如，如果您的流程取决于人类的认知劳动力，那么将其自动化可以为您的毛利率创造奇迹。我能想到的一些例子是心电图分析，工业检查，卫星图像分析。同样令人兴奋的是，因为AI留在后端，你有一些非AI选项来构建和保持你的竞争优势。

结论

AI是一种真正的转型技术。但是，以你的创业公司为基础是一件棘手的事情。您不应该完全依赖您的AI技能，因为它们会因较大的市场趋势而贬值。构建AI模型可能非常有趣，但真正重要的是拥有比竞争对手更好的数据。保持竞争优势很难，特别是如果遇到比你更富有的竞争对手，如果你的AI想法起飞很可能会发生。您的目标应该是创建一个可扩展的数据收集过程，这个过程很难被竞争对手重现。AI非常适合破坏依赖低质量人类认知工作的行业，因为它允许自动化这项工作。

Bio：Ric Szopa（Twitter，Facebook，LinkedIn）是Inovo.vc驻留的首席技术官。在Inovo之前，Ric是MicroscopeIT的首席技术官，MicroscopeIT是一家专门从事计算机视觉，机器人和显微镜图像处理的软件公司。在此之前，他曾在谷歌，加利福尼亚州山景城和瑞士苏黎世的YouTube数据库基础设施上工作。Ric在华沙大学和Katholieke Universiteit Leuven的人工智能学习哲学。他的个人兴趣包括深度学习，历史和演奏尤克里里琴。

posted @ 2019-02-10 21:59 Roygood 阅读(173) 评论(0) 收藏举报

刷新页面返回顶部

Roygood

古来贤杰知多少，何代无人振素风。

你的AI技能比你想象的要低

你的AI技能比你想象的要低

你的AI技能的价值正在下降

数据比花哨的AI架构更重要

在AI中，保持竞争优势很难

AI最好像杠杆一样使用

结论

公告