人工智能时代的实际智能
人工智能时代的实际智能
原文:
towardsdatascience.com/actual-intelligence-in-the-age-of-ai/
在“作者聚焦”系列中,TDS 编辑们与我们的社区成员就他们在数据科学和人工智能领域的职业道路、他们的写作以及他们的灵感来源进行交谈。今天,我们很高兴与 Jarom Hulet. 进行对话。
*Jarom 是丰田金融服务公司的数据科学领导者。他相信使用实用的数据科学解决方案来增加价值。他对深入理解基本和高级数据科学主题充满热情。 *
你曾论证说,一个 精心设计的实验可以教会你比知道反事实更多的东西。在实践中,当数据稀缺或利益相关者不耐烦时,你的最小可行实验是什么?
我确实认为实验仍然被低估使用,现在可能比历史上任何时候都更被低估。观察数据更便宜,更容易获取,而且随着每一天的过去而更加丰富——这是一件好事。但正因为如此,我认为许多数据科学家并没有像保罗·罗森鲍姆在他的书《因果推断》中所说的“实验心态”。换句话说,我认为观察数据在很多地方已经取代了实验数据。虽然观察数据可以合法地用于因果分析,但实验数据始终是金标准。
我的导师经常说:“有些测试总比没有测试好。”这在工业界是一种有效、实用的哲学。在商业中,学习并不具有内在价值——我们不是为了学习而进行实验,我们是为了增加价值。因为实验学习必须转化为经济价值,它们可以与实验成本相平衡,实验成本也是以经济价值来衡量的。我们只想做对组织有净收益的事情。正因为如此,统计上理想的实验往往在经济效益上并不理想。我认为数据科学家应该关注的是理解不同层次的业务约束对实验设计的影响,并阐述这些约束将如何影响学习的价值。有了这些关键因素,就可以做出正确的妥协,从而产生对组织整体有积极价值影响的实验。在我看来,一个最小可行实验是那些利益相关者愿意签字认可,并预期将对公司产生积极经济影响的实验。
人工智能如何改善了你作为实践/领导数据科学家日常的工作流程,又在哪些方面让它变得更糟?
生成式 AI 让我成为了一个更高效的数据科学家。然而,我认为如果我们“滥用”它,就会存在一些缺点。
提高生产力
编码
我利用生成式 AI 使我的编码更快——目前我使用它来帮助(1)编写和(2)调试代码。
我从生成式 AI 看到的大部分生产力都与编写基本的 Python 代码有关。生成式 AI 可以比我自己更快地编写基本的代码片段。我经常发现自己告诉 ChatGPT 编写一个相对简单的函数,而我则在它编写代码的同时回复消息或阅读电子邮件。当 ChatGPT 首次推出时,我发现代码通常很糟糕,需要大量调试。但现在,代码通常相当不错——当然,我总是要审查和测试生成的代码,但生成代码的质量提高了我生产力的更多。
通常,Python 错误通知非常有帮助,但有时它们很晦涩。能够直接复制/粘贴错误并立即获得导致错误的原因的线索真是太好了。以前我不得不花很多时间在 Stack Overflow 和其他类似网站上解析,希望能找到与我问题相近的帖子来帮助。现在我可以更快地调试。
我还没有使用生成式 AI 来编写代码文档或回答有关代码库的问题,但我希望将来能尝试这些功能。我听说这些工具非常好用。
研究
我使用生成式 AI 提高生产力的第二种方式是在研究上。我发现,在研究和学习数据科学主题时,生成式 AI 是一个很好的学习伙伴。我总是小心翼翼地不相信它生成的一切,但我发现材料通常相当准确。当我想要学习某样东西时,我通常会找到一篇论文或已出版的书籍来阅读。通常,我会对文本中不清晰的部分有疑问,而 ChatGPT 在澄清我感到困惑的地方做得相当不错。
我还发现 ChatGPT 是一个寻找资源的绝佳资源。我可以告诉它我在工作中试图解决特定类型的问题,并希望它向我推荐涵盖该主题的论文和书籍。我发现它的推荐通常非常有帮助。
缺点 — 用人工智能取代实际智能
苏格拉底对将知识存储在文字中持怀疑态度(这就是为什么我们主要通过柏拉图的书籍了解他——苏格拉底没有写作)。他对写作的担忧之一是它会使我们的记忆力变差——我们依赖外部写作,而不是依赖我们内部的记忆和对主题的深入理解。我对 GenAI 也有这样的担忧。因为它总是可用,所以我们很容易反复提出相同的问题,而忘记了甚至不理解它生成的内容。我知道我已经多次要求它编写类似的代码。相反,我应该只问一次,做笔记并记住它生成的技术和方法。虽然这是理想的做法,但在我有截止日期、电子邮件、聊天等事情争夺我的时间时,坚持这个标准无疑是一个挑战。基本上,我担心我们会把人工智能作为实际智慧的替代品,而不是补充和倍增器。
我还担心,快速获取答案的途径会导致对主题的浅层理解。我们可以对任何问题生成答案,并获取信息的“精髓”。这往往会导致我们只了解足够多的知识,以至于“变得危险”。这就是为什么我把 GenAI 作为我学习的补充,而不是主要来源。
你写过 如何进入数据科学领域 ,你也 雇佣过实习生 。如果你今天在给职业转换者提供建议,哪些“进入”策略仍然有效,哪些已经过时,以及哪些早期信号真正预示着团队的成功?
我认为我在以前的文章中分享的所有策略今天仍然适用。如果我要再次写这篇文章,我可能会增加两点。
一点是,并不是每个人都寻求在数据科学中获取 GenAI 经验。这是一项非常重要且流行的技能,但仍然有很多我称之为“传统”的数据科学职位,它们需要传统的数据科学技能。确保你知道你正在申请哪种类型的职位。不要向传统职位发送一个充满 GenAI 的简历,反之亦然。
第二点是追求对数据科学基础的知识掌握。在人工智能时代,实际智力是一个区分因素。教育领域已经变得相当拥挤,有很多短期的数据科学硕士课程,这些课程似乎只是教人们足够的数据科学话题,以进行表面上的讨论,训练一个 Python 中的标准化模型,并说出一些流行词汇。我们的面试过程引发了更深入的讨论——这是那些知识浅薄的人会走偏的地方。例如,我有很多实习生告诉我,在面试中,准确率是回归模型的良好性能指标。准确率通常甚至不是分类问题的良好性能指标,对于回归来说也没有任何意义。说这种话的候选人知道准确率是一个性能指标,但并不多。你需要深入理解基础知识,这样你可以在面试中首先进行深入的讨论,后来才能有效地解决分析问题。
你在 TDS 上写了很多关于广泛主题的文章。你是如何决定接下来写什么的?
通常,我的主题灵感来自于必要性和好奇心的结合。
必要性
经常因为我在工作中试图解决的问题,我想要对某个主题有更深入的理解。这促使我去研究和学习,以获得更深入的知识。学到了更多之后,我通常会很兴奋地分享我的知识。我关于线性规划的系列文章就是一个很好的例子。我在大学时上过线性规划课程(我真的很喜欢),但我觉得我对这个主题并没有深入掌握。在工作中,我有一个项目正在使用线性规划来构建一个规范性分析优化引擎。我决定我想成为线性规划方面的专家。我买了一本教科书,阅读了它,用 Python 从头开始复制了很多过程,并写了一些文章来分享我最近掌握的知识。
好奇心
我一直是一个极度好奇的人,学习对我来说是一种乐趣。由于这些性格特点,我经常阅读书籍,思考一些看似有趣的话题。这自然产生了一个永远写不完的待写事项清单。我的好奇心驱动方法有两个要素——(1)阅读/研究,以及(2)有意识地远离书本,消化我所阅读的内容,建立联系——这就是 Kethledge 和 Erwin 在他们书中所说的孤独的定义《首先领导自己:通过孤独激发领导力》。这种结合的方法比各部分的总和要大得多。如果我只是不停地阅读而不花时间去思考我所阅读的内容,我就不会内化信息,也不会对材料产生自己独特的见解。如果我只是思考事情,我就会忽视其他人的研究一生。通过结合这两个要素,我学到了很多,我对所学的内容也有见解和观点。
我所写的关于数据科学和哲学的系列文章是一个好奇心驱动的文章的好例子。几年前我对哲学产生了极大的好奇心。我阅读了多本书,并观看了一些关于它的讲座。我还花了很多时间去放下书本,思考其中的理念。那时我意识到,我在哲学中学习的许多概念对我的数据科学家工作有着强烈的启示和联系。我记下了我的想法,并为我的第一个文章系列制定了大纲!
你的文章草稿流程是什么样的?你如何决定何时包含代码或视觉元素,以及在你发布之前,你是否会请人(如果有的话)审阅你的草稿?
通常,在开始写作之前,我会对文章的想法思考几个月。在任何给定的时间,我脑海中都有 2-4 个文章想法。由于我思考文章的时间长度,我通常在开始写作之前就有了一个相当好的结构。当我开始写作时,我会首先在文章中放入标题,然后写下我之前想出的好句子。在那个阶段,我开始填补空白,直到我觉得文章清晰地描绘了我通过学习和沉思产生的思想。这个过程对我每月写一篇文章的目标非常有效。如果我想写更多,我可能需要在我的过程中更加有意识地减少自然性。
每当我发现自己正在写一段既痛苦又难以阅读的段落时,我会尝试想出一个图表或视觉元素来替代它。图表和简洁的评论可以非常强大,并且在创造理解力方面比冗长而笨重的段落要好得多。
我经常插入代码,原因和放置视觉内容一样。阅读代码所做事情的口头描述很烦人——直接阅读注释良好的代码要好得多。我还喜欢在文章中放置代码,以展示任何从业者会用现成软件包实际解决的问题的“初级”解决方案。这帮助我(以及希望是其他人)直观地理解底层发生了什么。

浙公网安备 33010602011771号