如何用-AI-重写数据科学家的日常工作

如何用 AI 重写数据科学家的日常工作

原文:towardsdatascience.com/how-ai-is-rewriting-the-day-to-day-of-data-scientists/

在我的过去文章中,我探索和比较了许多 AI 工具,例如,Google 的数据科学代理ChatGPT 与 Claude 与 Gemini 在数据分析中的比较DeepSeek V3等。然而,这仅仅是所有可用于数据科学的 AI 工具的一小部分。仅举几个我在工作中使用过的例子:

  • OpenAI API:我使用它来分类和总结客户反馈,并揭示产品痛点(见我的教程文章)。

  • ChatGPTGemini:它们帮助我起草 Slack 消息和电子邮件,撰写分析报告,甚至绩效评估。

  • Glean AI:我使用 Glean AI 快速在内部文档和通讯中找到答案。

  • Cursor Copilot: 我喜欢按下 Tab 键来自动完成代码和注释。

  • Hex Magic:我在工作中使用 Hex 进行协作式数据笔记本。他们还提供了一种名为Hex Magic的功能,使用对话式 AI 编写代码和修复错误。

  • Snowflake Cortex:Cortex AI 允许用户调用 LLM 端点,使用 Snowflake 中的数据构建 RAG 和文本到 SQL 服务。

我相信你可以为这个列表添加更多内容,而且每天都有新的 AI 工具被推出。目前几乎不可能得到一个完整的列表。因此,在这篇文章中,我想退一步,关注一个更大的问题:作为数据专业人士,我们真正需要什么,AI 如何能帮助我们

在下面的部分,我将重点关注两个主要方向——消除低价值任务和加速高价值工作。


1. 消除低价值任务

我成为数据科学家是因为我真正享受从复杂数据中挖掘业务洞察并推动业务决策。然而,在业界工作了七年多之后,我必须承认,并非所有的工作都像我希望的那样令人兴奋。在进行高级分析或构建机器学习模型之前,有许多低价值的工作流程是不可避免的,而且很多时候,这是因为我们没有合适的工具来赋能我们的利益相关者进行自助分析。让我们看看我们现在在哪里,以及理想状态是什么:

当前状态:我们作为数据解释者和守门人(有时被称为“SQL 猴子”)工作

  • 简单的数据提取请求每周都会通过 Slack 发给我和我的团队,问:“上个月的 GMV 是多少?”“你能拉取符合这些标准的客户名单吗?”“你能帮我填写我明天需要展示的幻灯片上的这个数字吗?”

  • BI 工具不支持自助用例。我们采用了像 Looker 和 Tableau 这样的 BI 工具,以便利益相关者可以轻松地探索数据和监控指标。但现实情况是,在简单性和自助性之间总是存在权衡。有时我们通过几个指标使仪表板易于理解,但它们只能满足几个用例。同时,如果我们使工具非常可定制,具有自由探索指标和底层数据的能力,利益相关者可能会觉得工具令人困惑,缺乏使用它的信心,在最坏的情况下,数据会被错误地提取和解释。

  • 文档稀少或过时。这是一个常见的情况,但可能由不同的原因造成——也许我们行动迅速,专注于交付结果,或者没有良好的数据文档和治理政策。结果,部落知识成为数据团队外的人使用数据的瓶颈。

理想状态:赋能利益相关者自助,以便我们可以最小化低价值工作

  • 利益相关者可以轻松地进行简单的数据提取并回答基本的数据问题,而且自信满满。

  • 数据团队在重复性报告或一次性基本查询上的时间减少了。

  • 仪表板可以被发现、可解释和可操作,无需人工指导。

那么,为了更接近理想状态,AI 能发挥什么作用呢?从我观察到的来看,这些是 AI 工具将要填补的常见方向:

  1. 使用自然语言查询数据(文本到 SQL):降低技术壁垒的一种方式是让利益相关者能够用自然语言查询数据。在业界有很多文本到 SQL 的努力:

    • 例如,Snowflake 是一家在 Text2SQL 模型 方面取得了很多进展,并开始将其功能集成到其产品中。

    • 许多公司(包括我的公司)也在探索内部 Text2SQL 解决方案。例如,Uber 分享了他们使用 Uber 的 QueryGPT 使运营团队的数据查询更加便捷的历程。这篇文章详细解释了 Uber 如何为查询生成设计了一个多代理架构。同时,它也揭示了这一领域的主要挑战,包括准确解释用户意图、处理大型表架构以及避免幻觉等问题。

    • 实话实说,要让文本到 SQL 工作起来,门槛非常高,因为你必须使查询准确无误——即使工具只失败一次,也可能破坏信任,最终利益相关者会回来验证查询(然后你需要阅读+重写查询,这几乎加倍了工作量 🙁)。到目前为止,我还没有找到工作完美的文本到 SQL 模型或工具。我只看到,当你从非常小且文档齐全的核心数据集子集进行查询,针对特定和标准化的用例时,这是可行的,但要扩展到所有可用数据和不同的业务场景是非常困难的。

    • 当然,鉴于在这个领域的大量投资和 AI 的快速发展,我相信我们将越来越接近准确和可扩展的文本到 SQL 解决方案。

  2. 基于聊天的 BI 助手:另一个可以改善利益相关者使用 BI 工具体验的常见领域是基于聊天的 BI 助手。这实际上比文本到 SQL 更进了一步——它不是根据用户提示生成 SQL 查询,而是以可视化加文本摘要的形式进行响应。

    • Gemini in Looker 是这里的一个例子。Looker 是谷歌的财产,因此它们与 Gemini 集成是非常自然的。对于 Looker 来说,构建其 AI 功能的另一个优势是数据字段已经在 LookML 语义层中进行了文档化,常见的连接已在仪表板中定义,并且构建了流行的指标。因此,它有大量的优秀数据可供学习。Gemini 允许用户调整 Looker 仪表板,对数据进行提问,甚至为会话分析构建自定义数据代理。尽管基于我对该工具有限的实验,它经常超时并且有时无法回答简单的问题。如果你有不同的体验并且让它工作,请告诉我……

    • Tableau 也推出了类似的功能,Tableau AI。我自己还没有使用过它,但根据演示,它帮助数据团队使用自然语言快速准备数据并制作仪表板,并将数据洞察总结为“Tableau Pulse”,以便利益相关者轻松发现指标变化和异常趋势。

  3. 数据目录工具:AI 还可以帮助解决稀疏或过时的数据文档的挑战。

    • 在一次内部黑客马拉松中,我记得我们数据工程师的一个项目是使用 LLM 来增加表格文档覆盖率。在大多数情况下,AI 能够读取代码库并相应地描述列,因此它可以帮助在有限的人为验证和调整下快速提高文档质量。

    • 类似地,当我的团队创建新表时,我们已经开始要求 Cursor 编写表格文档 YAML 文件,以节省我们的时间并获得高质量的输出。

    • 也有很多数据目录和治理工具已经与人工智能集成。当我谷歌“ai 数据目录”时,我看到像 Atlan、Alation、Collibra、Informatica 等数据目录工具的标志(免责声明:我都没有使用过它们..)。这显然是一个行业趋势。


2. 加速高价值工作

既然我们已经讨论了 AI 如何帮助消除低价值任务,让我们讨论它如何加速高价值数据项目。在这里,高价值工作指的是结合技术卓越与业务背景的数据项目,通过跨职能协作产生有意义的成果。例如,深入分析产品使用模式并导致产品变更,或者识别流失风险客户的流失预测模型,从而产生预防流失的举措。让我们比较当前状态和理想未来:

当前状态:日常工作中存在生产力瓶颈

  • 探索性数据分析(EDA)耗时。这一步对于获得对数据的初步理解至关重要,但进行所有单变量和多变量分析可能需要很长时间。

  • 编码和调试中损失的时间。让我们说实话——没有人能记住所有的 numpy 和 pandas 语法以及 sklearn 模型参数。我们在编码时经常需要查阅文档。

  • 丰富的非结构化数据尚未得到充分利用。业务每天从调查、支持票证和评论中生成大量的文本数据。但如何可扩展地提取洞察力仍然是一个挑战。

理想状态:数据科学家专注于深度思考,而不是语法

  • 编写代码感觉更快,因为没有查找语法的干扰。

  • 分析师花更多的时间解释结果,而不是处理数据。

  • 非结构化数据不再是障碍,可以快速分析。

看到理想状态,我相信你心中已经有了一些 AI 工具候选者。让我们看看 AI 如何影响或已经产生了变化:

  1. AI 编码和调试助手。我认为这是迄今为止任何编码者最广泛采用的 AI 工具类型。我们已经在看到它的迭代。

    • 当像ChatGPTClaude这样的 LLM 聊天机器人出现时,工程师们意识到他们可以直接将语法问题或错误信息抛给聊天机器人,并获得高准确率的答案。这仍然是对编码工作流程的干扰,但比点击十几个 StackOverflow 标签要好得多——这已经感觉像是上个世纪了。

    • 之后,我们看到越来越多的集成 AI 编码工具出现——GitHub CopilotCursor 与您的代码编辑器集成,可以阅读您的代码库,主动建议代码补全并在您的 IDE 内部调试问题。

    • 正如我在开头简要提到的,像 SnowflakeHex 这样的数据工具也开始嵌入 AI 编码助手,以帮助数据分析师和数据科学家轻松编写代码。

  2. EDA 和分析领域的 AI。这有点类似于我上面提到的基于聊天的 BI 助手工具,但它们的目标更加雄心勃勃——它们从原始数据集开始,旨在自动化整个分析周期,包括数据清洗、预处理、探索性分析和有时甚至建模。这些通常是宣传为“取代数据分析师”的工具(但它们真的能吗?)。

    • Google 数据科学代理 是一个非常令人印象深刻的全新工具,它可以根据简单的提示生成整个 Jupyter Notebook。我最近写了一篇文章 这里 展示了它能做什么以及它不能做什么。简而言之,它可以根据可定制的执行计划快速启动一个结构良好且功能齐全的 Jupyter Notebook。然而,它缺少根据后续问题修改 Jupyter Notebook 的能力,仍然需要具备扎实数据科学知识的人来审核方法并进行手动迭代,并且需要一个明确的数据问题陈述和干净、良好记录的数据集。因此,我认为它是一个很好的工具,可以帮助我们在起始代码上节省一些时间,而不是威胁我们的工作。

    • ChatGPT 的数据分析工具 也可以归入这个领域。它允许用户上传数据集并与它进行聊天,以完成他们的分析、生成可视化效果和回答问题。您可以在我的先前文章中找到讨论其功能的链接 这里。它也面临着类似的挑战,并且作为 EDA 助手而不是取代数据分析师的效果更好。

  3. 易于使用且可扩展的自然语言处理能力。大型语言模型在对话方面非常出色。因此,今天使用大型语言模型使得自然语言处理变得指数级地简单。

    • 我的公司每年都会举办一次内部黑客马拉松。我记得三年前的黑客马拉松项目是尝试使用 BERT 和其他传统主题建模方法来分析 NPS 调查反馈,这很有趣,但说实话,要让它对业务准确且有意义是非常困难的。然后,在两年前的黑客马拉松期间,我们尝试使用OpenAI API对相同的反馈数据进行分类和总结——它就像魔法一样,你可以在一个 API 调用中完成高准确度的话题建模、情感分析、反馈分类,而且输出结果很好地符合我们的业务上下文,基于系统提示。后来,我们构建了一个内部管道,可以轻松扩展到调查反馈、支持票据、销售电话、用户研究笔记等文本数据,并已成为集中的客户反馈中心,并指导了我们的产品路线图。你可以在这篇技术博客中找到更多信息。

    • 现在也有很多新公司正在开发打包的 AI 客户反馈分析工具、产品评论分析工具、客户服务助手工具等等。这些想法都是一样的——利用 LLM 理解文本上下文和进行对话的优势,来创建文本分析中的专用 AI 代理。


结论

很容易陷入追逐最新 AI 工具的陷阱。但最终,最重要的是使用 AI 消除阻碍我们前进的因素,加速推动我们前进的因素。关键是要保持务实:采用今天有效的工具,保持对新兴事物的好奇,永远不要忘记数据科学的核心理念——通过更好的理解来推动更好的决策。

posted @ 2026-03-28 09:38  绝不原创的飞龙  阅读(2)  评论(0)    收藏  举报