在人工智能时代重新思考数据科学面试
在人工智能时代重新思考数据科学面试
原文:
towardsdatascience.com/rethinking-data-science-interviews-in-the-age-of-ai/
人工智能正在重新定义数据科学家日常的工作.
在这篇文章中,我将分享我对在人工智能时代数据科学家面试应该如何(将会)演变的看法。虽然我的重点在这里是数据科学家分析(DSA)角色,但这里的思想也适用于其他数据职位,例如机器学习工程师(MLE)。
I. 传统数据科学家面试循环
在讨论事情将如何改变之前,让我们先了解一下数据科学家面试的当前结构。除了最初的招聘人员电话和招聘经理筛选外,典型的数据科学家面试流程包括:
-
编码面试:SQL 或 Python 编码问题,用于测试语法和基本逻辑。
-
统计学面试:统计学和概率问题,以及数据科学工作流程中最常见的统计应用,如 A/B 测试和因果推断。
-
机器学习面试:深入探讨机器学习算法、经验和案例。
-
商业案例面试:讨论一个假设性问题,以测试分析思维和商业理解——指标、漏斗、增长、保留策略和分析方法。
-
行为面试:标准的“请描述一个项目/一个你 XXX 的时刻”来了解候选人如何处理特定情况以及他们是否适合企业文化。
-
跨职能面试:数据科学家是一个技术角色,但它也是一个高度跨职能的角色,旨在通过数据驱动真正的商业影响。因此,今天许多数据科学家面试循环包括一个跨职能面试环节,与业务伙伴交谈,以评估领域知识、沟通技能和利益相关者协作能力。
从上面的列表中,你可以看到数据科学家面试通常有很好的技术性和非技术性评估的结合。但随着人工智能的加入,其中一些面试将发生显著变化,而另一些则变得更加重要。让我们逐一分析。
II. 在人工智能时代面试将如何转变
在我看来,面试流程将如何改变取决于两个因素:1. AI 能否快速处理任务?2. 它是否能够展示候选人如何深思熟虑地使用 AI?
编码面试:最有可能首先改变
AI 能快速做什么?简单的编码任务。因此,编码面试可能是首先受到影响的一个。
当前的编码面试要求候选人正确编写 SQL 和 Python 代码。SQL 问题通常需要简单的连接、CTEs、聚合和窗口函数。Python 问题可能是使用 pandas 和 numpy 的直接数据操作,或者简单的 LeetCode 风格问题。但让我们说实话,这些面试问题现在很容易被 AI 解决。在我的文章《ChatGPT vs Claude vs Gemini for Data Analysis - Part 1》中,我一年前评估了 ChatGPT、Claude 和 Gemini 在简单 SQL 任务上的表现,并对三者都印象深刻——Claude 3.5 Sonnet 在我的测试中甚至得到了满分。
让我们退一步。对于数据科学家来说,今天的真正编码挑战来自 1. 理解数据和定位正确的表和字段;2. 将你的数据问题转化为正确的查询/代码。换句话说,今天的编码面试主要测试基本语法,这可能对入门级候选人来说是公平的,但长期以来一直未能评估实际解决问题的能力,即使没有 AI 的演变。AI 能够快速回答这些问题的事实,使得这一轮面试更加过时。
那么,我们如何让编码面试更有意义呢?我认为,首先,我们应该允许候选人在编码面试中使用像 GitHub Copilot 或 Cursor 这样的 AI 工具,以模拟带有 AI 的新工作环境。我注意到这一现象在业界逐渐发生。例如,Canva 最近推出了 AI 辅助编码面试,Greenhouse 也表示,“我们欢迎在面试过程中透明地使用生成式 AI,特别是对于某些角色,我们期望候选人能够彻底解释他们创建的提示,或者深入讨论他们做出的技术决策。”我认为允许候选人使用 AI 比试图阻止他们使用 AI 作弊的任何手段都要好,因为他们在工作时无论如何都会使用(并被期望使用)AI 😃。
同时,而不是询问简单的 SQL/Python 问题,我有一些想法:
-
理想情况下,我们可以设置一个包含多个文档化表格的环境,并要求候选人在 AI 的帮助下进行现场问题解决会议。与其询问“编写一个查询来计算自 2024 年以来的 MAU”,不如提出更开放的问题,例如“你将如何调查自 2024 年以来的客户流失情况?”。评估不仅基于代码的准确性,还包括候选人如何构建他们的分析和解释结果。而且当候选人与 AI 工具互动时,他们如何提示、迭代和评估输出。尽管这确实让面试官的生活变得更难——他们必须非常熟悉数据集,能够跟随候选人的逻辑,提出后续问题,并评估回应。
-
或者,我们可以要求候选人评估 AI 的输出——这或许比上述格式更容易设置,且压力和时间消耗更少。虽然 AI 可以帮助进行编码,但评估输出的责任仍然在人类。并非所有由 AI 生成的代码都是正确的,即使它运行时没有错误。面试官可以描述他们试图做什么,并展示 AI 生成的代码,然后要求候选人判断逻辑是否正确,是否忽略了任何边缘情况,是否有更好的替代方案,或者代码是否可以进一步优化——这要求候选人完全理解如何将业务逻辑与代码之间进行转换。使用这种问题设置也更容易设计一个标准的评分标准。
统计学与机器学习面试:减少理论,增加上下文
接下来,让我们谈谈统计学和机器学习面试。人工智能是一位伟大的老师——它清晰地解释了基本的统计学和机器学习概念,并能帮助构思不同的方法——试着问 ChatGPT,“像对我五岁孩子一样解释 p 值”。然而,知道理论并不总是意味着根据商业场景应用适当的方法。你可以在我的谷歌数据科学代理评估文章中找到一个很好的例子——它用功能启动代码设置了一个建模框架,但需要明确的问题陈述和干净的数据集。人类专业知识对于特征工程、选择最佳领域特定的数据科学实践以及调整模型也是必要的。考虑到这一点,我认为统计学和机器学习面试应该减少理论问题或从头开始编写代码模型,但更多地与商业案例面试结合,以测试候选人是否能够将理论应用于商业环境。因此,与其问一些孤立的问题,比如“岭回归和 Lasso 回归有什么区别?”或者“如何计算 A/B 测试的样本量?”,不如提出一个现实世界的问题,观察候选人如何分析问题,所提出的方法是否合理,以及他们是否能够逻辑地表达自己的想法。我们并不是不再需要候选人具备扎实的统计学和机器学习知识,但在案例讨论中我们将更加无缝地测试这些知识。例如,在处理一个假设的欺诈检测案例时,我们可以问候选人为什么提出使用 XGBoost 而不是随机森林,以及是否应该用中位数还是零来填补家庭收入的缺失值。
好消息是,我们已经在业界看到了许多这些技术+商业案例面试。我的预测是,人工智能将使它变得更加普遍。
行为面试和跨职能面试:基本不变,但有新的变化
对于剩下的两种面试类型,行为面试和跨职能面试,它们可能会保持不变。它们评估候选人的软技能,如跨职能协作、沟通、冲突解决和所有权,以及他们的领域知识。这些都是人工智能无法替代的东西。然而,人们提出的问题可能会有一些变化。面试官可以添加关于候选人过去使用 AI 工具的经验的问题,以获取更多关于他们如何使用 AI 提高生产力和解决问题的信号。例如,产品经理可能会问,“我们如何使用 AI 来改善客户入职?”这些对话可以揭示候选人识别能够驱动真实商业价值的 AI 用例的能力。
带回家的作业:仍有争议,但很有用
除了这些常见的面试格式之外,还有一种有争议的格式,它不时出现在数据科学面试循环中——带回家做的作业。它通常是以提供数据集并要求候选人进行分析或构建模型的形式。有时会有指导性问题,有时则没有。交付成果从 Jupyter 笔记本到精炼的演示文稿不等。
我知道确实有一些候选人非常讨厌这个过程。这需要付出很多努力——尽管招聘人员总是说平均候选人需要大约 4 个小时,但实际花费的时间通常要长得多,因为你希望做到全面并展示你最好的工作。更糟糕的是,候选人可能最终连与团队交谈的机会都没有就被拒绝了——多么令人沮丧!不出所料,我之前从我们团队的招聘人员那里听说,带回家做的作业导致招聘过程中的流失率很高(所以我们取消了这一环节)。
但带回家做的作业确实有价值。它测试了从问题定义、编码、写作到演示的全过程技能。现在,使用你喜欢的工具在你的本地环境中工作,意味着你可以寻求人工智能的帮助,更快、更好地完成作业!因此,在这个新时代,带回家做的作业可以很容易地发展和变得更加普遍,对深度、解释和原创性的期望也会更高。然而,挑战在于招聘经理要设计出人工智能难以轻易解决或只能生成最低可接受解决方案的作业。例如,简单的数据处理任务是不合适的,但需要基于领域知识做出假设、进行权衡讨论和优先级排序的开放式问题会更好。而且,后续的现场面试总是有助于验证理解。
现在让我们总结一下在 AI 时代下,传统面试格式与新型格式的对比:
| 面试格式 | 传统格式 | AI 弹性/AI 赋能格式 |
|---|---|---|
| SQL/Python 编码 | 数据操作或简单的 LeetCode 风格算法问题的语法重点问题。 | 允许使用 AI。转向 AI 辅助的现场问题解决,或要求候选人评估 AI 输出。 |
| 统计学和机器学习 | 理论问题或从头开始构建模型。 | 在商业环境中评估统计思维。使用商业场景来评估方法选择、假设和权衡。 |
| 商业案例面试 | 在假设的设置中讨论增长、漏斗指标和保留策略。 | 与统计/ML 有更大的整合。评估候选人构建问题和应用正确工具的能力。 |
| 行为和跨职能面试 | 评估沟通、利益相关者协作、领域知识和文化适应性。 | 同样的结构,但可能包含关于 AI 经验和用例的新问题。 |
| 带回家的作业 | 分析数据或构建模型。这可能需要花费大量时间。 | 允许或预期使用 AI 辅助提交。开放式作业将侧重于深度、原创性和判断。 |
III. 这对求职者意味着什么
以下是我在 AI 时代数据科学家面试流程将如何转变的看法。然而,这些转变可能还需要一段时间才能发生,尤其是在那些拥有标准化和成熟招聘流程的大型公司中。
那么,求职者应该提前做些什么来更好地准备自己呢?
-
了解何时以及如何审慎地使用 AI。随着公司开始允许使用 AI,甚至在面试中评估您如何使用 AI,理解如何审慎地使用它变得至关重要。不要只是提示和粘贴。您应该了解 AI 擅长什么,以及它的不足之处,以及如何评估输出。更不用说 AI 在面试准备中也是一个超级有用的工具。它可以帮助您更好地理解职位,制定准备计划,并进行模拟面试——我可以就这一点写一整篇文章(也许下次吧)。
-
深入理解业务。随着 AI 辅助使得技术技能变得更容易,业务理解和领域知识成为求职者脱颖而出的关键。因此,每个人都应该与工作中的利益相关者更多合作,以发展他们的业务知识。在准备面试时,花时间进行公司研究,了解其产品——关键指标是什么,如何利用数据进一步增长产品,以及应该采取什么样的留存策略。
感谢阅读!如果您是招聘经理,我很乐意听听您的团队是如何适应这一变化的。如果您是求职者,希望这篇文章能帮助您为未来的面试做更明智的准备。

浙公网安备 33010602011771号