2026-年的数据科学-它仍然值得吗-

2026 年的数据科学:它仍然值得吗?

原文链接

你在想在 2026 年转向数据科学吗?

如果答案是“是”,这篇文章就是为你准备的。

我是 Sabrine。我在过去 10 年里在欧洲的 AI 领域工作,从大公司、初创公司到研究实验室。如果今天我必须重新开始,我会诚实地再次选择这个领域。为什么?

正是因为这些原因让我们中的许多人来到这里:智力挑战、你可以产生的影响、对数学和代码的热爱以及解决现实生活问题的可能性。

但展望 2026 年...它仍然值得吗?

如果你浏览 LinkedIn,你会看到两个团队在争斗:一个说“数据科学已经死亡”,另一个说它得益于人工智能趋势而正在增长。

当我环顾四周时,我个人认为我们始终需要计算技能。我们始终需要能够理解数据并帮助做出决策的人。数字无处不在,为什么它们会在 2026 年消失?

然而,市场已经发生了变化。现在要导航它,你需要良好的指导和明确的信息。

在这篇文章中,我将分享我在研究和行业工作以及在过去几年中指导超过 200 名数据科学家方面的个人经验。


那么,现在市场上正在发生什么?

我会坦诚相待,不会向你推销任何关于它的梦想。

目标不是引入偏见,而是给你足够的信息来做出自己的决定。

数据科学的工作领域是否比以往任何时候都更广泛?

图片

来源:pixabay (Kanenori)

初级数据科学家犯的最大错误之一是认为数据科学是一份单一的工作。

到 2026 年,数据科学是一个庞大的角色家族。在写下一行代码之前,你需要了解你适合的位置。

人们被人工智能所吸引:ChatGPT 是如何说话的,Neuralink 是如何刺激大脑的,以及算法是如何影响健康和安全的。但让我们坦诚一点:并非所有有志于成为数据科学家的人都会构建这些类型的项目。

这些角色需要强大的应用数学和高级编码技能。这意味着你永远无法达到它们吗?不。但它们通常是为具有博士学位、计算科学家和为这些利基职位受过专门训练的工程师准备的。

让我们用一个真实的例子来说明:我今天(11 月 27 日)看到的一家 GAFAM 公司的机器学习/数据科学家职位报价。

图片

作者截图

如果你查看描述,他们会要求:

  • 专利

  • 第一作者出版物

  • 研究贡献

所有对数据科学感兴趣的人都有专利或出版物吗?当然不是。

这就是为什么你必须避免盲目行动。

如果你刚刚完成了一个训练营或者学习初期,申请那些明确要求研究出版物的工作只会带来挫败感。这些非常专业的职位通常是为具有高级学术背景的人(博士、博士后或计算工程)准备的。

我的建议:要有战略眼光。专注于与你技能相匹配的角色。

不要浪费时间四处申请。

用你的能量建立一个与你的目标相一致的投资组合。

你必须了解数据科学内部的不同子领域,并选择适合你背景的领域。例如:

  • 产品数据分析师/科学家:产品生命周期和用户需求

  • 机器学习工程师:部署模型

  • GenAI 工程师:在 LLMs 上工作

  • 经典数据科学家:推理和预测

如果你看看 Meta 的产品数据科学家角色,其技术水平通常比核心人工智能研究工程师或高级数据科学家角色更适合市场上的大多数数据科学家。

这些角色对于没有博士学位的人来说更加现实。

图片图片

截图由作者拍摄

即使你不想在 GAFAM 公司工作,也要记住:

他们设定了方向。他们今天要求的东西明天将成为其他地方的规范。


现在,关于 2026 年的编码和数学呢?

图片

来源:pixabay (NoName_13)

这里是关于 2026 年的一个有争议但诚实的事实:分析和数学技能比编码更重要。

为什么?现在几乎每家公司都在使用 AI 工具来帮助编写代码。但 AI 不能取代你以下的能力:

  • 理解趋势

  • 解释价值从何而来

  • 设计一个有效的实验

  • 在实际环境中解释模型

编码仍然很重要,但你不能成为一个“通用导入者”——那种只导入 sklearn 并运行.fit().predict()的人。

很快,一个 AI 代理可能会为我们完成这部分工作。

但你的数学和分析技能仍然很重要,并且始终如此。

一个简单的例子:

你可以问人工智能:“像对我两岁孩子解释主成分分析(PCA)。”

但作为数据科学家,你的真正价值在于你提出的问题,例如:

“我需要优化公司在特定地区的制水产量。这个地区存在一些问题,导致网络在某些模式中不可用。我有关于这个网络状态的数百个特征。我如何使用主成分分析(PCA)并确保我使用的 PC 中包含了最重要的变量?”

-> 这种人类背景是你的价值。

-> 人工智能编写代码。

-> 你提供逻辑。


那数据科学工具箱呢?

让我们从 Python 开始。作为一种拥有庞大数据社区的语言,Python 仍然至关重要,并且可能是未来数据科学家首先学习的语言。

对于 Scikit-learn,这是一个经典的机器学习任务库。

图片

作者截图

我们还可以从 Google Trends(2025 年底)看到:

  • PyTorch 现在比 TensorFlow 更受欢迎

  • GenAI 的集成增长速度比经典库快得多

  • 数据分析师的兴趣保持稳定

  • 数据工程师和 AI 专家角色比一般数据科学家角色吸引了更多人

不要忽视这些模式;它们对于做出决策非常有帮助。

你需要保持灵活。

如果市场需要 PyTorch 和 GenAI,不要只停留在 Keras 和旧的 NLP 上。


那么,2026 年的新堆栈是什么样子?

这就是 2026 年的路线图与 2020 年不同的地方。

要在今天被雇佣,你需要准备好生产就绪

版本控制(Git):你将每天使用它。说实话,这是你开始时需要学习的第一个技能之一。它帮助你组织你的项目和所有你学到的知识。

无论你是开始攻读硕士学位还是开始参加训练营,请不要忘记在继续之前创建你的第一个 GitHub 仓库,并学习一些基本命令。

AutoML:了解它是如何工作的以及何时使用它。一些公司使用 AutoML 工具,特别是对于更注重产品导向的数据科学家。

我心中所想的工具,你可以免费访问,是Dataiku。他们有一个很棒的学院,提供免费的认证。这是在过去两年中在市场上爆炸式增长的 AutoML 工具之一。

如果你不知道什么是 AutoML:它是一个让你无需编码就能构建 ML 模型的工具。是的,它确实存在。

记住我之前说的关于编码的话?这是其他技能变得更重要的一个原因,尤其是如果你是一个以产品为导向的数据科学家。

MLOps:笔记本已经不够了。这适用于每个人。笔记本适合探索,但如果在某个时候你需要将你的模型部署到生产环境中,你必须学习其他工具。

即使你不喜欢数据工程,你仍然需要了解这些工具,这样你才能与数据工程师沟通并合作。

当我谈到这个话题时,我会想到像Docker(查看我的文章)、MLflow(链接在这里)和FastAPI这样的工具。

LLMs 和 RAG:你不需要成为专家,但你应该了解基础知识:LangChain API 是如何工作的,如何训练一个小型语言模型,RAG 代表什么,以及如何实现它。这真的会帮助你脱颖而出,也许如果你需要构建涉及 AI 代理的项目,还能更进一步。


投资组合:质量胜于数量

在这个快速且竞争激烈的市场中,你如何证明你能胜任这份工作?我记得我两年前写过一篇关于如何创建个人作品集的文章,而且我在这里要说的可能会有些矛盾,但让我来解释一下。在 ChatGPT 和 AI 工具充斥市场之前,拥有一个包含多个项目以展示你在数据清洗和数据处理等不同技能的作品集非常重要,但如今,所有这些基本步骤通常都是通过为这些步骤准备好的 AI 工具来完成的,因此我们将更多地关注构建能够让你脱颖而出并让招聘人员想要见你的东西。

我会说:“避免过度劳累,聪明地构建。”

不要认为你需要 10 个项目。如果你是学生或初级人员,一两个好的项目就足够了。

利用你在实习期间或最后的训练营项目中的时间来构建它。请不要使用简单的 Kaggle 数据集。上网搜索:你可以找到大量的实际用例数据,或者更常用于工业和实验室中构建新架构的研究数据集。

如果你不想深入技术层面,你仍然可以在你的个人作品集中展示其他技能:幻灯片、文章、解释你是如何思考商业价值的,你得到了什么结果,以及这些结果如何在现实中得到应用。你的个人作品集取决于你想要的职位。

  • 如果你的目标是更偏向数学,招聘人员可能会想看到你的文献综述以及你是如何在你自己的数据上实现最新架构的。

  • 如果你更倾向于产品导向,我更感兴趣的是你的幻灯片以及你是如何解释你的机器学习结果的,而不是你的代码质量。

  • 如果你更倾向于 MLOps,招聘人员会关注你是如何部署、监控和跟踪你的模型在生产中的表现。

最后,我想提醒你,市场变化很快,但这并不意味着数据科学走到了尽头。这只意味着你需要更清楚地了解自己的定位,你想要发展哪些技能,以及你如何展示自己。

继续学习,并构建一个真正反映你自己的个人作品集。你将找到属于你的位置 ❤️

如果你喜欢这篇文章,欢迎在 LinkedIn 上关注我,获取更多关于 AI、数据科学和职业的真诚见解。

👉 LinkedIn: Sabrine Bendimerad

👉 Medium: medium.com/@sabrine.bendimerad1

posted @ 2026-03-27 09:47  绝不原创的飞龙  阅读(1)  评论(0)    收藏  举报