密西根大学-AI-数据分析笔记-全-

密西根大学 AI 数据分析笔记(全)

1:0_欢迎学习本课程 👋

在本节课中,我们将一起了解这门课程的核心内容、目标受众以及你将学习到的关键技能。课程由密歇根大学人类学副教授Tina Asisi博士主讲,她将分享自己从零开始学习数据分析,到如今运用AI工具加速研究的亲身经历。

我是Tina Asisi博士,密歇根大学的人类学副教授,也是本课程的讲师。

我大部分的数据分析技能是在攻读博士学位期间获得的,当时我从零开始学习Python,以开发一个用于测量头发形状的图像分析程序。

自那时起,我致力于分析各种数据,包括法医背景下的基因数据、人口统计数据,以及3D面部数据等。

时间快进到2022年底,当OpenAI向公众发布ChatGPT时,一切发生了改变。

从那时起,我开始使用这个工具和许多其他AI工具来加速我的分析,并进行新的、更复杂的分析。

我也一直在教我的研究生如何使用这些工具。

这也是我决定将所有一对一的教学内容整合成一门面向更广泛受众的课程的部分原因。

这门课程适合你吗?🎯

现在,这门课程适合你吗?我认为这门课程对两大类人群会有帮助。

第一类是数据分析的新手,即完全的初学者。

第二类是已经做过一些数据分析,但想知道AI出现后有哪些变化的人。

课程结构 📚

本课程的结构旨在让你首先思考数据分析的背景。

然后是分析和可视化数据的具体细节。

最后,再次将视野拉远,思考那些支持数据分析但不一定是其核心组成部分的事情。

关于“AI”的定义 🤖

在本课程中,当我提到“AI”时,除非另有说明,我将特指那些具有聊天界面的生成式AI工具。

例如OpenAI的ChatGPT、Anthropic的Claude和Google的Gemini等。

即使在我们归类为AI聊天机器人的这个工具子集中,其功能和性能也存在很多差异,并且这个领域的变化非常迅速。

因此,与其教你如何利用ChatGPT高级版的数据分析等集成功能,我们将只假设使用功能最基础的基本模型。

我们将专注于一项更广泛适用的技能:知道该问什么

任何在这个世界上生活得足够久的人都曾遇到过请别人做事却被误解的情况。

以下场景听起来是否熟悉?

“你为什么那样做?”“你什么意思?我按你的要求做的。”“那不是我的意思!”“我怎么会知道?指令不明确!”

此时此刻,在世界上的某个地方,有人正在对着AI聊天机器人喊叫。不要让那个人是你。

我并不是说AI永远不会出错,或者没有改进的空间。

但至少在本课程结束时,你将能更好地了解在数据分析的每一步中需要考虑的因素。

核心思想:学会有效委派 💡

换句话说,AI的普及意味着现在每个人都可以委派任务。你可以成为“老板”。

但成为一个好老板意味着知道如何有效地委派。

这意味着清楚自己想要什么,并能详细地提出要求


本节课总结

在本节课中,我们一起学习了这门《AI驱动的数据分析:实用入门指南》课程的概况。我们了解到,课程旨在帮助数据分析新手和有一定经验的人士,利用AI工具提升效率。课程的核心不是学习某个特定工具的高级功能,而是掌握与AI协作的通用技能——即如何清晰、准确地提出需求,从而有效地“委派”任务给AI助手,避免沟通误解,共同完成数据分析工作。

2:1_究竟何为数据 📊

在本节课中,我们将要学习“数据”这一核心概念。在开始分析甚至引入生成式AI之前,我们需要对基础知识达成共识。

数据的传统定义:DIKW金字塔 🏛️

如果你开始寻找“数据”的定义,你很可能会遇到“数据-信息-知识-智慧”金字塔。这个框架通常被认为是拉塞尔·艾可夫提出的,它将数据定位为金字塔的底层,即完全原始的事实,没有经过任何加工、没有上下文、没有解释。

根据这个金字塔模型,数据经过处理、组织或结构化后成为信息。然后,我们利用这些信息构建知识,并最终将知识转化为智慧。

传统模型的局限性 🤔

虽然这个金字塔模型很有名,但必须指出它有其局限性。例如,我们有时会将世界视为包含信息,然后从中提炼出数据。那么,到底是怎么回事?

实际上,“数据”和“信息”这两个词经常被互换使用,这恰恰说明了理解它们试图传达的概念比纠结于字眼更重要。因此,与其严格遵循这个金字塔模型,不如扩展我们对“数据”含义的理解。

“数据”的词源与演变 📜

“数据”一词来源于拉丁语“datum”,意为“被给予的东西”。这表明数据可以被视为一种“给定”,既可以指一个事实,也可以更广泛地指一个前提或起点。

跳到1946年,我们看到“数据”被用来描述数字环境中的信息,即由计算机处理或存储的信息。此外,我们常听到感官输入(如视觉或嗅觉)被描述为我们大脑处理的数据;在辩论中,要求“数据”意味着需要确凿的证据。

在科学研究中,甚至唾液或头发等物理样本也被视为我们收集的数据。

数据的核心概念:信息的基本单元 🔗

将这些例子联系在一起的,是数据作为信息基本单元的概念,无论这些单元是有形的还是抽象的。

我们可以将数据视为任何可记录的东西,无论是观察结果、声音,甚至是抽象的想法。这种灵活性使我们能够创造性地与世界互动,在任何地方识别潜在的数据。

数据分析的本质 🧩

数据分析的核心在于收集和解读记录下来的信息,以揭示模式或洞见。人类一直在做这件事,从在脑海中组织经验,到为了分析模式而将事物物理地记录下来。

一个实用的定义 ✅

因此,让我们采用一个实用的定义:数据指的是对世界某些方面的表示或编码,这些表示或编码允许我们对其进行处理、分析和进一步探索。

扩展这个定义,你可以将数据集视为可比较数据的集合

本课程的重点:数字数据 💻

对于本课程,我希望你专注于数字数据,即可以编码为机器可读的二进制格式的数据。

当你思考数据时,请考虑世界的哪些方面可以被捕获和编码,准备好让计算机以0和1的形式进行处理。

总结 📝

本节课中,我们一起学习了“数据”这一基础概念。我们从传统的DIKW金字塔模型出发,探讨了其局限性,并追溯了“数据”一词的词源与历史演变。我们认识到,数据的核心是作为可记录的信息基本单元,其本质在于对世界的表示或编码。最后,我们明确了本课程将聚焦于数字数据,即能够被计算机处理的二进制信息。理解这个宽泛而实用的定义,是开启所有后续数据分析工作的第一步。

3:数据采集与生成式AI 📊

在本节课中,我们将要学习如何获取或采集数据,以及生成式人工智能如何改进这一过程。我们将探讨数据的不同来源、采集方式,并理解数据背后的记录与编码概念。最后,我们会看到生成式AI如何帮助我们从问题出发,找到或规划所需的数据。


数据获取的多种方式 🎣

我们获取数据的方式多种多样,有时我们谈论“捕获”数据,如同捕获野生动物;有时谈论“收集”数据,如同收集一篮水果;有时则是“提取”数据,如同开采石油;甚至是“生成”数据,如同发电。我们甚至可能谈论“获得”数据,就像一笔来路不明的钱款落到了我们膝上。

这里需要记住的核心概念是记录编码。你通过某种方式记录信息,并将其编码成计算机可处理的格式,从而将你周围的事物转化为数字数据。

记住数据并非以某种原始形态被动获得这一事实,应该提醒你需要批判性地思考数据的来源及其所要代表的意义。


人类在数据采集中的角色 👥

数据不会自发地出现在我们面前,人类不可避免地参与了这一过程。但我们参与的方式和程度是可变的。

它可以是直接的,例如清点你桌上空杯子的数量;也可以是使用复杂的、具备自动化数据记录过程的工具,例如心率监测仪,甚至是用于测量电离辐射的电子仪器——盖革计数器。

即使是像盖革计数器或心率监测仪这样高度自动化的工具,其内部也嵌入了人们关于“测量什么”的决策。

对你正在记录的内容是什么,以及你所捕获的这种“表征”可能存在哪些局限性产生好奇,将极大地提升你通过数据分析产生有价值见解的能力。


利用生成式AI从问题到数据 🤖

你可能对某个问题有自己的想法,而生成式AI可以帮助你从问题走向数据。

例如,你可能对“为什么同一座城市的某些区域在夏季比其他区域更热”感兴趣。

你可以使用像ChatGPT或Claude这样的文本生成式AI工具,通过以下提示来集思广益你的问题:

我感兴趣的是理解为什么同一座城市的某些区域在夏季比其他区域更热。我需要什么样的数据来回答我的问题?

你可以将此作为起点,然后进一步提示以获取具体信息,例如“我该如何进行温度测量?”,并深入批判性地理解你的选择有哪些。

根据你使用的工具,它可能基于训练数据为你提供在哪里可以找到现有数据集的答案;或者,如果它集成了网络浏览器,你可以通过类似“有哪些公开可用的数据源可以帮助我回答这个问题?”的提示来获取信息。


数据存储库与数据库 📁

你可能还想尝试使用“数据存储库”和“数据库”这两个术语。两者都是数据集合的术语。

  • 数据库 通常指更结构化、更具体的集合,例如仓库中使用的、采用非常特定且一致格式的库存系统。
  • 数据存储库 则可以包含各种类型数据的广泛的结构化和非结构化集合。

例如,研究人员经常将数据保存在像Zenodo这样的网站上,在那里你可以托管图像、电子表格等各种模态和格式的数据。


模态与格式 📄

上一节我们介绍了数据存储的概念,本节中我们来看看描述数据形态的两个关键术语:模态与格式。

  • 模态 指的是数据的类型或表现形式,例如文本、图像、音频、视频或传感器读数。
  • 格式 指的是数据在特定模态下的具体编码或存储方式,例如文本可以是.txt.pdf格式,图像可以是.jpg.png格式。

理解你处理的数据的模态和格式,对于选择正确的工具和方法进行分析至关重要。


总结 ✨

本节课中,我们一起学习了数据获取的多种比喻和实际方式,理解了记录编码是数据数字化的核心。我们认识到人类在数据采集过程中扮演着关键角色,即使是在自动化工具中。最后,我们探讨了生成式AI如何作为一个强大的助手,帮助我们根据研究问题来规划和寻找数据,并区分了数据存储库数据库,以及数据模态格式这些基本概念。批判性地思考数据的来源和表征,是进行有效数据分析的第一步。

4:数据内容与容器 📁📊

在本节课中,我们将学习数据科学中两个核心概念:数据内容数据容器。我们将探讨不同类型的数据(如文本、图像、音频)以及它们是如何被存储和管理的。理解这两者的区别是进行有效数据分析的第一步。


数据内容与数据容器

数据内容指的是数据所代表的信息本身,即数据的本质。而数据容器则关注数据是如何被存储和管理的,这通常体现在不同的文件格式上。

上一节我们介绍了数据分析的基本概念,本节中我们来看看数据的具体形态和承载方式。

数据内容 是关于数据代表什么,即其承载的信息。
数据容器 是关于数据如何被存储和管理,即其存在的形式,这可以通过不同的文件类型来实现,也就是你在文件名末尾看到的扩展名。


常见的数据内容与容器示例

以下是不同类型数据内容及其常见存储格式的示例:

  • 视觉数据:其格式包括 JPEG、PNG,以及用于视频的 MP4 或 AVI。
  • 音频数据:以 MP3 或 WAV 等格式编码。
  • 文本数据:可以存储在纯文本、Microsoft Word 文件或 PDF 等格式中。这些文件当然可以包含图片和数字,但它们通常被视为非结构化的文本文件。

结构化数据:表格格式

与上述非结构化文本文件相比,表格数据则能以更结构化的方式呈现。

表格数据可以用 Excel 文件或 CSV 文件来表示,它们可以包含结构化数据。这种格式的文件类型的特点是它们是表格化的,意味着内容以表格形式组织。


数据分析的核心:数值化表示

由于大多数数据分析都涉及某种数学推理,因此无论你对哪种类型的数据内容感兴趣,很可能都需要将其转换为某种数值表示。

在这个简短的课程中,我们将重点介绍如何处理那些已经以包含数字和文本的电子表格形式呈现给你的数据。


课程总结

本节课中我们一起学习了数据内容与数据容器的关键区别。我们了解到,数据内容是信息本身(如文本、图像),而数据容器是存储这些信息的形式(如.txt.jpg文件)。同时,我们认识到,为了进行分析,各种数据最终常需转化为数值形式,而结构化数据(如表格)是数据分析中最常见和基础的起点。理解这些概念将帮助我们更好地准备和处理数据,为后续的AI驱动分析打下基础。

5:数据分析定义解析 📊

在本节课中,我们将深入探讨数据分析的核心定义、基本构成要素以及如何利用生成式AI来辅助这一过程。我们将从数据的基本单元开始,逐步理解如何将原始数据转化为有意义的洞察。


什么是数据分析?

上一节我们了解了数据是什么以及分析数据的原因,现在我们来深入探讨数据分析的实际含义。

数据分析是一种调查过程。你将事物分解为其组成部分,从不同角度和不同分组中审视它们,并寻找能够让你讲述一个故事的模式


数据的基本构成要素

让我们从基础开始。你的数据由哪些基本模块构成?

想象一个充满天气数据的电子表格。这个表格中的每一行代表一个不同的观测值,即记录数据的一个特定实例或时刻。

每个观测值中的细节,如降雨量、温度、大气压力和位置,这些就是我们所说的变量

通过检查这些观测值和变量,我们开始拼凑出一个叙事。例如,我们不是查看单一的降雨量测量值,而是探索跨时间的多个数据点,以比较不同地点的降雨量变化。


从数据到分析问题

这引导我们形成指导叙事的分析性问题。

例如:

  • 哪个地点降雨量更多?
  • 温度模式如何随地点变化?

这些问题开启了比较分析,我们通过探索差异和相似性来推进我们的故事。

数据分析还可以扩展到推断分析,我们尝试基于已知变量预测或估计未知事物。

例如,我们能否利用温度和大气压力的数据来预测降雨量?


重组数据以揭示模式

在上述每个步骤中,我们创造性地对观测值进行分组和重组,以揭示潜在的模式。

将一个宽泛的探究转化为一个精确的数据分析问题,需要对如何操作数据元素有敏锐的理解。


生成式AI如何加速分析过程

生成式AI可以通过充当一个动态的“回音板”来加速这一过程。它帮助你快速探索各种假设并完善你的分析问题。

例如,对于你的天气数据,你可能会问:“给定降雨量、温度和压力等变量,我们可以探索哪些模式来理解温度波动?”

这些初始提示只是一个起点。你将学会与AI反复迭代你的问题,不断改进它们,以更好地与你的分析目标保持一致。

  • 对于经验丰富的分析师:这个工具加速了识别问题和数据集的过程。
  • 对于初学者:这就像身边有一位经验丰富的向导,建议你可能想要探索的路径。

总结:AI作为你的数据分析顾问

现在你掌握了基础知识,可以将生成式AI想象成你按需提供的数据分析顾问。

你仍然负责深度分析和决策,但AI确保你永远不会从一张白纸开始。

这就像是从令人头疼的“你想吃什么?”问题,转变为“这是一份菜单,有什么看起来合你胃口吗?”。


在对数据分析是什么有了基本了解之后,我们接下来要解决的问题是:如何实际进行数据分析,并概述你可以使用的工具。

6:数据工具的多样性 📊

在本节课中,我们将探讨数据分析所需的各种工具,了解从基础编程语言到现代AI工具的演变,并学习如何利用这些工具来高效地处理数据。


🛠️ 数据分析为何需要工具?

过去,人们使用纸笔或心算进行数据分析。例如,有人能心算出洗发水和护发素的套装价格其实比单买更贵。

然而,使用计算工具进行数据分析有许多原因。一是数据量太大,难以手动处理。二是分析复杂度高,非计算方法无法胜任。三是透明度,使用计算工具有助于记录过程,使分析清晰且可复现。

此外,还有可重复性。计算工具能让你复现自己的工作,并调整和扩展到更大的分析中。


💻 编程语言:与计算机沟通的基础

除非你能直接接入“矩阵”,否则你需要像我们一样,通过编程语言与计算机沟通。

编程语言是用于编写计算机能理解和执行的指令的复杂系统。所有数字计算的核心都是二进制代码,即0和1的组合。这些二进制既代表计算机中存储的数据,也代表处理这些数据的指令。计算机执行的每一个操作都涉及解码这些二进制序列。

在光谱的一端,有低级编程语言,如汇编语言。它们与直接的二进制代码或早期计算使用的穿孔卡片仅一步之遥。使用这些语言,你需要做很多非常具体的事情,并给出那些你觉得不言自明或本应内置的指令。

在光谱的另一端,有高级语言,如Python。它们离二进制代码更远,更接近人类的交流方式。这种人类可读机器可读的区别凸显了计算机编程的一个关键方面:抽象层次


📚 库、包与集成开发环境

库和包就像编程中的快捷方式,提供预先写好的代码块,以节省时间和精力。

然后是集成开发环境。可以将IDE想象成一个设备齐全的厨房,所有需要的工具都触手可及。这些工具的设置让你能轻松地编写代码、保存、记录、组织代码。根据所使用的IDE,它们甚至可以捕获代码中的错误,有些甚至内置了AI编程助手。


📈 专业软件与AI时代的抽象

我们还有像SPSS和SAS这样的软件包,它们为统计分析提供了高级的专业工具,不需要太多编码,基本上是指点点击。

在AI时代,理解抽象实际上非常有帮助,因为这就是许多AI工具所提供的功能。换句话说,AI工具允许我们直接用人类语言指令来表达我们想做的事情。


🤖 利用基于文本的生成式AI进行数据分析

接下来,希望你思考以下几种利用基于文本的生成式AI进行数据分析的实用方法。

以下是几种主要方式:

  1. 工具选择:你可以使用AI来识别最适合你特定需求的软件或编程语言。例如,你可以提问:“我正在尝试做X,对我而言,用什么语言或工具比较好?”AI搜索引擎可以帮助你快速获得答案,助你根据项目需求选择正确的工具。

  2. 操作指导:AI可以指导你有效使用这些工具的必要步骤。可以提问诸如“如何在R Studio中输入我的数据?”或“如何在Python中计算相关性?”这类问题。这种方法对于流行工具尤其有用,因为它们在AI训练数据中的代表性通常更好。

  3. 直接执行:使用像ChatGPT这样的工具,你可以直接利用其高级版本内置的数据分析工具进行数据分析。这些AI工具内置了代码解释器,因此它们不仅能处理语言,还能生成代码。

在本课程的剩余部分,我们将重点关注操作指导,并使用Python作为我们的编程语言,Jupyter Notebook作为我们的IDE。


✅ 课程总结

本节课我们一起学习了数据分析工具的多样性。我们从使用计算工具的必要性开始,探讨了从低级到高级的编程语言、库、IDE以及专业软件。最后,我们重点介绍了在AI时代如何利用生成式AI进行工具选择、操作指导和直接执行分析任务,并明确了本课程后续将使用Python和Jupyter Notebook作为主要工具。理解这些工具及其抽象层次,将为你高效地进行数据分析奠定坚实基础。

7:数据类型与结构体系 📊

在本节课中,我们将学习数据分析的基础概念:数据类型与数据结构。理解这两者是有效组织和处理数据的前提,也是后续使用AI工具进行高效分析的关键。


概述:内容与容器

上一节我们讨论了数据分析的准备阶段。现在,你已经拥有了数据、问题和工具,接下来该做什么?下一步是思考如何在数据中表示信息,这涉及到数据类型;以及如何为分析准备数据,这涉及到数据结构。本节我们将聚焦于前者。

简单来说,数据类型是数据分析过程中的内容,而数据结构是组织和存储这些内容的容器


数据类型:数据的“内容” 📝

数据类型是数据的类别,每种类型都有其特定的使用和操作规则。理解数据类型有助于你选择正确的操作,避免错误。

以下是几种常见的数据类型:

  • 字符串数据:由字符组成的文本,例如姓名。你可以对其进行排序、计算其长度(即字符数),但不能直接进行数学运算。
    • 示例代码name = "Alice"
  • 数值数据:包括整数(如 42)和浮点数(如 3.14)。这类数据可用于各种计算。
    • 有效操作:求平均值、求和等。
    • 示例公式平均值 = 总和 / 数量
  • 分类数据:用于对观测值进行分组和筛选的标签或名称。与字符串的关键区别在于其用途——如果某个值被重复用于对事物进行分类,它就是分类数据。
    • 示例:性别(男/女)、产品类别(电子产品/服装)。
  • 二进制数据:也称为布尔值,只有 TrueFalse 两种状态。用于追踪条件或在逻辑运算中使用。
    • 示例代码is_completed = True

当然,数据类型远不止这些。根据分析工具和具体需求,你可能还会遇到文件路径、不同精度的浮点数(如 float32)、XML、JSON对象等。本质上,任何具有特定操作属性的数据类别都可以视为一种数据类型。


数据结构:数据的“容器” 🗃️

理解了数据的“内容”后,我们来看看存放它们的“容器”——数据结构。重要的是,这些容器本身也是一种具有特定属性和规则的数据类型。

以下是几种基础的数据结构:

  • 数组:在固定大小的序列中存储相同类型的元素。它允许基于索引的快速访问,但灵活性有限。可以将其想象成一个行列有特定含义的表格。
  • 列表:比数组更动态,可以增长或缩小,并且能存储不同类型的元素。
    • 示例代码(Python)my_list = [1, "apple", True]
  • 字典:以键值对的形式组织数据。它非常适合基于唯一标识符(键)进行快速检索,当你需要根据特定属性查找数据时尤其有用。
    • 类比:就像根据朋友的名字查找他的电话号码。
    • 示例代码(Python)phonebook = {"Alice": "123-4567", "Bob": "890-1234"}

为什么这些概念至关重要?⚠️

你可能会问,为什么要关心这些?因为在数据分析中,你不可避免地会遇到错误。这些错误常常是因为你试图对提供的数据类型执行一个无法执行的操作。

例如,尝试将字符串“100”和数字50直接相加,可能会导致类型错误或非预期的结果(如字符串拼接“10050”而非数字相加150)。理解数据类型能帮助你预见并避免此类问题。


核心关系:对象与方法 🔄

我们之前介绍了数据类型和结构。现在,引入两个最终的定义来串联所有概念:对象方法

如果把数据类型和数据结构看作是对象,那么方法就是你可以对它们执行的操作或指令

例如,对于一个列表(对象),你可以调用 .append() 方法(指令)来向其中添加一个新元素。

理解这种关系对于利用AI辅助数据分析至关重要。它能帮助你提出准确的问题、进行有效的故障排查,并理解AI工具给出的建议。当你尝试不同的AI工具时,不妨将它们视为友好的导师,请教它们哪些数据类型和结构更适合你当前感兴趣的分析任务。


总结与预告

本节课中,我们一起学习了数据分析的基石:数据类型(内容)和数据结构(容器)。我们了解了字符串、数值、分类和二进制等常见数据类型,也认识了数组、列表和字典等基础数据结构。最后,我们明确了对象方法的关系,这是与AI工具有效交互的关键。

现在我们已经掌握了这些基本术语,在下一个视频中,我们将更深入地探讨数据整理的各种方法,学习如何将原始数据塑造成适合分析的形式。

8:数据整理技术 🧹

在本节课中,我们将学习数据整理的核心概念与实用技术。数据整理是数据分析流程中至关重要的一步,它关乎数据的质量与后续分析的准确性。


什么是数据整理?🧼

将数据整理想象为给你的数据做一次“大改造”。

这并不意味着只是给数据换个“新发型”就称之为约会。不,数据整理的重点并非仅仅让数据看起来更好看,它具备功能性价值

当你初次获得数据时,它可能一团糟,而数据整理就是将这些混乱变得井然有序。


数据整理面临的常见挑战 🚧

在让数据变得有序的过程中,我们通常会面临几个常见的障碍。

以下是数据整理中需要处理的主要问题类型:

  • 缺失或错误的数据:我们经常需要处理缺失或不正确的数据条目。
  • 重复条目:重复的记录可能会干扰你的分析结果。
  • 分类数据问题:数据中的类别可能存在不一致,例如拼写错误,或用三种不同方式书写同一个类别。
  • 数据重塑需求:有时,我们需要重塑数据的结构,以更好地适应特定的分析需求。

数据整理的重要性:垃圾进,垃圾出 ⚠️

正如俗语所说:垃圾进,垃圾出。如果输入的数据质量低劣,那么输出的分析结果也必然不可靠。

因此,让我们通过一个小课程来学习如何修复这些常见的数据问题。


本节课中,我们一起学习了数据整理的基本概念、常见挑战及其重要性。理解并掌握数据整理技术,是确保后续数据分析工作有效、准确的基础。

9:数据分析实践 📊

在本节课中,我们将学习数据分析的核心实践。我们将探讨统计分析的基础知识,并了解如何利用AI工具作为辅助,指导我们编写分析代码,而不仅仅是替我们完成分析。

我们已经思考过数据,收集过数据,甚至处理过数据,现在终于到了关键时刻:分析。

在数据分析领域,世界是你的舞台。但为了确保你不会在众多选择中迷失方向,我们需要先掌握一些基础知识。

上一节我们介绍了数据分析的重要性,本节中我们来看看统计分析的基础以及AI如何辅助我们。

统计分析基础与AI辅助 🧮

让我们探索统计分析的基础,我将向你展示JenAI如何扮演副驾驶的角色,引导你编写这些分析的代码,而不是直接为你完成。

描述性统计

描述性统计能让我们快速了解数据的概况。

以下是获取数据洞察的基本步骤:

  • 核心概念:描述性统计(如均值、中位数、标准差)用于总结数据集的主要特征。
  • AI辅助示例:假设你有一个每周气温的数据集,与其手动计算平均值,你可以询问AI:“你能帮我写一个Python脚本来计算这个数据的平均温度吗?”
  • 代码示意:AI可能会引导你使用类似 data['temperature'].mean() 的Pandas函数。

组间比较

比较数据中的不同组别可以揭示组间差异和相似性的重要见解。

上一节我们了解了如何总结数据,本节中我们来看看如何比较不同组别。

以下是进行组间比较的方法:

  • 核心概念:通过统计检验(如t检验)比较两个或多个组的均值是否存在显著差异。
  • 应用场景:比较不同营销策略下的销售额,或不同地区产品的用户满意度。
  • AI辅助思路:你可以询问AI:“如何用Python检验A组和B组的平均成绩是否有显著差异?”

识别模式与关系

识别数据中的模式或关系也能揭示大量信息。

在掌握了数据总结和比较后,我们可以进一步探索变量之间的关系。

以下是探索数据关系的途径:

  • 核心场景:假设你好奇更高的温度是否会影响冰淇淋销量。以JenAI为副驾驶,你可能会问:“使用Python检查温度和冰淇淋销量之间相关性的最佳方法是什么?”
  • 核心方法:在这里,JenAI会引导你使用相关性函数。
  • 公式/代码示意:例如,使用Pandas的 data['temperature'].corr(data['ice_cream_sales']) 来计算皮尔逊相关系数。

迈向高级分析 🚀

当你对基础统计知识掌握牢固后,探索高级统计建模(如回归分析或预测建模)就成为下一个前沿领域。

Gen AI可以指导你如何进行。你可能会说:“我想根据历史数据预测下个月的销售额。你能指导我在Python中建立线性回归模型吗?”

这样你就获得了一个个性化的教程。在进入下一个关于数据可视化的视频之前,我再给大家举几个例子。

本节课中我们一起学习了数据分析的核心实践。我们从描述性统计开始,了解了如何快速总结数据;接着探讨了如何比较不同组别以发现差异;然后学习了如何识别变量间的模式和关系,例如相关性分析;最后,我们展望了在基础稳固后,如何利用AI辅助进入回归分析等高级建模领域。记住,AI在这里的角色是引导和教学,帮助你理解并亲手编写分析代码,从而真正掌握数据分析的技能。

10:数据可视化方法 📊

在本节课中,我们将要学习数据可视化的核心概念、常见图表类型,以及如何利用生成式AI来辅助我们高效地创建和定制图表。我们将通过具体的天气数据示例,展示从生成基础图表代码到进行美学定制的完整流程。


任何需要为研究绘制图表的人都知道,最令人沮丧的莫过于告诉自己“我很快就能调整好”,结果却发现已经在字体大小或颜色上折腾了五个小时。虽然我承认自己总会找到一些方式在吹毛求疵的细节上浪费时间,但必须指出,现在我可以依赖生成式AI来帮我调整绘图代码,这使得生成可视化图表代码的过程变得容易得多。

那么,数据可视化究竟是什么?我们为什么要进行数据可视化?

数据可视化本质上是将数据转化为图形表示的艺术与科学。为什么要这么做?因为可视化能以一目了然的方式传达复杂的数据,无论是展示模式、关系,还是清晰地总结你的发现。好的可视化胜过千言万语,“一图胜千言”这句老话是有道理的。


常见可视化图表类型 📈

掌握了天气数据后,让我们探索不同类型的可视化图表,并了解如何借助生成式AI来生成创建这些图表所需的代码。

折线图

折线图非常适合展示随时间变化的趋势。例如,如果你想观察几个月内的温度波动。

以下是使用生成式AI的一个示例:“帮我写一个Python脚本,根据这份天气数据生成每月平均温度的折线图。”

柱状图

柱状图非常适合比较不同类别之间的数据。假设你想比较不同季节的平均降雨量。

你可以向生成式AI提问:“协助我编写代码,根据天气数据生成一个比较每个季节总降雨量的柱状图。”

散点图

散点图最适合检查两个变量之间的关系。你可能对特定日期的风速与湿度之间的相关性感兴趣。

你可以这样询问生成式AI:“生成Python代码,创建一个展示每日风速与湿度关系的散点图。”

直方图

直方图有助于理解特定变量的分布情况,例如每日最高温度。

使用生成式AI,你可以提问:“你能指导我使用这个天气数据集,为每日最高温度的分布创建一个直方图吗?”


定制与美化图表 🎨

一旦获得了生成这些图表的初始代码,定制其美学特征(如颜色、标签和标题)可以使它们更有效,同时也更具视觉吸引力。

以下是生成式AI如何促进这一过程:

  • 调整颜色:创建一个代码片段,将折线图的调色板调整为冷色调,以更好地表示温度数据。
  • 优化标签:帮助我修改柱状图上的坐标轴标签,以增强可读性。


将生成式AI视为你的超级实习生 🤖

可以把使用生成式AI想象成在数据时代雇佣你自己的超级明星实习生。它接管了编码和调整图表这些繁琐、重复的任务,让你可以自由地专注于真正重要的事情:构思那些关键问题。

就像许多教授和CEO将实施细节委派出去以专注于战略问题一样,现在你也可以这样做。这不仅仅是让事情变得更简单,更是将每个人提升到思考者和战略家的角色,让AI去处理那些琐碎的事情。


重要提示与注意事项 ⚠️

但是,这里有一个注意事项:不要让战略与执行之间的差距变得太大。一个好的领导者不仅能够有效地委派任务,还能理解他们所委派任务的基本原理。

如果你不清楚自己想要什么,或者不知道如何指示你的AI“实习生”,或者无法评估其输出的质量,你就会处于劣势。过度依赖AI而不理解其过程,可能会导致结果不尽如人意。

虽然很容易认为你不需要了解任何编码知识,但一点点知识大有裨益。理解基础知识有助于确保你的AI完成的工作真正符合你的愿景,并提供你所需的洞察力。


总结 📝

本节课中,我们一起学习了数据可视化的目的与价值,探讨了折线图、柱状图、散点图和直方图等核心图表类型及其适用场景。我们重点介绍了如何利用生成式AI作为高效工具,来生成图表代码并进行定制化美化。最后,我们强调了在借助AI的同时,保持对基础原理的理解至关重要,这样才能确保最终的可视化结果准确、有效,并真正服务于我们的分析目标。

11:辅助性技能培养 📚

在本节课中,我们将学习数据分析工作中至关重要的辅助性技能:如何妥善保存和分享你的工作成果。掌握这些技能能有效提升你的工作效率和协作能力。


现在,我们已经来到了最后一个模块。你已经完成了大量的学习。

你学会了如何识别数据并获取数据。

你也学会了如何分析数据并将其可视化。现在,在这个最终的模块中,我将教你一些实用的辅助技能。

我指的是保存和分享你的工作成果。我无法过分强调正确保存工作的重要性。

你可能会想,我知道我知道,点击保存按钮,备份你的数据。但这并不是我要说的重点。是的,那些事情也很重要。

但人们常常忘记,仅仅保存工作是不够的。你如何保存它同样关键。

你如何记录你所创建的不同版本。

我指的是那种常见的混乱情况:开始一个项目,保存一个草稿,然后制作最终版本,但实际上它又不是最终版本,因为有人给了你更多修改意见。

然后你又做了一些修改,现在看看你的文件夹。

解决这些令人头疼的问题的方法是一个叫做“版本控制”的概念。从技术上讲,当你手动为文档的不同版本命名时,你就在进行版本控制。

但如果我告诉你,有更好的方法呢?存在自动化的版本控制方式。

像谷歌文档这样能自动保存进度并允许你回溯到先前版本的工具就是一个例子。

对于数据分析,你可以使用名为 Git 的工具轻松跟踪项目的变更。

Git 是用于此目的最常用的软件程序。

但也存在其他版本控制的替代选项,如 SVNMercurialBazaarPerforce Helix Core

我们工具箱中的另一个辅助工具是 GitHub。GitHub 是一个在线平台,你可以在其中托管你的版本控制项目。

GitHub 也为编程和数据分析领域的人们提供了一个在线社区和作品集展示平台。

接下来,让我们为你配置这些工具。


本节课中,我们一起学习了数据分析中保存和分享工作的核心辅助技能。我们探讨了版本控制的重要性,介绍了 Git 这一自动化版本控制工具及其替代品,并了解了 GitHub 作为项目托管和社区平台的作用。掌握这些工具将帮助你更高效、更专业地管理数据分析项目。

12:生成式AI技术助手 🛠️

在本节课中,我们将学习如何利用生成式AI作为个人技术助手,以高效解决软件使用、环境配置等常见技术问题。我们将探讨其优势、适用场景、局限性以及最佳实践方法。


概述:AI成为你的个人技术专家

AI现在可以充当你的个人技术专家。许多过去需要花费大量时间学习的事情,现在借助合适的AI助手,你都可以自行解决。

实际上,在我筹备这门课程之前,我从未使用过Jupyter Notebooks。这或许令人惊讶,因为我是一名R语言用户,所有经验都基于RStudio。但现在,借助生成式AI,学习使用新软件变得相当容易。

生成式AI:新一代的“让我帮你谷歌一下”

使用生成式AI基本上就是新一代的“让我帮你谷歌一下”。这是目前最高效的解决问题的方式。

回想一下过去搜索如何设置Python开发环境时的挫败感。你通常会找到大量通用指南,并希望其中有一份恰好符合你的具体配置。而有了生成式AI,这个过程变得轻松许多。

具体应用:以配置Jupyter Notebook为例

例如,假设你正在设置Jupyter Notebook。你现在可以直接提问:“如何在macOS上配置Jupyter Notebook?”

正如课程开头所说,本课程侧重于使用普遍可用的基础AI聊天机器人。但将AI直接集成到编码环境中的技术也取得了巨大进展。

集成开发环境中的AI助手

像GitHub Copilot这样的工具可以轻松集成到Visual Studio Code等环境中。几乎每隔几个月,这个领域就会出现新的进展。

现在,许多公司都在使用自己的文档来训练类似GPT的模型。这意味着你不再需要翻阅大量文档页面,或四处点击搜索,寄希望于找到所需内容。

重要提醒:AI工具的局限性

现在请记住,生成式AI工具并非先知。无法保证它们总能给出正确答案。

有多种因素会影响它们的表现。特别是当你询问非常小众或罕见的问题时,其训练数据集中可能没有足够的参考资料来提供优质答案。

最佳实践指南

我的建议是,将其作为一个通用的起点。

以下是使用AI助手时可以参考的步骤:

  1. 描述目标与现状:清晰说明你想要实现什么,以及你目前拥有什么条件。
  2. 主动提供细节:考虑主动询问AI需要哪些细节信息来帮助你解决问题。
  3. 验证与求助:如果所有方法都失败,不要放弃,或者去咨询真正的专家。

总结

本节课中,我们一起学习了如何将生成式AI作为强大的技术助手。我们了解了它如何简化学习新工具和配置环境的过程,认识了其在集成开发环境中的发展趋势,同时也明确了它的局限性。关键在于将其作为高效的问题解决起点,并在必要时结合人类专家的智慧。

posted @ 2026-03-26 13:08  布客飞龙IV  阅读(3)  评论(0)    收藏  举报