ChatGPT-数据科学速查表
ChatGPT 数据科学速查表
原文:ChatGPT Cheat Sheet for Data Science by Datacamp
译者:飞龙

1 什么是 ChatGPT?
ChatGPT 是由 OpenAI 开发的一种语言模型,由于其能够对给定的提示生成类似人类的响应而受到广泛关注。ChatGPT 在各种基于语言的任务中非常有用,包括语言翻译、问答、文本补全等等。它对数据科学工作流程也非常有用。
2 如何开始?
要开始使用,只需访问 OpenAI 的网站并开始输入提示。免费注册或升级到付费版本以获得优先访问权。
3 在这个速查表中可以期待什么?
在这个速查表中,你可以找到使用 ChatGPT 完成常见数据科学任务的特定示例,包括数据可视化、数据分析、机器学习等等。

数据科学 ChatGPT 速查表
我们关于优秀提示的指南
1 以描述 AI 角色的方式开始提示。例如,“你是 {x}”或者
“我想让你扮演 {x}”。如果你不确定,可以尝试“你是一个有用的助手”。例如,你是一个 OpenAI 的数据科学家,你正在研究大型语言模型。向我解释 GPT-3 是如何工作的。
2 用于常见任务。任务越常见,使用 ChatGPT 的机会就越大
使用 ChatGPT 取得成功。
3 提供上下文。在向 ChatGPT 提问时提供上下文,可以让它
提供具体答案的需求。提供上下文可以让模型理解问题的细微差别,并生成更明智的响应。例如,你是一个 OpenAI 的数据科学家,你正在研究大型语言模型。向一个没有技术背景的商业高管解释 GPT-3 是如何工作的。
4 精确。精确是另一种最佳实践,可以最大限度地减少对
调整输出。在提问时,要清楚说明输入(如果有)和期望的结果。
5 继续尝试。不要害怕尝试多个提示。使用不同的提示
可以提供关于问题的不同观点,并使模型能够生成各种响应。

数据科学 ChatGPT 速查表
ChatGPT 的局限性
然而,ChatGPT 并不完美——它可以生成错误信息,或者“产生幻觉”。ChatGPT 可以以权威的语气提供错误答案。因此,检查其所有答案的事实非常重要。

提示
通用编码
工作流程

代码调试工作流程
调试 Python 代码
提示结构
我想让你成为一个 Python 程序员,这里有一段包含 {problem} 的 Python 代码片段 — {插入代码片段} — 我遇到了以下错误 {插入错误}。这个错误的理由是什么?



代码调试工作流程
调试 R 代码
PROMPT 结构
我希望你能成为一个 R 程序员,这里有一段包含{问题}的 R 代码 — {插入代码片段} — 我遇到了以下错误 {插入错误}。这个错误的理由是什么?


代码调试工作流程
调试 SQL 代码
PROMPT 结构
我希望你能成为一个 SQL 程序员,这里有一段包含{问题}的 SQL 代码 — {插入代码片段} — 我遇到了以下错误 {插入错误}。这个错误的理由是什么?


代码解释工作流程
Python 代码解释
PROMPT 结构
我希望你能以 Python 代码解释者的身份出现。我不理解这个函数。你能解释它做什么,并提供一个示例吗?{插入函数}


代码解释工作流程
R 代码解释
PROMPT 结构
我希望你能以 R 代码解释者的身份出现。我不理解这个函数。你能解释它做什么,并
提供一个示例?{插入函数}


代码解释工作流程
SQL 代码解释
PROMPT 结构
我希望你能以 SQL 代码解释者的身份出现。我不
理解这个片段。你能解释它做什么,并提供一个示例?
{插入 SQL 查询}


代码优化工作流程
Python 代码优化
PROMPT 结构
我希望你能以 Python 代码优化者的身份出现。{如果可能,描述当前代码的问题}。你能使代码{更 Pythonic/更简洁/更高效/运行更快/更易读}吗?{插入代码}


代码优化工作流程
R 代码优化
PROMPT 结构
我希望你能以 R 代码优化者的身份出现。{如果可能,描述当前代码的问题}。你能使代码{更简洁/更高效/运行更快/更易读}吗?{插入代码}


代码优化工作流程
SQL 代码优化
PROMPT 结构
我希望你能以 SQL 查询优化者的身份出现。{如果可能,描述当前代码的问题}。你能提出使查询{运行更快/更易读/更简洁}的方法吗?{插入代码}


代码简化工作流程
Python 代码简化
PROMPT 结构
我希望你能以 Python 程序员的身份出现。请在确保代码{高效/易读/Pythonic}的同时简化这段代码?{插入代码}


代码简化工作流程
R 代码简化
PROMPT 结构
我希望你能以 R 程序员的身份出现。请在确保代码{高效/易读}的同时简化这段代码?{插入代码}


代码简化工作流程
SQL 代码简化
提示结构
我想让你扮演一个 SQL 程序员。我正在运行
{PostgreSQL 14/MySQL 8/SQLite 3.4/其他版本}。你能简化此查询吗?{在确保效率/易于阅读/插入任何其他要求的同时}?


代码转换工作流程
从 R 到 Python 代码转换
提示结构
我想让你扮演一个 R 程序员的角色。请将此代码翻译成 Python。{插入代码}


代码转换工作流程
从 Python 到 R 代码转换
提示结构
我想让你扮演一个 Python 程序员的角色。请将此代码翻译成 R。{插入代码}


代码质量和测试工作流程
比较 Python 中的函数速度
提示结构
我想让你扮演一个 Python 程序员。 能否编写比较两个函数{函数名}和{函数名}速度的代码?{插入函数}


代码质量和测试工作流程
在 R 中编写单元测试
提示结构
我想让你扮演一个 R 程序员。你能为函数{函数名}编写单元测试吗?{插入单元测试的要求,如果有} {插入代码}


代码质量和测试工作流程
在 Python 中编写单元测试
提示结构
我想让你扮演一个 Python 程序员。你能为函数{函数名}编写单元测试吗?{插入单元测试的要求,如果有} {插入代码}
单元测试的要求,如果有} {插入代码}

提示
数据分析
工作流程

SQL 数据分析工作流程
数据生成与创建表
提示结构
我想让你扮演一个数据生成器。你能编写
在{数据库版本}中创建表的 SQL 查询
{表名}包含{列名}的列。包括
相关约束和索引。


SQL 数据分析工作流程
公共表表达式
提示结构
我想让你扮演一个 SQL 代码程序员。我
我正在运行{数据库版本}。你能重写
此查询使用 CTE?{插入查询}


SQL 数据分析工作流程
用自然语言编写 SQL 查询
提示结构
我想让你扮演一个数据科学家。{插入
表的描述。你能{计数/求和/取}
{值}的平均值,这些值是{插入过滤器}
示例:SQL 中的数据聚合


SQL 数据分析工作流程
用自然语言编写 SQL 查询
提示结构
我想让你扮演一个数据科学家。 我正在运行{PostgreSQL 14/MySQL 8/ SQLite 3.4/其他版本}。我有一些表{表名},它们是{表描述}。销售表包含{列名}列。你能写一个查询来找到{数量}的 7 天移动平均值吗?
示例:SQL 中的 7 天运行平均值


SQL 数据分析工作流程
用自然语言编写 SQL 查询
PROMPT 结构
我想让你扮演一个数据科学家。 我正在运行 {PostgreSQL 14/MySQL 8/SQLite 3.4/其他版本}。我有以下表格
{表名},它们是 {表描述}。销售表包含列 {列名}。你能请写一个查询来找到 {所需的窗口函数}?
示例:SQL 中的窗口函数


Python 数据分析工作流程
数据生成工作流程
PROMPT 结构
我想让你在 Python 中扮演数据生成器的角色。你能生成一个包含{数据需求}的 Markdown 文件吗?将文件保存到{文件名}
示例:生成 Markdown


Python 数据分析工作流程
数据生成工作流程
PROMPT 结构
我想让你在 Python 中扮演数据生成器的角色。你能生成一个包含{数据需求}的 CSV 文件吗?将文件保存到{文件名}
示例:生成 CSV


Python 数据分析工作流程
数据生成工作流程
PROMPT 结构
我想让你在 Python 中扮演数据生成器的角色。你能生成一个包含{数据需求}的 JSON 文件吗?
将文件保存到{文件名}
示例:生成 JSON


Python 数据分析工作流程
数据清理工作流程
PROMPT 结构
我想让你在
Python Pandas。给定一个包含数据的 CSV 文件
{数据框名称} 包含列 {列名}
对于{数据集上下文},编写代码来清理数据吗?
{插入数据要求}


Python 数据分析工作流程
pandas 中的数据分析工作流程
PROMPT 结构
我想让你在
Python Pandas。给定一个表格 {表名},它
包含列 {列名} 可以吗
请写一个查询来找到 {要求}?
示例:数据聚合


Python 数据分析工作流程
pandas 中的数据分析工作流程
PROMPT 结构示例:数据合并

我想让你扮演一个数据
在
Python Pandas。给定一个表格
{表 1 名称} 由
的列 {列名}
和另一个表格 {表 2
{名称} 包含列
{列名},请
将两个表合并。 {插入
如果有任何附加要求,请

Python 数据分析工作流程
pandas 中的数据分析工作流程
PROMPT 结构示例:数据重塑

我想让你扮演一个数据
在
Python Pandas。给定一个表格
{表名}由
的列 {列名}
你能聚合
{值} 按 {列} 和
将其从长格式转换为宽格式
格式?

R 数据分析工作流程
数据生成工作流程
PROMPT 结构示例:生成 Markdown

我想让你扮演一个数据
R 中的生成器。你能
生成一个 Markdown 文件,其中包含
包含{数据需求}。
将文件保存到{文件名}

R 数据分析工作流程
数据生成工作流程
PROMPT 结构
我想让你扮演一个 R 数据生成器。你能
你生成一个包含{数据的 CSV 文件
需求}。将文件保存到{文件名}
示例:生成 CSV


R 数据分析工作流程
数据生成工作流程
PROMPT 结构
我想让你扮演一个 R 数据生成器。你能
你生成一个包含{数据的 JSON 文件
需求}。将文件保存到{文件名}
示例:生成 JSON


R 数据分析工作流程
数据清洗工作流程
PROMPT 结构
我想让你扮演一个数据科学家
在 R tidyr 中进行编程。你被给予
{数据框名称}数据框包含
列 {列名}。 {插入需求}


R 数据分析工作流程
tidyr 中的数据分析工作流程
PROMPT 结构
我想让你扮演一个数据科学家
在 R tidyr 中进行编程。你被给予
{数据框名称}数据框包含
列 {列名}。 {插入需求}
示例:数据聚合


R 数据分析工作流程
tidyr 中的数据分析工作流程
PROMPT 结构 示例:数据合并

我想让你扮演一个数据科学家
在 R tidyr 中进行编程。你被给予
{数据框 1 名称}数据框
包含列 {列名}。
你还有一个 {数据框 2 名称}
包含列的数据框
{列名}。找到所需的
输出}

R 数据分析工作流程
tidyr 中的数据分析工作流程
PROMPT 结构
我想让你扮演一个数据科学家
在 R tidyr 中进行编程。你被给予
{数据框名称}数据框包含
列 {列名}。 请将数据转换为
数据转换为宽格式。
示例:数据重塑(长到宽)


R 数据分析工作流程
tidyr 中的数据分析工作流程
PROMPT 结构 示例:数据重塑(宽到长)

我想让你扮演一个数据科学家
在 R tidyr 中进行编程。你被给予
{数据框名称}数据框
包含列 {列名}。
名称}。请将数据转换为长格式
格式。
提示
数据可视化
工作流程

R 数据可视化工作流程
在 ggplot2 中创建图表
PROMPT 结构

我想让你扮演一个数据科学家
在 R 中编写。给定一个数据框
{数据框名称}包含
列 {列名} 使用 ggplot2
绘制一个{图表类型和需求}。

R 数据可视化工作流程
ggplot2 中的网格图可视化
PROMPT 结构
我想让你扮演一个用 R 编写的数据科学家。
给定一个包含{数据框名称}的数据框
列 {列名}。使用 ggplot2 绘制
一个成对图,展示一个变量的关系
变量与另一个变量对比。


R 数据可视化工作流程
注释和格式化绘图
PROMPT 结构

我想让你扮演一个数据科学家
用 R 编码。给定一个数据框
{数据框名称} 包含的
列 {列名}, 使用 ggplot2
绘制一个 {图表类型},展示关系
之间 {变量}。{插入注释
注释和格式化要求}

R 数据可视化工作流程
在 ggplot2 中更改绘图主题
PROMPT 结构
我想让你扮演一个用 R 编码的数据科学家。给定一个
数据框 {数据框名称} 包含列 {列名},使用 ggplot2 绘制一个 {图表类型},展示 {变量} 之间的关系。将颜色主题更改为与 {主题} 相匹配。


Python 数据可视化工作流程
使用 matplotlib 创建绘图

PROMPT 结构
我想让你扮演一个数据科学家
用 Python 编码。 给定一个数据框
{数据框名称} 包含的
列 {列名} 使用
matplotlib 绘制一个 {图表类型和
需求}。

Python 数据可视化工作流程
使用 matplotlib 创建成对图
PROMPT 结构
我想让你扮演一个用 Python 编码的数据科学家。给定一个包含列 {列名} 的数据框 {数据框名称}。使用 matplotlib 绘制一个对展示的成对图。
一个变量与另一个变量的关系。


Python 数据可视化工作流程
在 matplotlib 中注释和格式化绘图

PROMPT 结构
我想让你扮演一个数据科学家
用 Python 编码。给定一个数据框
{数据框名称} 包含的
列 {列名},使用
matplotlib 绘制一个 {图表类型},展示
{变量} 之间的关系。{插入
注释和格式化
要求}

Python 数据可视化工作流程
在 matplotlib 中更改绘图主题

PROMPT 结构
我想让你扮演一个数据科学家
用 Python 编码。给定一个数据框
{数据框名称} 包含的
列 {列名},使用
matplotlib 绘制一个 {图表类型},展示
{变量} 之间的关系。
将颜色主题更改为与
的 {主题}
提示
机器学习
工作流程

通用机器学习工作流程
特征工程构思
PROMPT 结构

我想让你扮演一个数据科学家。
给定一个包含 {数据集名称} 的数据集
包含 {列},你将
预测 {预测变量}。建议
对此问题有帮助的数据
解决问题并执行特征
为此问题进行特征工程。

Python 机器学习工作流程
模型训练工作流程

PROMPT 结构
我想让你扮演一个数据科学家
用 Python 编程。给定一个
包含 {数据框名称} 的数据集
包含 {列名},编写代码
来预测 {输出变量}。

Python 机器学习工作流程
超参数调整工作流程
PROMPT 结构
我想让你扮演一个用 Python 编程的数据科学家。给定一个 {模型类型} 模型,编写代码来调整
超参数。
示例:


Python 机器学习工作流程
模型可解释性工作流程
PROMPT 结构
我想让你扮演一个用 Python 编程的数据科学家。
Python。给定一个 {模型类型} 预测序列
{预测变量},编写代码来解释一个输出
使用 Shap 值。
示例:


R 机器学习工作流程
模型训练工作流程
PROMPT 结构
我想让你扮演一个用 R 编程的数据科学家。
给定一个包含 {数据框名称} 的数据框,其中
{列名},编写代码来预测 {输出}。
示例:在 R 中训练一个分类模型


R 机器学习工作流程
超参数调整工作流程
PROMPT 结构
我想让你扮演一个用 R 编程的数据科学家。
给定一个 {模型类型} 模型,编写代码来调整
超参数。
示例:


R 机器学习工作流程
模型可解释性工作流程
PROMPT 结构
我想让你扮演一个用 R 编程的数据科学家。
给定一个 {模型类型} 预测 {预测变量} 的模型,编写代码使用 Shap 值来解释输出。
示例:

时间提示
分析
工作流程

Python 时间序列分析工作流程
使用 pandas 改变时间范围
PROMPT 结构

我想让你扮演一个数据科学家
使用 Python 编码。给定一个时间序列
数据在 Pandas 数据框中
带有时间戳的 {数据框名称}
在 {原始频率} 频率中的索引
使用一列 {列名},
将时间戳频率转换为
{期望的频率}。

Python 时间序列分析工作流程
构建测试序列模型
PROMPT 结构

我想让你扮演一个数据科学家
使用 Python 编码。给定一个时间序列
数据在数据框 {数据框名称} 中
在 {原始频率} 频率中使用时间戳索引在 {原始频率}
使用一列 {列名} 在 {频率} 频率中
{列名},构建一个预测
模型中,假设数据是平稳的。

时间序列工作流程的提示 Python 时间序列分析工作流程
执行平稳性测试
PROMPT 结构

我想让你扮演一个数据科学家
使用 Python 编码。给定一个时间序列
数据在数据框 {数据框名称} 中
在 {原始频率} 频率中使用时间戳索引在 {原始频率}
频率中用一列
{列名},执行一个迪基-富勒
测试。

R 时间序列分析工作流程
改变时间范围
PROMPT 结构

我想让你扮演一个数据科学家
使用 R 编码。给定一个时间序列数据在
一个包含 {数据框名称} 的数据框
时间戳索引在 {原始频率}
频率,使用一列 {列
name}, 将时间戳
将频率转换为{所需频率}

R 时间序列分析工作流程
构建测试序列模型
PROMPT 结构

我想让你扮演数据科学家
在 R 中进行编码。给定时间序列数据
一个包含 {数据框名称} 的数据框
时间戳索引在 {原始频率}
频率,使用一列 {列
name}, 构建预测模型,
假设数据是平稳的。

R 时间序列分析工作流程
执行平稳性检验
PROMPT 结构

我想让你扮演数据科学家
在 R 中进行编码。给定时间序列数据
一个包含 {数据框名称} 的数据框
时间戳索引在 {原始频率}
频率,使用一列 {列
name}, 执行迪基-富勒检验。
提示
自然语言
处理
工作流程

自然语言处理工作流程提示
文本情感分类
PROMPT 结构
我想让你扮演一个情感分类器。对以下文本进行分类
以下文本,该文本来自 {描述文本来源},
“正面”,“负面”,“中性”或“不确定”:{插入文本
to be classifier}

自然语言处理工作流程提示
创建正则表达式
PROMPT 结构
我想让你扮演一个用 Python 编程的程序员,
使用正则表达式测试字符串 {插入
要求}


自然语言处理工作流程提示
文本数据集生成
PROMPT 结构
我想让你扮演数据集生成器。请
生成 {文本数量} 个关于 {所需文本和
的上下文}。{插入其他要求}


自然语言处理工作流程提示
机器翻译
PROMPT 结构
我想让你扮演翻译员。请将 {短语} 从 {原始语言} 翻译成 {目标语言}。



概念性和职业导向提示
职业导向
提示
概念性和职业导向提示
为商业高管解释数据概念
PROMPT 结构
我想让你扮演一个企业数据科学家
公司。{如有需要,请详细描述内容}请
向商业高管解释 {概念} 的含义。


概念性和职业导向提示
概括文章/论文
PROMPT 结构

我想让你扮演一个数据科学家

一个研究初创公司。请解释
论文 {paper} 到 {难度级别,
例如,软件开发者,五岁,
商业高管,教授}。
概念性和职业导向提示
提出投资组合项目和想法
PROMPT 结构

我想让你扮演数据科学

职业导师。我是一个 {描述你的
背景}并且我希望
{描述职业目标}. 建议
投资组合项目和想法 {描述
投资组合的目标}
概念和职业导向的提示
编写教程
提示结构
我想让你扮演一个数据科学家写作者。请写
关于教程的{number-of-words}-字简介
{标题}. {插入相关要点}.



关于这份技巧表
作者:参考文献:

Travis Tang 60 ChatGPT 提示

浙公网安备 33010602011771号