自动化数据分析-使用-ChatGPT-结合人类创造力和-AI-力量
自动化数据分析;使用 ChatGPT 结合人类创造力和 AI 力量
原文:Automated Data Analytics : Combining Human Creativity and AI Power using ChatGPT
译者:飞龙

前言
将计算机的容量与人类大脑的容量进行比较,我常常 wonder,我们的成功从何而来?答案是综合,即结合创造力和计算…的能力,使其整体远大于其各部分之和。
《生命模仿棋局》,加里·卡斯帕罗夫(2007 年)
数据分析是当今数据驱动世界中一个至关重要的过程。它涉及收集、清理、转换和分析数据,以揭示有用的信息、见解、趋势和模式,这些信息、见解、趋势和模式可以指导商业战略、决策和流程优化。传统上,数据分析是一个手动过程,需要数据科学家和分析师在分析之前准备和处理数据。这既繁琐又耗时。机器学习和人工智能(AI)的出现通过自动化过程的一些部分而改变了数据分析。
生成式 AI 模型,如 ChatGPT,处于数据分析自动化革命的前沿。这些大型语言模型可以理解人类的提示并生成连贯且类似人类的文本响应。它们使用大量的文本数据集进行训练,使它们能够执行各种基于语言的任务。生成模型,如 ChatGPT,可以针对特定应用进行微调,包括数据分析。
我们可以将这些生成式 AI 模型视为拥有无限潜力的孩子。数据科学家的角色是培养这些模型,训练它们并帮助它们成长——就像父母对待他们的孩子一样。起初,这些模型就像孩子一样——它们拥有巨大的能力,但需要指导才能实现它们的潜力。
数据科学家逐步训练它们,教它们进行数据分析所需的不同任务、操作和功能。这包括数据预处理、清洗、特征工程、建模、评估和解释。模型在多样化的数据集上进行了彻底的训练,学习每个分析任务的细微差别。
就像幼儿学会走路、说话和吃固体食物一样,生成模型在数据分析的各种工作流程中逐渐变得能够胜任。随着每一次迭代,它们的技能都在提高:它们学会处理多样化的数据集,管理缺失值,转换特征,选择最佳模型,批判性地评估性能并生成数据驱动的见解。
在广泛的数据集和分析任务上进行大量训练后,这些生成模型从幼儿成长为成熟的分析助手。它们从简单记忆解决问题的技巧发展到真正的概念理解。模型理解为什么特定的数据转换、模型和评估适用于特定场景。
在某种程度上,它们发展了归纳推理和演绎逻辑,就像人类一样。它们理解数据分析工作流程背后的原则和基于证据的原则,而不仅仅是简单地记忆机械指令。这种概念理解是区分生成式 AI 与先前的基于规则的专家系统的主要因素。
因此,当数据科学家提示成熟的、训练有素的模型如 ChatGPT 进行分析时,它深刻理解请求,而不仅仅是匹配关键词。它利用其概念知识分析数据集,选择最佳技术,生成见解并解释其背后的推理。而且它以超人的速度完成这些,利用 AI 的计算能力。
但这使这些生成模型比人类更聪明吗?答案是否定的。至少目前还不是。尽管它们可以在训练域内的狭窄任务上超越人类,但这些 AI 模型缺乏通用智能。人类的认知在关键方面仍然更为先进。
与生成模型不同,人类拥有常识、直觉、想象力、社交智能、敏感性和广义推理能力。我们可以创造性地解决多个领域交叉的新问题和开放性问题。人类还有更好的判断力、智慧和道德,这些使我们的技术能力与伦理和责任相结合。
因此,尽管 ChatGPT 可以分析数据集并快速生成信息,但它缺乏深入理解含义和评估伦理的通用批判性思维技能。它的智能被其训练数据和目的所限制。它无法像人类通过迁移学习那样,通过推理完全新的场景。
话虽如此,窄 AI 模型为人类智能提供了补充优势。它们惊人的记忆和计算速度使得数据分析详尽无遗。它们缺乏偏见和疲劳,确保了性能的一致性。这样,它们赋予了人类超越常人的数据处理能力。
我们不必与 AI 竞争,我们可以与之合作——结合人类的智慧和伦理与 AI 的生产力和精确性。共同进化数据分析,使其更具洞察力和责任感。但人类必须保持参与,以提供指导、评估影响并确保与伦理的一致性。
理想的共生关系是人类管理需要推理、伦理和想象力的创造性和战略任务,而 AI 则加速需要记忆、计算和精确性的重复性分析任务。类似于钢铁侠部署 AI 助手 JARVIS 来增强他的人类能力。
因此,尽管人类智能与 AI 之间的差距仍然存在,但像 ChatGPT 这样的窄 AI 模型仍处于起步阶段。它们的性能将继续以指数级增长,得益于数据规模、计算能力和算法的进步。总有一天,它们甚至可能跨越进入人工通用智能(AGI)的门槛。
但目前,在数据分析过程中,生成 AI 增强人类而非取代人类。它处理了繁琐的部分,使数据科学家能够专注于创造性和高附加值的工作。它正成为不可或缺的分析助手,并持续学习——就像一个孩子在多年的细心关注下成长为成年人。
关键是人类要以深思熟虑和道德的方式引导这些生成模型的发展。我们需要关注有益的目标,并监控有害的偏见或滥用。通过审慎的关怀和训练,AI 可以引领增强分析时代——在那里人类和机器智能相遇并汇聚,以获得更强大、更道德的数据洞察。但人类必须是 AI 孩子的监督性家长。
我们不应该猜测 AI 何时会超越人类智能,而应该关注如何培养今天有益和道德的 AI 应用。像 ChatGPT 这样的生成模型是易受影响的儿童,他们将根据所接受的指导塑造未来。数据科学家有一个深刻的机会和责任:教育这些 AI“儿童”,使他们成为负责任和协作的盟友,而不是不可穿透的对手。
正如教学有助于人类巩固自己的知识一样,AI 模型的训练需要我们彻底评估我们的假设、偏见和最佳实践。AI 的发展同样关乎提升我们的智能——将学科编码成连贯的框架、基于证据的原则和方法。
生成模型的集体训练推动了人类知识在各个领域的进步。这需要将模糊的问题提炼成结构化的框架;将杂乱的任务形式化为逐步的工作流程;将定义不明确的领域结晶为严格的第一原理。通过示例教授 AI 模型有助于我们更好地评估解决方案,概括洞察力,并为人类正式化伦理。
数据分析的未来是人类与 AI 的协作——结合人类对问题的想象性定义、伦理和战略判断,以及 AI 的巨大记忆、详尽的计算和高速度的分析工作流程。两者都无法与两种智能结合的协同价值相匹配。数据科学增强了人类和人工智能。
到了积极培养这位神童:ChatGPT!如果得到适当的培养,它具有极大的潜力来提升人类的能力。我们需要细心地培养它——在强调伦理的同时教授分析技能,在监督下让 ChatGPT 接触各种数据和场景,使其从机械的重复到情境理解。
因此,让我们用智慧和仁慈来引导这些生成模型。让我们将分析技术与价值观和伦理相结合,引导它们从天真走向成熟。让我们开发出使个人负责任而不是取代他们的人工智能。像 ChatGPT 这样的模型仍处于成长阶段。在关注数据伦理的研究人员的谨慎监督下,它们可以发展成为助手,开辟新的道德指导发现领域,并与人类更有效地合作,而不是它们自己所能达到的程度。
正如加里·卡斯帕罗夫的名言所说,人类成功源于我们综合认知的创造性和直觉性方面与计算和分析性方面的能力。当我们结合这些互补的思维和推理模式时,结果是一种涌现的智能,它简单地超越了创造力和计算的线性总和。不同思维风格的融合产生了协同效应和放大效应,这使得我们作为人类独一无二。
综合创造出的东西具有比单独的创造力和计算更大的潜力和能力。正是这种整合使我们能够发光。这正是卡斯帕罗夫认为人类大脑相对于计算机所擅长的。
卡斯帕罗夫的名言巧妙地捕捉了我们在这本书中倡导的人与 AI 合作的精髓——结合互补的优势以放大潜力。正如创造力和计算的融合扩展了人类认知一样,人类独创性与 AI 分析能力的结合开辟了数据科学的新领域。
当我们设计负责任的流程,利用这两种智能模式时,结果可以远远超出它们各自贡献的总和。从人类伦理和监督与人工生产力和严谨性的深思熟虑的结合中产生了一种能力。本书提供了利用这些协同效应来推进数据分析的框架。随着我们建立心灵与心灵的伙伴关系,未来充满了令人兴奋的可能性。
2024 年 7 月
引言
想象一下:一个无缝且互动的体验,在那里你可以轻松地与你的数据交流,揭开它们的奥秘,通过引人入胜的对话发现隐藏的洞察。这一愿景得益于人工智能(AI)在数据分析领域的最新进展。
数据驱动的世界正越来越多地转向 AI 来加速和改进分析。更具体地说,像 ChatGPT 这样的生成式 AI 模型正在自动化与数据交互的过程以发现洞察。如果在这些模型在人类的指导下负责任地开发,它们作为分析助手具有巨大的潜力。
就像一个不断提问的好奇孩子一样,生成式 AI 使得在不受预定义查询或静态报告限制的情况下流畅且直观地探索数据集成为可能。用户可以参与即兴和开放式对话,路径由新兴的见解引导,而不是局限于预计划的路径。
人与机器之间的这种创造性共生关系显著增强了分析过程。领域专家提供战略思维、直觉、监控和道德判断。同时,智能 AI 代理处理困难的计算任务——快速分析自然语言问题、分析大量数据集并在自然语言中生成交互式响应。
例如,由人类分析师提示评估销售模式时,ChatGPT 可以通过快速分析销售数据,回应高级趋势、相关性以及它已识别出的高级假设。分析师随后可以批判性地解释这些洞察力,提出后续问题以验证假设,并指导 AI 探索新的视角。
这种协作分析比静态查询或预定义报告更加探索性和多维。它结合了人类想象的框架和监控,以及 AI 的强大计算能力,进行彻底和开放的探索。洞察力更自然地出现,引导数据分析师走向意想不到的路径和意外的发现。
生成式 AI 通过自动汇总、处理和可视化数据,比手动分析快得多,从而增强了人类分析师的能力。但正是人类的创造力激发了新的探究线索,提出“为什么”和“如何”的问题,并将分析点连接起来,以提取意义和影响。
AI 助手在巨大的噪声中找到隐藏的信号。人类提供了解释信号的上下文框架,将其转化为有意义的信息。共同地,他们可以通过自然对话流程与原始数据进行亲密互动,从而解开复杂现象。
这种流畅且不受约束的方法使得数据科学家能够无缝地根据需要遍历细粒度细节和广泛趋势。如果出现异常情况,他们可以快速聚焦于微观层面的数据点,然后放大视角以可视化宏观趋势——在更广泛的背景下发现异常事件。
一个关键优势是,生成式 AI 允许人类使用自然语言直观地引导分析,无需受结构化查询或预定义分析的约束。无需了解编程语言或数据库模式。用户可以在过程演变中参与对话。
这使得数据探索对更广泛的受众更加容易接近,而不仅仅是数据科学家。业务领导者、一线员工和其他人可以参与其中,鼓励多样化的分析视角。AI 助手成为伟大的平等者,使更多利益相关者能够通过自然对话解锁数据中的洞察力。
当然,就像任何学习技能的孩子一样,AI 助手需要在人类监督下进行大量训练才能变得熟练。它必须摄入大量的数据集和场景,从查询的机械分析过渡到对数据交互中涉及的原则和权衡的真正理解。
数据科学家必须教授这些对话模型分析工作流程的细微差别——如何管理模糊性、验证假设、识别局限性、避免偏见、负责任地呈现信息等。随着模型从天真发展到成熟,必须强调伦理和责任。
但一旦得到适当开发,生成式 AI 助手,如 ChatGPT,可以自动化数据分析的繁重部分,而人类则专注于高级创意监督。这使数据探索的指数级扩展成为可能,同时保持以人为导向的方向。在足够的约束下,AI 甚至可以为人类提供新的分析路径以供评估。
当然,生成式 AI 有其局限性。与人类不同,这些模型在训练数据中的模式识别之外,缺乏任何真正的语义理解。它们也缺乏人类的判断力、直觉和伦理。不受约束的自动化可能导致误导性的洞察或普遍的偏见。
因此,在部署生成式 AI 时,人类指导至关重要。数据科学家必须评估 AI 产生的任何洞察背后的伦理、假设和盲点。生成式对话模型在本质上仍然是狭隘的 AI,与普遍的人类认知相反。它们仅在训练领域表现出色。
理想共生体是迅速启动的、人类监督的生成式 AI 机械分析。但人类提供全局框架、主观判断和道德责任,以批判性和伦理地解释、验证和采取行动,对想法进行评估。
单独的人类或机器都无法与它们合作的放大智能相匹配。共同合作,它们可以挖掘细节和整体意义,在大量复杂的数据中揭示隐藏的洞察。AI 将分析范围指数级扩大,而人类的创造力和伦理则负责地锚定它。
生成式 AI 通过实现一种自然流畅的交互分析形式,有望将数据探索带入新的前沿。但若要使这种自动化得到道德和负责任的发展,精心设计和监控是必不可少的。当与人类的创造力和伦理相结合时,生成式 AI 可以开辟新的分析智能放大和加速发现的领域。
随着数据的指数级增长,AI 将成为增强人类分析师不可或缺的伙伴。这些模型仍然是成长中的孩子。在负责任的数据科学家指导下,它们可以成为值得信赖的分析盟友,在人类价值观的指南下运作,以从数据中提取最大价值,造福社会。
为什么这本书?
人工智能的出现引发了对未来的展望,即分析任务将完全由超越人类能力的智能算法自动化。这种叙述既激发了人们对可能性的兴奋,也引起了人们对将决策权交给缺乏人类价值观的 AI 系统的担忧。它想象了一个世界,其中像 ChatGPT 这样的生成模型迅速取代了人类在数据科学中的地位。
但这种反乌托邦的愿景未能考虑到人类独创性的持久性,也忽视了当代 AI 技术的局限性。尽管分析自动化确实在加速,多亏了 ChatGPT 等模型,但它们仍然是人类智能的有益补充,而非对手。当 AI 系统得到负责任地开发时,它们可以放大人类潜力,解锁数据驱动洞察和价值创造的新领域。
然而,仅关注效率的粗心实施可能会损害人类行动和责任。最大化由 AI 驱动的分析变革力量需要在整个过程中尊重人类的伦理和监督。这种平衡在自动化时代仍然至关重要,但也非常脆弱。
正因如此,这本及时出版的书籍《自动化数据分析:利用 ChatGPT 结合人类创造力和 AI 力量》成为了现代分析前沿不可或缺的指南。它规划了一条谨慎的道路,一条人类想象力和伦理利用自动化来提升,而不是压倒人类能力之路。本书提倡与 AI 的深思熟虑的合作,而不是放弃。
而这种协作方法确实是明智之举。因为从本质上讲,当代的 AI 模型如 ChatGPT 仍然受限于其训练数据中的模式,是狭窄和有限的。尽管它们能够以超人类的速度执行定义的任务,但它们缺乏普遍的智能能力。
我们所需要的,是将人类创造力的力量、伦理和监督与 AI 在大量数据集上无情的分析卓越性和谐融合。单独的人类或机器都无法与它们共生释放出的增强智能相匹配。本书提供了构建这种合作以实现最大集体利益的框架。
通过揭示 AI 系统的内部运作、开发过程和固有局限性,本书有助于更顺畅地将它们整合到分析工作中。揭露它们的技术现实性有助于界定强调人类与机器专业优势的最优角色。我们可以通过根据情境能力分配适当的任务来设计互补的人类-人工智能伙伴关系。
人类必须在界定问题、解释解决方案和全球思考方面发挥主导作用,而 AI 则负责数据处理、计算和深入分析。本书讨论了各种交互模型,这些模型能够使人类创造力和机器的生产力之间持续流动,从而不断改进发现过程。
它突出了更好地揭示模型决策逻辑的技术,以提高信任和问责制。强调对模型行为的持续监控和预防性安全措施,以确保安全并防止有害滥用。本书还强烈倡导在分析自动化的每个阶段都保持可持续的人类价值观和伦理,以确保进步与社会的利益保持一致。
它探讨了适应社会和发展专门的人类能力以与人工智能解锁独特协同效应的框架。所有这些都旨在以负责任的方式发展人工智能驱动的分析,以促进人类的集体提升。本书设想了一种增强型智能,其中人类和机器相互提升,而不是人工智能对人类的统治。
主要来说,它为将自动化融入分析工作流程的伦理整合奠定了基础——从人类主导的战略问题定义,到双方无缝协作的迭代合作,再到人类判断依然至关重要的评估监控。这使得我们能够在不放弃创造力和责任的情况下,从生产力提升中获益。
这本书在人工智能正在改变分析但能力仍处于萌芽和易受影响阶段的时候出版,恰逢其时。它强调了作为开发者、领导者和公民,我们有责任明智地引导人工智能从这些形成阶段走向更广泛的社会利益。我们今天所做的选择将决定人工智能分析的长远轨迹。
本书通过揭示人工智能,突出其优势和劣势,并提供基于伦理的规范性建议,使我们能够明智地做出这些选择。无论你对自动化革命感到兴奋还是焦虑,这本书都是导航未来分析不可或缺的决策工具。
其框架、示例和原则使我们能够从以人为本的视角负责任地整合分析。您将获得全面、平衡的清晰度,了解提升而不损害人类能动性的协作机会。它还倡导尊重伦理,作为分析和人工智能开发与应用中的指导罗盘。
本书激发了一个未来,在那里人工智能使数据洞察对整个社会开放,以共同丰富人类生活。其明智的建议引导分析自动化朝着谨慎的方向发展,指数级地放大人类潜力,同时确保人类牢牢掌控。如果我们按照这本书所寻求激发的人类价值观和协作精神前进,前景将令人叹为观止。
这本书面向的对象
本书为正在导航放大分析早期阶段的各方利益相关者提供了一本不可或缺的指南。
对于数据科学家和数据分析团队来说,它提供了在保持人类创造力和人类监督的同时,与人工智能负责任工作的可操作框架。本书的见解将使分析人工智能的深思熟虑的发展成为可能,从而在保持问责制的同时提高生产力。通过启发性的案例研究和具体的建议,数据科学家可以确保他们的技能和工作流程在自动化时代蓬勃发展。
对于评估采用基于人工智能的分析的企业领导者和决策者来说,本书也非常重要。它将讨论建立在超越效率的伦理考虑之上,帮助领导者在将自动化分析整合到他们的组织中时做出明智的选择。实用建议允许领导者选择明智地增强其团队能力的分析工作流程,而不是无情地取代它们。
对于政策制定者和监管者来说,本书强调了在数据分析中鼓励负责任的人工智能创新所需的适应性治理。其前瞻性观点揭示了今天的谨慎政策如何积极塑造自动化的发展轨迹,使其对社会集体有益。本书提供了对快速技术变革做出响应的治理框架的发展的见解,同时保持基于伦理和包容性。
在学术机构中,这本书在数据科学项目以及跨学科讨论中提供了一个不可或缺的计划。它丰富了如何基于道德原则和责任最好地发展人工智能技术的理解。本书揭示了可靠和透明的分析算法的研究途径。它还使人们能够就自动化时代生产力和谨慎之间的平衡进行细致的讨论。
本书对于寻求对分析人工智能整合平衡观点的公民社会和普通读者来说也非常重要。它消除了对人工智能的恐慌性恐惧,同时强调了对深思熟虑的监控和适应的需要。通过通过清晰的隐喻和例子使技术概念易于理解,本书使公众能够参与自动化话语的道德发展。它有助于关于技术方向以促进集体人类提升的至关重要的对话。
学生和年轻专业人士会发现这本书在为分析的未来做准备时非常有价值。它从技术和伦理的角度提供了如何最好地发展人工智能协作技能的基本理解。这些信息将帮助学生培养以人为本的价值和创造力,即使在发展人工智能系统中的技术专长时也是如此。这促进了适合在角色之间明智地整合自动化的综合能力。
但也许最重要的是,这项工作突出了在分析和 AI 的开发和部署中人类的基本责任。它强调所有利益相关者都有积极的作用,在基于道德原则和同情心的基础上推动进步。只有通过集体的远见和智慧,我们才能培养出一种有益的智能,它增强而不是削弱人类潜能。
总体而言,这本书旨在为任何对自动化和 AI 在数据分析中的集成感兴趣或受其影响的人。它结合了技术基础、道德指导和实用建议,为谨慎进入增强分析时代提供了不可或缺的指导。这本书唤醒了我们集体意识,关注技术使用的负责任方向,以扩展人类能力。它还提供了在负责任的人类管理下协同人类和人工智能的方法,使自动化分析造福社会,而不是危害社会。
书籍的挑战
生成式 AI 模型如 ChatGPT 的出现触发了数据分析领域的革命。这些强大的技术自动化了以前需要大量人力投入的分析过程的部分。数据清洗、聚合和基本报告等任务因这些 AI 系统而迅速转变。
一个恰当的类比将这些 AI 模型的教育比作儿童的教育。就像儿童一样,它们一开始是一张白纸,通过仔细的指导逐渐获得复杂的技能。数据科学家扮演着父母的角色,在训练过程中逐渐向他们展示各种数据集和分析任务。
初始时,模型只能机械地模仿基于训练数据的操作。它们没有对工作流程背后的概念、原则和含义的深入理解。模型可以精确地重复数据处理步骤,但没有任何关于意义的理解。
这就像一个小孩能够通过心算背诵乘法表,但没有掌握乘法的更深层次数学概念。他们可以准确地执行计算,但没有背后的推理。AI 模型的早期训练也侧重于重复执行指令任务。
但通过对大量数据集的足够关注,这些 AI 系统可以发展到对分析工作流程中支配的规律、关系和规则的真实理解。正如对现实世界的多样化接触使孩子能够从具体例子中推导出抽象概念,广泛的训练有助于模型进行归纳。
逐渐地,模型从简单的指令记忆发展到对数据分析工作流程中原理的归纳理解。他们基于概念理解,而不是盲目的实施,理解为什么特定的技术在不同的环境中是合适的。
这种转变反映了学生从简单地记忆数学事实到基于逻辑推理理解数学运算的工作原理的转变。通过进一步的成熟,模型获得了情境意识,以适应性地选择对新数据集和场景的最佳分析方法。
从本质上讲,它们发展出类似于人类分析师的训练有素的直觉。像 ChatGPT 这样的模型获得了基于经验和学习模式进行批判性评估、解释和改进分析的能力,而不是基于简单的、僵化的指令。它们的分析能力从基本的服从发展到情境理解。
随着模型在各种数据集上发展出熟练程度,它们从被动的分析工具转变为信息提取过程中的智能合作伙伴。它们从简单地分析数据发展到与人类分析师进行智能对话。
这些模型提供了所需的计算速度,以在超人类规模上快速处理、交叉引用和可视化复杂数据。它们的模式识别能力揭示了人类可能错过或需要更长的时间才能辨别的关系,这仅仅是因为数据量的庞大。
但人类分析师提供了确保适当解释和提取有意义信息的战略框架、想象力和监督,而不是简单的盲目关联。分析师评估指导模型结果适当应用的假设、伦理和影响。
这种创造性的协同作用结合了数据处理的力量和细微的判断。强大的 AI 模型可以产生新的分析途径,但具有洞察力的人类仍然需要通过提示来引导调查,提出正确的问题。模型迅速揭示洞察力,但人类辨别其意义和适用性。
人类和 AI 模型共同可以达到比单独任何一个更高的分析高度。但角色划分需要仔细构建,以从这种共生关系中受益。正如共同承担父母责任创造专业化一样,分析任务的分离促进了人-机互补性。
在紧密合作的同时明确划分角色可以避免混淆,并确保人类的创造力和人工智能的力量可以相互增强。但必须小心构建人机伙伴关系,以突出它们的互补性。
没有人类监督的自动化风险是失去情境判断和责任。将完全控制权交给自主人工智能模型忽视了它们在广义人类认知方面的局限性。尽管这些模型功能强大,但它们仍然缺乏某些明显的人类心理能力。
例如,目前人工智能在处理复杂抽象、因果关系、迁移学习和创新分析技术方面正面临挑战。像 ChatGPT 这样的模型也缺乏人类的判断力、直觉、常识、道德观以及对伦理或偏见的欣赏。它们在想象力和社会意识方面的能力超越了它们的训练范围。
我们必须认识到这些技术局限性,以便正确地将人工智能作为助手而不是唯一的替代品整合到分析工作流程中。它们的专门能力使它们成为特定任务的效率放大器,而不是完全合格的分析师。合理的人类指导可以防止误导性想法或对相关性的夸大。
一些预测了一个反乌托邦的未来,其中人工智能将迅速超越所有人类智能——所谓的技术奇点(或简单地称为奇点)。但到目前为止,人工智能仍然局限于狭窄的应用,无法与人类思维的多元化推理、伦理和创造力相竞争。它们的能力虽然非凡,但受限于它们的数据训练。
这些模型应被视为强大的工具,而不是无所不知的先知。就像早期的创新,如计算器或计算机一样,它们扩展了某些分析能力,而没有在广义上复制人类的认知。它们的性能卓越,但局限于训练的领域内。
这就是为什么这本书,名为《自动化数据分析:利用 ChatGPT 结合人类创造力和人工智能力量》,正确地提倡谨慎地开发和利用这些技术,而不是将它们完全托付于分析控制。它警告说,只关注效率提升,而不考虑社会影响或人类控制的损失。
目标应该是协同推进人类和人工智能,更好地理解数据,更快、更负责任地。这涉及到建立强大的人为保障,并在应用人工智能模型时强调伦理,以避免滥用或有害的偏见。
但这也需要开发出与人工智能无缝交互的机制,以提高分析能力,而不仅仅是自动化。这意味着构建直观的界面、智能的工作流程和补充的人机团队结构。
向前发展的最佳方式既不是对人工智能的支配,也不是拒绝,而是在人类智慧的庇护下吸收人工智能。这涉及到拥抱人工智能的生产力提升,同时通过持续训练灌输人类价值观、创造力和监督。
如果我们明智地培养人工智能,避免无控制的自动化的危险,未来将承诺新的创造性数据驱动洞察的前沿,这远远超出了人类或机器独立实现的能力。人工智能的发展必须平衡社会福祉和人类尊严,而不是在效率和能力的高坛上牺牲它们。
将心灵与人工智能分析力量智慧地融合,可以以前所未有的速度和规模推动进步。但这需要设定道德界限和优先事项,而不仅仅是简单地通过人工智能,例如 ChatGPT,来最大化分析能力。
人类的管理至关重要,以引导这些技术走向自动化,而不是取代人类的能力和责任。我们需要根据道德考虑和社会利益积极塑造它们的演变。
随着人工智能改变数据分析,我们已达到一个决定性的转折点,我们的选择和优先事项将定义道德人工智能未来的轨迹。在谨慎而大胆地前行,带着同情和创造力,共同引导分析严谨性,混合智能的黎明预示着前所未有的、却具有人文主义精神的发现。
导航内容
当代世界充满了数据,深入分析对个人和组织具有不可估量的潜力。然而,传统方法正努力解锁这些价值宝藏。人工智能正成为一种有希望的回应,特别是像 ChatGPT 这样的生成模型自动化了分析过程的部分,增加了我们提取有影响力见解的能力*。
本书探索了人工智能增强数据分析的迷人世界。通过逐步探索,它揭示了这种人类独创性和算法力量的共生关系的激动人心的可能性。本书消除了这些新兴技术的神秘感,并为将它们道德地整合到现代分析工作流程中提供了实用框架。它为自动化在数据分析中的道德和协作整合提供了基本路线图。
互联的章节引导读者通过训练、准备和支持 ChatGPT 的过程,以确保分析过程中涉及的各种任务的自动化。
第一章 通过考察人工智能驱动的自动化如何改变数据分析来设定场景。它强调了生成模型如 ChatGPT 加速和深化见解提取的巨大潜力。本章强调了以和谐的方式结合人类创造力和自动化分析的重要性,以实现增强智能。它解释了如何创建有效的提示,以充分利用 ChatGPT。
第二章 深入探讨了 ChatGPT 的核心,揭示了其在数据分析方面的独特能力。它探讨了其对自然语言的强大理解,提供了直观的交互。本章考察了 ChatGPT 如何支持数据科学家,而不是取代他们。它为将 ChatGPT 集成到分析工作流程中提供了实用指南。
第三章 展示了 ChatGPT 如何自动化数据准备——清理、预处理、缺失值和异常值的管理。这一通常繁琐的步骤对于高质量分析至关重要。通过将这些任务委托给 ChatGPT,分析师节省了宝贵的时间。
第四章 解释了如何为 ChatGPT 制定自然和对话式的查询。无需掌握 SQL!ChatGPT 将日常语言中的问题转换为优化的查询。这种直观的方法释放了分析的好奇心。
第五章 突出了 ChatGPT 在高级分析——数据挖掘、统计学、预测和情感分析——方面的能力。其辅助作用提高了分析师的表现,使他们能够专注于高附加值任务。
第六章 讲述了 ChatGPT 在自动化预测模型和时间序列分析方面的巨大潜力。其系统方法超越了人类在严格和准确模型方面的能力。与分析师的持续反馈循环优化了其性能。
第七章 揭示了 ChatGPT 加速机器学习过程的巨大潜力。其生成个性化算法并提高其性能的能力为这一关键学科开辟了新的天地。
第八章 解释了 ChatGPT 如何自动化引人入胜的数据叙事——生成报告、交互式仪表板和引人注目的演示。但它强调在这些叙述中保留人类印记的重要性,以真正吸引读者。
最后,在第九章中讨论了 ChatGPT 在数据分析中负责任使用的伦理维度。本章提供了减轻偏见、确保公平和透明的指南。没有道德指南针,自动化可能会使数据分析去人性化。
从广义上讲,我们的愿望是使本书成为在数据分析中深思熟虑地整合自动化和 AI 的基本指南。我们希望其道德考虑和实用技术的结合将为以人为本的增强型自动化分析的发展开辟新的视角。
本书旨在激发你对人类创造力和机器智能结合时无限可能的好奇心。我们希望它能成为进一步探索分析工作流程细化的肥沃种子,这些工作流程在道德上放大洞察力和生产力。当生成式 AI 在已知领域推动分析时,本书寻求基于道德原则的谨慎路径。
希望它能激发你参与塑造人工智能驱动的自动化分析的未来轨迹,以提升人类整体水平。 # 1
人工智能(AI)和自动化数据分析
我们今天正站在一个新时代的黎明,这个时代由生成式 AI 的兴起和它为自动化和增强数据分析所开启的巨大潜力所定义。例如 ChatGPT(GPT,即生成式预训练变换器,缩写),它指定了一个经过大量数据集预训练的复杂机器学习模型,预示着一个迷人的未来,同时也提出了关于人类分析师角色演变和 AI 负责任整合的重要问题。
这种 AI 对数据分析的影响是深远且颠覆性的。我们现在拥有一个不仅能够计算数字,还能以协作伙伴的身份用自然语言与分析师进行交流的 AI 系统。这种类似人类的交流能力帮助分析师准备数据、制定分析问题、生成查询、运行模型、总结结果等。
从本质上讲,生成式 AI 开辟了自动化数据分析的可能性,其中算法承担机械和重复性任务,而人类分析师提供策略、想象力和监督。人类与 AI 系统共同工作,可以比单独工作更快、更好地实现指数级增长。正是这种愿景使得 ChatGPT 的兴起成为数据分析的范式转变。
在逐步指导 ChatGPT 完成分析过程的所有任务之前,描绘出围绕新兴生成式 AI 自动化数据分析的格局、机遇和伦理考量至关重要。
1.1. 自动化数据分析的兴起和生成式 AI 的潜力
我们正在见证数据分析演变中的一个前所未有的转折点,这是由 AI 的快速进步催化的。生成式 AI 系统的出现为许多传统上需要大量人力投入的分析任务的自动化铺平了道路(Sedkaoui 2023)。这种重大变革有可能从根本上改变人类从数据中提取洞察力的方式。
1.1.1. 生成式 AI 释放的力量
深度学习最近的突破推动了范式转变。基于 ChatGPT 等变换器的自然语言模型的发展产生了能够表现出惊人的人类类似书面语言行为的 AI 系统。
ChatGPT 拥有超过 1000 亿个参数,展示了前所未有的能力,能够在令人眼花缭乱的众多主题上进行情境化和连贯的多轮自然语言对话(Tingiris 和 Kinsella 2021)。这标志着使用自然语言界面解锁自动化数据分析的一个分水岭时刻。
通过以简单的对话语言提供详细说明和反馈,人类现在可以与 AI 系统协作执行广泛的分析任务。这包括数据清理、预处理、可视化、统计分析、查询生成、预测建模、报告创建等。
其影响深远。数据分析和生命周期中的每一个方面——从原始数据集到最终见解——都有可能通过与生成式 AI 系统的协作而加速、增强和自动化。
1.1.2. 转变数据分析过程
生成式 AI 的集成有望从根本上重塑并加速整个数据分析过程。借助 ChatGPT,能够响应自然语言提示处理许多基本任务,人类分析师可以追求更雄心勃勃的分析目标,并将时间投入到高价值工作中。
准备、清理和处理数据集以使其准备好分析通常是最耗时的分析阶段(Manning et al. 2014;Sedkaoui 和 Khelfaoui 2020)。ChatGPT 将自动化大部分工作,遵循指南以促进数据分析、准备和转换。它还将帮助总结数据集以供分析目的使用,减轻分析师的负担同时提高一致性。
制定分析问题和将见解转化为可执行的查询和脚本是 AI 极具潜力的另一个领域。分析师不必费力地编写查询,而是可以依赖 ChatGPT 来解释以普通语言提供的查询,并提出适当的 SQL 或 Python 查询以运行(Tingiris 和 Kinsella 2021)。
对于涉及统计测试、预测和预测的高级分析,ChatGPT 还可以帮助设计严格的分析工作流程并快速执行计算。在整个 AI 的自然语言能力中,即 ChatGPT,使得人类与 AI 之间能够进行高度互动的迭代过程。
这种综合效应是分析师生产力和范围的显著增加。随着 AI 系统自动化所有例行编码任务,分析师能够在指数级更大和更复杂的数据中更快地找到更深入的见解。
1.1.3. 用智能代理重新定义编码
通过利用 ChatGPT 等模型的高级自然语言处理能力,数据科学家可以有效地提高他们的工作流程并实现卓越的项目成果。这些智能代理的通用性将它们的益处以多种方式扩展到程序员和数据分析师。
在编程方面,它们是无价之宝。它们的代码生成能力使程序员能够通过响应自然语言提示快速形成代码片段,这对于快速原型设计和模板代码生成特别有益。例如,通过在一系列代码示例上训练 ChatGPT,语言模型可以产生,能够在多种编程语言中生成语法准确的代码段。
AI 模型在文档创建方面也证明了自己的价值。通过让模型熟悉代码注释和文档的语料库,程序员可以培养出一个能够自主为代码片段或整个代码库编写文档的语言模型,从而简化了文档过程。
此外,这些模型可以通过建议简化或改进代码段的技术来促进代码优化。在多样化的优化代码样本上训练后,生成模型演变成一个合格的顾问,为改进现有代码提供建议。这种增强有助于降低代码复杂性、提高性能并简化维护工作。
应当指出,生成式 AI 模型,如 ChatGPT,有助于错误管理,提供常见编码错误的潜在解决方案(Sedkaoui 2023)。通过利用包含错误及其相应补救措施的示例代码的知识库,该模型演变成一个能够提供常见编码错误解决方案的资源。这种自动化的错误解决方法可以显著改善编程体验。
例如,ChatGPT 是一个强大的工具,可用于各种编程和调试任务。它可以生成代码片段、优化代码、调试代码、编写代码文档和审查代码。
ChatGPT 能够通过分析编程语言函数、需求、算法、数据结构、代码结构和错误信息来执行这些任务。ChatGPT 可以通过自动化编程和调试代码中涉及的大量任务来提高程序员的效率和生产力。
从本质上讲,ChatGPT 或其他生成式 AI 模型的先进语言能力对程序员和数据科学家来说都是一大福音。通过整合这项技术,工作流程得以简化,编码效率提高,整体开发过程实现了新的生产力和效率水平。
表 1.1. ChatGPT:编程和代码调试工具
| 任务 | ChatGPT 的使用 |
|---|---|
| 代码生成 | 根据用户输入生成代码片段,便于实现特定功能或特性 |
| 代码优化 | 分析代码以识别低效之处并推荐改进,提高代码性能和效率 |
| 调试辅助 | 分析代码结构和错误信息,并提供调试建议,帮助解决错误 |
| 代码文档 | 分析代码结构和需求,并建议最佳文档实践,有助于清晰的文档 |
| 代码审查 | 分析代码和编码标准,在代码审查过程中提出改进代码质量和可靠性的建议 |
1.1.4. 人机协作
人工智能系统的独特能力为一种高度协作的人机伙伴关系奠定了基础,这种伙伴关系重新定义了数据分析。通过响应自然语言指令来管理耗时且规范化的任务,这使人类分析师能够专注于需要独特人类技能(如创造力、直觉和推理)的高级战略目标。
未来的数据科学家将把时间投入到有价值的工作中,如制定正确的分析问题、解释结果、挑战假设和传达洞察。在分析师的指导下,人工智能助手将执行数据准备、建模、计算和报告等工作。
这一愿景有望极大地提高数据科学家的生产力,并使数据分析更加深入和快速。过去需要整个团队数周时间(Davenport 和 Harris 2007;Sedkaoui 和 Khelfaoui 2020)的工作,现在通过利用人类和机器智能的协同效应,一个分析师可能在数小时或数分钟内就能完成,这是可能的。这种劳动分工转化为一种互利安排,其中人工智能带来速度、严谨和客观性,而人类则提供情境建议、验证和监控。
在这种人机共生关系中,重复且规范化的任务被委托给自然语言人工智能助手,从而让分析师有更多时间进行战略反思和想象。这个混合团队共同实现了远超各自单独所能达到的协同效应和增强能力。整体大于部分之和。这种协作工作流程结合了人类和机器智能的最好之处。
1.1.5. 提示工程的力量
为了有效协作,像 ChatGPT 这样的生成式人工智能系统需要来自人类的详细指令和反馈。这通过精心设计的提示来实现——这是一种设计提示的艺术,旨在向人工智能清晰地传达任务和期望的结果。
分析师用于运行 ChatGPT 的提示对生成结果的质量、有用性和伦理有相当大的影响。精心制作的提示,提供相关背景并设定明确的期望,对于在数据分析中成功利用 ChatGPT 至关重要。
提示工程涉及基于人工智能响应的迭代过程,以改进相关性、准确性和具体性(Jiang 等人 2020)。分析师必须学会制定简洁的提示,以有效地引导人工智能应用适当的知识和视角,生成最佳结果;
掌握提示工程对于引导人工智能系统做出有成效的贡献并避免潜在陷阱至关重要。分析师提供的提示将塑造生成式人工智能系统融入分析工作流程(见附录 1);
为了充分利用生成式人工智能在数据分析过程中的潜力,人类必须深思熟虑地引导这个过程。某些最佳实践在建立与 ChatGPT 和类似人工智能系统的道德和高效协作中起着关键作用,例如:
-
在提示中提供足够的上下文,以表明适当的能力和参考框架;
-
基于结果进行迭代重提以解决不足;
-
仔细审查人工智能生成的输出,以检查完整性、准确性、潜在偏差和错误;
-
通过额外的提示提供反馈,以进一步改进人工智能系统;
-
保持对分析方向、伦理考虑和决策的人类控制;
遵循这些原则将引导人工智能系统向其最高效用发展,同时确保人类在战略和伦理方面牢牢掌控。总体而言,前景极为激动人心,因为人工智能即将激发人类从数据中提取洞察力的方式。
1.1.6. 道德指南针
随着我们进一步将这些人工智能系统集成到数据分析和数据科学中,出现了一些考虑因素。与任何强大的技术一样,要实现生成式人工智能在数据分析中的全部潜力,需要仔细思考和指导。虽然像 ChatGPT 这样的人工智能系统没有固有的偏见或动机,但它们的输出只有在其人类设计者的道德和客观性范围内才是道德和客观的;
主要担忧之一是依赖人工智能系统进行数据科学时可能出现的错误或偏差结果(Osoba 和 Welser2017)。ChatGPT 的性能取决于其训练数据的质量。因此,数据中存在的任何偏差都可能被放大,导致非客观结果。然而,这种担忧并不能完全否定人工智能的潜力;相反,它强调了在训练模型时使用多样化和代表性数据的需求;
我们必须保持警惕,以确保通过将人工智能集成到分析工作流程中,我们不会无意中延续训练数据中的历史偏差。关于数据来源和算法限制的透明度至关重要。对人工智能系统进行广泛的人类监督和纠正提供了另一个重要保障;
总体而言,通过积极识别和早期缓解风险,我们可以引导 AI 朝着明确积极的成果发展,提升社会。这个承诺太大了,不能不追求,但我们必须以智慧和原则去追求。 ## 1.2. 使用 ChatGPT 革命化数据分析过程
ChatGPT 等生成式 AI 系统的集成有可能极大地加速数据分析过程。通过自动化许多重复和编码化的任务,ChatGPT 使分析师能够将时间集中在高价值目标上,这些目标利用人类判断、创造力和策略。
1.2.1. ChatGPT 潜在能力的数字背后
很明显,基于 AI 的系统有望为生活的各个领域带来变革性的变化。这种技术的潜在机制涉及先进的机器学习算法,这些算法检查大量的数据存储库,如书籍、文章和网页。
这个智能 AI 代理基于 Transformer,这是一种特别有效的基于注意力的深度神经网络,特别适用于自然语言任务(Tingiris 和 Kinsella 2021)。Transformer 集成了监督学习、无监督学习和强化学习的方面。
在预训练期间,模型参数在大量文本语料库上以无监督的方式进行训练,以学习语言模式、语义和世界知识。然后,使用基于人类反馈的强化学习对预训练模型进行细化,以优化其对话能力和与人类的对齐。
监督学习通过使用标记的训练示例对特定任务进行微调,例如分类,以提高性能。因此,虽然 Transformer 和神经网络构成了核心架构,但无监督预训练、强化微调和监督定制协同结合。
这反映了现实世界中混合学习模式以利用其互补优势的实践。使用自监督预训练,然后进行下游任务调整,已成为最先进深度学习中的常见模式。ChatGPT 展示了混合方法的强大之处。其基础是基于机器学习的递归自我改进,由人类反馈引导。
因此,ChatGPT 正在证明是一个强大的工具,具有许多应用,包括增强聊天机器人、自动内容创作和更高效的搜索引擎(Taecharungroj 2023;Thorp 2023)。此外,提高语言翻译的潜力有能力革命化跨文化交流。
根据麦肯锡最近的一份报告(2023),生成式 AI 的潜在经济影响可以通过以下方式评估:
-
对所有行业和职能超过 60 个组织用例的分析,估计全球潜在年度价值创造为 26-44 亿美元;
-
模型化所有职业中工作活动对自动化的影响,这可能在 2040 年之前每年为生产力的增长贡献 0.1–0.6%。
生成式 AI 在能力上相对于之前的 AI 技术有根本性的改进。
类似于 GPT-3 的模型支撑了许多生成式 AI 应用,这些模型在大量数据集上训练,以执行各种基于自然语言或视觉输入的任务。根据麦肯锡报告,最大的收入影响预计在银行(从 2.8%上升到 4.7%)、高科技(从 4.8%上升到 9.3%)和制药(从 2.6%上升到 4.5%)行业。在零售、营销和客户服务用例中,可能产生 1.2%到 2%的收入增长,每年价值 400–6600 亿美元。
IBM 关于企业生成式 AI 的报告(2023)同样强调了领先公司成功采用这些技术的具体例子,例如 Lloyds,它使用由 AI 文本生成驱动的聊天机器人为客户提供快速、一致的反应;以及 Bouygues Telecom,它在呼叫中心部署基于自然语言处理的虚拟助手,简化客户与代理之间的互动,这些实际应用真正展示了生成式 AI 在简化客户参与和优化方面的潜力。
表 1.2. 从基础到生成式 AI:时间线
| 类型 | 年份 | 里程碑 |
|---|---|---|
| 基本聊天机器人 | 1966 | Weizenbaum 开发的第一个聊天机器人 ELIZA |
| 1972 | Winograd 的语言处理程序 SHRDUL | |
| 1995 | ALICE(人工语言互联网计算机实体),由 Wallace 开发 | |
| 2001 | 在 AOL 即时消息上流行的聊天机器人 SmarterChild | |
| 对话式代理 | 2011 | IBM Watson 在《危险边缘》节目中战胜人类选手 |
| Siri:苹果 iOS 设备的虚拟助手 | ||
| 2014 | 微软在中国推出流行的聊天机器人小冰 | |
| Alexa:亚马逊的语音控制虚拟助手 | ||
| 2015 | 扩散模型的发明,它从噪声中学习生成图像,并成为 Dall-E 等图像生成器的基础 | |
| 2016 | Facebook 在 Messenger 上推出其聊天机器人平台 | |
| 微软 Tay,一个基于 Twitter 的聊天机器人,因其不当行为引发争议 | ||
| 2017 | Google 推出 Google Assistant 和 Duplex | |
| 生成式聊天机器人 | 2021 | Jasper AI:内容平台,帮助各种创作者和企业开发其创造潜力 |
| 2022 | OpenAI 推出 GPT-3,一个大型语言模型;OpenAI 推出 ChatGPT,一个由 AI 驱动的对话式代理 | |
| 2023 | Google 创建了 Bard,其生成式 AI GPT-4 版本由 OpenAI 的 Claude 创建,由 Anthropic 创建 |
1.2.2. ChatGPT 与数据分析的未来
数据分析是推动各个行业运营、决策和创新的基本且不可或缺的能力。生成式 AI 的出现有可能以几种重要方式彻底改变数据分析,如图 1.1 所示。

图 1.1. 生成式人工智能在数据分析中的优势
然而,真正的价值在于通过分析数据来增强人类智能,产生初步见解,然后人类利用自己的判断力和专业知识进行验证和应用。自动分析和人类智能的结合有望在巨大规模上产生新的知识,展示了 AI 如何改变组织利用信息的方式——尽管最大的影响将来自人类与 AI 的合作,这种合作有助于而不是阻碍新知识的发展。
这些基于 AI 的系统还可以提升数据科学家的技能和专业知识。通过自动化诸如数据清洗和预处理等繁琐的任务,AI 系统使分析师能够专注于数据分析中更复杂、更具创造性和直觉驱动的一面。人类与 AI 能力的协同作用使得决策更加准确、数据驱动(Hendrycks 等人 2021)。
此外,AI 在大型数据集中识别隐藏模式和关系的能力,可以帮助生成数据科学家可以通过进一步分析进行验证的假设。此外,AI 生成合成数据的能力在真实数据稀缺或难以获取的情况下非常有价值,使得机器学习模型的训练和测试更加稳健。
因此,认识到 AI 不是威胁,而是一个宝贵的盟友至关重要。尽管它可以自动化特定任务,但它仍然无法复制人类专业人士的整体能力。AI 系统缺乏战略性地解释结果或做出数据驱动决策的能力,这两者仍然属于人类专业领域的范畴。
因此,数据科学家不应害怕 ChatGPT 等 AI 技术的出现,而应将这些进步视为他们数据分析工具箱中的无价工具。人类与 AI 的和谐合作有可能开启新的生产力水平和洞察力,最终有助于数据科学和分析学的进步。 ## 1.3. 人类创造力与自动化分析之间的和谐:获胜的搭档
生成式 AI 的兴起迎来了人类创造力和自动化分析共生合作的时期。通过巧妙地平衡各自的优势,人类和像 ChatGPT 这样的 AI 系统可以形成一个获胜的搭档,从数据中解锁更深入的见解。
1.3.1. 人类创造力的价值
根据麦肯锡报告(2023),随着人工智能和机器学习在不同行业的日益普及,数据科学家的角色已从技术公司扩展到内部 AI/机器学习顾问、培训师和专家。
在这个背景下,应注意的是,数据分析的某些方面根本依赖于人类思维的独特能力。创造力、直觉、想象力、同理心和道德是数据科学家最重要的贡献的基础。提出有洞察力的问题、战略性地定义问题、在数据中辨别细微的模式和非明显的关系、验证分析模型和结果、识别差距、异常和需要进一步探索的领域,以及针对不同受众传达有说服力的叙述和视觉信息,以及负责任地监督分析方向和洞察力的使用,这些都是人类在人工智能进步中仍然表现出色的领域。
当人类创造力和自动化分析作为合作伙伴汇聚时,他们可以共同实现比单独使用时更多的成果(Sedkaoui 2023)。AI 提供规模、速度和不知疲倦的计算,而人类提供策略、道德和监督。这个共生的人-AI 分析搭档的一些特点包括以下内容。
表 1.3. 人-AI 分析搭档
| 操作类型 | 人类 | 生成式 AI |
|---|---|---|
| 基本问题 | 提出基本分析问题 | 建议最佳方法 |
| 新方向 | 确定新的数据方向 | 快速编译和分析所需数据 |
| 主观背景 | 提供主观背景 | 将计算严谨性注入推理 |
| 异常值 | 提供发现异常值的本能 | 验证广泛模型 |
| 沟通 | 准备沟通材料 | 生成所需的可视化和数据故事 |
这突显了人类和生成式 AI 在数据分析操作中角色差异。人类在构建基本问题、确定新方向和提供主观背景方面具有专业知识,而生成式 AI 在建议最佳方法、编译和快速数据处理、将计算严谨性注入推理、验证大规模模型以及生成所需的可视化和数据故事方面表现出色。通过结合这些技能,人类和生成式 AI 可以协同合作,实现更高效和深入的数据分析。
这种劳动分工使每个合作伙伴都能充分发挥其能力,为共同的分析目标服务。
1.3.2. 自动化分析的互补力量
在人类创造力不足的地方,自动化可以以非凡的方式填补空白。例如 ChatGPT 这样的 AI 系统,它们具有互补的优势,在多种分析任务中具有显著的优势。这些优势围绕着关键能力,包括:
-
不知疲倦地管理重复和机械的分析任务,而不会受到可能影响人类的疲劳的影响。AI 可以以一致性和连贯性处理大量数据,即使在密集的过程中也是如此;
-
快速执行超出人类心智能力的复杂统计计算。得益于它们的计算能力,AI 系统可以以前所未有的速度执行高级数学运算,大大加快分析过程;
-
在机器学习过程中检查大量信息和变量。与人类不同,AI 可以处理来自不同来源的大数据,这提高了学习模型和预测分析的质量;
-
一旦训练完成,就能提供严格一致的结果,不会偏离其逻辑或前提。AI 避免了与数据解释相关的偏见或人类错误,这加强了结果的可信度;
-
在不增加边际人力投入的情况下实现分析工作量的指数级扩展。AI 能够适应不断增长的数据量和分析查询,而不会牺牲效率,有助于满足不断增长的商业需求。
这些计算优势展示了 AI 自动化在不受协助的人类分析中具有明显优势的领域。将 AI 集成到数据分析过程中,使数据科学家能够专注于更复杂、更有创造性和战略性的任务,同时利用 AI 不可否认的优势来优化分析结果的准确性、效率和可扩展性。
因此,基于 AI 的系统出现是推动数据职业演变的有力力量。AI 的计算能力和人类专业知识相结合,正在引领一种新的数据分析类型。通过拥抱机器和人类的优点,我们可以开发出更精确的模型,并做出更明智、数据驱动的决策。
1.3.3. 负责任地导航伙伴关系
在未来,AI 的集成有望改变分析师的角色,使他们成为自动化系统的舵手,而不仅仅是执行个别分析。得益于 AI,它通过自动化重复性任务减轻了他们的负担,未来的数据科学家可以更多地致力于创造性和战略性的增值倡议。这些进步为分析师开辟了新的前景,他们将在高性能分析系统的设计和管理中发挥决定性作用。
他们将专注于识别关键问题和创造性假设,利用 AI 揭示数据中的隐藏模式。此外,他们还将使用 AI 从各种来源提取信息,并开发创新的框架来应对复杂问题。分析结果将被转化为具体行动和战略建议,以满足商业和社会需求。
未来分析师还将扮演关键角色,制定 AI 负责任使用的道德标准,并监督自动化分析系统的持续监控和改进流程。
这种重新定义的角色将人类创造力置于 AI 驱动引擎的首位。通过利用人类和 AI 的互补优势,未来的分析师将有机会塑造数据分析的未来,并在创新发现、明智决策和商业所有领域的战略进步中做出重大贡献。
但要培养一个有效且道德的人机 AI 分析伙伴关系,关注确保两个实体之间和谐且负责任的协作的关键优先事项是至关重要的。这些优先事项是充分利用人类创造力和自动化分析相结合所提供的分析潜力的基础。以下是一些重要的方面:
-
人类监督和控制:人类监督必须始终是分析过程的核心,指导自动化分析的方向和使用。人类在确定基于 AI 结果的目标、需要回答的问题和需要做出的决策方面发挥着至关重要的作用。他们必须保持全局和战略的视角,以确保分析与商业和道德目标保持一致。
-
透明沟通:清晰、透明的沟通对于在利益相关者之间建立信任至关重要。必须披露在数据分析过程中使用的 AI 系统的假设、局限性和偏见。这种透明度使决策者能够充分理解与 AI 得出的结果相关的含义和不确定性。
-
结果的严格验证:尽管 AI 可以提供快速而强大的分析,但人类验证对于保证结果的可靠性和质量至关重要。人类必须仔细检查 AI 结果,理解结论背后的原因,并确保发现与现有知识和伦理原则一致。
-
反馈循环:自动化分析不应被视为静态解决方案。相反,有必要建立反馈循环,以持续改进 AI 模型、纠正偏见并适应数据或目标的变化。人类必须在此持续改进中发挥积极作用,利用反馈和新信息来优化分析的有效性和相关性。
-
尊重伦理和隐私: 在分析的每个阶段,尊重伦理原则、数据隐私和过程公平性是至关重要的。人类必须确保人工智能不会复制或放大不良偏见,并保护个人的权利和隐私。
通过将这些负责任的原则融入人机分析伙伴的设计、协调和治理中,我们能够释放数据分析的巨大潜力。这种人类智慧和自动化分析之间的协同作用使得解决复杂挑战、做出明智决策和利用新兴机会变得更加高效和符合伦理。
然而,实现人类和人工智能的有效融合在很大程度上依赖于提示工程。掌握这项技能对于成功引导人工智能系统产生富有成效和符合伦理的结果至关重要。## 1.4. 揭示强大结果的提示工程秘密
随着生成式人工智能,特别是 ChatGPT 的日益流行,提示的艺术已经成为人工智能领域的一项关键技能。构建提示,即与大型语言模型(LLMs)互动的手段,并不像最初看起来那么简单。除了与 ChatGPT 初次互动的新奇感之外,很明显,掌握提示工程需要实践和深思熟虑。
1.4.1. 提示的艺术
ChatGPT 能够自动生成与人类写作内容非常相似的文字,这确实令人印象深刻。但它是如何实现这一壮举的,其成功的原因又是什么?尽管我们谈论的是某些技术方面,但这些原则也适用于其他大型语言模型(LLMs),而不仅仅是 ChatGPT。
基本上,ChatGPT 的主要目标是生成给定文本的“合理延续”。这里的“合理”是指一个答案,它对应于分析了几页网页和数字书籍后你可能会写出的内容。例如,想象以下原始文本:
在数据分析中,最关键的一个方面是数据预处理,它涉及……
为了实现其目标,ChatGPT 分析了包含来自各种来源(如 BookCorpus、Common Crawl 和 Wikipedia)的信息的大量数据集。ChatGPT 不是简单地寻找字面匹配,而是使用复杂的算法(Sedkaoui 2023;Taecharungroj 2023;Van Dis et al. 2023;Zhang et al. 2021)来识别与“意义相符”的概念和模式。
如图 1.2 所示,当你通过提问与 ChatGPT 互动时,它使用自然语言理解(NLU)来推断用户的意图。然后,从底层知识库中提取相关数据。接着,使用自然语言生成(NLG)根据这些数据总结一个适当的响应。讨论历史被保留下来,以便进行未来的个性化互动。为了提高未来响应的质量,使用强化学习来收集用户反馈并采取适当的行动(赛德卡乌伊 2023)。

图 1.2 ChatGPT 是如何工作的?
此过程允许 ChatGPT 生成一个按概率排序的单词和表达列表,这些单词和表达很可能跟随初始文本,并附带相关概率,确保生成的序列符合数据分析原则和最佳实践。
基本上,使用问题和它们的表述,即提示,是利用 ChatGPT 全部潜力并管理相关风险的基本机制。
数据科学家使用的提示对驱动 ChatGPT 等 AI 系统的结果的有用性产生深远影响。通过掌握提示工程技巧,他们可以优化 ChatGPT 的响应,从而加速他们的工作流程。精心设计的提示对于成功利用 AI 至关重要(江等 2020;施里克和舒茨 2021)。
提示工程指的是设计和完善提示的迭代过程,以引导 AI 系统向期望的行为发展。在 ChatGPT 等大型语言模型中,提示是人类传达意图和引导 AI 的唯一方式。
如何创建最有效的提示的知识现在已成为 LLM 社区乃至更广泛的领域内备受追捧的专长。随着生成式 AI 的普及持续飙升,提示工程的重要性显著增加,需要那些参与 AI 世界的人们的关注和技能。现在我们已经建立了基本提示的结构,让我们更深入地探讨掌握提示工程的关键考虑因素。
1.4.2. 优化提示以高效与 ChatGPT 互动的基本方面
提示语的措辞起着至关重要的作用,因为它引导 LLM(如 ChatGPT)产生期望的结果。以 ChatGPT 能够准确理解和回应的方式撰写问题或陈述至关重要。
例如,如果一个用户在特定领域缺乏专业知识,并且难以用适当的术语提出问题,ChatGPT 提供相关答案的能力可能会受到限制。这可以比作在不知道正确关键词的情况下搜索网络。
虽然增加额外信息可能有助于提高提示的效果似乎是显而易见的,但过多的一般性文字并不一定是最佳策略。最好将提示措辞视为一种并非孤立的技巧,而是一条将所有其他提示工程技巧联系起来的主线。
提示中的简洁性对于清晰度和准确性至关重要。一个设计良好的提示应该是简明扼要的,提供足够的信息让 ChatGPT 掌握用户的意图,而不需要不必要的详细说明。然而,避免使提示过于简短是至关重要的,因为这可能导致含糊不清或误解。在简洁性和详尽性之间找到正确的平衡可能具有挑战性。实践可能是掌握这种能力的关键。
因此,在提示工程中,角色指的是分配给 LLM 的人和目标受众。例如,如果你想 ChatGPT 为机器学习分类指标撰写博客文章的大纲,明确指定 LLM 应扮演机器学习专家的角色,目标受众由数据科学的新手组成,这将显著提高答案的相关性。
这种信息的表达方式可以尝试,无论是采用对话风格:“你是一位在物流公司工作的资深数据科学家”;还是更正式的方法:“角色:物流专家分析师;受众:商业决策者”,具体取决于上下文。
目标与角色密切相关。明确指出引导交互的目标不仅建议,而且是必要的(Schick 和 Schütze 2021)。如果没有明确的目标,ChatGPT 将缺乏生成所需结果所需的指导。此外,正面和负面提示是两种不同的方法,用于影响模型的输出。

图 1.3. 基本提示与角色定义
通过使用这两种类型的提示,我们可以显著塑造结果的方向和质量。
因此,提示工程是高效使用 LLM(如 ChatGPT)的必要元素,并且是定制与模型交互的有力方式。这涉及到精心设计清晰和具体的指令或查询,以便从 LLM 模型中获得期望的响应。通过巧妙地构建提示,数据科学家可以将 ChatGPT 的输出引导到他们的目标,从而产生更准确和有用的响应。
在对 ChatGPT 进行提示优化过程中,有几个基本技巧需要牢记:
-
首先,在开始时提供明确的指令有助于设定上下文并定义模型的任务;
-
明确指定期望的响应格式或类型也可能有益;
-
此外,通过整合系统消息或在使用提示时采用角色扮演技术,可以提高交互性。
因此,数据科学家制定提示的方式直接决定了 ChatGPT 对自动化部分分析工作流程的响应的相关性、准确性和有用性。
提示增强了 ChatGPT 的上下文理解并指导适当的分析能力。不适当的提示提供不足的指导,导致无关或不准确的结果。

图 1.4 ChatGPT 战略提示指南
详细展示在图 1.4 中的战略提示开发与掌握,使得能够以协作方式引导 ChatGPT 产生针对个人需求的优化响应。这包括定义语气、格式和期望范围以对齐期望。提供背景并明确说明目标为这一策略提供方向。通过添加相关关键词、示例和数据来丰富提示,可以使响应更加充实。
根据受众和领域调整语言和术语,可以优化理解和准确性。通过要求提供多个视角来鼓励批判性思维,可以加强推理和客观性。并且,通过谨慎措辞来尊重伦理,可以促进对敏感主题的细致处理。
通过遵循这些原则,您将获得与您的需求精确对齐的答案,同时尊重理性讨论的标准。
战略提示制定允许您协作引导 ChatGPT 生成针对您需求的优化响应。
随着生成人工智能的采用加速,掌握提示工程将成为一项基本的分析技能。通过谨慎、严谨和道德考量,精心设计的提示使分析师能够利用人工智能增强的巨大可能性,同时保持警惕的控制。数据分析的未来属于那些学会通过精心设计的提示渠道,明智地结合人类创造力和人工智能能力的人。
现在战略基础已经奠定,我们的探索继续深入到 ChatGPT 的革命性功能和它们在数据分析工作流程中的集成。以下页面将阐明分析师如何利用这项技术的力量。 # 2
ChatGPT 用于数据分析
ChatGPT 的出现标志着人工智能进化过程中的一个关键里程碑,解锁了革命性的新能力,以自动化和增强人类数据分析。建立在前所未有的深度学习基础之上,ChatGPT 提供了一个高度先进的语言模型(LLM),准备好激发分析工作流程。
本章提供了将 ChatGPT 集成到数据分析过程中的全面指南。我们探讨了 ChatGPT 的起源和属性、其协作潜力、集成细节和实际应用。我们首先讨论了 ChatGPT 的本质,其中 GPT-4 是这一技术的最新版本,建立在先前版本显著成功的基础上。
2.1. 探索 ChatGPT 宇宙:历史、展示和功能
ChatGPT 在生成人工智能领域取得了革命性的进步,这是由最近在深度学习方面的进步所实现的。由 OpenAI 构建,使用大规模数据集上的自监督学习,ChatGPT 提供了显著的自然语言能力,以推动新一代人工智能应用。
2.1.1. 从 GPT-1 到 GPT-4:生成式预训练转换器
OpenAI 通过其 GPTs 的版本在自然语言处理(NLP)方面取得了显著的进步,从 GPT-1 到 GPT-4。这些模型为人工智能生成内容铺平了道路,涵盖了广泛的应用,如散文、诗歌、聊天机器人和甚至编码。然而,理解每个模型之间的区别以及它们对 NLP 领域的重大影响是至关重要的。
生成式预训练转换器(GPTs)是一种用于自然语言处理任务(Sedkaoui 2023; Taecharungroj 2023; Van Dis et al. 2023)的机器学习模型。这些模型在大数据集上进行了预训练,例如书籍和网页,这使得它们能够生成上下文相关且连贯的语言。
用更简单的术语来说,GPTs 是一种能够生成类似人类文本的计算机程序,而无需明确的编程。因此,它们可以被微调以执行各种自然语言处理(NLP)任务,包括问答、翻译和文本摘要。

图 2.1. GPT 的时序发展
GPT 的重要性在于它们在自然语言处理方面的突破,使机器能够以前所未有的流畅性和准确性理解和生成语言。在第 2.1.1.1 节–第 2.1.1.4 节中,我们将探讨四个 GPT 模型,从最初版本到最新的 GPT-4,评估它们的性能和局限性。
2.1.1.1. GPT-1
2018 年,OpenAI 推出了 GPT-1,这是其第一个使用 transformer 架构的语言模型(牛津分析 2023)。拥有 1170 万个参数,它标志着比之前最先进语言模型的一个重大进步。GPT-1 的优势在于其能够根据提示或上下文生成流畅且连贯的语言。该模型基于两个大型数据集的组合:Common Crawl,包含来自网页的数十亿单词,以及 BookCorpus 数据集,由超过 11000 本涵盖不同体裁的书籍组成。这些多样化的训练数据为 GPT-1 强大的语言建模能力做出了贡献。
然而,尽管 GPT-1 在自然语言处理方面取得了成就,但它仍存在某些局限性。值得注意的是,它倾向于产生重复的文本,尤其是在其训练数据范围之外的提示下。该模型在处理多轮对话时存在困难,并且缺乏捕捉文本中长期依赖关系的能力。此外,其连贯性和流畅性仅限于较短的文本序列,在较长的段落中保持连贯性是一项挑战。尽管如此,GPT-1 为更强大和更实质性的基于 transformer 的模型铺平了道路。
2.1.1.2. GPT-2
2019 年,OpenAI 推出了 GPT-2 作为 GPT-1 的继任者。这个新版本拥有令人印象深刻的 15 亿参数,使其比其前辈大得多。GPT-2 的训练数据也得到了改进(张等人 2021),结合了庞大的 Common Crawl 数据集和多样化的 WebText 数据集。GPT-2 的一个优势是它能够生成连贯且逼真的文本序列。它产生类似人类响应的能力使其成为各种 NLP 任务(包括内容创作和翻译)的宝贵资产。
然而,GPT-2 存在一些局限性。当面对需要更复杂推理和更深层次上下文理解的任务时,它显得力不从心。虽然它在生成短段落和文本片段方面表现出色,但在保持较长段落中的上下文和连贯性方面存在困难。尽管存在这些挑战,GPT-2 的发展为 GPT 模型后续迭代中的进一步进步奠定了基础。
2.1.1.3. GPT-3 和 GPT-3.5
2020 年,随着 GPT-3 的问世,自然语言处理模型取得了重大突破。GPT-3 拥有惊人的 1750 亿个参数(张等人 2021),其参数数量超过 GPT-1 的 100 倍和 GPT-2 的 10 倍。GPT-3 的训练数据来自多个来源(Thorp 2023),例如 BookCorpus、Common Crawl 和维基百科,代表近万亿个单词。这种广泛的训练使 GPT-3 能够在各种自然语言处理任务中生成复杂的回应,而无需先前的数据示例。
尤其是 GPT-3 在生成连贯文本、编写计算机代码甚至创作艺术方面优于其前辈。对上下文的理解和适当回应的生成使其在聊天机器人、内容创作和翻译等应用中变得理想。ChatGPT,一个对话式人工智能聊天机器人的出现,展示了 GPT-3 在该领域产生的巨大影响。
尽管 GPT-3 拥有令人瞩目的能力,但它并非没有缺陷。由于该模型是在大量可能包含偏见信息的文本上训练的,因此可能会出现有偏见、不准确或不恰当的回应。此外,GPT-3 有时会针对给定的提示生成无关的文本,这表明它在理解和把握上下文及背景知识方面存在困难。
此外,GPT-3 令人印象深刻的潜力引发了伦理担忧和误用的恐惧。专家们担心其被用于恶意目的,如生成虚假新闻、钓鱼邮件和恶意软件。在 GPT-4 正式发布之前,OpenAI 还推出了改进版本 GPT-3.5。
尽管 GPT-3.5 与 GPT-3 拥有相同数量的参数,但它得益于在更大的文本和代码数据集上进行的训练(Sedkaoui 2023)。这些扩展的训练数据使 GPT-3.5 能够生成比其前辈更真实、更复杂的文本。
此外,GPT-3.5 在执行各种任务时提供了改进的能力,而无需额外的训练。虽然它不能被视为 GPT-3 的重大升级,但它确实在潜在性能和实用性方面带来了显著的改进。
2.1.1.4. GPT-4
GPT-4 是 GPT 版本中的最新成员,于 2023 年 3 月 14 日发布,代表了在已经令人印象深刻的 GPT-3.5 基础上的一次重大进步。尽管其训练数据和架构的细节尚未官方公开,但 GPT-4 无疑建立在 GPT-3.5 的强大基础上,同时解决了一些其局限性(见附录 2)。
GPT-4 的一个显著特点是它的多模态能力,使模型能够理解文本提示的同时理解输入图像(Open AI 2023;牛津分析公司 2023)。例如,在 GPT-4 发布会的直播中,一位 OpenAI 工程师向模型输入了一个手绘的网站原型,令人惊讶的是,模型生成了该网站的实用代码。
此外,GPT-4 对复杂提示的理解更好,在各种专业和传统基准测试中实现了人类水平的表现(Sanderson 2023)。它还具备更大的窗口大小和上下文,使模型在对话中能够保留更多信息。
GPT-4 的进步正在推动人工智能工具的边界,并应在各个行业中找到应用。然而,与任何强大的技术一样,关于潜在滥用和伦理影响的担忧也围绕着这个强大的工具。
2.1.2. ChatGPT 实践应用
GPT 模型的出现给人工智能领域带来了革命性的变革,开辟了一个充满激动人心的可能性领域。它们的大规模、能力和复杂性使它们在多种应用中极具价值。这些 GPT 应用种类繁多,影响深远。一些关键用途包括:
-
内容生成: GPT 模型可以生成用于各种目的的文本,如撰写文章、博客文章、产品描述和社交媒体内容,这使得快速高效地创建内容变得容易。
-
语言翻译: GPT 模型能够使用在训练期间学习到的模式和结构将文本从一种语言翻译成另一种语言,提供翻译服务。
-
回答问题: GPT 模型可以处理自然语言问题并生成相关且信息丰富的答案,这使得它们对于聊天机器人、客户支持系统和信息检索非常有用。
-
文本摘要: GPT 模型可以生成较长文本文档的简洁摘要,这对于新闻文章、研究论文或其他大型文档非常有用。
-
对话系统和聊天机器人: GPT 模型,如 ChatGPT,可以为互动性和吸引人的聊天机器人和对话系统提供动力,理解用户查询并提供相关帮助。
-
创意写作: GPT 模型可以生成创意内容,如诗歌、故事或剧本,模仿不同体裁的风格和结构,帮助作家或提供娱乐。
-
语言建模研究:GPT 模型在语言处理和理解的研究中扮演着关键角色,作为评估模型性能和探索新技术的参考。
-
编码:ChatGPT 可以在 Python、JavaScript 和 SQL 等语言(Tingiris 和 Kinsella 2021;Sedkaoui 2023)中执行编码任务,只需将指令翻译成自然语言即可。例如,它可以解释“从该 API 中提取数据并在表格中显示”以自动生成代码。
-
数据分析:ChatGPT 可以通过对话交互快速回答关于数据集的复杂分析问题,并快速生成有洞察力的可视化。例如,当被问及零售销售数据集中的模式时,它提供了一个详细的分析趋势的直方图。
-
客户服务:基于历史客户对话,ChatGPT 可以通过程序化生成类似人类的响应来自动化常见的服务请求,例如退货或配送跟踪。
这些例子只是触及了 ChatGPT 能力的表面。从编码到商业应用,再到创造力,ChatGPT 在所有知识领域的多功能性使其成为一种深刻颠覆性的技术。随着功能的成熟,ChatGPT 可以重塑从医学到分析以及更广泛的行业。ChatGPT 的多功能性和高级自然语言处理能力使其成为各个领域中的宝贵工具。
表 2.1. ChatGPT 在各个领域的应用
| 领域 | ChatGPT 应用 | 示例用例 |
|---|
| 健康和医学 | 医疗诊断辅助 个性化治疗方案 医学研究和总结 脑健康建议
临床研究和开发 | 开发用于患者分诊的聊天机器人 医疗诊断和治疗建议 支持患者参与和治疗依从性 |
| 商业和金融 | 自动化财务报告 客户反馈情感分析 个性化投资建议
编写商业内容 | 开发客户服务聊天机器人 市场分析和预测
银行欺诈检测
金融风险管理 |
| 教育和培训 | 个性化学习材料和课程计划 学习者的实时反馈和指导 交互式教育内容生成 | 课程计划和教学策略支持 语言学习和测试
准备
个性化在线辅导 |
| 销售和营销 | 领先生成 客户服务聊天机器人 市场分析和预测 销售管理支持 | 开发客户服务聊天机器人 市场分析和预测 营销内容创作 金融产品风险管理 |
|---|
| 银行 | 客户服务聊天机器人 金融风险管理
管理个人财务 | 投资分析和预测 金融机构的风险管理 |
然而,与任何技术一样,认识到风险和限制是至关重要的。这些模型生成高度逼真文本和代码的非凡能力引发了关于潜在滥用的担忧,尤其是在创建恶意软件和散布虚假信息等领域的滥用。
尽管存在这些担忧,但随着 GPT 模型不断进步并变得更加广泛可用,它们有望在塑造 AI 和 NLP 的未来中扮演重要角色。
在探讨了 ChatGPT 的起源和能力之后,我们现在更深入地研究其通过直观的自然语言对话为数据分析任务提供的多功能特性。## 2.2. 智能数据分析的强大功能:自然语言服务
ChatGPT 拥有一套多样化的功能,非常适合加速和改进数据分析工作流程的许多方面。通过处理自然语言请求并遵循分析或编码指令,ChatGPT 可以帮助分析师更快地获得更深入的见解。
ChatGPT 和其他大型 NLP 语言模型在执行数据分析任务方面显示出潜力,在某些方面甚至与人类数据分析师的表现相当甚至更好。ChatGPT 作为数据分析师的优势包括:
-
快速处理速度: 由于其基于 AI 的特性,ChatGPT 可以比分析师更快地执行数据分析任务。这可以提高工作效率和周转时间。在一篇报道的实验中,ChatGPT 平均大约需要 50 秒来对一个数据点生成分析,而分析师则需要几分钟。
-
全天候可用: ChatGPT 全天候可用,没有休息时间,这可以帮助那些需要在任何时间进行数据分析工作的组织。
-
低成本: 使用 ChatGPT,尤其是 GPT-4,公司只需为单个分析任务支付高级数据分析师工资的 0.45%,对于初级分析师则是 0.71%(Cheng 等人 2023)。换句话说,与人类专业知识相比,这个 AI 代理的分数成本可以在数据分析相关的运营费用上产生显著的节省。ChatGPT 通过对话自动化带来的生产力提升远远超过了其使用成本,为成本效益和可扩展的分析铺平了道路。
-
生成流畅且一致的分析能力: Cheng 等人(2023)的研究结果中报告的评估显示,ChatGPT 能够以极大的流畅性和一致性得分生成数据分析点,与数据分析师相当。这表明 GPT-4 能够清晰地、逻辑地表达数据中的见解。
对于数据科学家来说,ChatGPT 作为一个自然语言界面,为加速分析工作流程开辟了革命性的可能性。通过与分析师直接对话,ChatGPT 可以自动化大量重复性任务(Sedkaoui 2023;Shen 等人 2023)。
表 2.2. 对话与生成能力对比
| 对话能力 | 生成能力 |
|---|---|
| 数据清洗 | 自动化报告 |
| 特征工程 | 数据讲故事 |
| 统计分析 | 演示文稿开发 |
| 查询生成 | 仪表板标注 |
这些功能使 ChatGPT 能够执行各种数据准备任务,提高模型性能,执行高级分析方法,并将分析师的问题转化为优化的代码。此外,ChatGPT 还可以总结综合报告并创建引人入胜的数据故事。
除了对话和生成能力之外,ChatGPT 还解锁了相当大的计算吞吐量,这对于复杂的分析任务至关重要。其 AI 架构提供了超越人类认知极限的速度和可扩展性(Tamkin 等人 2021;Sedkaoui2023)。
除了原始计算之外,ChatGPT 还展示了根据指定目标推荐适当分析方法的细微能力。其分析知识能够提供三个层次的指导:
-
推荐与可用数据特性和所需洞察力完美匹配的统计测试和模型,使得分析能够适应问题。
-
建议可能揭示当前方法遗漏的非明显洞察力的创造性新方法来组合、处理或可视化数据,可以激发想象力。
-
通过识别当前分析方法中的差距,并建议排列或额外数据以进行更彻底的调查,可以促进迭代改进。
-
通过推荐针对可用数据特性的特定统计测试和模型,ChatGPT 为数据科学家提供了进行更精确和有针对性的分析的能力。通过确定最适合当前问题的分析方法,ChatGPT 节省了时间并最大化了他们资源的利用。
-
通过建议创造性的新方法来组合、处理或可视化数据,ChatGPT 为数据探索开辟了新的视角和可能性。这种创新方法通过鼓励数据分析师考虑分析数据的不寻常方法,并揭示可能被忽视的隐藏洞察力,从而激发他们的想象力。
-
ChatGPT 在识别当前分析方法中的差距方面也发挥着至关重要的作用。通过建议进行更彻底调查所需的排列或额外数据,ChatGPT 使数据分析过程更加严谨,从而允许进行迭代数据分析,逐步提高结果的质量和可靠性。
此外,ChatGPT 作为编程和代码调试工具的多功能性,在众多领域开辟了无限可能。得益于其先进的自然语言处理能力,ChatGPT 可以用于简化编码过程,提高软件开发效率。在代码生成方面,开发者可以依赖 ChatGPT 生成与其需求完美匹配的代码片段,从而节省宝贵的时间和精力。此外,ChatGPT 的代码优化能力对于精炼算法和数据结构、提升应用性能和可扩展性至关重要。
在调试方面,ChatGPT 是不可或缺的。通过分析代码结构和错误信息,分析师可以获得宝贵的见解和建议,加快问题的识别和解决。更重要的是,ChatGPT 可以帮助进行代码文档编写,确保软件得到良好的文档记录,便于未来的维护和协作。
此外,ChatGPT 在代码审查过程中的分析能力也得到发挥。它可以评估代码是否符合编码标准和最佳实践,提供建设性反馈以提升代码质量和健壮性。随着行业越来越依赖软件解决方案,ChatGPT 作为合格的编程和调试工具的角色将彻底改变软件开发,使开发者能够创建更高效、可靠和创新的软件应用。
ChatGPT 针对语言建模任务的微调为数据科学家打开了丰富的可能性。该模型理解上下文和语义的能力使其能够创建在各种应用中表现卓越的语言模型。
将 ChatGPT 集成到对话系统、聊天机器人和虚拟助手中,使得数据分析师能够开发出交互式、上下文敏感的人工智能代理。这些智能代理能够用自然语言与用户进行对话,回答问题、提供推荐并协助完成任务。个性化、类似人类的交互潜力为客服和支持自动化开辟了新的可能性。
ChatGPT 可以被微调以理解特定的语言或领域,使其成为诸如命名实体识别、词性标注和情感分析等任务的宝贵工具。例如,数据分析师可以定制 ChatGPT 以在金融领域进行情感分析,提供关于市场情绪和趋势的见解。
ChatGPT 正在改变 NLP 的格局,以其多才多艺的能力赋权数据科学家。从内容生成到语言理解,再到编码,ChatGPT 正在证明自己是各个领域的变革者,推动基于 AI 的应用的创新和效率。随着 NLP 领域的持续进步,ChatGPT 注定将在塑造自然语言处理和人类-人工智能交互的未来中扮演越来越重要的角色。ChatGPT 的负责任开发和部署对于实现其全部潜力至关重要,同时确保其应用中尊重道德考量。## 2.3. ChatGPT 与数据科学家:看似联盟的智能之战
ChatGPT 的自然语言能力使得人机伙伴关系得以重新发明数据分析过程。通过无缝协作,ChatGPT 和数据分析师可以相互补充,获取更深入的见解。这一愿景有望扩大并提升数据分析师的角色。
2.3.1. 无缝沟通和有效伙伴关系的关键特征
数据分析师和 ChatGPT 之间无缝团队协作的核心是自然语言对话能力,它促进了顺畅和协同的合作。得益于这个直观的界面,分析师可以用简单的对话语言向 ChatGPT 传达他们的目标、问题和提示,避免了需要复杂代码的需求。这种互动对话使得 ChatGPT 能够提出澄清问题,寻求澄清,并确保对分配的任务有精确的理解。这种人机协作反映了同事们共同解决问题的自然交流。
这次合作的一个关键特征是,数据分析师能够在 ChatGPT 工作以优化其性能时提供实时反馈。这种互动学习使得 ChatGPT 能够整合人类建议,不断改进其输出。ChatGPT 还可以解释其行为,并提出验证的步骤,从而加强分析过程中的透明度和信任(Sedkaoui 2023)。
多亏了这次合作,分析师可以按需利用 ChatGPT 的能力,以加快获取有意义的见解。然而,警惕风险至关重要,包括偏见,因为 AI 没有固有的道德感。需要负责任的协调,以确保这次合作的好处超过风险。
为了使这次合作真正实现共生,必须尊重某些关键属性。明确沟通目标、约束和截止日期,以建立一致性,因为 ChatGPT 完全依赖于人类指令进行指导。关于 ChatGPT 的能力和限制的完全透明度对于建立信任和设定适当的期望至关重要。
负责任的人类监督是不可或缺的,以确保分析过程的安全性和伦理性。人类必须对所有分析路径、模型假设和决策保持控制和监督。
分析师定期的反馈对于迭代改进 ChatGPT 的工作和减轻风险至关重要,因为 AI 系统需要持续的指导。
最后,如果 ChatGPT 要负责任地赋予数据分析师权力,那么在数据隐私、算法公平性和透明度等优先事项上达成伦理一致性是至关重要的。
通过深思熟虑的协调和负责任的实施这些原则,ChatGPT 可以与数据科学家紧密共生,成为团队的无缝延伸。这种人机协作有望显著增强人类在自然语言处理领域的潜力。
将生成式 AI,如 ChatGPT,有效集成到数据分析中,从根本上重新定义了人类数据分析师的角色。得益于 AI 对机械任务的自动化,数据分析师现在可以更多地关注更高层次的任务。
表 2.3 生成式 AI 时代数据分析师角色的演变
| 生成式 AI 之前分析师的角色 | 生成式 AI 时代分析师的角色 |
|---|---|
| 执行分析 | 设定战略方向和分析计划 |
| 识别标准问题 | 创造性地识别新的数据关联 |
| 严格的规划 | 动态调整分析方向 |
| 数据处理和执行 | 对模型结果进行关键评估和解释 |
| 沟通发现 | 沟通利益相关者的需求 |
如表 2.3 所示,数据分析师可以花更多时间来设定分析计划和流程的战略方向。他们可以摆脱执行任务,专注于创造性思维和战略规划,提升他们在组织中的角色。
生成式 AI 通过识别新的数据关联和提出新的调查问题来激发好奇心。这可能导致突破和发现,这些发现可能之前被遗漏。因此,通过访问 AI 加速的见解,数据分析师现在可以根据过程中的发现动态调整分析方向。这使得数据分析更加适应性和对变化做出反应。
当 AI 负责任务执行时,对模型结果进行关键评估和解释成为分析师的主要增值服务。人类判断凸显出来,使对结果的理解更加深入。借助生成式 AI,分析师现在可以专注于向利益相关者沟通发现和见解,加强他们在公司内部作为关键沟通者的角色。
作为一款强大且创新的助手,ChatGPT 将自己定位为数据分析过程中的宝贵盟友和促进者,而不是可能取代数据分析师的威胁。未来,它有效地融入分析领域旨在从根本上重新定义人类分析师的主要职责,使他们从机械任务中解放出来,并能够专注于更高价值的智力活动。
2.3.2. ChatGPT,盟友与威胁之间
到目前为止,我们主要关注 ChatGPT 和 LLM 的协作方面。这些模型可以自动化数据分析师目前执行的一些任务,例如数据清洗和探索性数据分析。这可能导致这些领域对数据专家的需求减少。
基于模型机器学习(LLM)如 ChatGPT 的出现,有望显著降低数据科学和数据分析(Sedkaoui 和 Khelfaoui 2020)的入门门槛。在未来,我们将不再需要掌握多种软件,因为我们能够利用 LLM 的力量,在几分钟内完成之前需要数小时才能完成的任务。
让我们以一家希望快速提取和分析存储在 Excel 表格中的数据的公司为例。得益于 ChatGPT 与 Excel 的集成,该公司可以简单地突出显示要分析的区域,并提出诸如:“过去一个季度销售额的趋势是什么?”或:“你能进行回归分析吗?”这样的问题。以这种方式集成产品将提高不常使用这些软件的人对 Excel 和类似软件的易用性,这最终将导致对这些工具熟练的专家需求减少。
ChatGPT 的代码解释器插件展示了数据科学工作流程日益民主化的趋势。有了这个插件,我们可以在聊天界面中运行 Python 代码并执行数据分析。我们还可以下载 CSV 文件,并利用 ChatGPT 的支持来清理、分析和用我们的数据创建统计模型。
一旦我们分析了数据并明确了目标,ChatGPT 将引导我们完成实现预期结果所需的步骤。然后,它将进行分析和建模,在过程的每个阶段提供解释。例如,ChatGPT 可以确定生成 ARIMA 预测的最佳参数。通常,数据分析师完成这项任务大约需要三到四小时,而 ChatGPT 只需几分钟就能通过简单地处理提供的数据来完成。
这一显著成就大大降低了促进模型构建过程所需的专家水平。在这种情况下,我们可以问自己以下问题:这个领域的人类专业知识是否仍然必要?答案是:绝对必要。
尽管在编码和模型构建方面的人工智能能力取得了进步,但人类专家在监督过程中仍然至关重要。尽管 LLM 模型已经进步,但在创建统计模型时,它们仍然可能生成错误的代码并做出错误的决定。因此,公司始终需要具有统计和编程专长的合格专业人员来监督数据分析过程并保证模型提示的准确性。
与 ChatGPT 一样,LLM 本身不能创建数据产品,因此人类始终需要执行诸如需求收集、调试和模型结果验证等任务。然而,这些自然语言模型产生的效率提升将导致执行这些任务所需人员数量的减少。
这种发展的影响可能首先在 LLM 已经能够掌握中级编码和分析工作流程的入门级大数据分析职位上感受到(Hilton 等人 2021;Tamkin 等人 2021)。
然而,数据科学家仍然需要开发和训练这些模型,以及解释它们的输出并将它们传达给利益相关者。他们的角色包括更多内容,包括数据准备、分析、可视化和模型构建。此外,他们始终需要执行这些模型无法执行的任务,例如实验设计和数据收集。
根据美国劳工统计局的数据(2022),预计到 2030 年,对数据科学家的需求将激增 22%,远高于所有职业的平均增长率。这种增长是由公司和组织中数据使用的日益增长所驱动的。
在当今的格局中,由于预期数据科学家需要具备多样化的技能(McKinsey 2023),他们对大数据分析入门级职位的需求很高。除了在统计建模和编码方面的专业知识外,该领域的专家还必须掌握 SQL 进行数据提取,使用 Tableau 和 PowerBI 等工具进行数据可视化,并有效地向利益相关者传达见解。
因此,ChatGPT 确实是促进数据分析过程中某些特定任务的有价值工具,例如数据清洗和预处理。然而,它的能力有限,不能完全取代数据分析师的角色。数据分析、大数据和数据科学是多方面的领域(McAfee 和 Brynjolfsson 2011;Sedkaoui 和 Khelfaoui 2020),需要技术专长、领域知识和批判性思维的结合,使得完全自动化变得困难。
尽管 ChatGPT 在某些方面提高了效率,但它无法取代在数据分析、模型构建、解释和决策过程中不可或缺的人类专业知识和判断。此外,数据分析是一个不断发展的领域,持续引入新技术和方法。如果我们想有效地利用这些进步,人类的适应性和创造力仍然至关重要。在这个动态的领域中,ChatGPT 或任何其他生成式 AI 工具将补充,但不会取代熟练数据分析师(Sedkaoui 2023)的无价作用。
大概来说,人工智能的实施确实可能导致特定领域的就业岗位流失,但同时也将在数据分析、模型开发与维护等领域创造新的机遇。此外,AI 在各行各业生产力的提升可以推动经济增长,并为新的就业前景打开大门。
随着技术的进步,适应和提升技能以利用 AI 的优势,同时保留机器无法复制的人类特质,将变得至关重要。在这个背景下,插件成为了强大的盟友,增强了 GPT 等模型在数据分析方面的基本能力。
2.3.3. 自动化数据科学工作流程:释放 ChatGPT 插件潜力
ChatGPT 以其可爱的 AI 天才形象赢得了我们的心,它渴望学习,永无止境的好奇心,充满潜力。就像一个不断吸收新技能的聪明幼儿,ChatGPT 展现出了惊人的知识吸收能力。但如何将这种潜力从承诺转化为能力——从幼儿到智者呢?
答案在于通过强大的互补模块来增强其能力,这些模块可以作为额外的导师,通过实践学习将新才能传授给 ChatGPT。这就是当 ChatGPT 遇到其动态伙伴——插件时发生的显著转变。
你可能已经熟悉这个术语,你可能在本书此章节的前几页中遇到过。插件是第三方集成,以强大的方式扩展了基本 ChatGPT 模型的功能,适用于数据科学工作流程。在核心上,ChatGPT 拥有强大的自然语言处理能力,但缺乏直接访问数据或专业分析工具的能力。插件填补了这一空白。
将插件视为集成到强大基本系统中的附加配件,类似于托尼·斯塔克的基本钢铁侠战衣在需要执行特定任务时集成额外的模块,如 JARVIS 或火箭推进器。同样,插件通过扩展功能增强了 ChatGPT 的基本智能。
它们通过将 ChatGPT 对话链接到外部数据源、分析库、可视化引擎等来工作。这提供了两种世界的最佳结合——ChatGPT 的对话和生成性特性与编程能力相结合,形成了一种简单而强大的数据分析体验。
例如,Wolfram/Alpha 插件通过对话提示执行专家级别的统计分析。
代码类型插件,如代码解释器,可以直接在聊天中执行 Python 和其他语言的代码块。网络集成器,如 WebPilot,根据对话指令检索网站或导入 API。Zapier 在数千个应用程序之间传输数据以自动化工作流程。
表 2.4. ChatGPT 数据分析插件列表
| 插件 | 功能 |
|---|---|
| 数据探索助手 | 通过自然语言启用交互式数据探索 |
| 代码辅助 | 为数据科学提供智能代码建议 |
| 数据可视化巫师 | 从对话提示生成数据可视化 |
| 机器学习顾问 | 机器学习模型创建和评估的指南 |
| 数据清洗专家 | 识别和解决数据质量问题 |
| 统计分析伴侣 | 为严格分析提供统计专业知识 |
| 数据故事讲述者 | 生成引人入胜的数据驱动故事 |
| WebPilot | 导航网站并提取数据 |
| ScholarAI | 查找和总结学术论文 |
| Wolfram | 访问 Wolfram/Alpha 知识库 |
| 代码解释器 | 执行并与代码片段交互 |
| ChatWithGit | 启用基于 Git 的版本控制和协作 |
| LinkReader | 概括文章和网页资源 |
| Noteable | 捕获、存储和组织笔记 |
| ShowMe | 从文本描述生成图表和图形 |
| Zapier | 在应用程序之间连接和自动化任务 |
因此,如果 ChatGPT 的基础是好奇的孩子,那么插件就是培养其能力的教师。这些强大的扩展将数据分析提升到前所未有的高度,使它们成为您不容忽视的无价资产。
随着新插件的出现,ChatGPT 可以通过自然对话智能地与几乎任何系统接口(陈和李 2023)。分析师无需编程或技术专业知识即可受益于巨大的分析灵活性。
现在,想象一下这些插件集成到未来的版本中,比如 GPT-4。基础模型本身将拥有更强的分析能力。插件将赋予它特定领域的超级能力——就像托尼·斯塔克准备执行任务时配备不同的配件。
GPT-4 结合 SQL 助手,成为无与伦比的对话式数据库查询引擎。Plotly 强化了其敏锐的视觉感知。代码解释器的执行使得即时编程成为可能。共同,它们形成了一个强大的分析团队——人类对话的灵活性加上配备专业工具的 AI 助手。
这正是插件生态系统的真正承诺——将 ChatGPT 从一种狭义 AI 转变为多功能的分析合作伙伴。随着插件增强其数据分析能力,我们越来越接近真正的增强智能,它赋予每个用户力量。随着 AI 助手通过人机团队合作获得扩展功能,未来充满了令人兴奋的可能性。## 2.4. 将 ChatGPT 集成到数据分析工作流程中的益处和挑战
ChatGPT 的集成为数据分析师带来了巨大的生产力提升,同时也引发了重要的伦理考量。通过在两者之间找到合适的平衡,数据科学家可以战略性地利用 ChatGPT 来优化他们的分析流程。
2.4.1. 释放分析潜力,降低成本
ChatGPT 具有自动化各种重复性、自然语言编码任务的潜力,为数据处理中的生产力提升铺平了道路。示例表明,数据清洗和处理可以比当前方法快五倍(Sedkaoui 2023)。同样,ChatGPT 能够在几秒钟内将对话式自然语言问题翻译成 SQL、Python 或其他代码,从而消除数小时的手动工作。
然而,这些令人印象深刻的进步并不意味着 ChatGPT 可以完全取代数据科学家的角色。尽管其能力在不断增强,但这种生成式 AI 还无法像人类一样理解语境和意义。需要批判性推理、创造力和人际互动的任务仍然超出了其当前的能力范围。因此,AI 和数据科学家之间的合作对于充分利用这项技术并避免潜在错误至关重要。
这种合作的益处是多方面的。通过卸载重复和可自动化的任务,ChatGPT 为分析师节省了时间,使他们能够专注于更高价值的任务。例如,自动生成的报告使分析师能够专注于解释结果和发现独特的见解,而不是花费时间在可视化和管理仪表板上。查询的自动化提供了对大型数据集的交互式探索,这在以前是难以实现的。
除了生产力提升之外,ChatGPT 还显著扩展了分析范围。由于其能够快速将自然语言问题转换为高性能代码的能力,实时查询大量数据集成为可能。ChatGPT 在实时对话中可以发现新的相关性指标,为进一步的探索性分析铺平道路。预测建模和大规模情景分析也因生成式 AI 的加速执行而变得可行。
然而,必须注意的是,生成式 AI 仍然不完美,对其使用需要负责任的方法。实施严格的验证、监控和治理对于避免潜在错误和确保该技术的道德使用至关重要。如果 ChatGPT 要负责任地集成到数据分析过程中,人类-人工智能合作是必不可少的。
除了生产力提升和分析可能性扩展之外,ChatGPT 的自动化工作流程也为组织承诺了显著的成本和资源节约。由于 ChatGPT 的自动化故事讲述和综合能力,报告、可视化和仪表板上的时间可以大大减少。这种节省时间意味着节省了数千个宝贵的人类小时。
此外,通过使用生成式 AI 获得的效率,可以降低数据分析的整体运营成本。这可以使组织在保持相同工作量不变的情况下,减少其分析师团队的大小。得益于 ChatGPT 的帮助,数据科学家稀缺且昂贵的问题也可以得到缓解,因为它通过其自然语言界面使业务分析师能够管理更高级的工作流程。
虽然前景非常乐观,但谨慎管理 ChatGPT 的集成至关重要,以确保其益处超过潜在弊端。前进的道路需要在数据分析中实现人类与人工智能之间的微妙平衡。需要解决几个挑战以充分发挥其全部潜在影响。这些挑战包括:
-
偏差与公平性: 生成模型,包括 ChatGPT,可能会反映训练数据中存在的偏差。分析师必须保持警惕并仔细审查生成的输出,以确保敏感属性,如性别、种族或年龄,不会影响结果。偏差的存在可能会对决策产生重大影响,导致不良后果,如不平等或歧视。为确保公平分析,应努力减轻潜在偏差并提高训练数据的多样性和代表性。
-
可解释性:生成模型中使用的神经网络的透明度可能对可解释性构成挑战。分析师和用户需要了解结果是如何以及为什么被生成的,以便他们可以解释和说明 ChatGPT 产生的信息。正在进行研究以开发使生成模型更加透明和可解释的方法。可解释性对于建立对生成式 AI 结果的信任至关重要,并且对于决策者能够根据产生的信息做出明智的决策至关重要。
-
信息安全:生成模型,尤其是在敏感领域或与机密数据一起使用时,必须受到严格的访问控制。确保只有授权人员才能访问由 ChatGPT 生成的信息,对于防止隐私侵犯和数据泄露至关重要。数据保护对于维护利益相关者的信任至关重要,无论是客户、员工还是公众。
-
重新定义角色:在数据分析过程中引入生成式 AI 可能会导致数据科学家角色的重新定义。他们需要获得新的技能来监督和与生成模型协作,除了他们传统的编程技能。这可能包括快速模型工程、解释生成的输出以及解决与生成式 AI 相关的问题。这种角色的重新定义将使分析师能够更有效地与 AI 技术协作,并负责任地将它们整合到他们的工作流程中。
-
监控模型错误:像所有 AI 系统一样,生成模型可能会产生错误或意外的结果(Liebrenz 等人 2023)。鉴于 ChatGPT 可以生成错误观念或幻觉,需要强大的测试和监控机制来保证输出的可靠性。专家需要了解模型的局限性,并在基于生成信息做出重要决策之前确保结果得到验证和确认。
-
知识产权保护:生成式 AI 的使用引发了关于知识产权保护的担忧。当生成模型用于生成专有分析时,竞争对手通过训练自己的模型可能会复制这些分析。因此,对于组织来说,实施适当的保护措施来保护其知识产权和专有分析至关重要。
因此,虽然生成式 AI 带来了实际的好处,但也给数据分析引入了风险。为了实现其全部潜力,组织必须采用全面的治理框架,培养人工监督,并促进分析师和技术人员之间的协作。负责任地实施这些技术可以显著加快从大量数据集中提取有价值见解的能力,从而提高所有层面的决策质量。
需要注意的是,尽管生成式 AI 有助于自动化,但它并不能取代人类分析师所扮演的必要角色。分析师提供判断、背景、质量控制以及为生成式 AI 提供方向。人机协作利用各自的优势,从而实现更具影响力和信息量的数据分析。
现在我们转向第三章,该章节更深入地探讨了如何利用 ChatGPT 的能力来加速关键的数据准备任务,如清洗、预处理和特征工程。 # 3
使用 ChatGPT 进行数据分析的数据准备
数据准备是数据分析过程中的一个关键且非常重要的步骤。它涉及清洗、转换和格式化数据,以便它们可以有效地进行分析。这项任务可能耗时且具有挑战性,但对于确保数据分析结果的准确性和可靠性至关重要。
ChatGPT 是一种可以用于理解和回应自然语言查询的 LLM。ChatGPT 是数据准备的一个强大工具,可以自动化诸如加载数据、清洗数据、分割数据集;识别和删除缺失或异常数据;数据归一化;文本处理;以及创建新特征等任务。这有助于分析数据准备过程。
使用这个生成式 AI 模型,你可以自动化数据准备中涉及的大部分任务,从而腾出时间专注于数据分析过程的其他方面。
在本章中,我们详细介绍了如何使用 ChatGPT 进行数据准备。我们首先讨论数据准备的基础知识,然后展示如何使用 ChatGPT 自动化各种任务。我们还提供了一些使用 ChatGPT 有效的一些技巧和窍门。
3.1. ChatGPT 负责准备我们的数据集
作为数据分析过程中的关键步骤,数据准备是释放数据分析潜力的重要途径。这涉及一系列旨在确保数据处于干净、可用和结构化格式的任务。通过清洗、转换和格式化数据,数据分析师可以准备它们以进行分析并提取有价值的见解。
数据清洗是数据准备中的初始和基本任务。它包括识别和纠正数据中的任何错误或不一致。这些问题可能包括拼写错误、缺失值、重复记录或异常值。解决这些问题对于保证数据的准确性和可靠性至关重要。不正确或缺失的数据可能会对数据分析结果和决策过程产生严重影响。
数据转换随后开始发挥作用。这一阶段包括将数据转换为适合分析的形式。例如,将分类数据转换为数值可以启用计算和建模。将数据缩放到一致的范围确保不同尺度的变量不会不成比例地影响分析。
数据格式化侧重于以易于理解和分析的方式组织数据。创建汇总表和生成逻辑数据结构都是数据格式化的部分。这个过程提高了数据的可访问性,并能够快速识别模式、趋势或异常。
尽管数据准备可能耗时且具有挑战性,但它是一个对从数据分析中得出的洞察的质量和准确性有重大影响的关键过程。良好的数据准备确保基于可靠信息的明智决策(Davenport 和 Harris 2007)。
为了确保高效的数据准备,必须遵循几个原则。从对数据目标和潜在问题的清晰理解开始,有助于集中精力。采用系统化和一致的方法,使用适当的工具,如 Excel、Python 或 R,确保可重复性和可靠性。通过测试准备好的数据与已知值或运行不同的分析,有助于验证结果的准确性。
虽然遵守这些原则至关重要,但数据准备仍然可能是一个具有挑战性的过程,尤其是在处理大型、大数据类型和复杂数据集时(Sedkaoui 2018a;McKinsey 2023)。通过使用 ChatGPT 来自动化数据准备任务,我们可以节省时间并提高结果的准确性和可靠性。这个生成式 AI 模型可以用多种方式协助数据准备。
3.1.1. 数据清洗
通过使用 ChatGPT,我们能够通过用自然语言提出简单问题来识别数据中的错误。例如,我们可以询问 ChatGPT 如下内容:“这列中是否有重复值?”或者:“这列中是否有拼写错误?”ChatGPT 将发现这些潜在错误并指出,使我们能够快速纠正数据中的问题。
此外,ChatGPT 还可以帮助我们通过允许我们轻松识别和删除完全相同的行来消除重复数据。例如,我们可以询问 ChatGPT:“从这个数据集中删除所有重复行”。然后 ChatGPT 将执行此清理任务。
此外,ChatGPT 还提供了填充我们数据中缺失值的能力。如果我们例如在“年龄”列中有空单元格,我们只需向 ChatGPT 提出:“用所有行的平均年龄填充‘年龄’列中的缺失值”。然后 ChatGPT 将智能地执行此任务,计算可用年龄的平均值,并将其替换到空单元格中。
3.1.2. 数据转换
在 ChatGPT 的帮助下,我们可以通过请求其识别并标记各种类别,将分类数据转换为数值数据。例如,简单地向 ChatGPT 提问:“‘性别’列中的类别有哪些?”然后询问:“请为‘性别’列中的每个类别分配一个数字”。随后,生成式 AI 模型将接管这一任务,通过将数值与每个类别关联,使分类数据可用于数值分析。这种转换简化了数据处理和解释,使得对先前分类变量进行统计操作和预测模型变得可行。
ChatGPT 通过请求其识别并执行此操作,使得所有值都能在同一尺度上和谐统一,从而实现了数据的可扩展性。
例如,只需提出问题:“将‘年龄’列中的数据缩放到 0 到 1 之间”,ChatGPT 就会接管这一任务,对数据进行归一化处理,使其更容易比较和分析。这使得具有不同值范围的异构数据集能够高效且和谐地处理。
3.1.3. 数据格式化
利用 ChatGPT 的能力生成摘要表格变得轻而易举。我们可以简单地请求 ChatGPT 识别并总结表格中的数据。例如,请求:“创建一个总结‘年龄’列数据的表格”。作为回应,ChatGPT 将快速处理数据,并为我们提供一个组织良好的摘要表格,使数据展示和分析更加高效。
为了可视化数据,ChatGPT 再次伸出援手。它可以在表格中识别并可视化数据,还可以建议相关的视觉展示。例如,我们可以询问:“哪种图表最适合展示‘性别’列的数据?”ChatGPT 将迅速生成一系列与这类数据相对应的图表。

图 3.1. ChatGPT 在数据准备任务中的作用
然而,重要的是要记住,ChatGPT 是在一个庞大的文本和代码数据集上训练的。这意味着,如果 ChatGPT 的输入数据不准确或不完整,其输出的数据也可能不准确或不完整。为了避免这种情况,为 ChatGPT 准备输入数据非常重要。这包括识别和纠正错误或缺失值,并确保数据格式符合 ChatGPT 的理解。
通过遵循这些程序,我们可以保证 ChatGPT 产生的数据的准确性和可靠性。这将避免 GIGO(垃圾输入,垃圾输出)原则,该原则强调 IT 程序的输出质量取决于输入数据的质量,从而确保我们数据准备活动的成功。
这一原则在数据准备的环境中尤为重要,因为输入数据的质量可以对结果的准确性和可靠性产生重大影响(Hazen 等人 2014;Sedkaoui 2018a)。通过进行仔细的准备,我们将能够充分利用 ChatGPT 的功能,并为我们分析和决策获得良好的结果。
数据准备通常是一项耗时且困难的任务,但对于确保我们结果的准确性和可靠性至关重要。数据清洗涉及更全面的一系列任务,不仅包括数据清洗,还包括识别和消除重复数据、不完整记录和不相关数据。
通过花时间正确准备我们的数据,我们可以提高数据分析的效率和准确性,并最终做出更好的决策。然而,时间效率也同样重要,而像 ChatGPT 这样的技术进步使得数据准备变得迅速。通过生成大量合成数据,数据科学家可以提高其模型的效率,减少与数据收集相关的耗时和成本,并规避使用真实数据固有的隐私和安全风险(Lucini 2021;Martineau 2022)。
通过探索这些技术来自动化数据准备步骤,例如清洗和预处理,我们不仅可以节省宝贵的时间,还可以在更短的时间内处理更大量的数据。
通过自动化这一基本任务,公司可以优化其资源,提高结果的准确性,并防范潜在的错误,标志着数据准备和分析的新时代。
自动化数据清洗和预处理在数据科学项目中变得越来越重要。这一基本步骤意味着繁重且耗时的手动任务。然而,自然语言处理(NLP)领域的突破以 ChatGPT 的形式出现,这是一个尖端工具,它提供了自动化数据清洗和预处理的潜力,彻底改变了我们管理这些关键任务的方式。
ChatGPT 在数据清洗过程中是一个无价的助手,对于提高数据质量至关重要。通常,大型数据集中包含需要识别和纠正的错误,以便进行准确的分析。凭借其庞大的语言模型,ChatGPT 能够检测数据中的不一致性和错误值,处理诸如缺失数据、格式差异和不准确等问题。通过有效地识别各个领域中的多种数据异常,ChatGPT 加快了检测过程。
此外,它还提供了可操作的错误解决建议,简化了数据清洗工作,并减少了手动审查所需的时间。这种数据验证和纠正的自动化减少了重复性任务的时间,优化了资源,用于更有战略性的分析和洞察。
这种智能技术巧妙地检测拼写错误、错别字、标点符号错误以及其他可能困扰数据的不一致性。更重要的是,它不仅限于简单的错误识别,还能识别数据集中的模式,甚至提出适当的纠正建议。
使用生成式 AI 工具,如 ChatGPT 进行自动化的数据清洗和预处理,提供了一种一致且可重复的方法,消除了在手动任务中可能出现的人类差异。这确保了我们的分析可以轻松地重复进行以进行验证和确认。此外,这种自动化使数据科学家从重复且耗时的工作中解放出来。
由于其先进的功能,ChatGPT 能够识别和处理数据中的异常值,确保最终结果的准确性。将 ChatGPT 纳入数据清洗流程提供了显著的好处,包括通过减少大量手动工作的需求来节省时间和成本,并提高结果的准确性。此外,它有助于减轻与数据错误相关的风险,保护分析的一致性。
从本质上讲,ChatGPT 在数据清洗中的作用提高了数据的准确性和质量,从而进行更可靠的分析。表 3.1 展示了 ChatGPT 如何使数据清洗和预处理更加容易和高效。
表 3.1 ChatGPT 如何改进数据清洗和预处理
| 特征 | 描述 |
|---|---|
| NLP 语言处理 | 使用先进的 NLP 技术,允许用户使用自然语言与工具交互 |
| 错误检测和纠正 | ChatGPT 的机器学习算法自动检测和纠正错误,如拼写错误和重复项 |
| 缺失值填充 | 识别并填补缺失值,减少手动数据输入的需求 |
| 数据类型推断 | 推断数据类型,确保分析中的格式和兼容性 |
| 噪声消除 | 检测并消除无关的单词、短语和上下文外的数据,提高数据质量 |
| 模式识别 | 识别表明错误或不一致的模式,从而提高数据准确性 |
| 报告生成 | 生成总结数据和识别潜在问题的综合报告,以便及时解决 |
然而,需要注意的是,自动化并不能完全取代人工干预。人类的专业知识对于理解分析背景、选择合适的数据准备方法和正确解释获得的结果仍然是必要的。因此,人工智能和数据专家之间的协作对于充分利用这些技术进步并实现高质量分析至关重要。
除了准确性之外,自动化还能显著节省时间和精力,这在处理大量数据时是一个关键优势。手动清洗和大量数据的预处理可能既繁琐又耗时,但自动化简化了这些任务,为更战略性的分析节省了宝贵时间(Mollick 2022;Sedkaoui 2023)。
一致性是自动化改善的另一个基本方面。这种一致性对于维护数据驱动分析的完整性至关重要。此外,自动化流程使得数据能够轻松适应各种分析,无需每次进行新分析时都进行手动调整。这种灵活性增强了数据分析的敏捷性,允许快速探索不同的方法,并从数据中获得更深入的见解。
除了这些优势之外,清洗和预处理的自动化还能提高数据质量。自动化工具可以识别和纠正错误和不一致,从而生成更适合分析的数据。在考虑自动化清洗和预处理时,需要考虑几个因素。正在分析的数据类型是一个重要的考虑因素,因为不同类型的数据可能需要特定的清洗和预处理方法。例如,文本数据可能需要与数字数据不同的处理方式。
此外,分析的目标会影响数据清洗和预处理方法的选择。分析的目标决定了数据处理的最佳方法,无论是模式识别还是预测建模。资源可用性是另一个关键因素。有限的资源,如时间和计算能力,可能会影响选择一个更简单的解决方案。
在此背景下,需要制定一个清晰的策略,阐明如何利用 ChatGPT 自动化清洗和预处理以获得最佳结果。首先,对数据的清晰理解至关重要,包括分析的目标、我们拥有的数据类型和潜在的数据问题。这种理解将帮助我们选择合适的数据准备方法,并有效地使用 ChatGPT。
因此,考虑到当我们与 ChatGPT 互动时,最好使用自然语言。鉴于它在大量文本和代码数据集上的深入训练,ChatGPT 在理解自然语言问题方面比技术术语更胜一筹。我们的问题越精确,获得准确和有用答案的可能性就越大。与其问一个一般性的问题,比如“我如何清理我的数据?”,不如问:“我如何从‘年龄’列中删除重复行?”
ChatGPT 的一个有趣特性是它能够生成用于自动化数据清理和预处理的代码。通过利用这一特性,我们可以在准备过程中节省大量时间和精力。然而,测试获得的结果是至关重要的。这个验证过程确保结果准确可靠。
除了主要提示外,考虑使用一致的命名约定,以帮助 ChatGPT 更好地理解数据并生成适当的代码。在代码中添加注释也有助于记录步骤,使其他人更容易理解。使用版本控制也是一种有用的做法,因为它使得跟踪代码的更改并在必要时回滚到先前版本成为可能。
自动化清理和预处理可以帮助保证准确性和可靠性。这对于机器学习和人工智能应用尤为重要,在这些应用中,数据中的微小错误都可能导致结果产生重大影响。然而,重要的是要自动化清理和预处理的流程,以避免引入新的错误。这意味着该流程必须能够识别和处理缺失数据和异常值。## 3.3. 处理缺失数据、异常值和其他常见数据问题
缺失值和异常值的处理是数据准备的一个关键方面,因为这些因素可能会对数据分析的准确性和可靠性产生重大影响。
缺失值是数据集中缺失的数据点,可能由于人为错误、数据损坏或不完整的调查等原因造成。另一方面,异常值是显著偏离其他数据的数据点,可能是数据中的错误或问题的迹象,也可能是合法的数据点,它们位于范围之外。
为了处理缺失值和异常值,可以采用多种方法,具体取决于特定的数据集和要执行的分析。处理缺失值时,选项包括删除包含缺失值的行或列,使用不同的插补方法用估计值插补缺失值,或者将异常值作为缺失值处理,这意味着忽略它们或将它们视为缺失值。或者,当识别出异常值并修改分析以考虑它们时,定义异常值并相应地调整分析可能是有用的。
适当管理缺失数据和异常值对于确保数据分析的准确性和可靠性至关重要,因为这可以导致更好的结果和更有意义的见解。这在依赖于数据驱动信息的决策过程中尤为重要(Chen 等人 2012;Sedkaoui 2018a)。
此外,处理缺失值和异常值并没有单一的解决方案。数据科学家在选择适当的方法之前,必须仔细考虑数据集的具体特征和分析要求。通过思考方法,他们可以做出明智的决定,并避免数据分析过程中的潜在陷阱。
管理缺失数据和异常值后的测试结果同样至关重要。这有助于验证数据准备过程,并确保分析产生可靠且有意义的成果。将结果与已知值进行比较,或对数据进行不同的分析,可能会揭示需要纠正的差异或错误。
ChatGPT 凭借其强大的自然语言处理(NLP)能力,在管理缺失数据、异常值和其他常见数据相关问题上可以发挥重要作用。表 3.2 展示了 ChatGPT 如何在这些领域提供帮助。
ChatGPT 通过使用生成的代码识别数据集中的缺失值,使处理缺失数据变得容易,从而使分析师能够了解这种缺失数据的程度。根据数据集和分析目标,ChatGPT 还可以生成使用各种统计技术进行插补的代码,或建议对分类数据进行单独处理。此外,ChatGPT 通过识别与预期范围显著偏离的数据点来帮助管理异常值,并生成代码以删除、替换或转换这些数据点,从而确保异常值不会过度影响数据分析。
除了缺失数据和异常值之外,ChatGPT 还可以为各种其他与数据相关的问题提供代码解决方案。这包括数据清洗任务,如纠正拼写错误、删除重复项和格式不一致,这对于确保准确性至关重要。
表 3.2 使用 ChatGPT 处理和识别缺失数据和异常值
| 领域 | 如何? |
|---|---|
| 识别 | 处理 |
| --- | --- |
| 缺失数据 | 通过生成代码分析数据集并识别缺失值区域来识别缺失数据 |
| 异常值 | 生成代码计算数据集的标准差并识别与预期范围显著偏离的数据点 |
管理文本清理和编码是数据准备的重要部分,尤其是在处理文本数据时。ChatGPT 在这些当前数据相关问题上可以是一个无价的助手。
ChatGPT 可以通过生成代码来帮助文本清理,从文本数据中移除不需要的字符、标点符号和特殊符号。它可以识别并纠正拼写错误,标准化大小写,并处理缩写和缩略语。例如,如果数据集包含来自调查或社交媒体帖子的文本响应,ChatGPT 可以帮助归一化文本,使其更适合进一步分析。
文本清理还涉及移除空词(如“和”、“the”、“in”等常见词,它们没有显著意义)并应用 r 词干提取或词形还原来将单词还原到其基本形式。ChatGPT 可以生成代码执行这些操作,这有助于提高文本分析任务(如情感分析或主题建模)的效率和准确性(Sedkaoui 等 2022;Susnjak2023)。
在处理文本数据时,通常需要将文本转换为数字格式,以便机器学习算法能够有效地处理数据。ChatGPT 可以建议不同的编码技术来实现这一点。一种常见的方法是使用独热编码,其中文本中的每个单词都表示为一个二进制向量。例如,如果数据集包含诸如“国家”之类的分类特征,其值如“USA”、“UK”和“Canada”,ChatGPT 可以生成代码将这些类别转换为二进制向量(例如[1, 0, 0], [0, 1, 0], [0, 0, 1])。
另一种流行的方法是词嵌入,它将单词表示为连续空间中的密集向量。ChatGPT 可能会建议使用预训练的词嵌入,如Word2Vec、GloVe或FastText来编码文本数据,捕捉单词之间的语义关系,并提高自然语言处理任务的性能。
此外,ChatGPT 可以帮助管理有序和名义分类特征的编码。它可以生成代码将有序类别转换为数值,同时保留它们的顺序,并建议对名义类别进行编码。
ChatGPT 还可以通过将不同的数据尺度转换为共同尺度来帮助数据归一化,这对于某些机器学习算法和不同数据集之间的比较至关重要。通过生成代码来组织和结构化数据表格或其他格式,ChatGPT 使分析师能够更有效地探索和分析数据。
将 ChatGPT 集成到我们的数据分析工具箱中不仅加快了处理大量信息的过程,还提高了我们识别可能被忽视的隐藏模式、趋势和联系的能力。得益于其自然语言理解能力,ChatGPT 帮助将复杂数据转化为宝贵的洞察,使我们可以自信地做出基于数据的、明智的决策。## 3.4. 使用 ChatGPT 进行数据转换、特征工程及其他
数据转换和特征工程是分析过程中的重要步骤。数据转换是将数据从一种格式转换为另一种格式的过程,而特征工程是从现有数据中创建新特征的过程。这两个任务可能都很复杂且耗时,但它们对于确保数据清洁、一致且可用于分析是必不可少的。
数据转换对于许多原因至关重要。它确保数据以易于计算机理解和操作的形式呈现,从而便于在分析和模型中使用。它消除了数据中的噪声和错误,有助于提高分析过程中获得的结果的准确性。数据转换可用于将信息转换为更适合分析的形式,特别是通过将文本数据转换为数值数据,从而便于使用机器学习和统计分析技术。
特征工程也是数据分析过程中的一个重要步骤。特征是用于训练机器学习模型的单个数据点。特征越好,模型就能学习得越多,做出预测的能力也越强。特征工程可能涉及许多任务,例如选择正确的特征、转换特征和创建新特征。
我们可以总结这两个任务的优点如下:
-
提高准确性和可靠性:通过清理、转换和工程数据,你可以提高模型的准确性和可靠性。实际上,你将消除数据中的噪声和错误,并创建与当前任务更相关的特征。
-
获得更深入的见解:通过转换和工程数据,你可以对你的数据获得新的见解。实际上,你将能够以新的方式看待数据,并能够创建揭示隐藏模式的新特征。
-
提高决策能力:通过清理、转换和工程数据,你可以做出更好的决策。实际上,你将更好地理解你的数据,并能基于准确、可靠的信息做出决策。
因此,数据转换和特征工程是准备过程中的两个关键步骤,在提高机器学习模型的性能和准确性方面发挥着核心作用。传统上,这些任务非常耗时,需要领域专业知识以及大量的手动工作来识别相关特征并适当设计它们(Davenport 和 Dyché 2013)。
然而,随着先进 NLP 技术的出现,尤其是 ChatGPT 的兴起,数据准备领域正在经历一个范式转变。利用 AI 和 NLP 的力量,数据分析师现在可以自动化并增强这些关键任务,彻底改变数据准备和分析的方式。
ChatGPT 在数据转换中的一个关键能力是将其转换为新的特征,这些特征提供了有价值的见解并提高了预测模型。通过生成代码,ChatGPT 可以有效地从各种类型的数据中提取有意义的信息,包括文本和图像。这使得数据分析师能够轻松地创建强大的特征,而无需大量的手动工作。例如,考虑一个包含产品客户评论的数据集。使用 ChatGPT,分析师可以从文本数据中推导出情感分数,将每条评论分类为正面、负面或中性。这些情感分数可以用于新的特征,显著提高情感分析模型的准确性,使公司更好地理解客户的感受和偏好。
此外,ChatGPT 还可以用于生成文本数据的词或文档嵌入。词嵌入将单词转换成密集的数值向量,捕捉单词之间的语义关系。文档嵌入以固定长度的向量总结整个文档的内容。这些嵌入可以作为下游任务(如文档分类、信息检索或聚类)的强大输入特征。利用 ChatGPT 的特征工程能力,数据分析师可以丰富他们的数据集,加入高度信息化的嵌入,从而增强模型的总体预测能力。
在特征工程领域,ChatGPT 在识别相关特征和工程新的、更具预测性的特征方面具有无价的作用。假设我们有一组包括客户人口统计信息和购买历史的市场数据。利用 ChatGPT,分析师可以生成代码来计算额外的特征,例如每位客户的平均购买金额、购买频率或购买产品总数。这些工程化的特征可以显著提升客户细分模型,使公司能够有效地针对特定客户群体定制他们的营销活动。
此外,ChatGPT 可以帮助探索不同特征之间的交互,并创建新的交互术语。例如,在一个包含房价信息的数据集中,ChatGPT 可能会建议将“卧室数量”和“浴室数量”特征结合起来,创建一个表示房间总数的新特征,这可能会对房价预测产生更深远的影响。这些特征交互可以捕捉非线性关系,并导致预测模型的出现。
数据清理和特征选择是数据准备的关键方面,ChatGPT 的能力不仅限于转换和特征工程。通过生成代码,ChatGPT 可以帮助管理缺失数据,删除重复项,并根据统计方法进行值插补,从而有效地自动化数据清理过程。例如,如果一个数据集在“年龄”列中存在缺失值,ChatGPT 可以建议使用均值、中位数或回归插补技术来有效地填充这些缺失值。这种自动化的方法不仅节省了时间,而且保证了数据质量和准确性。
在特征选择的背景下,ChatGPT 可以帮助识别和根据其对预测模型的重要性对特征进行排序。通过建议递归特征消除、主成分分析或 SelectKBest 等技术,ChatGPT 有助于选择最有信息量的特征,降低维度并防止过拟合。自动化的特征选择过程进一步提高了数据准备的效率和有效性。
ChatGPT 提供了强大的数据准备任务方法。它可以转换分类数据为数值格式,将数据缩放到特定范围,并从现有数据中生成新特征。该工具通过识别和删除缺失值和异常值来自动化数据清理。
表 3.3. 评估 ChatGPT 在数据转换、特征工程和数据准备任务自动化中的价值
| 任务 | ChatGPT 方法 | 示例 |
|---|---|---|
| 数据转换 | 使用 ChatGPT 将分类数据转换为数值数据 | 将具有“男性”和“女性”类别的“性别”列转换为数值 0 和 1 |
| 使用 ChatGPT 在特定范围内缩放数据 | 将“年龄”列从 0-100 的范围缩放到 0-1 的范围 | |
| 特征工程 | 使用 ChatGPT 从现有数据生成新特征 | 通过添加“薪水”和“奖金”列生成“总收入”特征 |
| 使用 ChatGPT 基于文本数据提取特征 | 使用 ChatGPT 的文本情感分析提取客户评论中的“情感”特征 | |
| 数据清理自动化 | 使用 ChatGPT 识别和删除缺失值 | 生成代码以使用平均年龄对“年龄”列中的缺失值进行插补 |
| 使用 ChatGPT 检测和去除异常值 | 生成代码以去除“收入”列中超出三个标准差范围的数据点 | |
| 特征选择自动化 | 使用 ChatGPT 识别基于分析的相关特征 | 生成代码以使用 ChatGPT 的特征重要性技术选择最重要的 10 个特征 |
| 使用 ChatGPT 根据相关性自动选择特征 | 生成代码以选择相关性系数高于某个阈值的特征 |
更重要的是,它通过识别相关特征并选择那些具有显著相关性的特征来促进特征选择。ChatGPT 通过启用自然语言查询,使交互更加直观和互动,从而彻底改变了数据分析。
除了数据转换和特征工程之外,ChatGPT 的能力继续在多种数据准备任务中赋予数据分析师力量。例如,ChatGPT 可以生成代码来处理异常值,检测和纠正错误,通过一热编码或标签编码对数据进行归一化,并编码分类变量。
这套全面的函数确保数据分析师拥有他们为有效地准备数据以进行机器学习方法和其他高级分析任务所需的工具。
ChatGPT 在数据转换、特征工程和其他数据准备任务中的非凡能力已经彻底改变了数据分析的格局。
通过自动化重复且耗时的任务,ChatGPT 使数据分析师能够专注于更高层次的策略、问题解决和生成可操作的洞察。这项强大的技术有可能改变我们与数据互动的方式,使我们能够以更直观和互动的方式提出问题。
现在我们已经探讨了 ChatGPT 如何在数据准备阶段支持我们,接下来我们将学习如何创建用于数据分析的自然语言查询,并巧妙地将分析问题转化为高效的 SQL 查询。 # 4
使用 ChatGPT 进行直观查询创建
生成式 AI 模型最强大的功能之一是能够通过自然语言交互直观地查询数据。而不是强迫用户掌握复杂的查询语法,生成式 AI 使他们能够使用简单的英语查询数据。这有助于克服数据分析中最大的障碍之一——将自然语言表述的分析问题转化为正式的数据库查询。
使用 ChatGPT,用户可以通过提示简单地描述他们所需的信息。然后,AI 代理将解释意图和上下文,自动生成优化的 SQL 查询以检索所需数据。通过利用 ChatGPT 进行直观查询,分析师和商业用户可以专注于发现洞察,而不是编写查询代码。
在本章中,我们将看到像 ChatGPT 这样的工具如何让用户轻松地就他们的数据提出问题,并自动生成检索答案所需的 SQL 查询。我们将介绍如何以清晰和精确的方式为 ChatGPT 制定分析问题,从而生成准确的查询。
4.1. 通过互动对话发现模式、趋势和洞察
数据分析包括探索、精炼和建模数据的动态过程,其最终目标是提取有价值的洞察,得出明智的结论,并支持决策。这个多方面的学科涵盖了各个领域广泛的技术和方法。
数据分析的核心目标是解开数据中嵌入的有意义的模式、趋势和洞察。这些组成部分对于理解数据动态和预测未来趋势至关重要。模式是数据点的重复序列,揭示了持续的行为,从而有助于识别趋势,甚至促进预测能力(Frankel 和 Reid 2008;Sedkaoui 2018b)。同时,趋势代表了数据中的长期变化和发展,提供了关于数据随时间演变的宝贵见解。洞察,数据分析中的真正瑰宝,作为从数据中衍生出的新理解和知识出现,使更好的决策成为可能,并推动企业和组织向前发展(McAfee 和 Brynjolfsson 2011;Sedkaoui 和 Khelfaoui 2020)。
几种技术处于数据分析师工具箱的前沿,每种技术都对模式发现、趋势和洞察做出了独特的贡献:
-
统计分析: 通过计算统计量,如平均值、中位数和标准差,分析师可以在数据中识别出模式和趋势,突出其内在特征。
-
数据可视化: 通过数据可视化的艺术,分析师以视觉吸引人的方式呈现信息,利用表格、图表和其他视觉展示的强大功能来揭示可能否则隐藏的模式和趋势。
-
机器学习: 通过利用机器学习的力量,数据分析师可以通过在数据集上训练模型并允许其在新数据中识别相似模式来创建揭示复杂模式和趋势的新模型。
生成式 AI 与数据分析之间的迷人融合正在改变我们发现有价值见解的方法。一方面,数据分析通过检查、清洗、转换和建模数据来揭示模式和趋势。另一方面,像 ChatGPT 这样的生成式 AI 模型,凭借其理解人类语言的能力,为流畅和交互式数据探索开辟了新的途径。这种智能的结合拓宽了发现的视野,引导用户与数据进行动态对话,揭示深刻的见解,并将决策提升到新的高度。
生成式 AI 对数据分析和商业智能的变革性影响不容小觑。这项尖端技术正在重塑我们与数据互动的方式,使数据比以往任何时候都更加易于访问和直观。传统的仅依赖于静态报告或预定义查询的方法正在被革命化,因为像 ChatGPT 这样的工具使用户能够与数据进行动态、自然的“对话”。
4.1.1. 主要优势
让我们进一步探讨对话式 AI 带来的关键优势,推动数据挖掘进入前所未有的可能性领域:
-
释放即兴探索:使用 ChatGPT,用户不再受限于分析工作流程*。结构化数据探索的链条被打破,一个充满流动、非结构化探索的世界等待着。想象一下沉浸于数据中,让数据引导你的发现过程。就像一位勇敢的探险家,你可以进入未知的领域,揭示你可能会错过传统方法的模式、趋势和相关性。
-
*直观查询的艺术:得益于生成式 AI 模型,数据分析的语言已经民主化。用户不再需要具备专门的查询技能或熟悉复杂的编程语言。相反,他们可以像与朋友交谈一样轻松地与数据对话。这种自然的问题提出方式解锁了丰富的见解,从识别异常到预测未来趋势。数据分析不再局限于少数特权人士;它成为了一种包容且对所有人都有回报的体验。
-
*抓住快速跟进的机会:使用 ChatGPT 等智能模型发现有价值见解只是开始。提出即时后续问题的能力意味着你可以深入探索新的发现。随着你的好奇心被激发,你可以无缝地深入挖掘,揭示隐藏在表面之下的潜在原因和细微差别。这就像与你的数据进行互动对话,每个答案都会激发新的问题,从而形成一个持续发现和学习的循环。
-
自动化民主化访问:在过去,处理数据需要专业的技术知识,为那些没有技术技能的人设置了障碍。但生成式 AI 打破了这些障碍,允许更多用户积极参与数据分析过程。现在,来自不同背景的团队成员可以以有意义的方式与数据互动,贡献他们独特的视角和领域知识。结果是更协作和包容的数据驱动决策方法,使组织能够利用团队的集体智慧。
在人类与 AI 的无缝协同中,生成式 AI 宣告了数据挖掘新时代的到来。那些僵化的查询和预定义路径的日子已经过去;数据科学家开始了一段开放式旅程,在那里想法自然地、不受约束地绽放,作为意想不到的灵感来源。正如对话示例所示,这种方法的美丽之处在于它为数据分析过程带来的流动性和自发性。
4.1.2. 有机发现洞察力
通过利用 ChatGPT 的力量,数据科学家不仅仅是数据的观察者,而是积极参与到刺激的交流中。他们现在可以提问,跟随直觉,并带着一个自然且智能的 AI 伴侣来处理数据的微妙之处。这种协作关系放大了数据分析师的创造性思维,使他们能够连接点,发现趋势,揭露传统方法可能忽视的隐藏模式。
数据挖掘变成了一场激动人心的冒险,每一次查询都激发新的想法,每一次答案都揭示新的可能性。这一过程的迭代性质允许持续优化和课程修正,随着新想法的出现而细化问题,并将分析带入意想不到的领域。
真正使这种有机探索与众不同的,是它引入的偶然性元素。就像探险家在进入未知的土地时偶然发现隐藏的宝藏一样,数据分析师在看似无关的信息汇聚以揭示对数据故事的深刻理解时,会经历惊喜和灵感时刻。这些“啊哈”时刻是无价的,激发创新思想,开启变革性机会的大门。
ChatGPT 不仅能够实现洞察力的发现,还成为民主化数据访问的门户。得益于其自然语言界面,它将数据分析带给组织的每一位成员,超越了技术障碍,并培养了一种数据驱动决策的文化。数据素养成为一种共享资产,因为团队可以轻松地与数据协作和沟通,每个人都将自己的独特视角带入,以推动集体增长和成功。
产生的洞察不仅仅是静态的快照,而是随着数据的动态性质不断演变的活生生的实体。凭借对运营、客户偏好和市场趋势的更好理解,公司获得了快速适应不断变化的环境、抓住新机遇并保持一步之先的敏捷性。
4.1.3. 数据分析的民主化
由于生成式 AI 的出现,数据分析的民主化预示着数据驱动决策世界中包容性的革命性时代。不再局限于数据科学家的领域,来自不同背景的专业人士——如商业分析师、营销人员、部门经理等——现在可以积极参与数据发现的过程。对话式 AI 的自然语言界面(Berger 等人 2020)使他们能够提出有洞察力的问题并收集有价值的见解,而无需深入了解 SQL 或查询的技术专业知识。
这种更广泛的数据分析参与培养了组织中的数据素养文化。随着各个角色的个人沉浸于数据挖掘中,他们对组织绩效、客户行为和市场趋势有了更深入的理解。数据分析的民主化促进了各级别的明智决策,为战略增长和竞争优势铺平了道路。
4.1.4. 商业智能的未来
特别是,生成式 AI 的出现也解决了长期存在的 IT 瓶颈,这些瓶颈往往阻碍了数据访问和分析。通过将检索和处理数据的任务卸载到 ChatGPT 等 AI 助手上,组织减少了对其专门数据工程资源的依赖。现在,释放出来的 IT 劳动力可以将精力转向更具战略性的举措,促进创新并简化流程。
商业智能的未来在于人类与 AI 系统之间无缝协作,其中对话,而不仅仅是查询,构成了探索的基础。得益于这种共生伙伴关系,用户开始了一段由 AI 驱动的洞察力支持的互动发现之旅,这些洞察力超越了传统数据分析的界限。这种人类独创性和 AI 能力的结合开辟了一个未被开发的领域,从数据的核心中产生深刻的洞察,推动战略决策并产生更好的商业成果。
随着数据驱动知识的前沿不断扩展,组织将利用生成式 AI 的变革力量来释放未被开发的潜力。在这个未来的景象中,无论是专家还是普通用户,都将利用 AI 的分析能力,将直觉和人类的创造力融入数据挖掘的对话中。他们共同解开复杂的信息织锦,揭示传统方法难以捕捉的模式、趋势和洞察。
商业智能的未来已经到来,其中人类的好奇心与人工智能辅助的结合是解锁战略优势并推动组织走向繁荣未来的关键。
幸运的是,随着 ChatGPT 的出现和 LLMs 的快速发展,文本到 SQL 的挑战大大减轻。现在,即使是非技术用户也可以使用声明性语言来描述他们的查询。LLMs 巧妙地处理了查询构建的复杂任务,简化了流程,使数据检索比以往任何时候都更加容易。
此外,自然语言查询激发了一种好奇心和探索感,推动了深入洞察的追求。虽然专家以对话的方式提出问题,但 AI 不仅将它们转换为 SQL 查询(Kim 等人 2020),还试图理解其背后的意图。通过理解问题的上下文和细微差别,ChatGPT 发现了与用户兴趣相符的数据中的模式和趋势。这种互动和迭代的过程促进了人类专业知识与 AI 驱动的数据挖掘之间的共生关系,从而揭示了新的、可操作的洞察。
自然语言查询的力量远不止于简化与数据的交互。它彻底改变了数据分析的方式,使洞察力的获取更加民主化,并提升了团队间的协作。
4.2. 创建自然语言查询以分析您的数据
自然语言查询的主要优势之一是其易用性。它们消除了可能没有编程经验的数据分析师的障碍(Surameery 和 Shakor 2023;Yilmaz 和 Yilmaz 2023),使数据分析更具包容性和可及性。不再受限于技术术语或复杂的查询语言,来自不同领域的数据分析师可以轻松地使用日常语言与数据交互。这种易用性使得个人能够探索数据、提出问题并获得洞察,无需专门培训,从而在整个组织中培养一种数据驱动的决策文化。
很长一段时间以来,自然语言文本理解在自然语言处理领域提出了重大挑战。歧义和共指问题一直是一个持续的障碍,使得诸如回答数据集相关问题以及将口语转换为结构化 SQL 查询等任务特别困难。
但这对你意味着什么? 数据库查询中自然语言的集成开辟了许多有趣的可能,这些可能总结在图 4.1 中。

图 4.1 ChatGPT 在自然语言查询方面的优势
ChatGPT 通过使没有编码技能的用户也能参与数据分析,在数据分析领域发挥了变革性的作用。它使数据分析过程民主化,使得不同角色和技能水平的个人能够轻松地获取数据驱动的洞察。此外,采用自然语言查询加速了有价值洞察的生成,从而加快了决策速度,并更好地理解特定领域的趋势。
这种改进的数据访问也释放了积累数据的全部潜力,提取了有价值的知识和商业洞察。更重要的是,ChatGPT 消除了掌握 SQL 的需求,使数据挖掘对所有用户开放和可访问。它强调提示工程而不是编码知识,确保用户只需具备基本理解就能有效地构建查询,从而增强直观且用户友好的数据参与过程。
除了个人贡献外,自然语言查询还促进了协作环境。数据分析师之间的团队合作变得更加透明,因为同事可以轻松地使用共享的自然语言界面交换问题、结论和发现。这种简化的沟通合理化了信息共享,并鼓励集体解决问题。随着每个成员贡献自己的观点,团队的集体智慧增长,导致更深入的分析和更明智的决策。
自然语言查询的影响超越了数据分析师的角色;它在整个组织中产生共鸣,影响着业务决策的方式。领导、经理和利益相关者,他们可能不具备深厚的数据专业知识,现在可以积极参与数据讨论,贡献他们的领域知识,塑造组织的战略方向。
掌握使用生成式 AI 制定高效自然语言查询的艺术,为利用数据分析的真正潜力铺平了道路(Devlin 等人 2019)。凭借其强大的 AI 驱动聊天机器人,ChatGPT 引领了 NLP 技术新时代的演变。它理解和解释自然语言查询的非凡能力,将它们转化为可操作的洞察,使 ChatGPT 处于对话 AI 进步的前沿。
进一步探索这个直观交互领域,以下是一些额外的建议,以提高查询的准确性和精确度:
-
理解数据模型: 熟悉你数据集中的结构和关系。了解可用的数据字段、它们的类型以及它们之间的关系,这使你能够创建更具上下文性的查询。这种理解将确保 ChatGPT 能够准确解释你的问题并提供相关信息。你可以向 ChatGPT 提供有关你的数据源和业务术语的背景信息,以便它能更好地理解意图。例如:“根据我们的电子商务数据库,第四季度的总收入是多少?”;甚至:“这个月我们 CRM 系统中注册了多少新客户?”。
-
使用自然语言示例: 不要仅仅依赖僵化的查询,提供自然语言示例可以阐明你的意图并细化 ChatGPT 的理解。例如,你可以包括一个对话背景,如:“显示过去三个月的销售数据”。这提高了 AI 理解请求范围和持续性的能力。
-
拥抱探索性问题: 不要犹豫提出探索性问题,以揭示隐藏的模式和趋势。例如,你可以问:“我们最忠诚的客户有哪些共同特征?”;或者“你能在销售数据中识别出任何季节性模式吗?”这样,你需要明确你希望在查询结果中包含的确切数据字段、统计或属性。你可以向 ChatGPT 提问:“显示上个月所有交易的每个产品名称、单价和销售单位。”以及:“我们不活跃客户的姓名、姓氏和电子邮件地址是什么?”。
-
尝试不同的方法: 就像任何语言交流一样,尝试不同的表述和措辞可以产生不同的查询结果。尝试从不同角度重新表述你的问题,你可能会发现数据中新的角度和维度去探索。在查询大型数据集时,在你的自然语言问题中包含任何过滤器、条件或选择标准,例如:“上个月 30 至 40 岁的客户中,哪些是前五名最畅销的产品?”;或者:“在第二季度,哪些活动在加拿大产生了最多的潜在客户?”。
-
利用对话反馈:AI 系统如 ChatGPT 从交互中学习。如果 AI 的答案没有完美匹配你的查询意图,可以通过重新措辞问题或要求澄清来提供反馈。这个反馈循环可以在后续交互中导致更精确和精细的查询。审查 ChatGPT 生成的查询,并在必要时重新制定你的问题。添加示例允许你在多次迭代中细化查询。遵循这些提示将使你能够更有效地使用 ChatGPT 进行数据分析查询。通过实践,你可以进行直观的对话,从而从你的数据中获得更深入的见解。
-
结合人类专业知识与 AI 辅助:不要忘记你是领域专家,而 ChatGPT 是你的人工智能合作者。将你的专业知识与这个智能代理的数据处理能力相结合,以获得更深入的见解。相信你的直觉,让 AI 用数据驱动的视角来补充你的专业知识。
当你将这些额外的策略整合到你的数据分析过程中时,你将注意到人类智能与 AI 能力之间的无缝和谐。生成式 AI,如 ChatGPT,将变成一个强大的盟友,能够解读你的意图并提供可操作见解。通过实践和改进,你将掌握用自然语言质疑数据的艺术,揭示有价值模式,做出明智决策,并推动你的组织走向基于数据的成功之路。## 4.3. 将分析问题转化为 ChatGPT 的 SQL 查询的艺术
SQL,或结构化查询语言,是数据管理领域的一个基本工具,尤其是在关系型数据库中。它的灵活性和多功能性使其成为执行各种数据分析任务(如通过查询检索特定信息、更新现有数据以及必要时删除记录)的不可或缺的语言。
将分析问题转化为 SQL 查询是数据分析过程中的一个关键步骤。鉴于数据库包含 SQL,将你的分析问题翻译成这种语言确保你的查询得到正确理解和处理。这种无缝转换对于提取准确和高效的答案至关重要,从而引导到明智的决策和有洞察力的发现。
这种转换的好处是相当可观且影响深远的。首先,它显著改善了数据分析师和团队成员之间的沟通。使用 SQL 查询来表达分析问题允许进行清晰和精确的沟通,促进团队内部的无缝协作和知识共享。
其次,自动化方面对于简化数据分析任务至关重要。一旦创建了 SQL 查询,就可以将其保存以供将来使用,减少重复工作并确保多次分析的一致性。这种自动化不仅节省了时间和精力,而且确保每次重复性任务都能准确处理。
此外,适应数据分析的能力成为了一个关键考虑因素。通过将分析问题转化为 SQL 查询,您使数据分析过程能够高效地适应不断扩大的数据集和复杂的数据场景。
生成模型将自然语言问题转化为可执行的 SQL 查询的能力正在改变数据分析师与数据集互动的方式。不再需要与复杂的查询语法作斗争,像 ChatGPT 这样的工具允许分析问题以普通语言表达,使数据探索和分析对更广泛的用户更加容易(Sedkaoui 2023)。
OpenAI 的 ChatGPT 产品的引入显著提高了商业用户和数据分析师的生产力。这项技术的主要优势之一是它能够促进 SQL 查询的编写。SQL 长期以来一直是查询和分析数据的有价值语言,而现在,借助 AI 的帮助,学习和编写 SQL 查询比以往任何时候都更容易。AI 技术可以在几秒钟内自动生成、修改、调试和优化 SQL 查询。
该工具尤其有利于 SQL 初学者或那些在复杂查询中遇到困难的人。其显著优势在于其理解自然语言输入的能力,使用户能够表达他们的数据需求,然后生成相应的 SQL 查询。与手动编写查询相比,这个过程简化了,为用户节省了大量的时间和精力。
此外,ChatGPT 通过为给定查询生成几个选项来增强查询编写体验,使用户能够探索不同的结构或比较替代方案。此外,它还协助调试 SQL 查询,快速识别并突出显示错误,以便高效地解决问题。
除了基本的查询编写之外,ChatGPT 在指导用户通过高级 SQL 概念方面表现出色,例如连接表和创建子查询。它提供清晰的解释和说明性示例,支持用户理解和成功实施这些复杂概念。
更重要的是,当用户详细说明他们的查询时,ChatGPT 的强大功能还扩展到提供上下文建议。它提供有关表结构和列详细信息的资料,帮助用户更好地理解分析的数据。多亏了 ChatGPT 的无价帮助,用户可以减少查询编写的努力,将更多时间投入到深入的数据分析中。
ChatGPT 可以通过多种方式帮助数据科学家处理 SQL 查询,从编写基本查询到优化复杂查询。图 4.2 总结了这一点。

图 4.2 使用 ChatGPT 进行 SQL 查询
例如,你可能会说:“我需要创建一个查询,将‘customers’表与‘orders’表关联起来,以返回每个客户的总消费。‘customers’表包含客户的 ID、姓名、电子邮件地址等,而‘orders’表包含订单 ID、客户编号、订单金额……”
然后,ChatGPT 可以根据提供的信息建议有效的逻辑并提供关于索引的建议,以改善性能。
对于简单的查询,ChatGPT 可以自动将自然语言查询翻译成高效的 SQL 语法。对于涉及多个表、连接和高级函数的复杂查询,ChatGPT 可以通过建议最优的连接逻辑和查询结构来提供起点。
数据科学家可以使用 ChatGPT 进行优化和迭代,以创建满足其独特需求的强大查询。这促进了更快、更简单且更具可扩展性的 SQL 开发。
在未来,专门为大型语言模型(如 GPT-4)设计的 SQL 插件可以将 ChatGPT 的编程支持提升到新的水平。而不是对自然语言的通用命令,SQL 插件将为模型提供对数据库模式查询优化和高级 SQL 功能的更深入知识。
GPT-4 版本提供了插件的可能性,这些插件可以作为扩展集成以添加新功能。这些插件对数据分析师来说非常有价值,尤其是在 SQL 查询领域。
专门的插件可以实现直接 SQL 输入,而不是简单的自然语言对话(Sedkaoui 2023)。然后,该模型可以根据数据库元数据和查询最佳实践分析、调试、重新格式化和改进输入 SQL。这将使高级自动完成、代码检查和性能优化功能成为可能,这些功能是今天无法实现的。
但为了保证准确的翻译,向 ChatGPT 提供相关的数据库上下文至关重要。通过指定数据库模式,包括表和列名、数据类型和关系,数据分析师为 ChatGPT 提供了生成精确、上下文相关的查询所需的信息。这个数据库上下文是生成与特定数据结构和业务目标一致的查询的基础。
此外,明确分析问题的意图和目标有助于 ChatGPT 选择最合适的查询方法。通过阐明他们想要分析和发现的内容,分析师使 ChatGPT 能够优化查询制定并快速提供有价值的见解。
在查询中包含重要的筛选器和结果限制也是必不可少的。通过提供这些具体信息,分析师可以优化查询输出,确保结果与所需分析范围完全一致。
此外,指定查询中所需的字段、度量或聚合计算进一步增强了其准确性和相关性。通过向 ChatGPT 确切告知所需的数据元素,分析师简化了数据检索过程,从而得到更有洞察力和相关的结果。
随着数据分析师继续练习对话式查询,他们将能够优化他们的问题以获得最佳结果。通过迭代查询并回顾初始的 ChatGPT 尝试,分析师可以优化他们的问题,从数据中提取完美的洞察。
数据分析是一个多方面的过程,涉及从数据探索、清洗和建模到阐述有意义的洞察(Sedkaoui 2018a;Sedkaoui 和 Khelfaoui 2020)的各个阶段。数据分析的一个关键方面是生成高效和优化的查询。一个高效的查询不仅能够准确提供所需的结果,而且还能及时提供,避免不必要的延迟和低效。
为了实现有效和优化的查询,有几个因素需要考虑。首先,清晰度至关重要。查询必须简单易懂,目的明确,意图清晰。这确保了利益相关者和团队成员可以轻松理解关于数据的提问。
特异性是另一个关键考虑因素。一个定义明确且具体的查询可以使搜索更加精确,并确保返回的结果与需求完全一致。这最小化了筛选无关数据并浪费宝贵时间的风险。
选择正确的关键词对于成功查询至关重要。所使用的关键词必须准确呈现所查询的数据,与数据集的结构和内容相一致。这确保了查询有效地针对相关数据,避免了歧义。
使用索引是优化查询性能的强大策略。索引是通过创建高效的访问路径来加速数据检索的数据结构。通过使用适当的索引,查询可以快速识别并检索所需的数据,从而显著提高性能。
在生成高效查询的另一个关键要素是使用适当的连接。连接使得将来自多个表的数据组合起来成为可能,便于进行需要从各种来源提取信息的复杂查询。选择正确的连接类型并有效地构建查询可以提高数据检索的效率。
为了进一步提高查询生成,使用自然语言查询是有益的。自然语言查询使数据分析师能够以更对话式的交互方式与数据互动,使过程更加直观和用户友好。这种方法允许分析师专注于他们想要探索的问题,而不是与复杂的查询语法作斗争。
此外,将各种子句纳入查询可以帮助细化结果。"WHERE"子句允许分析师通过细化输出以满足特定标准来指定数据选择条件。"ORDER BY"子句允许数据按特定顺序排序,而"LIMIT"子句限制了返回的行数,使分析既更易于管理又更高效。
但这里的问题涉及 ChatGPT 对高效和优化查询的贡献,以及它可以用来实现这一目标的多种方式。
回答这个问题的关键在于识别 ChatGPT 提供的各种功能,以生成高效和优化的查询,具体包括:
-
理解自然语言查询:得益于其在包括自然语言查询在内的各种文本和代码中的深入训练,ChatGPT 能够理解用户问题的意图,并准确地将它们转换为 SQL 查询。这一功能使查询更加直观和用户友好。例如,用户可以简单地询问:"显示我去年每月的总销售额",ChatGPT 将此问题转换为适当的 SQL 查询以提取必要的信息。
-
生成清晰、简洁的查询:ChatGPT 在生成清晰、简洁的查询方面表现出色,提高了它们的可理解性和可解释性。这有助于获得结果的准确性,使数据分析师能够有效地从数据中提取有价值的见解。例如,用户可能会问:"上个月销售量前五的产品是什么?",ChatGPT 将生成一个精确且简洁的 SQL 查询以获取此特定信息。
-
关键词的使用:通过在查询中使用相关关键词,ChatGPT 保证了准确性,同时减少了需要处理的行数。这种优化在提高查询效率和性能方面发挥着重要作用。例如,用户可能会问:"显示所有本月在 30 岁以下且本月有购买记录的客户",ChatGPT 将在 SQL 查询中包含关键词“客户”、“年龄”、“购买”和“月份”以过滤数据。
-
使用索引:通过使用索引,ChatGPT 提高了查询性能,特别是对于经常执行或数据密集型查询。索引促进了更快的数据检索,这转化为更快、更有效的分析。例如,用户可以问:"给我展示过去三年每个产品的总销售额",ChatGPT 将使用索引来加速数据检索,从而实现更快分析。
-
连接的使用:ChatGPT 高效地使用连接来合并来自不同表的数据,这对于处理需要分析多个数据集的复杂查询是必不可少的。这一功能使得分析师能够无缝地探索和整合各种数据源。例如,用户可能会问:“显示每个部门去年收入和相关的成本”,ChatGPT 将使用连接将收入和成本表中的数据合并,并提供完整的结果。
通过使用 ChatGPT,数据分析师还可以通过在问题中简单包含它们来生成包含先前讨论的子句的 SQL 查询,例如WHERE子句、ORDER BY子句和LIMIT子句。这使用户能够获得更针对性和组织化的结果,优化他们的数据分析并促进明智的决策。
例如,分析师可能会向 ChatGPT 提出以下查询:“显示价格超过 100 美元的产品总销售额”。在这种情况下,ChatGPT 会将WHERE子句纳入 SQL 查询中,以根据指定的条件过滤捐赠。分析师还可以提出类似以下的要求:“按总销售额降序排序”,ChatGPT 将添加ORDER BY子句到 SQL 查询中,以从最高到最低展示降序结果。
类似地,数据分析师可以向 ChatGPT 提出如下查询:“显示上个月销售量前五的产品”。在这种情况下,ChatGPT 会整合LIMIT子句,仅显示根据定义标准最相关的五个产品。这些子句使查询更加精确和定制化,从而更容易获取数据分析所需的确切和相关信息。
使用 ChatGPT 优化 SQL 查询不仅限于上述内容。实际上,它超越了从自然语言生成查询的简单过程。开发高效、优化的查询是一个涉及利用专业知识优势和 AI 能力的协作过程。
通过向 ChatGPT 提供必要的上下文和细节,数据分析师可以引导模型生成与他们的数据分析需求精确对应的查询(Sedkaoui 2023)。这个上下文包括有关数据库模式、相关的商业术语以及任何特定的过滤器或限制信息。通过提出清晰和精确的问题,用户确保 ChatGPT 生成的查询是针对性和准确的。
然而,生成的查询并不是最终终点。它们是进一步优化的起点。ChatGPT 可以提供有关改进查询性能的有价值建议,例如建议在过滤列上使用索引或根据数据关系建议简化的连接。它还可以协助选择合适的数据类型以改善查询性能。
当数据分析师和开发者一起工作以改进生成的查询时,协作作用就显现出来了。通过 ChatGPT 的帮助和人类的监督,分析师可以实现高性能查询,这些查询在最小化执行时间的同时提供完整和准确的结果。
这种协作对于数据分析来说是一个变革。另一方面,即使未经训练的用户也可以通过 ChatGPT 理解自然语言查询的能力积极参与查询过程。这使得数据分析民主化,使组织内更广泛的职业人士能够访问。
通过注意力的提示和迭代改进的反馈循环,ChatGPT 可以在返回完整和准确结果的同时最小化查询执行时间。人脑与 AI 的结合使得 SQL 的生成方式得以实现,这种方式是单独一个人或 AI 都无法做到的——通过将业务逻辑与技术优化相结合。
解释了如何使用 ChatGPT 创建直观的查询后,我们现在转向探索由生成式 AI 带来的高级分析技术。第五章展示了 ChatGPT 如何超越基本的数据检索,为探索性数据分析、统计学、预测、文本挖掘等提供宝贵的帮助。
虽然构建最优的 SQL 查询是基础,但这只是一个起点。ChatGPT 的能力在加速通常需要数据分析专家的复杂分析任务时真正发光。通过自动化重复性工作并增强人类的批判性思维,ChatGPT 使我们能够提取更深入的见解并优化决策。 # 5
ChatGPT:高级分析大师
在第四章中,我们解释了 ChatGPT 如何通过自然语言对话使查询和访问数据更加直观。然而,ChatGPT 的真实能力远不止基本的数据检索。本章探讨了智能生成式 AI 代理如何自动化和增强高级分析技术,以获得更深入的见解。
ChatGPT 在帮助数据科学家完成数据收集和准备之后的更复杂和高价值任务方面表现出色。这些任务包括探索性数据分析、统计建模、预测、情感分析等,通常需要熟练的数据专家。
通过结合其计算能力、人类监督和领域专业知识,ChatGPT 可以帮助加快高级分析的速度。重复性和常规方面被自动化,而 ChatGPT 的解释增强了人类的判断。
本章展示了 ChatGPT 如何作为一个分析伙伴,提供 AI 和人类批判性思维的最佳结合。我们涵盖了探索性数据分析、统计分析、预测建模、文本挖掘和情感分析等创新应用。这些技术共同提供了更深入的见解,并优化了数据驱动的决策。
5.1. 探索新领域:ChatGPT 用于探索性数据分析
探索性数据分析(EDA)是数据分析(Tukey 1977)的基本方法,对于获得更深入的见解和理解数据集中潜在的模式至关重要。通过使用可视化和统计分析技术,EDA 的目标是揭示有价值的信息,例如趋势、异常值和数据分布,这些信息为后续的建模和假设检验奠定了基础。
进行 EDA 的主要优势之一是它能够识别数据中的模式和趋势。这些信息对于做出明智的决策至关重要,因为它使分析师能够识别重复的行为或事件。例如,在客户数据分析中,EDA 可以揭示重复的购买模式,使公司能够有效地针对特定客户群体定制针对性的营销策略。
EDA 还充当异常值检测机制,有助于识别与一般趋势显著偏离的数据点。异常值可以提供关于数据中罕见事件或异常的有价值见解。识别和理解异常值有助于区分错误数据点与重要观察结果,从而实现更准确的分析。
此外,EDA 有助于全面理解数据集的结构(Tukey 1977;Sedkaoui 2018a),变量之间的关系和数据分布。这种知识对于选择适当的分析方法和制定假设至关重要。理解数据景观使分析师能够有效地探索数据集,提取有意义的信息,并更准确地解释结果。
可视化在有效的 EDA 中扮演着核心角色。得益于数据的可视化呈现,模式和趋势变得更加明显,使分析师能够把握复杂的关系,并揭示在原始数据中可能被忽视的隐藏见解。此外,统计分析为探索过程增添了定量方面,提供了有助于客观理解数据模式的度量标准和指标。
EDA 是一个迭代过程,涉及持续的探索和发现(Berman 2013;Sedkaoui 2018a)。随着分析师对数据的进一步分析,可能会出现新的问题和假设,需要进一步探索和分析的细化。采用 EDA 的迭代性质确保了数据集的所有方面都得到了深入探索,最终导致更丰富的见解和更明智的决策。
在这个开放式的发现过程中,EDA 需要技术专长和人类直觉,使其成为一种创造性和分析性的任务。在这里,以 ChatGPT 为例的生成式 AI 模型发挥着独特且互补的作用,增强了人类判断力和协作。
ChatGPT 在众多方面表现出色,其中之一就是假设生成。通过分析数据集,ChatGPT 可以帮助分析师基于趋势和明显的异常情况,激发出引人入胜的假设。这种人类专业知识和基于 AI 洞察力的协同作用,开辟了新的调查方向。例如,通过分析销售数据,ChatGPT 可以提示数据分析师探索第三季度显著增长与夏季促销活动之间的联系。这种联合探索导致更具有针对性和成效的研究。
图 5.1 展示了 ChatGPT 如何深刻地改变分析过程的关键方面——从数据处理和分析到深入的假设生成和严格的验证。ChatGPT 加速了工作流程,同时增加了在这些阶段的人类创造力和监控。

图 5.1. 使用 ChatGPT 进行数据处理、分析和假设生成
在数据处理方面,ChatGPT 应用自然语言特征和模式识别算法,快速提取信息,识别趋势,并总结复杂的数据集。这自动化了繁琐的手动任务,同时突出了被忽视的关系。
在分析方面,预测建模和异常检测,ChatGPT 揭示了人类可能错过的新的见解。它通过突出差距并建议创新的新数据驱动连接,通过跳出思维框框来增强假设生成。因此,它通过系统地评估实验严谨性和通过不同视角挑战假设来加强验证。
ChatGPT 还有助于识别可能需要进一步调查的潜在模式。该模型可以捕捉数据中的微妙趋势或相关性,并提出相关的可视化方法来更清晰地展示它们。这种协作过程使数据分析师能够深入了解数据的潜在结构(Sedkaoui 2023)。例如,ChatGPT 可以通过热图展示帮助揭示每月销售的明显增长,从而促使进一步探索季节性和其影响。
在数据分析中,异常值通常包含关键信息。正如本书前面所讨论的,ChatGPT 快速分析大量数据集并标记潜在异常以供人类审查的能力是无价的。通过识别异常数据点,该模型引导数据分析师更仔细地检查这些实例。例如,ChatGPT 可以突出显示日常活跃用户中的三个数据点作为异常值,提示数据科学家调查导致那些特定日期激增的事件或因素。
总体而言,生成式 AI 与分析师在 EDA 过程中的合作呈现了技术能力和创造性思维的激动人心的融合。ChatGPT 在生成假设、识别模式和发现异常值方面的才能与数据分析师的直观洞察力相辅相成,推动发现过程达到新的高度。这种共生关系不仅加速了数据探索,还提高了分析质量,导致更深入和可操作的发现。在 EDA 中 AI 与人类判断之间的相互作用突显了技术在数据驱动决策和问题解决中不可或缺的盟友潜力。
到目前为止,我们已经看到了 ChatGPT 如何在生成假设、识别模式和在 EDA 过程中识别异常值方面成为一个无法估量的资产。然而,我们尚未解决数据探索过程中的另一个基本方面:数据的可视化。
数据可视化在理解复杂数据集、揭示隐藏模式和以清晰、易于访问的方式呈现信息方面发挥着核心作用。视觉展示使人类大脑更容易掌握信息,从而更容易检测到趋势、异常和相关性,这些趋势、异常和相关性在其他情况下可能仍然隐藏在原始数据中。
然而,理解 ChatGPT 如何处理数据可视化至关重要。它真的能从数据库中生成图表和其他视觉展示吗?
即使我们将这个问题直接问 ChatGPT,我们也会得到图 5.2 中给出的答案。

图 5.2 ChatGPT 的数据可视化响应
这个回复很有用且信息丰富,突出了 ChatGPT 作为自然语言模型的能力和局限性。ChatGPT 可以成为数据可视化的宝贵工具,但考虑其局限性是至关重要的。
这个答案提出了一个很好的观点——ChatGPT 目前还不能自行生成交互式数据或图形的视觉表示。因此,声称 ChatGPT 可以“创建可视化”是不准确的,至少目前是这样。在数据可视化的背景下,需要注意的是,例如:
-
根据您拥有的数据和您分析的目标,建议适当的可视化类型,例如条形图、散点图或热图;
-
指导您了解可视化的基本要素,例如坐标轴、数据字段、颜色等,使您的图表更具信息性和吸引力;
-
提供 Python 或 R 代码示例,可用于创建推荐的可视化;
-
允许您轻松创建表格,以清晰简洁地组织您的数据;
确实,仅通过文字吸收知识往往限制了全面的概念理解,而视觉呈现提供了文本本身无法完全传达的额外理解层次。但遗憾的是,即使是 GPT-4 这样的高级版本,也无法自主生成解释性图形,尽管它们具有处理图像和文本的多模态能力。目前,GPT-4 只能分析现有的视觉内容,而不能创建新的内容;
这正是 ChatGPT 插件证明其价值所在。通过集成如 Mermaid 和 PlantUML 等绘图语言,这些工具使用户能够通过图表、思维导图、流程图等方式可视化 ChatGPT 的文本说明;
因此,ChatGPT 的文本阐释与插件启用的图形展示之间的协同作用增强了理解。当通过文本和视觉两种媒介表达时,关键概念变得更加清晰,为学习创造了更深的锚点;
因此,尽管 ChatGPT 仍然局限于文本阐释,但插件解锁了其可视化能力。它们共同使知识的整体吸收成为可能——有意义的文字,提供视觉背景的图表。这展示了 ChatGPT 通过集成互补技术增强能力的力量。
但值得注意的是,数据可视化不仅仅是简单地创建美观的图表和图形。它涉及到确定哪些数据适合可视化,确保数据以适合可视化的格式存在,以及探索数据可视化甚至可以预测未来趋势的方法;
在这个背景下,值得思考的是,生成式人工智能技术的进步是否成功解决了许多人面临的这些艰巨挑战。或者换句话说,ChatGPT 如何被用于数据可视化,帮助用户从他们的数据集中发现更深入的见解?通过利用 ChatGPT 的能力,我们是否真正能够释放数据可视化的力量并改善决策过程?
这些问题的答案可以总结如下:
-
解锁 ChatGPT 的数据可视化建议:管理具有众多列的复杂数据集可能是一项艰巨的任务,尤其是在决定哪些数据应该被可视化时(Sedkaoui 2018b)。分析数据关系和相关性可能既耗时又具有挑战性,让你在众多选项面前感到不知所措。然而,随着语言学习模型和 AI 驱动的应用如 ChatGPT 的出现,数据分析师现在可以在这一过程中节省大量的时间和精力。想象一下,你有一个商店的产品销售数据集,并且希望通过可视化来揭示有价值的见解。只需求助于 ChatGPT 即可。通过利用其功能,你可以搜索有关可视化哪些数据以及哪些类型的图表最适合你的数据分析需求的建议。你可以通过提示轻松提供数据集的描述,ChatGPT 将迅速提出有关有效可视化的相关建议。有了这个强大的工具,探索复杂的数据集变得更加高效和富有成效。虽然目前的结果可能并不完美,但它为克服初始困难提供了一个宝贵的起点。它使你开始行动,随着你的进步,你可以完善和改进你的结果。如果你想改进这种方法,你可以将 OpenAI 集成到你首选的商业智能工具中,并使用 AI 生成自动化的数据可视化。例如,你可以使用 ChatGPT 的代码解释器,这是一个增强 AI 模型功能并使编码和数据可视化更加易于使用的强大工具;
-
提升数据质量以实现更智能的数据可视化:你不仅可以利用 ChatGPT 进行数据可视化,还可以利用其功能来丰富你的数据集。如果你的现有数据缺少某些信息,整合额外的数据可以导致更深入和全面的结果。考虑通过各种丰富方式补充你的数据集,例如文本字符串的情感分析、位置坐标、人口统计信息、最新的外汇转换率、汇总计算以及更多(Cupani 2022)。借助 ChatGPT,你可以发现将丰富内容无缝集成到数据集中的宝贵脚本。例如,你可以要求 ChatGPT 评估客户评论的情感,从而使你的数据分析更好地理解客户的观点。
-
利用 AI 进行预测分析:虽然可视化历史数据对于从过去的经验中学习是有价值的,但仅仅依赖过去的信息可能会让你落后于竞争对手。如果你能在风险和机会出现之前主动预测它们会怎样?预测分析在寻求基于预测进行数据驱动决策的组织中越来越受欢迎。尽管这是一个专业领域,但像 GPT-3.5 和 GPT-4 这样的语言学习模型的进步使得进行预测分析实验变得更加容易。通过在历史数据上训练 GPT,数据科学家现在可以开始创建帮助预测未来结果的 AI 驱动的数据可视化。
-
使用 ChatGPT 进行数据清洗和建模:正如 GIGO 原则所表明的,在有意义的数据可视化中,数据清洗和优化数据建模的重要性不容小觑。尽管数据清洗和建模不如图表创建那样吸引人,但它们是不可或缺的步骤,不容忽视。正如之前提到的,ChatGPT 可以简化数据清洗和处理的繁琐过程。它有助于识别数据集中的潜在异常值,管理缺失信息和空值,标准化数据并选择最合适的数据模型。
-
基于人工智能的数据可视化会是未来吗?像 ChatGPT 这样的新兴 AI 工具的巨大潜力是无可否认的。尽管有些人可能会担心 AI 对他们的职业的影响,但具有前瞻性的软件开发团队正在拥抱它的可能性。那些早期采用者,如果学会了利用 AI 进行数据可视化,将获得竞争优势,变得更加高效,并迅速扩展他们的技能。随着 AI 和 ChatGPT 等工具成为包括数据可视化在内的各个行业的组成部分,它们有潜力彻底改变我们的工作方式和创造有价值的见解。## 5.2. 简化你的分析:自动化任务以提升效率
数据分析的自动化在分析过程的革命中扮演着至关重要的角色。正如本书第三章(c03.xhtml)所强调的,数据分析师通常花费大量时间在重复性任务上,这可能会阻碍他们的生产力和对战略洞察力的关注。然而,随着 ChatGPT 的出现,自动化正在成为现实,使数据分析师能够充分利用他们的技能和专业知识。
ChatGPT 最显著的优点之一是其自动化数据准备的能力。得益于精心设计的提示,ChatGPT 可以处理数据库查询、数据清洗和缺失值的填充等任务。这种自动化大大减少了在琐碎的数据准备上花费的时间,使分析师能够将时间投入到更高附加值的活动上。
此外,ChatGPT 还便于专业用户自助创建报告。通过根据用户查询生成报告、数据可视化和仪表板建议,ChatGPT 使非技术利益相关者能够获取所需信息,而无需过度依赖分析师支持。这种自助报告方法减少了分析师的依赖性,并在组织内部促进更敏捷的决策(Sedkaoui 2023)。
除了自动化常规任务之外,ChatGPT 还增强了复杂的分析活动,如预测、优化和情感分析。它通过生成初步见解为分析师提供先发优势,然后他们可以根据自己在该领域的专业知识进行细化。这一增强过程使数据分析师能够提高他们的分析技能,并从数据中提取更有意义的见解。将 ChatGPT 集成到数据分析过程中远远超出了自动化重复性任务;它还在高级和战略分析活动中提供了宝贵的帮助。表 5.1 概述了 ChatGPT 和分析师在一些高级分析任务中的作用。
表 5.1. ChatGPT 和分析师在高级分析任务中的作用
| 活动 | ChatGPT 的作用 | 数据分析师的作用 |
|---|---|---|
| 预测 | 使用不同的统计统计方法快速处理历史数据以进行时间序列预测 | 根据业务知识审查和细化预测,调整预测以考虑上下文因素 |
| 优化 | 提出优化建议,例如定价、库存水平或数据驱动的资源分配 | 为约束条件和业务目标提供必要的逻辑和推理,以定制优化 |
| 情感分析 | 使用自然语言处理对客户反馈或评论进行情感分析 | 通过对业务背景的细微理解来验证 AI 的分类 |
预测是这种合作的绝佳例子。ChatGPT 可以快速处理历史数据,并使用各种统计模型生成时间序列预测。然后,分析师可以审查和细化这些预测,结合他们的商业洞察力和知识。例如,他们可以将 ChatGPT 的假日总销售额预测调整以考虑即将到来的营销活动或其他上下文因素。
在优化任务中,ChatGPT 可以根据分析的数据提供有价值的建议,例如定价建议、库存水平或资源分配。然而,分析师会提供关键背景,考虑到商业约束和目标,相应地定制优化。虽然 ChatGPT 处理数学方面,但人类分析师提供必要的推理和逻辑。
类似地,ChatGPT 的自然语言处理能力使其能够对客户反馈或评论进行情感分析(Sedkaoui 2023)。然而,是分析师对公司细微的理解使他们能够准确验证和语境化 AI 的分类;
通过将分析师角色的重复性方面卸载给 ChatGPT,数据分析师可以专注于需要他们专业技能的更高价值工作。这种关注点的转变使他们能够参与战略决策和模型治理,并为组织的关键利益相关者提供必要支持;
除了这些,ChatGPT 还可以:
-
快速运行模拟和创建模型以测试不同的场景和假设。分析师根据业务知识提供关键输入,从而提高模型的相关性和准确性。此外,ChatGPT 可以使用诸如 z 分数之类的统计工具分析数据,以标记潜在的异常情况。然而,分析师需要根据他们对数据和业务背景的理解来验证哪些报告的异常情况值得调查;
-
在决策过程中,提出基于数据的决策建议,例如推广哪些产品或调查哪些活动。然而,分析师需要评估这些建议与 AI 缺乏可见性的现实世界约束和目标之间的差异;
-
生成包含洞察力摘要的报告,简化报告流程。但分析师需要为不同的受众和决策组织、精炼和语境化报告,确保传达正确的信息。
主要主题是 ChatGPT 通过自动化繁忙的工作并提供分析保障,使分析师能够增加其影响力。它显著减少了重复性任务所花费的时间,使分析师能够专注于需要人类专业知识和创造力的更高附加值活动。然而,其建议必须经过人类分析来做出明智的决策。这种共生关系使组织能够充分利用 AI 的能力和人类专业知识,培养一种强大的协作,从而提高整体的数据处理过程;
ChatGPT 的计算速度与分析师的专业技能的结合创造了一个具有新潜力的增强分析过程。那些在自动化 AI 的同时放大人类优势的组织将在数据驱动的决策中脱颖而出。这种无缝集成使得数据驱动的决策更加有效和高效,最终导致竞争优势和更好的业务成果。随着数据分析的不断发展,AI 自动化与数据科学家之间的协同作用对于解锁新的洞察力和创新水平至关重要。## 5.3. 从统计到预测:ChatGPT 作为首选伙伴
在大多数组织中,描述性统计构成了更高级预测分析的基础。通过分析历史数据以揭示模式、趋势和关系,统计学帮助我们更好地理解过去(Delen 和 Demirkan 2013)。随后,预测分析利用这些统计信息来预测未来的结果。
描述性统计能够详细检查公司的表现。如平均值、分布、相关性和回归等度量量化了已经发生的事情。如线性回归和聚类分析等统计建模技术揭示了决定结果的因素。
这些统计信息为预测设定了方向。通过识别过去数据中最强的关系和模式,我们可以创建利用这些洞察来预测未来结果的模型。预测分析应用机器学习算法于历史数据,以预测诸如销售、需求、价格、设备故障等结果。
然而,预测结果并不如基础统计那么好。执行不当的描述性分析将无法揭示重要的变量和关系,这导致预测模型忽略了关键因素。最佳的预测结合了稳健的统计分析与智能建模技术。
组织需要将统计和预测视为一个综合的连续体,而不是孤立的实践。坚实的统计基础将更准确的预测置于图上。并且预测模型揭示了需要通过统计方法探索的新问题。通过将这些能力联系起来,公司可以将数据转化为可操作的预测,从而产生竞争优势。
从统计学到预测,ChatGPT 和其他生成模型已成为数据分析师的首选伙伴。尽管传统的统计方法已经形成了几十年数据分析的基础,但它们在处理复杂、大规模数据集和预测洞察需求时往往失效。
ChatGPT 凭借其语言理解和广泛知识获取的能力,使分析师能够超越统计分析的局限,深入预测建模的领域。通过利用历史数据,ChatGPT 可以快速生成时间序列预测,识别模式,甚至协助进行情感分析。ChatGPT 将人类直觉和计算能力相结合,使分析师能够释放数据驱动决策的潜力,为更明智的战略选择和更准确的未来预测铺平道路。它作为从统计分析到预测建模过渡过程中的关键助手。
利用 ChatGPT 增强其分析之旅的组织,从描述性统计到预测分析,将获得重大利益。以下,我们将探讨使用 ChatGPT 增强分析的最佳实践,涵盖三个关键阶段:统计基础、预测建模和模型部署。
5.3.1. 建立统计基础
通过使用统计学的探索性数据分析,ChatGPT 为有效的预测提供了动力。ChatGPT 加速了揭示关键洞察的过程,例如历史数据集中的相关性、驱动因素和重要变量。其自然语言处理能力允许分析师交互式地探索数据。例如,数据分析师可能会向 ChatGPT 提出如下问题:“在过去两年中,我们订阅者数据中与取消订阅相关的最主要因素是什么?”;“哪个客户细分市场的平均购物篮尺寸最大,这个细分市场的显著特征是什么?”;“通过社交媒体和搜索引擎推荐的客户在转化率上是否存在统计上显著的差异?”;“识别需要解决此数据集中的异常值、异常或数据质量问题”。
然而,人类监控是至关重要的,以提出与业务背景相关的正确问题(提示)。分析师还必须验证 ChatGPT 的分析在统计上是否有效。通过不同问题的迭代探索,分析师可以创建数据的完整统计概貌。
对于大型、复杂的数据集,ChatGPT 以指数级加速这一发现过程,同时受益于人类建议。发现的统计洞察成为预测建模的候选变量。
5.3.2. 使用 ChatGPT 构建模型
一旦统计上确定了关键变量和关系,分析师可以利用 ChatGPT 构建预测模型。其计算速度使得快速原型设计和测试不同的算法以找到最佳拟合成为可能。ChatGPT 可以实现或支持的常见预测建模技术包括:
-
线性回归 预测连续结果,例如销售额或需求,作为相关变量的函数。ChatGPT 可以分析历史数据以自动生成线性回归模型。例如,数据分析师可以要求 ChatGPT 自动生成一个线性回归模型,根据历史销售、价格季节性、促销等因素预测产品需求。ChatGPT 返回带有变量系数的模型方程以供审查。分析师随后可以通过要求 ChatGPT 尝试变量不对称对数缩放等转换来优化模型。这种增强方法能更快地得到拟合良好的模型。
-
逻辑回归 使用独立变量预测二元结果,例如客户流失率。ChatGPT 还可以为二元分类用例创建逻辑回归模型,例如预测客户流失。例如,数据分析师可以提供带有流失标签的客户数据,并要求 ChatGPT 使用逻辑回归识别区分流失与非流失的最具预测性的输入。它可以确定收入、购买频率、支持票据和其他更重要的标记,以概率模型化流失。ChatGPT 返回逻辑方程以供检查。
-
决策树 通过在变量中的最佳截止点处分割数据来预测结果。ChatGPT 可以根据分析师的需求构建决策树逻辑。对于细分用例,分析师可以利用 ChatGPT 自动生成决策树模型,根据属性将客户分成人群组。它有效地确定分割人群的最佳属性阈值序列。分析师可以评估树深度、剪枝需求和过拟合风险。
-
随机森林 通过聚合多个树来提高准确性,超过单个决策树。ChatGPT 也可以构建聚合多个单个决策树的随机森林模型,使用预处理的样本数据对结果进行分类,作为欺诈交易。这比单个树提供了更稳健的预测。分析师可以与 ChatGPT 合作调整树的数量和每棵树中的变量,以优化准确性。ChatGPT 可以通过构建训练数据的自助样本的多个单个树来快速生成随机森林模型。
-
神经网络 模拟人类认知以发现复杂的非线性关系。ChatGPT 可以建议适当的网络架构和超参数进行测试。
对于每种技术,ChatGPT 可以提供模型模板作为起点。
然后,数据分析师评估模型在测试数据上的准确性,并要求 ChatGPT 调整超参数和尝试额外的输入变量以提高预测能力。
通过自动化测试不同算法和配置的繁琐任务,ChatGPT 使分析师能够从高层次战略角度最大化模型准确性。这种混合方法产生了更稳健的模型。
5.3.3. 模型部署和模型监控
一旦开发出令人满意的模型,数据分析师可以与 IT 团队合作,将 ChatGPT 生成的模型集成到业务应用程序中用于生产使用。然而,部署并不是预测旅程的终点。为了保持准确性,人类分析师必须:
-
当出现新数据时,通过跟踪精确度、召回率和 F1 分数等指标,持续监控模型性能;
-
定期在新数据上回收模型,以纳入最新的模式和趋势。ChatGPT 加速了回收过程;
-
实施系统以检测概念漂移——当模型精度因现实世界条件的变化而下降时;
-
根据新的业务需求和目标调整模型;
-
基于道德和合规保障实施治理协议模型;
-
为利益相关者记录模型限制、假设和其他细节。
正确实施需要结合 ChatGPT 的能力与人类判断、商业知识和监控。自动监控和再训练流程需要辅以人工审核。
5.3.4. 商业影响
成功将 ChatGPT 的统计计算与人类分析思维相结合的公司可以解锁推动增长和成功的众多好处:
-
加速洞察力:得益于 ChatGPT 快速统计分析和创建稳健预测模型的能力,组织可以以更快的速度获得洞察力。这种加速的数据探索使他们能够快速做出明智的决策,在动态市场中获得竞争优势。
-
分析民主化:通过赋予业务分析师使用人工智能增强其能力,组织减少了对数据专家的依赖。ChatGPT 的用户友好界面和对话性质使其对更广泛的专业人士可访问,从而实现了数据分析过程的民主化。
-
改进的预测:人类专业知识和人工智能能力的结合导致需求预测、倾向模型和其他预测更加准确。通过利用两者的优势,组织可以做出更明智的战略决策,更有效地预测未来趋势。
-
优化的决策:数据驱动的洞察力和预测智能使公司能够做出及时、优化的决策。无论是资源配置、定价策略还是营销活动,这些决策都基于稳健的数据分析,最小化风险并最大化回报。
-
竞争优势:凭借快速适应市场变化和预测未来趋势的能力,组织获得竞争优势。ChatGPT 在预测客户偏好、市场变化和新兴机会方面的支持,帮助他们始终领先一步。
计算能力、人类创造力和商业逻辑的结合正在成为预测成功的制胜公式,使公司能够在日益数据驱动的世界中蓬勃发展。## 5.4. 解读情感:使用 ChatGPT 进行文本和情感分析
情感分析作为一种评估文本内容情感基调的过程(Sedkaoui 等人 2022),在当今数据驱动的世界中具有极其重要的意义。通过识别驱动积极、消极或中性情绪的词语和短语,这项强大的技术为人们如何看待产品、服务和品牌提供了宝贵的见解。根据贝恩公司的一项研究,到 2023 年,预计有 80% 的公司会采用情感分析解决方案。
其中一个主要应用在于分析客户反馈,公司可以通过优先处理和解决常见的投诉来发现改进的领域。此外,情感分析在社交媒体监控中得到了广泛应用。通过跟踪公司或品牌的提及,组织可以评估公众情绪并跟踪其随时间的变化。
这种实时反馈使他们能够主动反应并改进其声誉管理策略。谈到品牌声誉管理,情感分析在识别社交媒体平台上的负面情绪方面充当了一个关键盟友,使公司能够迅速减轻潜在损害。
除了与品牌相关的问题外,情感分析在市场研究中有许多应用。通过解读对产品或服务的普遍感受,公司可以深入了解消费者偏好和趋势。这些见解使他们能够做出基于数据的决策,并优化其产品以更好地满足客户需求。
通过理解客户情绪,公司可以调整其产品以更好地满足客户需求,培养更牢固的客户关系和忠诚度。这些宝贵的见解还可以用于微调营销活动,确保它们与目标受众产生共鸣并产生更大的参与度。
这使得公司能够辨别客户偏好的变化,帮助他们决定何时推出新产品或服务,调整营销策略,或在必要时采取纠正措施。情感分析的这一预测特性使组织能够领先一步,预见市场趋势,并在动态的商业环境中保持敏捷(Sedkaoui 等人 2022)。
情感分析的一个显著优势在于其在品牌声誉管理中的作用。通过快速检测对品牌的负面情绪,公司可以主动解决担忧,减轻潜在损害并提升品牌声誉。这种主动方法不仅能够巩固现有客户的忠诚度,还能提升品牌形象,吸引那些认为公司具有响应性和以客户为中心的新客户。
利用生成式 AI 进行文本分析的组织为理解非结构化文本数据中的情感、主题、趋势和关系开辟了新的领域(麦肯锡 2023)。无论分析客户反馈、社交网络讨论、呼叫中心日志或员工通讯,ChatGPT 与人类专家合作,都可以从文本中提取宝贵的见解,指导战略决策。本详细指南探讨了使用 ChatGPT 进行文本挖掘的技术和最佳实践。
表 5.2 展示了 ChatGPT 在情感分析中不同应用的示例。
表 5.2 ChatGPT 在情感分析中的应用示例
| 应用 | ChatGPT 的角色 | 示例 |
|---|---|---|
| 数据预处理 | 通过清理和标准化非结构化数据来提高一致性和质量,从而改善情感分析 | ChatGPT 更正:“This producTisgood! #ILoveIt”为:“This product is good! #I Love it” |
| 特征提取 | 精通从文本数据中提取相关特征,使情感分析系统能够区分客户与品牌沟通中的独特细微差别 | ChatGPT 从以下文本中提取了以下特征:“用户界面直观,导航用户友好”,“用户界面”,“直观”,“导航”,“用户友好”。 |
| 上下文理解 | 使用行业术语和独特的关系进行上下文数据分析,以有效地区分积极、消极和中性情感 | ChatGPT 总结此文本:“他们的客户支持团队反应迅速,并迅速解决了我们的问题”,在以下上下文中:“对公司客户服务的积极反馈”。因此,整体感觉是:积极的 |
| 训练数据生成 | 生成带有各种情感标签的合成文本数据,增强现有训练数据集或创建新的模型以改善情感分析 | 从以下文本:“售后服务反应迅速,并迅速解决了我们的问题”,ChatGPT 指出总结:“积极”。从以下文本:“产品不符合预期,客户服务难以联系”,它指出总结:“负面”。 |
| 情感分类 | 使用 ChatGPT 作为分类器,直接预测给定文本的情感 | 从以下条目:“该应用的新用户界面令人困惑,现在完成任务需要更长的时间”,ChatGPT 预测的情感为:“负面” |
| 多语言支持 | 用于不同语言的情感分析,使公司能够进入更广泛的市场和地区 | 多亏了其翻译能力,ChatGPT 能够将法语文本:“公司的最新产品发布超出了所有预期,并收到了客户的赞誉”翻译成英语:“公司的最新产品发布超出了所有预期,并收到了客户的赞誉”,并指出整体情感为“积极” |
| 实时分析 | 实现实时即时情感分析,以快速做出数据驱动决策 | 监控公司的 Twitter 账户以获取客户评论:“@公司 您的客户服务太糟糕了,我已经等了几天才得到回复!”ChatGPT 识别出“负面”情感,并定义了以下行动方案:“客户支持团队必须立即响应不满意的客户并解决问题”。 |
在每种情况下,ChatGPT 的自然语言能力提供了一个可扩展的基线,而人类专业知识则专注于战略分析和持续改进。AI 处理重复的语言任务,而人类则提供将信息转化为行动的情境理解。这种共生关系使组织能够从非结构化文本数据中提取全部价值,从而获得竞争优势。
应注意,ChatGPT 也可以用于情感分析中的表情符号。表情符号可以传达关于消息情感的宝贵信息。例如,可以用以下表情符号表达积极情绪:

而消极情绪可以通过以下表情符号传达:

尽管 ChatGPT 已经在广泛的文本数据上接受过训练,能够识别和处理某些表情符号,但其对表情符号的理解和解释可能不如对纯文本的完整,尤其是在处理更复杂或不太常见的表情符号时。
为了确认这一点,我们提示 ChatGPT 分析这条客户评价的情感,考虑到使用的表情符号:*
新产品是 
其响应显示在图 5.3 中。

图 5.3 ChatGPT 的情感分析响应
在这种情况下,我们发现 ChatGPT 的回答并不能完美地反映客户的情感。然而,它确实建议考虑表情符号所表达的情绪,以便更好地理解客户情感。因此,值得注意的是,尽管 ChatGPT 在分析客户表达的情感和情绪方面可能有所帮助,但人类干预对于准确和细致地解释客户感受仍然是必不可少的。
在这个背景下,使用 ChatGPT 进行情感分析带来了一些需要考虑的关键挑战:
-
理解讽刺和微妙情感: ChatGPT 在检测讽刺、反语以及需要更深语言和文化背景的微妙情感方面往往有困难。例如,短语“这一切都很棒”可能被归类为积极,尽管它是故意讽刺的。
-
处理歧义: 不明确的代词和指代词可能会让 ChatGPT 难以确定所表达情感的真实主语。例如,“我简直不能相信他们那样做了”并不清楚代词“他们”指的是谁。以下是一些关于模糊语言如何混淆情感分类的例子:
-
多义性:具有多个含义的词,如“轻”、“左”或“符合”,会使句子产生歧义。例如,“这台笔记本电脑如此轻!”在没有知道“轻”是指重量还是颜色的情况下很难分类;
-
成语:没有人类文化背景,AI 难以正确解释像“破釜沉舟”或“倾家荡产”这样的成语;
-
不明确的指代:当像“这个”、“那个”或“它”这样的代词没有明确的先行词时,所表达情感的主语是不确定的。例如,“我简直不能相信他们允许这样!”
-
弱上下文:通常需要一个广泛的上下文来消除情感歧义。短语“这部电影太恶心了!”在没有知道它是一篇电影评论的情况下并不明确;
-
通过识别这些歧义来源,我们可以选择训练数据并创建提示,以在使用 ChatGPT 进行情感分析时最大限度地减少不准确。然而,尽管有这些改进,人类干预仍然是验证和解释 ChatGPT 获得的结果所必需的,以确保对客户情感进行更准确和有洞察力的分析;
-
检测否定和强调: 否定词和强调词,如“不”、“从不”或“极其”,可能会改变或反转情感极性。ChatGPT 并不总是考虑这些修饰语。
-
有限的世界知识: ChatGPT 缺乏提供解释复杂情感关键背景的现实世界知识和常识。人类会本能地利用这一点来洞察言外之意。
-
数据问题和偏差: 作为一种统计模型,ChatGPT 可能会继承并放大训练数据中存在的偏差。需要更多样化的训练数据。
-
语言趋势的演变:新的俚语、文化引用、表情符号和创造性语言可能会使 ChatGPT 的训练解释变得过时,直到重新训练。人类分析师适应得更快。
当然,我们也不应该忘记文化细微差别,这无疑会复杂化 ChatGPT 在不同地区和语言中的情感分析。
表 5.3. ChatGPT 情感分析中的文化挑战
| 类型 | 问题 |
|---|---|
| 间接沟通 | 一些文化倾向于更间接或隐晦地表达情感。例如,在某些亚洲文化中,负面评论可能会试探性地提出,以避免冒犯。ChatGPT 可能会错过调节情感的微妙线索 |
| 权力距离 | 在等级文化中,沟通者之间的地位和权力关系影响情感表达的开放程度。ChatGPT 可能会错过影响情感的权威和顺从的细微差别 |
| 非言语线索 | 声音、音量、面部表情、手势和其他非言语线索等因素提供了额外的背景信息,有助于人类对情感的理解,但这些信息仅通过文本是无法捕捉到的 |
| 习语和历史引用 | 对当地人而言熟悉但对外人而言不熟悉的特定文化习语、类比和历史引用可能会掩盖情感。没有更广泛的文化掌握,ChatGPT 对意义是模糊不清的 |
通过意识到其局限性,我们可以制定策略来弥补 ChatGPT 在分析细微情感时与人类认知相比失败的情况。通过在特定地区的数据上训练 ChatGPT 并纳入当地专家的反馈,可以填补某些文化差距。但在分析各种情境中的情感时,人类监控始终至关重要。
因此,数据分析师的参与对于训练 ChatGPT 正确处理这些细微差别以及上述各种挑战至关重要。在数据准备、模型开发和持续改进中的人类指导下,ChatGPT 可以更加意识到并具备区分复杂情感的能力。人类和 AI 优势的结合导致分析更加可靠和有洞察力。
在探讨了 ChatGPT 如何增强人类分析师在统计分析、预测建模、文本挖掘和情感分析等关键技术方面的能力之后,我们现在在第六章中更深入地探讨利用生成式 AI 开发、优化和治理预测模型的最佳实践。 # 6
使用 ChatGPT 进行预测和建模
在第五章中,我们探讨了 ChatGPT 作为分析助手在统计建模、预测建模和文本挖掘等关键技术方面的能力。然而,构建初始模型只是第一步。为了从预测建模中提取持久价值,组织需要制定持续改进、监控、负责任治理和融入业务流程的策略。
本章节提供了如何超越基本模型开发,利用 ChatGPT 创建可持续、道德和优化的预测引擎的最佳实践建议。通过采用以人为本、迭代的策略,我们可以通过反馈循环随着时间的推移提高模型精度。随着新数据的出现,我们可以检测性能漂移并重新训练模型以保持其相关性。
通过强调透明度和偏差检测的负责任 AI 协议,我们可以构建与业务需求一致的可靠预测工具。并且通过适当记录、验证和监控模型输入、输出和影响,我们将产生的见解负责任地整合到组织决策流程中。
ChatGPT 在快速模型开发方面的专业知识非常强大,但人类协作对于保持准确性、道德和战略相关性至关重要。这种 AI 与人类的融合使组织能够从预测能力中提取持久的企业价值。
6.1. 使用 ChatGPT 自动化数据分析过程
努力最大化其数据内在价值的组织认识到分析过程不可或缺的作用。这些结构化程序作为确保数据系统性地收集、处理和分析的骨架,最终促进了一致性和效率。因此,所获得的回报包括增强的决策能力、精细的运营效率和改善的创新环境。
集成数据分析工作流程提供了一系列益处。特别值得注意的是,通过定义良好的流程实现的精度和一致性提高,导致更一致的数据收集、处理和分析。这反过来又放大了结果精度。此外,工作流程的存在产生双重效果,既提高了数据分析过程本身的效率,又为关键任务释放了资源。此外,它将关键见解编织在一起,使组织能够做出更明智的决策。
这种协同作用有助于提高运营效率并为创新创造肥沃的土壤。重要的是要注意,引入此类工作流程可以作为防止潜在错误和陷阱的保障。遵循结构化程序有助于组织减轻财务损失和声誉损害的风险。
数据分析对于指导明智的商业决策的重要性得到了普遍认可,但这一过程通常涉及大量时间和人工努力(Henke 等人 2016;Sedkaoui 2018a)。正是在这一阶段,自动化数据分析工作流程的概念作为一项基本解决方案应运而生。
自动化数据分析工作流程为企业运营带来了众多益处。特别是,它提供了一种节省时间和资源的方法,从而促进了运营效率。
一个至关重要的方面是自动化为数据分析带来的准确性和一致性改进。通过应用标准化程序,自动化工作流程确保数据收集、处理和分析以统一的方式进行。这种统一性导致结果准确性提高和可靠性增强,减轻了人为干预可能引入的变异性。
此外,自动化数据分析工作流程固有的风险降低作用不容小觑。当依赖严格遵守预定义协议的自动化流程时,错误的风险本质上会降低。这种风险降低为公司提供了保护伞,使它们免受财务损失,并保护它们来之不易的声誉。
显著的是,自动化数据分析工作流程对企业管理决策领域的影响深远。快速获取及时、组织良好的信息使组织能够更有信心地做出明智的决策(Delen 和 Demirkan 2013;Sedkaoui 2018b)。通过以易于访问的方式呈现数据驱动的见解,自动化促进了更敏捷和反应迅速的决策,有效地提高了商业策略的有效性。
然而,数据分析过程中的一个重要部分涉及重复性和程序性任务,这些任务往往消耗分析师的时间和精力。虽然这些常规活动是必要的,但它们往往阻碍分析师从事更有意义和解释性的工作。为了应对这一挑战,ChatGPT 正成为一个变革性的解决方案,有望彻底改变数据分析工作流程。
ChatGPT 的能力扩展到本书前几章详细描述的数据分析过程的各个阶段。一个值得注意的领域是数据预处理,ChatGPT 可以加快繁琐的数据操作任务。模型识别不同数据集之间关系并高效连接的能力,识别和纠正重复条目,处理缺失值,以及促进数据类型转换和格式化,显著加速了数据预处理阶段。
在探索性分析领域,ChatGPT 在提供数据概览方面也证明了自己是无价的。通过自主生成摘要、分布和统计数据,它为数据分析师提供了对数据集特征的初步理解。此外,模型识别异常值、异常、模式和相关性,简化了初步探索过程。
ChatGPT 与数据科学家之间的共生合作也扩展到了模型开发。除了自动化测试和预测建模算法比较之外,ChatGPT 还可以建议评估指标和适当的验证数据集。这种在模型开发阶段的增加加快了决策速度,并为更有效的模型构建奠定了基础。
即使在报告领域,ChatGPT 的影响也是显而易见的。该模型生成初始数据摘要、建议的基本可视化和初步报告草稿的能力,使数据分析师能够完善和改进他们的发现,有效地简化了数据报告生成过程。
这种自动化释放了数据分析师进行额外解释和监控的时间,例如优先考虑最相关的关联关系、确定适当的数据转换、评估模型限制并将结果置于洞察中进行背景化。因此,人工智能与人类专业知识的结合使组织能够利用两个实体的双重优势。
表 6.1. ChatGPT 增强的数据分析工作流程
| 工作流程 | ChatGPT 的角色 |
|---|
| 数据处理 | 使用如下命令加速数据准备:“使用 customer_id 键将客户表与销售表连接”;
“根据 product_id 字段删除此数据集中的所有重复行”;
“对于价格列中的缺失值,用平均价格进行插补” |
| 探索性分析 | 快速提供数据摘要:“分析按产品类别划分的销售分解情况,并突出任何异常值”;
“计算营销支出与客户获取之间的相关系数” |
| 模型开发 | 提出建模方法:“基于这些客户数据推荐一个合适的模型来预测客户流失”;
“建议用于评估此分类器在未见数据上的性能的指标” |
| 报告 | 编写基本结果:“总结销售数据分析的主要发现”;
“生成一张显示上季度按产品销售的柱状图” | ## 6.2. ChatGPT 用于准确和强大的建模
在数据驱动决策领域,准确和强大的建模对于寻求在运营复杂性中导航的公司来说是一个基石。构建既准确又具有弹性的模型的能力对于解读趋势、预测需求和预测未来事件变得至关重要。能够承受数据动态和环境因素变化的强大模型为公司决策提供了一个坚实的基础。
培养准确且稳健的模型的好处对商业运营有着重大影响。特别是,这些模型充当着更好的决策指南。拥有准确的信息,公司能够基于明智的选择踏上道路,从而以更高的效率和战略共鸣导向结果。
此外,稳健模型在风险降低中的作用不容小觑。通过将决策建立在经得起审查和波动的数据上,公司可以避开无知的陷阱(Morabito 2015; Sedkaoui 2018a),保护其业务免受可能的挫折。
运营效率也找到了准确、稳健模型这一不可动摇的盟友。它们自动化任务和减少手动干预的需求不仅简化了运营,还释放了宝贵的资源,这些资源可以更好地用于其他地方,促进组织能力的更优化配置。
在客户服务中,准确、稳健的模型的影响体现在能够快速响应客户关注的高能力。凭借可靠的见解,公司可以提供有效的解决方案,改善整体客户体验,并培养持久的关系。
要创建准确、稳健的模型,需要采取几个基本步骤。首先,使用相关数据为模型准确性奠定基础。用于训练的数据质量是模型最终性能的决定性因素。同时,选择适当的模型类型似乎是一个至关重要的考虑因素,最佳模型根据数据的特定特性和目标而变化。
此外,通过在新数据上进行的测试验证模型的准确性以及对其持续监控,确保了模型预测能力的可靠性。数据的发展和运营动态需要持续的承诺,以确保模型保持相关性和有效性。
有效的 AI 驱动建模,如 ChatGPT,的基石是它所接收的训练数据的质量。这一基本输入不仅塑造了模型的理解,还影响了它可能表现出的偏差和差距(Osoba 和 Welser 2017)。在此背景下,数据分析师的作用变得至关重要,因为他们负责在将数据引入系统之前对其进行细致的审查。这一验证过程对于保持结果的模型完整性和准确性至关重要。此外,人工监控引导 ChatGPT 采用高级技术,如数据增强和战略过采样。这些方法增强了数据中不同观点的呈现,降低了偏差结果的风险,并提高了模型的稳健性。
选择合适的模型是另一个关键阶段,ChatGPT 在快速原型设计多个算法方面的能力在这里得到了发挥。这种探索能力使得能够根据复杂因素,如数据集的细微差别、预测目标和性能标准,经验性地确定最佳方法。然而,正是人类元素引入了细微的辨别。人类监控作为一种保障,确保所选模型符合现实商业环境的具体要求和限制。通过考虑每个模型在商业目标背景下的优缺点,人类支持防止不匹配,并促进有效使用。
模型开发完成后,旅程并未结束。严格的验证是模型可靠性的基础。使用基于代表性数据集的适当测试,分析师评估模型的准确性和泛化性。此外,持续监控的本质也发挥作用。性能仪表板,结合偏差检测和漂移识别机制,启动了一个持续的反馈循环。这个迭代优化过程即使在条件随时间变化的情况下,也能保持模型完整性和准确性。
表 6.2 提供了 ChatGPT 如何帮助减少偏差、评估泛化性和建立模型信心的一个总结。
表 6.2 使用 ChatGPT 减少偏差、评估泛化性和建立模型信心
| 目标 | ChatGPT 如何帮助 | 示例 |
|---|---|---|
| 减轻偏差 | 识别数据中代表性不足的群体,建议受控实验以量化偏差,使用去偏算法 | “比较这个分类器在性别上的准确性,并突出超过 5%的差异”。 |
| 评估泛化性 | 快速在合成数据上测试模型,模拟未来场景,允许在出现新数据时快速重新训练 | “在模拟销售数据上运行这个预测模型,价格提高 10%”。 |
| 建立信任 | 提供模型逻辑和预测的解释,量化不确定性,允许对训练数据进行深入分析 | “解释这个广告定位模型的逻辑及其预测背后的原因” |
尤其是那些专注于最小化偏差、最大化训练数据之外的泛化性以及强调透明度的策略,对于部署可靠和道德的 AI 系统至关重要。这些策略与 ChatGPT 能力的结合确保了模型不仅在理论构建上表现出色,而且在商业运营的实际环境中也能引起共鸣。
虽然这篇详细的指南探讨了强化、测试和建立 ChatGPT 生成模型信心技巧的方法,进一步弥合了理论潜力与现实效果之间的差距,但重要的是要注意 ChatGPT 本身仍在快速进化。特别是,从 GPT-3.5 到 GPT-4 的转变,在多模态数据分析方面带来了显著的改进。GPT-4 在整合不同类型的数据方面表现出更大的灵活性,并在分析结构化和非结构化数据方面拥有更高的专业知识(Open AI 2023)。
插件集成还解锁了更多可视化、工作流程自动化和 GPT-4 的分析增强。总的来说,其底层架构似乎更适合适应不同工业领域和用例的灵活设置。
表 6.3. GPT-3.5 和 GPT-4 的数据分析性能
| 功能 | GPT-3.5 | GPT-4 |
|---|---|---|
| 数据来源 | 文本基础 | 多模态(文本、图像、音频) |
| 插件和集成 | 集成有限 | 更无缝的分析插件 |
| 结构化数据分析 | 基本能力 | 高级 SQL 和关系理解 |
| 非结构化数据分析 | 基本自然语言处理 | 更丰富的语义理解 |
| 创意构思 | 生成有限 | 改进的抽象和洞察力连接 |
| 个性化 | 超过提示的最小化 | 更适应不同领域 |
| 可解释性 | 逻辑不透明 | 稍有改善,但仍然有限 |
当然,GPT-4 在数据分析方面呈现了明显的进步。然而,其推理的可解释性和上下文理解的局限性仍然是挑战。尽管其能力得到了增强,但人类的认知仍然对于明智地引导这种新兴人工智能至关重要。尽管存在局限性,但这种演变证明了 ChatGPT 持续的潜力。因此,我们开发可信赖人工智能的追求必须与技术能力的进步同步进行。
从本质上讲,ChatGPT 为组织提供了强大的工具,但正是人类治理的融合巩固了质量控制。例如,ChatGPT 可以快速测试模型以检测偏差。但分析师必须根据标准和风险偏好确定适当的检查和阈值。ChatGPT 可以模拟假设情景,但战略家需要开发反映潜在未来的相关案例。ChatGPT 可以量化不确定性,但治理团队需要定义透明度标准。
这种合作利用了人工智能的可扩展性,增强了建模能力,同时通过人类指导的棱镜整合了现实世界的准确性、伦理和相关性。人工智能与人类专业知识的合作表现为推动可持续价值创造的驱动力,在数据驱动决策领域产生共鸣。
你是否曾考虑过持续改进的精确本质?它是一种系统化的方法,用于识别简化流程和减少低效的方法。持续改进是推动流程和产品演化的基本原则。
持续改进的一个关键驱动力在于利用数据和数据分析的力量。
在每个组织的领域内,一个庞大的数据仓库涵盖了各种方面,包括财务记录、销售指标、供应日志、投资、人力资源管理和预测等。这些丰富的信息为公司提供了巨大的潜力,以提取有关其运营的有意义见解,并将原始数据转化为有利可图的机遇。毫无疑问,数据分析使组织能够做出明智的决策,这是这一分析驱动的商业时代的根本利益(McAfee 和 Brynjolfsson 2011;麦肯锡 2016)。
反思历史数据和统计方法的使用证明极其有价值,尤其是在区分不同方案中哪一种行动更为优越时。然而,当我们关注持续的监控和影响评估时,其真正的意义得到了放大,揭示了这些决策在运营环境中产生的后果。
众多运营和选择涉及重复性模式。让我们考虑使用历史数据建立最佳库存水平的情况——可以制定一个模型来确定理想的库存水平。然后,这个相同的模型可以重新应用来评估当前的库存状态,并随着时间的推移监控结果。
密切关注结果不仅仅是验证这些模型和工具的准确性。它还扩展到确保它们持续的关联性和有效性,通过鼓励必要的适应来应对不断变化的企业需求。这种持续的审查、改进和适应的循环是持续改进的核心,使组织在面对变化时更加敏捷和有弹性。
在机器学习的动态领域,持续改进的概念体现在一个迭代的改进路径中,确保模型不仅满足初始参考标准,而且持续进步以满足不断变化的需求。
在这一旅程的核心是收集反馈的过程。这一系列的反馈来自各种来源,每个来源都提供了对模型性能和相关性独特的见解。如模型准确性、验证数据上的性能和现实世界用户体验等指标,都为引导改进路径的信息拼图做出了贡献。此外,领域专家在提供细微的视角方面发挥着核心作用,进一步丰富了反馈循环。
拥有这些反馈后,下一步是确定改进的机会。这是模型优化中的关键步骤,可能涉及使用新的、更相关的数据进行重新训练,调整模型参数,甚至重新设计架构以适应不断变化的需求。这一迭代过程确保模型与不断发展的数据景观和动态业务需求保持一致。
在机器学习的背景下,改进的重要性是巨大且深远的(Bishop 2006)。它有可能加强模型构建的基础:
-
更高的准确性和可靠性:随着模型的持续优化,其准确性和鲁棒性增加,确保它们始终达到或超过性能标准。
-
释放效率:及时识别和解决瓶颈或性能差距,确保模型更有效地工作。
-
以用户为中心的导向:用户反馈,结合迭代改进,导致模型更好地适应用户需求,促进透明和高效的用户体验。
-
培养信任:通过明显地投资于持续改进,组织培养用户对其模型可靠性和相关性的信任。
随着持续改进之旅的持续进行,这也需要一种精心设计的途径:
-
渐进式进步:从小处着手,逐步构建,可以实现有针对性的改进,而不会破坏更广泛的过程。
-
迭代的力量:认识到变革需要经过多次迭代,意味着我们不能期望一夜之间发生变革。
-
数据作为指南针:数据驱动的洞察力作为指南针,引导改进决策并跟踪进度。
-
协作优势:将利益相关者、用户和专家纳入过程,利用集体智慧引导改进之旅。
实际上,机器学习的持续改进超越了纯粹的理论;它构成了一个动态和响应式机器学习生态系统的基石。多亏了这个过程,模型保持适应性、相关性和影响力,紧密地与现实世界的动态保持一致,并实现其全部潜力。
在动态的 AI 领域中,保持系统的准确性和相关性是一个持续的挑战,因为不断变化的环境不可避免地会导致性能下降。ChatGPT 可以通过以下方式支持由数据分析驱动的持续改进:
-
快速处理和总结历史数据以发现洞察;
-
自动化核心分析任务,如数据清洗、聚合和统计分析;
-
为预测、优化等目的构建原型分析模型;
-
在历史数据上回测模型以评估准确性;
-
持续监控实时数据和模型输出以检测偏差;
-
当检测到漂移时,及时在新的数据上重新训练模型;
-
允许快速迭代和测试模型改进;
-
生成解释和指标,以增强对模型输出的信心;
-
帮助数据分析师专注于高附加值的分析和监督。
为了确保可持续的价值并跟上这些变化,培养一种文化和建立支持持续模型优化的基础设施至关重要。在这种情况下,ChatGPT 的角色从简单的工具转变为持续改进过程的催化剂。
在这项任务中,一个关键要素是对模型性能的勤奋监控,作为防止任何恶化的保障:
-
对实时数据流中预测准确性的持续评估是偏离可接受阈值的早期指标。
-
数据验证程序在识别生产和训练数据之间的差异中发挥着关键作用,揭示了需要关注的差距。
-
定期偏差审计突出显示任何有偏差的结果,使及时纠正行动成为可能。
通过积极监控模型,可以提前识别潜在陷阱,在小的故障演变成大问题之前进行及时干预。
持续改进的核心是将反馈的必要整合到精炼过程中,包括显性和隐性的输入。客户反馈,无论是纠正还是替换的形式,都提供了宝贵的见解,这些见解反馈到模型重新训练和改进的准确性。领域专家对预测的评估,伴随着他们的注释,直接作为改进的信号。此外,用户行为,如采用和放弃模式,提供了微妙而强大的隐式反馈,揭示了不断变化的需求(Sedkaoui 2018a)。这种复杂现实世界反馈的相互作用为模型提供了实践经验,确保增强始终能够响应现实需求并与实际要求保持一致。
这个现实世界的反馈循环将实际经验注入模型中,确保改进与实际需求一致。
下一步涉及使用从反馈中获得的见解重新训练模型。数据分析团队使用 ChatGPT 来加速迭代过程,利用新数据改进模型。更新后的模型随后将接受严格的测试,最终部署给最终用户。
通过精心设计的流程,如 新数据源→ 监控→ 反馈→ 重新训练→ 部署 这样的循环变得根深蒂固。ChatGPT 的速度极大地加速了这种训练效果。在这里,ChatGPT 的加速能力对于强化这种飞轮效应、极大地加速改进之旅变得至关重要。
这里是一个 ChatGPT 如何帮助基于反馈锚定改进工作流程的例子。
一家零售商有一个预测客户购买意愿的机器学习模型。为了保持准确性,他们建立了以下工作流程:
-
数据源: 每日销售数据被上传到他们的数据仓库。
-
监控: 每周,一个自动脚本能测试模型在新数据上的准确性。
-
反馈: 如果准确性低于 95%,则会触发警报,分析团队将检查错误样本。
-
重新训练: 团队使用 ChatGPT 快速使用自然语言提示在新数据上重新训练模型。
-
部署: 通过 API 调用,更新的模型无缝重新部署以替换旧版本。
这种自动化允许快速迭代以保持准确性。分析师利用 ChatGPT 的速度在几分钟内而不是几天内重新训练模型。最小化开销使该过程可持续。随着时间的推移,通过 ChatGPT 对话不断循环新数据以评估性能、收集反馈并改进模型,成为维护最佳预测的固有实践。
通过持续反馈循环进行持续改进对于在长时间内保持模型准确性和相关性至关重要。ChatGPT 可以加速并改进这一迭代过程,但需要精心设计以提取最大价值。
严格的监控为检测准确性下降、数据漂移或出现需要模型更新的偏差信号提供了基础。ChatGPT 快速处理新数据,及时指出这些问题。
同样重要的是收集专家和最终用户的定性反馈,以根据他们的经验识别局限性和机会。ChatGPT 可以帮助通过大规模自然语言对话收集和综合这种人类反馈。
配备了丰富的监控洞察和人类视角,分析师可以利用 ChatGPT 的速度,使用最新的数据和用户输入重新训练模型。这实现了快速迭代和部署改进。
当集成到简化的工作流程中时,这种由反馈驱动的飞轮效应可以随着时间的推移,通过渐进式改进,持续优化模型性能和用户价值。监控提供信号以触发改进,人类提供战略方向,而 ChatGPT 加速迭代。
因此,这个复杂机制的核心在于在最终用户和模型之间建立一种共生关系。由稳健的反馈循环推动的持续改进,产生了能够演变的智能系统。结果,这些系统不仅能够适应不断变化的环境,而且还能确保准确性和相关性随着时间的推移而持续,从而巩固其价值和影响。## 6.4. 趋势和时间序列分析
IBM 关于生成式 AI 的报告(2023)突出了这些模型在数据分析能力方面的几种转变方式。首先,生成式 AI 对数据需求巨大,因此负责任的数据分析需要跨组织合作来喂养模型。根据报告,目前 60%的公司在管理生成式 AI 及其相关数据方面没有一套连贯的方法。
已经过渡到混合云数据基础设施的公司更有利于利用生成式 AI,因为这将需要全面的数据策略。领导者们也看到了通过生成式 AI 加速与合作伙伴数据共享的机会,从而增强集体洞察力。然而,统一孤岛数据需要与业务目标保持一致,这仍然是一个雄心勃勃的项目。
下一代数据工具,如自动化和市集,可以帮助组织摄取、准备和分析大量结构化和非结构化数据,以供 AI 系统使用(Sedkaoui 2023)。鉴于核心模型访问的大量数据集,包括收集、存储、访问、处理和安全协议,稳健的数据治理实践至关重要。
时间序列模型可以将强大的时间序列分析与灵活的生成技术相结合,以改善预测、规划和决策。
已经,使用趋势分析和时间序列分析等技术对于提高业务绩效领域至关重要。这些方法使公司能够做出明智的决策,简化运营并提高客户服务质量。这些工具对整体效率和有效性的深远影响不容小觑。
趋势预测为未来打开了一扇窗户,使公司能够预测需求、市场动态和消费者偏好的变化。这种先见之明对于制定策略、分配资源和保持竞争优势至关重要。此外,时间序列分析深入挖掘历史数据,以提取模式、周期性行为和季节性。凭借这种理解,公司可以识别潜在的性能驱动因素并优化策略以利用它们。
时间序列数据在所有行业中无处不在,无论是金融数据、销售趋势、网络流量、传感器读数等。这些时间数据的分析对于监控性能、发现驱动因素和预测未来结果具有巨大的潜力。
然而,与任何方法一样,负责任地使用这些技术是至关重要的。保持对伦理考量和用户舒适度的关注是必要的。通过遵循这些考虑,公司不仅能够利用高级分析的优势,而且还能培养一个专业和诚信的环境。预测和时序分析的整合反映了利用技术实现运营卓越和道德行为的承诺。
除了预测建模之外,ChatGPT 也显示出对这些技术的潜力。这种在大规模上处理大量信息的能力满足了数据处理的重重挑战(Sedkaoui 和 Gottinger 2017;Sedkaoui 2018b),使公司能够从他们的数据集中提取有意义的见解。ChatGPT 加速了统计密集型任务,例如:
-
将时间序列分解为趋势、季节性和噪声成分;
-
站稳性和自相关测试;
-
检测变化点和概念漂移;
-
周期性/季节性模式和滞后关系的识别。
这使得数据分析师能够专注于战略解释,而不是机械的统计。

图 6.1. ChatGPT 的时序分析能力
时序分析是一种稳健的方法,用于检查历史数据并预测未来趋势。ChatGPT 凭借其灵活的计算技能,通过自动化预处理、模型拟合和预测的繁重任务,简化并加速了工作流程。
ChatGPT 还擅长自动分析时间序列数据,以发现季节性模式、自相关、平稳性以及其他统计属性(Sedkaoui 2023)。这提供了对指标如何演变的更好理解。例如,数据分析师可以提示 ChatGPT 评估时间序列数据集中的趋势和噪声,作为建模的先导。人工智能处理统计的繁重工作,而人类则解释洞察力。
ChatGPT 当然能够支持生成 Python 或 R 代码,使用 Prophet 进行时间序列预测,帮助调试应用程序错误,并管理中间数据处理步骤。数据分析师随后可以整合可用的前瞻性指标、事件数据和专业知识,以根据需要微调预测。ChatGPT 还允许对不同的模拟场景进行快速迭代。
例如,他们可以根据过去趋势和季节预测假期销售,然后根据已知的促销活动、活动和市场条件进行修改。
对于预测,ChatGPT 在以下方面提供了先发优势:
-
在历史数据上快速训练预测模型,例如 ARIMA 和 Prophet;
-
对不同算法的性能进行基准测试,以选择最佳匹配;
-
生成包含各种预测因子的多元模型。
数据分析师随后通过应用他们的判断和领域专业知识来调整原始预测。这平衡了自动化与人类监督。因此,认识到尽管 ChatGPT 在多个任务上强调能力,但它可能面临需要专门知识或创新解决方案的复杂问题的挑战是至关重要的。
因此,数据科学家在利用 ChatGPT 的潜力方面仍然扮演着至关重要的角色。他们作为数据挖掘过程的建筑师,定义明确的目标,并在商业环境中定位结果。他们的解释弥合了原始分析结果与可操作洞察力之间的差距,确保系统标记的异常在导致错误结论之前受到审查。此外,人类判断用于将预测与战略目标对齐,并确定时间序列分析中的相关因素,基于现实世界的相关性。
量身定制的提示是有效使用 ChatGPT 在时间序列数据分析中能力的基础。提供的提示作为分析过程的战略切入点。通过提出围绕时间序列数据中的趋势、相关性、机遇、风险、影响和洞察的问题,用户可以引导 ChatGPT 的计算能力揭示隐藏的模式和有价值的信息。这些提示作为导航信标,引导 AI 关注用户目标中重要的数据特定方面。
时间序列数据的动态特性既带来了挑战,也带来了机遇。虽然时间维度允许观察趋势和随时间的变化,但它也要求对数据点周围的环境有全面的理解。这就是人类专业知识与 ChatGPT 的分析能力之间协作变得至关重要的地方。人类的触觉确保了细微差别、情境变化和商业影响被纳入分析,从而将洞察力提升为可操作的建议。
然而,人机协作并非没有挑战。提供的提示必须精心设计,确保它们与数据的特定情境和分析目标相对应。尽管 ChatGPT 可以快速准确地处理数据,但它依赖于准确的提示来提供有意义的成果。虽然 AI 领域仍在不断发展,但人类输入与 AI 输出之间的互动的改进仍然是一个持续的过程。
ChatGPT 与数据分析师之间的合作不仅限于解释,还扩展到了验证。数据分析师使用实验设计原则和团队策略来挑战和测试 ChatGPT 发布的建议。这种保障不仅防止了对 AI 结果的盲目接受,还有助于最大限度地减少潜在的风险和错误。
由于我们已经探讨了在 ChatGPT 的帮助下开发、优化和治理预测模型的策略和最佳实践,现在,在第七章(Chapter 7)中,我们将更深入地研究这种智能生成 AI 代理如何应用于改进和发展特定的机器学习技术和算法。让我们通过人/AI 合作来探索这些潜力,以推进人工智能的先进状态。 # 7
ChatGPT 服务于机器学习
在第三章(Chapters 3)、第四章(4)、第五章(5)和第六章(6)中,我们探讨了 ChatGPT 在数据准备、自然语言查询、增强分析和预测建模等任务中的应用。然而,其影响不仅限于加速最终用户工具,还扩展到了加速机器学习研究和开发实践。
本章展示了生成式 AI 如何在人类干预的帮助下与机器学习算法协作,以改进现有技术并激发新的创新。
在本章中,我们讨论了高影响力应用,包括使用 ChatGPT 的创意能力来探索新的模型和算法架构,使用代码生成来快速原型化概念模型,优化技术工作流程,以及将生成式 AI 和过程式机器学习结合用于新的混合方法。最后,我们探讨了直观的对话界面如何使高级机器学习的访问民主化。
主题的共同点是利用 AI 能力来增强人类创造力,以推进技术前沿并更快地将新潜力变为现实。正如领域专家在 AI 的帮助下可以取得更多成果一样,机器学习算法的用户也可以通过对话界面的力量得到放大。
通过与 ChatGPT 等工具合作,机器学习社区可以开辟新的可能性领域,并解决曾经被认为无法解决的复杂现实问题。
7.1. ChatGPT 的功能结构中的机器学习
机器学习(ML)正在成为人工智能的一个变革性方面,赋予软件应用在不进行明确编程的情况下提高预测准确性的非凡能力。这个学科利用数据集的潜力来改进算法。机器学习的引人入胜之处在于其建立在高级模型之上,这些模型有助于预测(Mitchell 1997)和决策,同时人类程序员参与度最小。
这些模型通过称为“转换器块”的复杂层运行,分析样本数据并自主解码模型以产生所需的输出。在其核心,机器学习算法利用历史数据作为输入,然后为新的输出值生成预测,这是数据驱动智能的体现。
ChatGPT 本身在其底层生成架构(Gutierrez 2015)中结合了多种机器学习技术。它在机器学习领域得到应用,利用其背后的庞大数据集,这些数据集支撑了其能力。在这个领域,众多语言模型汇聚,赋予 ChatGPT 生成类似人类对话的非凡能力。
ChatGPT 的背后建筑师无缝结合了监督学习和无监督学习的优势,这种协同作用丰富了聊天机器人的学习体验并提升了其性能。这种融合体现了动态交互,使得 ChatGPT 的结果更加精细。
ChatGPT 使用监督学习的原则,其中输入-输出关系被明确定义,并使用标记数据集来优化模型。然后,这些算法使用这些知识来预测新的和新型输入的结果。在这个培训计划中,ChatGPT 使用一种称为从人类反馈中进行强化学习(RLHF)的策略。
RLHF 应用作为机器学习技术的一部分集成到 ChatGPT 的架构中,旨在提高 AI 语言模型的对话能力。得益于与人类训练师持续进行的反馈循环,ChatGPT 学习区分正确和错误的回答,有效地塑造其对话行为。
ChatGPT 中采用 RLHF 作为开发与人类互动产生共鸣的响应的渠道。这种迭代进化涉及监督微调,其中人类 AI 训练师参与体现用户和 AI 助理角色的对话。
在其功能范围内,ChatGPT 还利用了无监督学习,这是一种范式,可以解锁缺乏明确结果指导数据中的模式。
在无监督学习环境中,AI 通过辨别数据中的相似性和差异性来发现模式,这使得 AI 能够为探索性分析、图像分割和识别分析模式等任务开发精确的答案。
ChatGPT 的无监督框架包括三种主要的学习方法:聚类、关联规则和降维。
聚类,作为一种基本的数据挖掘技术,根据数据的相似性或差异性将未标记的数据分组。ChatGPT 的算法验证这些模式,将未排序的数据分类到体现固有模式和结构的独特集群中。独占聚类、叠加聚类、层次聚类和概率聚类是塑造 ChatGPT 能力的关键聚类算法。
同时,ChatGPT 整合了关联规则——一种基于规则的途径,揭示了数据集中变量之间的联系。这种技术常用于市场篮子分析,使公司能够辨别各种商品之间的相互关系,优化交叉销售策略和推荐引擎。关联规则生成的历史包括估计算法如FP-Growth, Apriori和Eclat。
对于具有大量维度的数据集,ChatGPT 巧妙地使用了降维技术。随着数据的增多,准确性提高,机器学习算法的复杂性也随之增加,这往往会使数据可视化变得复杂。为了应对这种情况,ChatGPT 在其无监督框架中使用降维,在保持数据集完整性的同时,使数据量保持可管理。
从本质上讲,ChatGPT 在机器学习领域调和了监督和非监督范式之间的二元性。这种融合使得人工智能聊天机器人能够提炼数据的复杂性,提供最佳响应于查询和提示,同时培养人工智能能力和人类创造力之间的动态协同。
表 7.1 总结了机器学习算法与 ChatGPT 之间的共生关系。
表 7.1 ChatGPT 与机器学习算法:共同进步的良性循环
| 算法 | ChatGPT 如何使用它们? | 它们如何使用 ChatGPT? |
|---|---|---|
| 监督学习 | 使用标记数据进行特定任务的微调 | ChatGPT 可以为训练模型提供标记数据集 |
| 无监督学习 | 在未标记语料库上进行预训练以学习模式 | ChatGPT 可以帮助聚类和分析非结构化数据 |
| 强化学习 | 通过人类反馈奖励优化对话技能 | ChatGPT 可以提供一个对话环境来测试代理策略 |
| 神经网络 | 基本变换器架构 | ChatGPT 可以建议用于测试的新网络架构 |
| 注意力机制 | 用于其变换器架构 | ChatGPT 可以解释注意力机制是如何工作的 |
| 学习迁移 | 利用预训练参数进行微调 | 知识可以从 ChatGPT 迁移到下游模型 |
如表 7.1 所示,ChatGPT 在其设计中结合了多种机器学习技术,同时提供了一个协作工具,以推进机器学习研究和工程生命周期。这种协同关系导致双方能力得到增强。
在实践中,通常将几种方法结合起来。例如,可以使用无监督学习来提取特征,然后使用监督模型进行预测。算法的多样性提供了适应不同机器学习任务和现实世界数据类型的灵活性。
ChatGPT 的优势在于其操纵这些语气和风格转变的能力,这源于其广泛接触多样化的数据集。其熟练度通过机器学习进一步增强,这使得它能够解码语言的复杂语法基础。这种能力,由机器学习驱动,使 ChatGPT 能够利用算法创建出与人类流畅度相呼应的输出。
因此,机器学习与 ChatGPT 进化的共生关系凸显了向强人工智能发展的轨迹。机器学习对于 ChatGPT 在捕捉语言细微差别、识别模式和随时间改进性能的旅程中至关重要。## 7.2. 使用 ChatGPT 创建新的机器学习方法
机器学习方法的的重要性扩展到多个维度。首先,它们作为改善企业决策的关键盟友(Sedkaoui 2018a;Rich 和 Gureckis 2019)。通过挖掘历史数据,机器学习算法揭示出复杂模式和难以手工识别的趋势。这些洞察力作为决策的强大催化剂,在从产品创新到战略营销活动协调的各个领域发挥作用。
然而,这些算法的力量超越了单纯的决策能力。它与提高运营效率产生了深刻的共鸣。得益于欺诈检测和客户细分等任务的自动化,机器学习算法正在解放员工从耗时的工作中。这为战略追求铺平了道路,推动公司向更高的效率和生产力发展。自动化的红利无疑是变革性的,因为它将人类的认知带宽从常规任务重新分配到需要创造力、创新和高层次战略的活动中(Toubia 和 Netzer 2016)。
机器学习算法可以根据其学习风格大致分为监督学习、无监督学习、半监督学习和强化学习方法。
监督学习算法通过基于标记的输入-输出对示例训练模型以推断目标输出。常见的监督方法包括预测离散目标的分类模型,如逻辑回归和随机森林,以及预测连续值的回归模型。
无监督学习在未标记的输入数据中寻找隐藏的模式和内在结构(Radford 2018;Sedkaoui 和 Khelfaoui 2020)。如 k-means 这样的聚类算法,将数据分组到不同的段中,以及如主成分分析(PCA)这样的降维技术,都是无监督的。
半监督学习在训练过程中结合一小部分标记数据和大量未标记数据集,以提高模型性能。这种方法在利用未标记数据的同时,避免了过度的人工标记需求。
强化学习通过一套给定的奖励和惩罚动作的系统来训练模型在复杂环境中优化行为,而不是基于标记的示例。游戏人工智能通常使用强化学习。
机器学习的应用扩展到我们日常生活的各个方面。以谷歌搜索和其他使用机器学习进行预测搜索和自动补全功能的搜索引擎为例(Sedkaoui 2018a)。
在自动补全的上下文中,输入初始字母会提示搜索引擎展示一个潜在匹配项的下拉菜单。这一功能由谷歌推出,现在已成为搜索引擎的普遍特征。此外,亚马逊、Flipkart 和 Spotify 等公司已在他们的网站上集成了自动补全功能。
预测搜索,作为机器学习的一个方面,与自动补全相一致。它依赖于从用户行为分析中开发的算法,使其能够预测用户行为。Netflix 是这种方法的绝佳例子,因为它研究活跃用户的观看习惯,以了解他们的偏好,然后提供个性化的推荐。
ChatGPT 通过类似程序优化模型性能的潜力引人注目。在机器学习的背景下,ChatGPT 可以简化自动补全和预测搜索功能(Wiles 2023)。通过这样做,它可以提高这些功能的效率和准确性,以及它们在其他应用中的使用方式,例如改善业务流程、客户服务互动和内容生成。
大型语言模型如 ChatGPT 最有希望的应用之一是与人类合作,为解决复杂的机器学习问题设计创新的新方法。ChatGPT 已经展示了其创造潜力,可以增强探索未知领域中的构思过程。
一个关键优势是 ChatGPT 能够消化关于当前研究状态、数据特征和任务目标的具体细节,然后提出适合用例的新模型架构或算法修改。
例如,数据科学家可以描述卷积网络在处理 3D 医学成像数据方面的局限性,并提示 ChatGPT 提出可能适用于体素输入的替代方法。ChatGPT 可能会提出将 2D 卷积扩展到 3D 或使用基于体素的编码器来整合空间关系等想法。
数据分析师可以通过多个提示与 ChatGPT 互动地积极讨论不同概念模型的优点、变体和组合。这促进了结合现有方法优势的新混合技术。通过外部解释其自然语言创作过程(Hilton et al. 2021; Tamkin et al. 2021),ChatGPT 使数据分析师能够引导和协调创新。
如 表 7.1 所示,很明显,ChatGPT 为优化和加速应用机器学习过程提供了巨大的潜力,包括数据处理、模型创建和机器学习工程。
对于数据准备,ChatGPT 可以根据自然语言提示自动化核心步骤,如数据源链接、清理、预处理和特征工程。这为建模提供了先发优势。
在模型构建中,ChatGPT 可以快速原型化一系列具有可配置超参数的机器学习算法。这促进了比较和选择最佳方法。ChatGPT 还可以解释模型性能和行为,以支持调整。
对于机器学习工程,ChatGPT 可以生成管道、工作流程和监控系统的基础代码,专家们对其进行优化而不是从头创建。它还可以提供解释和文档。
在整个生命周期中,ChatGPT 使专家能够以更高的抽象级别进行操作,而 AI 则根据会话输入管理耗时的工作执行。这种增强的生产力和速度在应用机器学习中释放了新的潜力。机器学习工程的未来在于人类和 AI 强度的协作。
因此,尽管它们是 ChatGPT 本身的基础,但机器学习算法可以从生成式 AI 提供的诸如直观界面、自动化编码和混合倡议创造力等特性中获益良多。ChatGPT 承诺将机器学习应用提升到新的水平。
ChatGPT 的使用使得创建机器学习项目的流程比以往任何时候都更加透明。通过创建后续提示并评估输出,数据分析师可以有效地训练模型以满足用户查询,并轻松快速地提供有价值的见解。
通过提示 ChatGPT 为各种类型的数据和机器学习挑战生成模型,随着时间的推移,可以积累候选架构和算法库。这个启动点代码库加速了未来的构思和实验。
通过本质上扩大头脑风暴团队,ChatGPT 有潜力极大地扩展数据分析师的创造性范围以及新技术提案、分析和原型设计的速度。这种加速的创新周期将为机器学习能力开辟新的天地。
一旦新的机器学习方法被概念化,将想法转化为可执行的代码通常会给实施带来相当大的负担(Sedkaoui 和 Khelfaoui 2020)。对于数据科学家来说,从头开始编码复杂的神经网络架构可能需要几周时间。然而,像 ChatGPT 这样的大型语言模型通过自然语言代码生成显示出自动化这项编程工作的革命性潜力。
他们不必费力地编写新的模型代码,而是可以用普通语言描述模型规范、数据流和算法。然后 ChatGPT 可以在 Python、TensorFlow 和 PyTorch 等语言中生成完整的模块和原型。例如,数据分析师可以指定用于处理序列数据的基于注意力的 RNN 模型的结构。ChatGPT 可以生成实现所述架构的可执行代码。
这使得从构思到实施可以快速过渡,绕过了手动编码的沉重负担。其他想法可以并行进行实证测试。随着结果的到来,迭代调整也变得更快。原型作为数据科学家定制的功能起点,而不是从头开始创建。随着时间的推移,可以积累用于常见机器学习构建块的可重用模块库。
通过自动化编程的常规方面,生成式 AI 使人类专家从机器学习中解脱出来,专注于战略工程和与机械编码相关的有影响力的创新。这引发了一波实验和应用,放大了工程生产力。他们的未来角色将是协同引导 AI 工具执行技术任务,同时解决现实世界问题。这种人类与 AI 优势的合作将开辟机器学习的新可能性前沿。
虽然像 ChatGPT 这样的生成式 AI 已经在机器学习应用方面展现出相当大的潜力,但其影响深远,不仅涉及机器学习实践的形成,还涉及机器学习研发的进步。特别是,两个高影响力能力脱颖而出。
7.3.1. 优化机器学习工程
ChatGPT 在模型架构、数据工程、机器学习工程和基于云的机器学习算法基础设施等主题上展示了深厚的专业知识。这些知识可以应用于优化机器学习工作流程和机器学习工程系统。
例如,数据分析师可以描述他们的模型训练流程,并要求 ChatGPT 提出优化建议,如分布式训练方法、超参数调整工具和调试技术。对于生产模型,ChatGPT 可以建议监控解决方案、数据验证检查和重新训练率。
实质上,它提供了一个始终可用的机器学习顾问,可以回答问题、生成模板代码并确保最佳实践。这提高了生产力。
7.3.2. 混合模型创新
此外,ChatGPT 特别适合将不同建模范式的优势结合成新的混合体。例如,它可能会建议将图神经网络半监督知识表示能力与 LSTMs 的顺序能力相结合,或者将深度学习架构与概率图模型元素相结合。
结合多种技术的优势是提升能力的一个有希望的方向。通过在机器学习子领域编码知识,
ChatGPT 可以合成由人类组织的专业知识和其自身新兴联系共同驱动的创新混合组合。
这种在优化工程的同时,在建模新前沿进行创新的双管齐下方法展示了 ChatGPT 在自动学习方法中提高数据分析师生产力的巨大潜力。它既是合作者,也是倍增器。
ChatGPT 对机器学习概念和算法的掌握使其能够充当一个始终可用的优化助手。它既提供战略建议,又自动化了对于人类工程师来说既繁琐又耗时的常规调整任务。
如表 7.2 所示,生成式 AI 的一个重要应用在于其能够通过数据分析师和 AI 之间的协作互动来提高机器学习算法的性能和效率。ChatGPT 通过充当一个随时可用的机器学习专家,在数据分析师优化模型时提供帮助,发挥着至关重要的作用。
表 7.2 使用 ChatGPT 提升机器学习性能
| 机器学习优化方法 | ChatGPT 的作用 |
|---|---|
| 识别优化机会 | 根据模型架构、数据和性能提出改进建议 |
| 架构研究 | 提出模型架构并生成快速原型代码 |
| 超参数调整 | 自动模拟以找到最佳参数组合 |
| 数据增强 | 推荐技术以扩展有限的训练数据 |
| 自适应学习 | 检测数据漂移并使用新数据重新训练模型 |
| 持续重新训练 | 检测漂移并使用新数据重新训练模型 |
| 效率提升 | 就如修剪和量化等技术提供建议,以优化速度和大小 |
他们可以与 ChatGPT 互动,描述他们的模型架构、数据特征和性能指标,寻求关于准确度、速度或计算效率方面潜在优化的命令(Sedkaoui 2023)。例如,ChatGPT 可以提供如下建议:调整损失函数、应用正则化技术、将额外的层或注意力机制纳入模型架构,并根据具体目标、数据特征和模型结果调整优化算法。
此外,ChatGPT 的能力还扩展到自动化超参数调整过程。通过描述搜索空间、约束条件、模型选择和成功标准,数据分析师可以指导 ChatGPT 生成和评估各种超参数组合,以优化模型性能。ChatGPT 快速运行的模拟识别出最佳配置,简化了超参数调整过程。
在持续重训练领域,随着新数据的出现,ChatGPT 成为分析师的快速资源,促进快速模型重训练和结果评估。它有助于确定是否需要进一步的微调,使自适应调整能够适应变化的数据模式。得益于其实时建议、自动化能力和迭代性质,它使数据分析师能够主动优化他们的机器学习算法,提高效率。与 ChatGPT 的协作交流导致机器学习解决方案优化的指数级改进。
架构研究是 ChatGPT 展示其潜力的另一个领域。通过允许分析师描述他们的问题和目标,ChatGPT 可以建议各种模型架构、连接模式和层配置以供实验。它更进一步,为最佳候选人生成代码片段,加快原型设计和比较过程。这扩大了数据分析师可以有效地探索的设计可能性范围。
数据增强,一种对模型训练至关重要的技术,也得益于 ChatGPT 的参与。在图像数据场景中,ChatGPT 建议旋转、裁剪和颜色变化等增强,这些增强针对特定问题量身定制。对于文本数据,它推荐诸如释义、回译和混合多个样本等策略,从而提高训练数据集的多样性和鲁棒性。
在自适应学习的背景下,ChatGPT 的贡献不仅在于检测不利的数据漂移,还在于促进快速模型重训练以适应新出现的模式。这种持续学习机制保证了机器学习解决方案的持续准确性和相关性。
最后,ChatGPT 提出效率改进建议的能力,包括蒸馏、剪枝、量化和优化编码等技术,增加了其作为优化器的多功能性。这些建议侧重于提高模型速度、减小尺寸和优化资源使用,同时保持性能的准确性。
所有这些都有助于提高生产力和性能——使分析师能够通过迭代协作循环、人工监控和 AI 执行来主动提高模型的准确性、鲁棒性和效率。通过结合他们的优势,组织可以创建动态学习并适应不断变化的现实世界条件的优化机器学习解决方案。## 7.4. 利用 ChatGPT 增强机器学习算法的潜力
监督学习和无监督学习在人工智能领域呈现两种不同的范式,各自提供独特的优势和权衡。这些算法能够从大型数据集或现实世界的观察中获取知识(Sedkaoui 2018a)。由于这些数据集来自各种来源,并以各种形式存在,其分析可能相对复杂。正是这种复杂性赋予了这些算法在不需显式编程的情况下教会机器的能力(Samuel 1959)。
机器学习算法识别特定的模式,这些模式有助于学习过程。这种识别与我们在前几章中深入探讨的数据分析的各个阶段密切相关。从这个角度来看,这种算法的分类可以划分为两大类(Sedkaoui 和 Khelfaoui 2020):通过在已知特征的数据集中寻找模式来识别结果并促进学习的监督算法,以及处理没有预定义类结构的输入数据的无监督算法。
一系列技术属于这两类,可用于数据分析。我们在表 7.3 中展示了最常用的算法。
表 7.3 算法的各种用途与 ChatGPT 的作用
| 分析 | 技术 | 学习模式 | 需要解决的问题 | ChatGPT |
|---|---|---|---|---|
| 角色 | 示例 | |||
| --- | --- | |||
| 简单 | 简单/多元回归 | 监督学习 | 回归 | 自动化特征工程 |
| 简单贝叶斯 | 监督学习 | 分类 | 识别缺失或错误数据 | 识别训练集中的数据错误 |
| 逻辑回归 | 监督学习 | 分类 | 建议数据转换 | 推荐数据转换以获得更好的模型拟合 |
| 线性判别分析 | 监督学习 | 聚类 | 生成快速原型代码 | 提供此模型的 Python 代码模板 |
| K-means | 无监督学习 | 聚类 | 解释并命名簇 | 总结分析中每个组的关键特征 |
| 层次分类 | 无监督学习 | 聚类 | 解释并命名簇 | 总结分析中每个簇的主要特征 |
| 复杂 | 决策树 | 监督学习 | 分类/回归 | 优化超参数 |
| 随机森林 | 监督学习 | 分类/回归 | 生成合成数据 | 为不平衡数据集生成新的训练样本 |
| 支持向量机 (SVM) | 监督学习 | 分类/回归 | 建议模型架构并优化超参数 | 提出文本分类任务的 SVM 核类型,并调整 SVM 正则化核参数 |
| 神经网络 | 监督 | 分类/回归 | 解释预测 | 解释神经网络的分类决策 |
| K 最近邻 | 监督 | 分类/回归 | 识别异常值 | 在训练数据中检测潜在的异常值 |
| 贝叶斯网络 | 监督 | 分类、概率预测 | 分析变量之间的依赖关系 | 评估数据集中变量之间的依赖关系 |
| 高斯混合模型 | 无监督 | 聚类、密度估计 | 确定最优组件数量 | 根据数据确定理想混合组件数量 |
| 生成对抗网络 | 监督,无监督 | 现实数据生成 | 生成新数据 | 生成保留原始模式的新合成数据 |
| 自动编码器 | 监督,无监督 | 维度降低,异常检测 | 确定最重要的维度/特征 | 识别数据集中的异常数据点。确定哪些数据维度最重要 |
监督机器学习,其中模型从成对的标记训练数据中学习,一旦存在足够的注释,就擅长做出预测和数据驱动决策(Rich 和 Gureckis 2019;Sedkaoui 2023)。分类、回归、预测和排序都由监督算法在人类标记的示例上提供动力。这种方法自上而下地将人类考虑编码到模型中。然而,获取全面、高质量的训练标签可能很困难。
另一方面,无监督学习提供了一种自下而上的方法,可以在没有人类辅助的情况下发现未标记数据中的结构和模式。聚类、维度降低、关联规则挖掘和密度估计是关键的无监督技术。这使得在注释困难、主观或稀疏的情况下处理数据成为可能。无监督学习为监督方法可能错过的盲点提供了一个视角。
这些技术是互补的。无监督学习通常用于探索性分析和特征表示的发现,这些可以随后用于加强监督模型。半监督方法将少量标记数据集与较大的未标记语料库相结合。自监督学习作为目标无监督预训练的特殊情况,从数据中创建人工监督信号。掌握光谱两端的技能可以使各种挑战与适当的学习范例相匹配。正如人类从指导和经验中学习一样,人工智能系统也必须整合监督和无监督学习以实现稳健的智能。
在这种背景下,一个问题是生成式 AI 技术,如 ChatGPT,在生成额外的合成训练数据以改善这些算法的性能方面能有多大贡献。这种数据生成能力能否弥补训练数据集的限制,从而在监督学习和无监督学习中都提高结果?这些考虑为将监督学习和无监督学习的优势与生成式 AI 的手段相结合提供了令人兴奋的前景。
对于监督学习算法来说,它们依赖于大量的标记训练数据集来学习从输入到目标输出的有效映射。然而,在实践中获取足够的高质量训练数据可能具有挑战性且耗时(Sedkaoui 2023)。这就是像 ChatGPT 这样的生成式 AI 模型在帮助通过知识驱动的伪标记和特征丰富策略以及自然语言能力来增强有限的人工标记示例方面显示出巨大潜力的地方。
例如,ChatGPT 可以通过生成具有伪标签的多样化主题和语言风格的额外代表性合成样本,快速扩展情感分类模型的有限训练数据。这提供了更广泛的覆盖范围,并防止模型在狭窄的标记示例上过拟合。通过与人类专家的对话,ChatGPT 还可以通过交互式标记和重新标记任何错误标记的示例来提高训练数据的质量,清理错误。
与此同时,ChatGPT 通过从纯文本、图像或表格数据中提取高级语义表示来丰富监督模型中引入的输入特征的能力同样具有重大影响。更丰富的特征可以提高模型的可泛化性和可扩展性。ChatGPT 还可以根据性能目标和数据特征,建议尝试最优的模型架构和超参数,从而自动化繁琐的试错实验。
无监督学习算法在不依赖人工标记示例的情况下,在未标记数据中发现隐藏的结构。通过揭示模式、集群和内在表示,无监督技术增强了预测建模和决策(Siegel 2013; Sedkaoui and Khelfaoui 2020)。然而,它们的探索性本质在解释结果和将发现与商业价值对齐方面提出了挑战。这正是像 ChatGPT 这样的智能系统通过提供交互式界面来引导和情境化无监督学习,展现出强大合作潜力的地方。
例如,ChatGPT 可以通过自然语言讨论帮助识别与商业问题相关的新的未标记数据集,从而为无监督建模提供动力。这缓解了数据限制。ChatGPT 还可以提供业务背景,帮助解释无监督算法生成的聚类、维度和段落的语义含义。这弥合了技术结果和战略目标之间的差距。此外,通过与 ChatGPT 对话,数据科学家可以根据需求的变化指导分析,将人类判断应用于传统上盲目操作的无监督技术。最后,ChatGPT 可以快速测试无监督算法、参数和数据排列的排列组合,加速迭代改进。
监督机器学习技术,如回归或神经网络,依赖于大量标记数据来学习。ChatGPT 可以通过自动化特征工程、生成合成数据以补偿数据集有限和解释复杂模型的预测来增强它们。对于无监督方法,如 k-means 聚类,ChatGPT 有助于解释和命名发现的聚类。对于高级技术,如贝叶斯网络,ChatGPT 加快了变量之间依赖关系的分析。对于自动编码器,它可以识别捕获的最具信息量的数据维度。
如表 7.3 所示,ChatGPT 能够支持广泛的机器学习技术,从最简单的到最复杂的。得益于其对话能力,它可以加速数据管道的每个阶段,从算法建议到模型优化和快速原型设计。该表总结了可能对增强从业者能力做出的多样化贡献。ChatGPT 为 AI 开发者和 AI 知识之间的富有成效的合作铺平了道路。这种合作预示着机器学习未来的重大进步。
更普遍地说,ChatGPT 的深厚技术知识使其能够提出适应数据和目标模型的架构。它自动化超参数的优化以提高性能。它还生成代码以快速原型设计想法。因此,其对话辅助功能增强了用户和机器学习从业者的能力。
不论是简单还是复杂的算法,监督还是无监督算法,ChatGPT 都大大加快了从数据到部署的过程。它通过人机协作引领了人工智能创新的新时代。数据科学家在优化端到端机器学习管道方面获得了一位合作伙伴。
现在我们已经涵盖了优化工作流程、加速创新和普及访问的机会(Von Hippel 2006),第八章将重点放在一个同样重要的主题上:通过直观和引人入胜的数据讲述和报告将这些分析视角付诸实践。
在开发模型之后,组织需要知道如何以令人信服和负责任的方式向各种受众传达结果(Sedkaoui 2018b)。在这方面,ChatGPT 也显示出强大的自动化报告潜力,前提是人类的监督确保了沟通的准确性、客观性和战略相关性。让我们继续在第八章中进行探索! # 8
叙事魅力:数据驱动的故事和报告
深入的数据分析只有在以引人入胜的方式向利益相关者传达时才会产生影响力。将技术洞察力转化为引人入胜的故事是数据时代的一项基本技能。在本章中,我们将探讨智能助手如 ChatGPT 如何帮助从数据中生成吸引注意力和以简单方式传达复杂思想的故事和报告。
我们将探讨自动化编写交互式仪表板和制定引人入胜的故事计划的用例。ChatGPT 在通过视觉和自然、引人入胜的语言使数据生动起来方面显示出巨大的潜力。然而,人类验证仍然是必不可少的,以确保准确性、避免偏见并使叙事与业务目标保持一致。
人工智能的创造力和人类智慧的结合正在为高附加值报告和展示的新时代铺平道路。通过本章,我们将学习如何利用 ChatGPT 将技术分析转化为鼓舞人心的故事,这些故事能够激发你的受众并促进你组织中的数据驱动文化。让我们开始这次激动人心的探索吧!
8.1. ChatGPT 用于生成数据叙事计划
数据叙事是一种超越原始统计数据领域的艺术形式,它将统计数据转化为既具有信息性又具有吸引力的叙述(Sedkaoui 2018a)。这种艺术形式作为传达复杂概念的有力工具,架起了复杂数据与人类理解之间的桥梁。
这一过程的核心是不可缺少的数据叙事计划概念。这些计划作为建筑蓝图,确保数据故事被精心构建并准备好实现其目标。为了使数据叙事计划有效,它需要由几个相互整合的组成部分组成,完美地交织成一个连贯的整体。
任何数据叙事计划的根本要素是对基础数据的清晰理解。这一基本步骤需要全面了解数据的来源、其固有的限制以及其数字线索中包含的丰富信息。
同时,一个明确定义的受众为创建引人入胜的数据故事提供了一个指南星。通过精确描绘目标受众的轮廓,讲述者获得了调节故事语气、深度和广度的手段。故事的影响力在于它与受众先前知识、兴趣和期望的一致性,这使得它能够以更高的精确度达到目的地。
明确目标的重要性被整合到叙事数据计划中。每个数据故事都必须有一个清晰可辨的目的作为支撑。无论目标是启迪、影响还是吸引,叙事的轨迹和影响都取决于这一目标的简洁阐述,引导每一个词和可视化朝着一致的目的前进。
故事的骨架是其结构,数据叙述也不例外。精心绘制的叙事结构确保数据故事以逻辑顺序展开,从开始就吸引注意力,随着展开创造好奇,在其高潮时提供令人满意的结局。开始、中间和结束的三位一体架构推动观众进行探索、理解和反思的感官之旅。
可视化,数据画布上的生动笔触,使这些故事栩栩如生。数据故事在视觉辅助的辅助下蓬勃发展,这些辅助将抽象的数字转化为具体的信息。这些图形展示不仅增强了参与度,还促进了理解,使我们能够感知到仅凭文字可能难以传达的模式和关系。
当叙事达到高潮时,叙事接力棒传到了行动呼吁。一个感人的数据故事以行动请求告终,呼吁将新的认识转化为具体步骤。这一最后元素催化了从被动参与到主动贡献的转变,无论是通过访问网站、签署请愿书或捐款,从而在故事和接收者之间培养出共生关系。
在数据故事讲述的交响乐中,每个元素都与下一个元素和谐共鸣,创造出超越数据表格和图表局限性的作品。得益于周密的规划,数据故事从简单的事实混合体演变为一部沉浸式体验,启迪、赋权并娱乐其受众,在他们的感知和行为上留下不可磨灭的印记。

图 8.1 ChatGPT 在叙事数据规划过程中的潜力
创建引人入胜的数据故事需要周密的计划和结构。ChatGPT 可以在整个过程中提供宝贵的帮助。但现实中,ChatGPT 如何与人类团队在规划和设计数据驱动叙事的关键要素上协作,以确保最大程度的相关性、参与度和影响力(Sedkaoui 2023)?图 8.1 展示了这个问题的答案,并描绘了开发数据叙事的必要组件以及 ChatGPT 在每个阶段可能扮演的角色。
ChatGPT 可以就关键规划要素进行协作,从理解数据集到塑造叙事流程和解释。它的知识和生成能力为团队提供了一个坚实的起点,以便进一步细化并个性化数据叙事,以实现最大程度的相关性和影响力。
首先,ChatGPT 通过自然语言提示自动生成摘要、统计数据和表格来加速数据理解。这阐明了思想和关系。
然后,在定义目标受众时,ChatGPT 可以根据受众类型提出最佳框架——使复杂细节对非技术群体易于理解,或为数据科学家增加技术严谨性。
ChatGPT 还有助于根据分析目标和关键要点开发叙事弧和流程,确保针对目标受众的逻辑思想顺序。
对于数据可视化,ChatGPT 提供了尝试不同图表类型和设计的创意启动建议。它还创建了解释示例和类比,以向不同受众阐明概念。
最后但同样重要的是,ChatGPT 擅长提出有力的行动号召,这些号召基于预期的信息和结果来动员受众。
在每个阶段,ChatGPT 都提供了一个坚实的起点,以细化对商业需求的微妙理解。
类似于 ChatGPT 的生成式 AI 模型可以与数据团队合作设计这些沟通计划,以确保报告的共鸣。通过描述关键方面,如目标受众、数据洞察、分析目标和期望的叙事弧,ChatGPT 可以提出沟通框架、顺序、解释类比和定制可视化,供潜在包含。这为与创意人员和指令的讨论和细化提供了一个坚实的起点。
例如,数据分析师可以向 ChatGPT 告知通过预测模型检测到的客户流失趋势的关键趋势。然后,他们可以提示它提出一个引人入胜的场景,将分析的“啊哈”时刻转化为直观的流程。这可能涉及在深入研究流失因素之前揭示客户群体之间的模式。数据分析师可以通过描述他们的兴趣和数据掌握程度来引导 ChatGPT 调整叙事以适应高管利益相关者和技术方。
在这个背景下,ChatGPT 可以提供与每个受众产生共鸣的解释性类比和例子。通过协作头脑风暴,团队可以访问 ChatGPT 丰富的沟通知识,同时应用对商业信息需求和人才能的理解。这种创造性的协同作用转化为具有高影响力的数据故事,教育并激活受众。## 8.2. 文字的魅力:自动化编写数据驱动型故事
强有力的数据讲故事不仅需要周密的计划,还需要在编写令人信服的故事中巧妙地执行。这正是生成式 AI 及其 ChatGPT 智能代理在自动化将分析洞察转化为引人入胜的故事方面极具前景的地方。
数据驱动型叙事创作涉及使用数据构建一个结合信息和参与度的故事。这种技术作为传达复杂概念给广泛受众的工具,效果非常显著。
传统上,数据驱动型叙事的发展特点是漫长而繁重的过程。然而,像 ChatGPT 这样的高级语言模型的兴起已经彻底改变了这一领域,使得数据驱动型故事创作的自动化成为可能。
ChatGPT 提供涵盖文本生成、语言翻译、多样化内容创作和回答信息查询的能力。此外,它正处在简化编写数据驱动型故事复杂工作的边缘。为了通过 ChatGPT 自动化编写数据驱动型故事的过程,我们需要向 AI 提供以下详细信息:
-
用于叙事构建的数据集;
-
故事的目标受众;
-
故事的整体目的,包括如告知、说服或娱乐等目标。
带着这些输入,ChatGPT 开始进行文本生成任务,产生一个与数据洞察交织在一起的故事。这个输出被精心定制,以满足目标受众和叙事指定的目标。此外,它还具有启发、沉浸和易懂的特点。
表 8.1. 使用 ChatGPT 进行自动化数据讲故事
| 步骤 | ChatGPT 功能 | 示例提示 |
|---|---|---|
| 概述故事 | 生成详细的叙事概要和关键点,并提出令人信服的叙事弧线和结构 | “为基于我们销售数据的博客故事提供一个五段式的概要” “提出一个引人入胜的叙事弧线,向高级管理层解释我们的 A/B 测试结果” |
| 撰写初始草稿 | 生成完整的草稿叙事,用易于理解的语言解释数据洞察 | “用一篇简短的博客文章总结这份客户研究报告的关键洞察,面向非技术受众” |
| 驱动数据视觉化 | 建议图表、图表和表格来可视化数据和发现 | “如何展示这些数据中描述的过去一年网站流量趋势的最佳方式?” |
| 精炼故事元素 | 根据反馈修订、扩展或重新格式化文本和视觉元素 | “为这份草案的这一部分添加更多解释性例子以阐明” |
| 撰写引言 | 撰写吸引人的引言段落 | “撰写一个吸引人的引言段落,概述这份分析演示文稿的主要思想” |
| 生成解释 | 结合解释性例子和类比 | “用与我们营销团队产生共鸣的类比和例子丰富这些数据分析发现” |
| 添加故事元素 | 包含相关的轶事和叙事元素 | “在此处添加一个说明这一数据点客户摩擦的轶事” |
| 修改语气和风格 | 根据不同的受众调整语气和风格 | “修改这份草案的语气,使其对我们高管利益相关者更加正式” |
通过提供 ChatGPT 的关键数据输出、沟通计划和受众需求,它可以生成书面故事草案、幻灯片、电子邮件和其他格式,使用生动的语言、类比和针对收件人的例子,以直观的流程有说服力地传达关键信息(Sedkaoui 2023)。
例如,数据记者可以向 ChatGPT 提供从选举民意调查数据中发现的有趣趋势,并让它生成一份文章初稿,以清晰、非技术性的语言引导读者通过分析,并穿插解释性隐喻。自动生成的草案允许故事经过优化以获得最大程度的参与,而不是从头开始。
对于视觉幻灯片,数据团队可以提示 ChatGPT 创建幻灯片标题、解释性文本,甚至建议定制图形,以在具有影响力的演示中生动地呈现数据。这为设计师提供了一个起点,然后他们可以进一步完善视觉流程和品牌形象。
在数据编织复杂叙事的时代,通过 ChatGPT 自动化数据驱动的讲故事带来了许多引人注目的好处。
通过 ChatGPT 自动化数据驱动的故事提供了众多优势。它不仅节省了宝贵的时间和精力,还保证了故事的准确性和公正性。这种方法能够创建针对不同受众量身定制的叙事,从而在过程中提高参与度和视觉吸引力。
不仅仅是数字的汇编,数据本质上讲述着能够阐明复杂模式和洞察力的故事。在 ChatGPT 的引领下,这个过程不仅节省了宝贵的时间和精力,而且以无与伦比的准确性和公正性为基础。
当数据揭示其故事时,这种方法赋予讲述者创造与不同受众产生共鸣的叙述的能力,在整个过程中增强参与度和视觉吸引力。
多亏了这种协同作用,ChatGPT 成为一个强大的创意合作伙伴,协调自动化创建数据驱动的故事,巧妙地结合信息、吸引力和有效性,邀请观众进入一个故事不仅提供信息,还能激发灵感和行动的领域。
ChatGPT 提供了一种快速获取页面上的初步想法和文本的方法,使得人类创作者能够进一步优化材料,以达到最大的共鸣和战略一致性。通过联合力量,可以更快地开发出强大的数据故事。然而,人类监督仍然是保证准确性、避免偏见并撰写高质量故事的关键。ChatGPT 的自动化需要战略性地引导,并在外部使用前仔细验证。## 8.3. 交互式仪表盘与 ChatGPT 的独创性
交互式仪表盘是数据可视化和数据分析结果领域的一个基石,为用户提供了一个动态的平台,让他们可以从多个角度探索数据,揭示趋势和模式,从而促进基于信息的决策。这些仪表盘中封装的交互性、可视化和个性化,创造了一种多角度探索和理解数据的方法。
交互式仪表盘的出现预示着数据分析领域的一次变革,使该领域民主化,甚至让那些技术能力有限的人也能使用(Sedkaoui 2018a)。这种民主化至关重要,因为它将数据挖掘的范围扩展到数据科学家和分析师之外,为从寻求战略信息的高级商业领导者到组织各个角色的人员打开了大门。
多亏了生动着色的表格、图表、地图和其他视觉辅助工具,用户能够识别出在原始数据的错综复杂结构中可能隐藏的图案、异常和相关性。交互性与可视化的结合增强了这一过程,使用户能够实时缩放、过滤和操作可视化,提供数据景观的细致视图。
定制化是一个强大的属性,突出了交互式仪表盘的通用性。用户有能力根据他们的独特需求定制这些仪表盘。无论是公司需要跟踪离散的绩效评估指标,还是数据分析师希望检查特定数据点以获得洞察,仪表盘的灵活性确保了它与用户目标的一致性。
由于交互式仪表板中固有的共享功能,协作被提升到了一个新的水平。团队可以在以数据为中心的项目上无缝协作,超越地理障碍和时间限制。实时分发和合并信息的能力促进了不同观点的融合,这对于支持复杂且快速变化的商业环境中的明智决策至关重要。
利用 ChatGPT 的能力,创建仪表板及其精炼直至最终迭代的过程可以在几分钟内完成。这里的显著成就在于 ChatGPT 在加速和简化为数据分析和相关活动设计的交互式仪表板创建中扮演的决定性角色。
这种速度的提高不仅加速了探索性数据分析(EDA)阶段,并促进了超参数调整结果的可视化(Sedkaoui 2023),而且还简化了发现信息的传播。因此,这种动态的 ChatGPT 集成不仅使快速开发成为可能,而且加速了洞察力的传播,在几分钟内就改变了有效沟通的格局。
随着 ChatGPT 的普及率飙升,分析师们必须紧跟最新的工具和技术,同时探索如何无缝地将 ChatGPT 集成到他们的流程中。然而,按照惯例,创意过程是以迭代为标志的——创建、测试、改进和进一步的测试,这是一个推动进步的迭代舞蹈。这个过程的开端是从构建一个数据集开始的。
想象一下,只需对 ChatGPT 轻声一呼,就能创建一个仪表板的可能性。想象一下这个场景:通过提示,我们可以触发一系列事件,这些事件由像 Code Interpreter 这样的插件的创新性所驱动。让我们来看看这个转变是如何发生的机制:
-
这个过程从关键的一步开始:阐述仪表板的目标。数据中包含着怎样的故事,我们寻求揭示哪些见解?与 ChatGPT 的初始对话触发了你的意图图。
-
从那里,一幅由不同来源——数据库、电子表格、API——编织而成的数据织锦开始出现,每个来源都为整体故事做出了贡献。在下一阶段,数据准备成为焦点,原始数据被清理、结构化和协调,以便无缝集成到叙事仪表板中。
-
选择仪表板工具就像选择画家的画布一样。这个景观丰富多彩,充满了 Tableau、Power BI、Looker、Python 等工具。每个工具都提供了一种独特的调色板,将数据转化为生动的可视化效果和交互性,绘制出与你愿景产生共鸣的画布。
-
现在,故事开始成形。在您低声提示的引导下,仪表板工具将数据转化为动态可视化。通过调整和精炼,旅程随着交互性融入您的创作之中。
-
接下来的关键步骤是测试仪表板的用户友好性和视觉显示的清晰度。这些见解是否明显,导航是否直观?我们寻求保证,以确保用户能够轻松地从仪表板中获取价值。
-
揭幕,这场盛大的终章,预示着您的作品向世界展示的时刻。交互式仪表板,数据与设计的交响乐,准备为他人提供可操作的见解,为明智的决策奠定基础。
在深入探讨细节时,插件作为无价之宝的工具,丰富了交互性的织锦。Plotly、Dash、代码解释器和 Streamlit——这些插件以多才多艺和创新为画笔,注入活力和用户参与度。每个插件都提供独特的优势,针对您独特的叙事。
这些建议如同创意星系中的导航星,清晰明了的标签引导用户在视觉区域中导航,而色彩编码则精确地传达数据叙述中的细微差别。工具提示突显隐藏的宝藏,为深入理解提供了一条途径。考虑到移动时代,设计适应性确保了您的仪表板覆盖范围无界限。设计的一致性促进了整体性,而外部视角则在您的作品面对世界之前对其进行精炼。
本质上,从简单提示到功能交互式仪表板的转变,是创意、技术和洞察力的炼金术。代码解释器——一个思想的通道——与数据、可视化和交互性合作,施展其变革性的魔法。在你面前展开的可能性画布,仪表板设计的未来是低语、创新和从数据交响曲中创造引人入胜叙事的力量。
在以用户为中心的设计领域,理解用户需求和目标至高无上,选择适当的设计组件和无缝集成 ChatGPT,为渴望将仪表板设计提升到前所未有的专家们指明方向。
在深入探讨 ChatGPT 在仪表板设计工作流程中的变革潜力之前,回顾传统方法至关重要。传统上,专家们会从明确仪表板的目的开始,继续收集所需的数据和视觉组件。随后,仪表板布局会精心定制以满足用户偏好。最后一步将涉及手动数据输入和劳动密集型的数据处理,以塑造视觉展示和简洁的总结。
虽然这种经过验证的方法可以产生结果,但它并非没有挑战。传统方法往往耗时且易出错(Liebrenz 等人 2023)。手动流程可能会无意中阻碍设计团队的敏捷性,抑制实验和迭代演化的潜力。传统仪表板设计的繁重性质往往抑制了探索创新解决方案所需的创意自由。
鉴于这些挑战,将 ChatGPT 集成到仪表板设计之旅似乎是一个创新的灯塔。融入 ChatGPT 的专长可以显著减轻手动方法的缺点,加快设计过程并降低错误风险。通过自动化某些方面,我们获得了专注于创意构思和战略决策的自由,最终为迭代实验和精炼铺平道路。
通过调整提示,这个生成式代理可以建议甚至帮助生成定制的数据可视化,如表格、图表和地图,这些可视化直观地传达了复杂数据集中关键趋势和关系。
分析师可以提供针对特定业务问题和受众需求的相关背景。然后,ChatGPT 可以提供带有定制可视化交互(如过滤器、工具提示和交叉高亮)的仪表板原型,讲述定制的数据故事。例如,营销人员可以向 ChatGPT 提供活动性能指标,并让它设计一个显示跨渠道、创意、细分市场和时间段趋势的交互式仪表板。这提供了一个实用的分析概览。
对于一线团队来说,ChatGPT 可以帮助创建一个包含员工地域和目标的销售数据地理视图。自动化为随后以最佳功能、可用性和品牌进行生产可视化精炼提供了一个坚实的基础。
通过结合人工智能的视觉能力和人工监控,仪表板从静态报告转变为互动叙事,有意义地吸引观众,使数据探索直观且影响深远。## 8.4. 协议的核心是人:生成式人工智能中人类独创性的印记
在数据驱动叙事的复杂织锦中,一个常被忽视的方面是,人类不仅作为用户,还作为支撑它们的 AI 系统的创造者和架构者所扮演的核心角色。人类深远的影响体现在生成式 AI 模型如 ChatGPT 的创建、发展和使用中,它们被视为人类独创性的见证和人类视角的反映。人类洞察力和机器生成辅助之间的共生伙伴关系是创建准确、信息丰富且符合伦理的叙事的基础。
人类辅助的必要性在整个范围内持续存在,原因有几个:
-
上下文与解释: 尽管 ChatGPT 能力非凡,但它仍然受限于其编程的限制。它缺乏理解渗透于人类语言和文化的复杂细微差别的能力。在这里,人类作为关键的建筑师出现,赋予了将上下文和解释融入数据生成叙事的能力。这种人文关怀通过将它们与对主题的更深入理解相结合,提升了故事和报告的质量。
-
错误检测: ChatGPT 的发展轨迹表明,它也容易出错. 尽管它经历了显著的演变,但它有时会在生成数据中产生不准确之处。在这里,人类敏锐的目光在扫描输出时大放异彩,巧妙地识别差异并加以纠正。这种人类警觉性和人工智能辅助的相互作用加强了数据叙事可靠性的基础。
-
反馈循环: 数据领域广阔且往往错综复杂。在这样的复杂领域,人类从一系列数据点中辨别意义的能力仍然无与伦比。通过向 ChatGPT 提供评论,人类关注最相关的数据,丰富了生成的故事和报告的质量。这种协作协同作用促进了一个持续的学习循环,提高了人工智能辨别相关性的能力。
-
交互式仪表板: 交互式仪表板领域将人类独创性和人工智能能力的和谐融合凸显出来。ChatGPT 带来了生成数据驱动洞察力的专长,而人类则介入设计视觉吸引人、用户友好的仪表板。这些精心设计的仪表板,旨在与用户产生共鸣,成为将数据故事转化为有意义信息的渠道。
-
超越机械性: 人类与 ChatGPT 之间的互动背后是一个本质性的方面,它标志着人类贡献的本质。人类裁判引导数据的整理,塑造相关信息的选取和结论的制定。创造力成为一项不可估量的工具,因为人类在原始数据和引人入胜的叙事之间架起桥梁,设计创新的方法来展示和传达复杂的结果。
-
创意舵手: 生成人工智能模型的旅程始于人类的思想之中。这些模型从根本上说是人类智慧构思的反映。从概念化到执行,生成人工智能模型的环境根植于人类的思维过程(Samuel 1959;Sedkaoui 和 Khelfaoui 2020)。这种思想领导力扩展到制定启动与人工智能互动的提示。通过塑造提示,人类赋予了人工智能预定义的方向,使故事带有人类意图的痕迹。
-
发展建筑师:像 ChatGPT 这样的生成式 AI 模型的演变,是人类创新和技术实力的体现。人类精心构建算法,在庞大的数据集上训练模型,并迭代优化其性能。作为 AI 发展旅程的守门人,人类不断优化模型,赋予它们理解上下文、生成连贯文本甚至模仿人类对话的能力。这些模型本质上是人类创造力和努力的果实。
-
洞察力的共创者:人类洞察力和 AI 增强之间的共生互动使得数据叙事完整且富有洞察力。利用 AI 作为工具,人类利用其计算能力分析庞大的数据集,发现模式并提取可能逃过人类肉眼的数据洞察。然而,对这些洞察的解释、框架和语境化仍然是独特的人类努力。AI 驱动的分析和人类驱动的解释的结合,产生了由两种观点丰富化的叙事。
-
道德守护者:随着我们进入 AI 生成模型的领域,人类的道德指南针是不可缺少的引导力量。确保 AI 生成的叙事符合道德标准的责任完全落在人类肩上。快速创作过程是这一角色的生动体现,其中人类决定 AI 操作的参数。这种道德保护确保 AI 叙事尊重包容性、公平性和尊重的价值。在数据驱动决策的时代,人类的道德扮演着核心角色。虽然 ChatGPT 由算法驱动,但人类必须确保从数据中提取的信息被道德和负责任地使用。人类的道德指南针防止数据被用于歧视或侵入性目的,帮助创造反映数据、同理心和责任感的叙事。
-
未来可能性的导航者:超越当前视野,人类引导 AI 演化的轨迹。人类的创造性活力推动生成式 AI 模型的优化,旨在填补理解上的空白并提高叙事的连贯性。随着 AI 模型的发展,人类运用他们的能力克服限制,解锁创造力和精确性的新维度。
人类与生成式 AI 模型之间的关系特征是深刻的共生。提示的起源、AI 模型开发和共创体现了人类独创性和 AI 计算能力之间的动态伙伴关系。虽然 AI 模型增强了叙事创作的某些方面,但故事本身仍然是人类解释、意图和技术增强的和谐融合。在我们共同进化的道路上,我们编织的叙事结构反映了人类和 AI 能力的和谐互动。
尽管生成式 AI 模型如 ChatGPT 可以加速数据讲故事和仪表板创建,但人类监督仍然是验证质量、准确性和道德的必要条件。尽管 ChatGPT 能力强大,但它缺乏真正的语义理解和商业环境。没有人类监督,偏见、误代表和战略对齐的风险就会产生。
数据科学家在发布自动生成结果之前必须彻底检查。这包括检查统计错误、误导性推论或可能无意中渗入的任何偏见。检查仪表板功能的代表性样本可以用来检测数据流或视觉映射中的任何错误。数据和领域科学家还确保信息与组织的敏感性和目标保持一致。
尤其是人类的判断提供了对可能具有误导性、有害或不公平的展示的至关重要的道德保护。ChatGPT 缺乏伦理关系所需的道德推理和责任感。持续的人类指导在 AI 自由写作或设计时强化了护栏和边界。
ChatGPT 在分析吞吐量方面提供了指数级的增长,但深思熟虑的协作释放了结果的业务影响。ChatGPT 在分析过程中的能力,无论是有人类干预还是无人干预,如表 8.2 所示,突显了人类监督的核心重要性。
表 8.2 基于 AI 的协作数据分析以改进 ChatGPT
| 任务 | ChatGPT 无法独立完成的事情 | 在人类验证和指导下 |
|---|---|---|
| 数据收集 | 理解数据业务需求 | 确定要收集的相关数据 |
| 数据准备 | 进行专家验证以确保数据质量和相关性 | 数据质量验证和高级处理 |
| 探索性分析 | 考虑运营环境提供战略解释 | 战略解释和业务环境 |
| 预测建模 | 使用人类判断力选择最佳算法 | 选择最佳算法和模型优化 |
| 讲故事 | 识别和检测偏见,确保道德合规性和准确性 | 验证准确性,检测偏见,战略对齐 |
| 部署和监控 | 深入测试和持续维护 | 广泛测试,持续监控和维护 |
仅凭自身,ChatGPT 缺乏对商业目标和现实世界环境的真正理解。它可以快速生成建议,在数据中找到模式,甚至原型化模型——但价值在于那些解释洞察力、选择最合适的算法并根据他们的判断和专业知识将结果与战略目标对齐的人类分析师。
道德考虑同样重要。ChatGPT 可能会无意中引入偏差或不准确性,如果没有人类验证者检查误导性含义并审计人工智能工作样本,主题专家提供对可能有害输出的基本保护。
即使对于看似基本任务,人类监督仍然是必不可少的,以负责任和高效地引导 ChatGPT。以下是一些额外的思考:
-
ChatGPT 进行公共数据收集需要关注相关来源和业务需求的人类关注。没有这种指导,数据可能会偏离主题或无用。
-
ChatGPT 进行数据清洗和准备必须由专家验证。错误或异常可能在没有人类验证的情况下持续存在。
-
ChatGPT 独立产生的统计和可视化缺乏战略背景,无法进行解释。人类完成了这幅画面。
-
ChatGPT 快速原型化的模型必须由经验丰富的数据科学家评估,以确保其稳健性和与业务目标的契合度。
-
ChatGPT 生成的叙事和仪表板需要人类控制潜在偏差和战略相关性。
简而言之,ChatGPT 的价值在于加速常规分析任务,而不是它们的自主执行。与专家的紧密合作对于最大化利益同时减轻风险至关重要。人类和机器的结合能够实现比单独工作更优越的质量、相关性和道德。未来是结合人类和人工智能最佳能力的数据分析。
然而,实现这些能力的全部潜力需要保持严格的道德、责任和监控。现在,在第九章中,我们讨论了在分析工作流程中负责任和透明地部署生成式人工智能——通过建立明确的保障措施来减轻与偏差、公平性和滥用相关的风险。
虽然 ChatGPT 提供了指数级的生产力提升,但人类指导对于可靠的集成至关重要。我们讨论了诸如迭代反馈循环等策略,以持续地将 ChatGPT 的结果与分析过程的需求相一致。我们还探讨了通过透明度在限制和供应中建立问责制的技巧。 # 9
手中的力量:道德、定位和使用
生成式人工智能的快速发展承诺通过提高生产力、可访问性和洞察力来彻底改变数据分析。然而,实现这一潜力需要深思熟虑的治理来维护道德、信任和问责制。无管理的采用可能带来不负责任和破坏性的后果。
在本章中,我们探讨了在分析工作流程中负责任地使用智能模型(如 ChatGPT)的策略——包括建立人类保障来引导技术能力向积极目标发展。
首先,我们讨论如何理解偏差的局限性,并确保在何时以及如何适当地应用 AI 辅助时的透明度。接下来,我们检查如何通过迭代反馈循环将 ChatGPT 的结果与业务目标对齐。
我们还探讨如何确保问责制并跟踪使用 AI 模型涉及的步骤。并且我们探索 AI 集成时的安全协议和最佳合规实践。
最后,我们探讨文化变革和教育如何有助于实现负责任的采用。数据科学家未来的角色是运用智慧和监督,在人类和人工智能之间建立一种共生关系,从道德上放大它们各自的优势。
在实际管理风险的同时,遵循可信赖 AI 的原则——正义、公平、责任——组织可以解锁 ChatGPT 在数据驱动洞察方面的协作潜力。因此,让我们开始探索这个关键优先事项。
9.1. 理解 AI 生成分析的局限性
在整本书中,我们看到了像 ChatGPT 这样的对话系统如何深刻地改变了数据分析领域,提供了即时帮助和增加了可访问性。然而,在没有充分监控的情况下采用 AI 结果,会带来与偏差、问责制和战略对齐相关的重大挑战。为了解决这些问题,采用人类治理方法对于确保 AI 生成信息的负责任和有效使用至关重要。
尽管 AI 技术在各个方面都取得了显著的进步,但它仍然无法达到人类的认知能力。真正的语义理解、创造性思维和道德推理是 AI 难以与人类理解相匹配的领域。仅依赖 AI 结果可能导致不准确,训练数据中的偏差持续存在,以及与组织目标的不一致。
一个主要问题是训练数据中存在统计偏差(Piegorsch 2015; Sedkaoui and Khelfaoui 2020),这可能导致生成式 AI 模型产生的分析和叙述出现偏差。此外,AI 模型的复杂行为可能难以理解,掩盖了它们可能引入的风险。重要的是要认识到 AI 本身并非天生好或坏;其影响取决于应用的方式。在人类监督下的负责任使用可以揭示那些可能否则隐藏的想法。
因此,解决方案在于建立实用控制机制,确保 AI 的可靠和道德使用。这种方法既认识到新技术能力带来的好处,也认识到其风险。通过实施强调透明度、责任和决策过程中积极人类参与的协议,组织可以利用 AI 的好处,同时最大限度地减少潜在陷阱。
在这个背景下,分析师扮演着核心角色。他们的角色不仅限于简单地应用 AI 算法;它还涉及评估情境、识别风险、验证结果,并指导 ChatGPT 等 AI 模型实现其全部潜力。让我们更深入地了解他们角色的不同维度:
-
情境评估: 人类专家对商业环境、社会影响和伦理考量有着深刻的理解。他们评估人工智能在不同情境下应用的相关性。例如,如果一个组织正在考虑使用人工智能来自动化客户服务的互动,人类专家将评估是否应该由人类处理某些敏感请求,以确保同理心和理解的实现。
-
风险识别与管理: 人类专业知识对于识别与 AI 模型相关的潜在风险至关重要。这些风险可能从语言生成中的无意错误到虚假信息的放大。人类专家利用他们的知识领域来检测可能从历史数据或 AI 模型可能忽视的文化细微差别中出现的偏差。他们制定策略来最小化这些风险,并确保 AI 结果符合伦理和监管标准。
-
审查结果: 人类专家在验证人工智能模型生成的结果中扮演着至关重要的角色。他们将自己的专业知识和信息与人工智能提供的信息或建议进行交叉检查。这一验证阶段对于确保人工智能生成的结果的准确性和相关性至关重要。例如,在医疗诊断的背景下,人工智能可能会提出一个潜在的诊断(Else 2023),但人类专家会仔细审查以确保其符合医疗指南。
-
建议与校准: 人类专家为 AI 模型提供建议,以改善其长期性能。他们通过在相关数据上微调和根据自己的领域专业知识提供反馈来训练模型。这种指导和校准的迭代过程有助于 AI 模型如 ChatGPT 不断改进其响应和对不同情境的理解。
-
适应细微差别: 尽管 AI 模型擅长快速处理大量数据,但它们可能在细微差别、幽默和文化参考方面遇到困难。人类专家通过引入这些细微差别来完善 AI 输出,确保生成的内容符合人类的沟通规范和期望。
伦理和人类价值观在设计和管理由 AI 增强的数据分析中成为不可或缺的考量因素。
在其核心,像 ChatGPT 这样的 AI 模型目前缺乏与人类智能相当的现实世界理解、伦理推理和创造性问题解决能力。它们的统计和数据驱动特性在情境理解、道德判断、直觉和适应性方面存在差距。
例如,虽然 ChatGPT 可以在给定主题上生成长文本,但它并不能真正掌握像领域专家那样直观的文化内涵。同样,ChatGPT 没有内在的能力去推理生成内容可能存在的偏见、有害或误解的伦理影响。人类的判断对于提供必要的监督是必不可少的。
虽然 ChatGPT 可以以新颖的方式重新组合训练数据,但它缺乏真正的直觉性跳跃或适应前所未有的情境的创造性问题解决技能。它的创新能力仍然受到其依赖的数据的限制,往往无法捕捉到人类可以轻易理解的微妙情境细微差别。
表 9.1. 人类与 AI 之间角色的比较
| 方面 | 人类专家 | AI 模型(例如 ChatGPT) |
|---|---|---|
| 级别 | 能力 | 级别 |
| --- | --- | --- |
| 情境理解 | 高 | 具有强烈的伦理价值观,能够处理伦理困境并确保 AI 的负责任部署 |
| 伦理考量 | 高 | 强烈的直觉和创造力,产生新想法并适应独特情况 |
| 直觉和创造力 | 高 | 极擅长解释沟通中的微妙细微差别,如幽默和情感基调 |
| 解释细微差别 | 高 | 极其擅长在数据、语言和叙述中检测偏见 |
| 偏见检测 | 高 | 不断学习和技能发展 |
| 持续学习 | 是 | 不断学习和技能发展 |
然而,将人类专业知识整合以解决这些局限性,使像 ChatGPT 这样的 AI 在狭窄定义的任务上表现出色,并承担更广泛的人类监督责任。在人类美德引导技术进步的情况下,社会从人类和 AI 的能力中受益。## 9.2. 伦理和谐:ChatGPT 在数据分析工作流程中的应用
将生成式人工智能,特别是像 ChatGPT 这样的对话系统,整合到组织的数据实践和机器学习管道中,需要一种多方面的伦理方法。这种方法包括全面的规划、透明的部署、持续的监督和伦理控制的积极参与。让我们更详细地看看表 9.2 中这一方法的各个方面。
这四个组件的整合为确保 ChatGPT 在数据分析工作流程中既符合道德又负责任地使用提供了一个坚实的框架。这种方法促进了问责制,最小化了风险,并最大化了人工智能技术的益处,同时使其应用与道德考量相一致。
主要目标是利用人工智能的变革力量带来积极的变化,同时减轻滥用或不可预见后果的可能性(Sedkaoui 2023)。为了实现这一目标,在整个部署过程中采用了几个关键策略,以确保人工智能的负责任使用并与伦理原则保持一致:
-
道德威胁建模和事前分析:在部署像 ChatGPT 这样的工具之前,进行道德威胁建模至关重要。这涉及根据预期的用例和数据源识别潜在的偏见、公平问题或其他危害的潜在途径。伦理委员会可以进行事前分析,以预测问题并制定缓解策略。例如,如果 ChatGPT 用于数据分析以预测消费者行为,道德威胁建模可以识别关于强化现有偏见或基于不可靠数据做出决策的担忧。
-
包含领域专家:在与 ChatGPT 互动的过程中持续包含领域专家和数据专家至关重要。这些专家可以指导人工智能的交互,并在其输出被向下分发之前验证其输出,以避免潜在的损害。例如,如果 ChatGPT 被用于分析金融数据以提供投资建议,金融专家的参与可以帮助确保提供的信息准确且符合行业标准。
表 9.2 ChatGPT 在数据工作流程中的道德部署框架
| Aspect | Specific tasks | Description |
|---|---|---|
| 全面规划 | 定义用例 | 确定 ChatGPT 将用于数据分析的具体领域,考虑到组织的需要和目标 |
| 风险评估 | 识别和评估使用 ChatGPT 相关的风险,例如偏见、机密性和负面后果 | |
| 制定道德指南 | 制定道德指南和原则,以指导 ChatGPT 的使用,解决伦理问题并建立行为标准。 | |
| 透明部署 | 开放沟通 | 积极与内部和外部利益相关者沟通 ChatGPT 集成到数据分析工作流程中 |
| 技术信息共享 | 提供关于 ChatGPT 如何工作的详细信息,包括其功能、限制以及使用的数据源 | |
| 建立信任 | 通过提供关于如何使用 ChatGPT 的透明细节,并回应利益相关者的疑问和担忧来建立信任 | |
| 持续监控 | 结果评估 | 定期评估 ChatGPT 在数据分析背景下生成结果,通过与真实数据源进行比较 |
| 识别问题和偏见 | 使用自动化检测技术和人工审查快速识别潜在问题,如偏见或不一致的结果 | |
| 收集用户反馈 | 积极征求 ChatGPT 用户的反馈,了解他们的体验,确定改进领域并相应调整 | |
| 积极的伦理监督 | 成立伦理委员会 | 成立一个伦理专家小组,监督和咨询 ChatGPT 的使用,审查决策并提供建议。 |
| 使用审查 | 定期评估 ChatGPT 的使用情况,以确保其符合既定的伦理准则,且不带来任何伦理风险 | |
| 维护责任 | 通过持续监控 ChatGPT 的使用,在必要时采取纠正措施,并向利益相关者透明报告,以确保问责制 |
-
透明度和可解释性:当 AI 生成的结果影响影响个人的决策或行动时,透明度和可解释性至关重要。利益相关者需要了解输出是如何产生的以及与之相关的不确定性。这有助于建立信任,并确保 AI 生成的建议被接受。例如,如果 ChatGPT 用于帮助制定基于数据的政策决策,各方需要了解模型如何得出结论,以便评估其可靠性。
-
反馈循环以纠正错误:部署后,反馈循环对于快速纠正错误和实现学习至关重要。在出现问题时,反馈机制能够迅速调整和改进。例如,如果使用 ChatGPT 来分析市场趋势,分析师和商业专家的反馈可以帮助细化 AI 预测,并确保其随着时间的推移保持准确性。
-
以人为核心的原则作为指南针:以人为本的方法至关重要。尽管 AI 具有变革性能力,但其受到人类原则的道德指南针的引导。这意味着将人类福祉、公平和负责任的使用置于 AI 开发和部署的前沿。例如,如果 ChatGPT 用于社交媒体平台的内容审核,主要目标必须是保护用户免受有害内容的影响,并营造一个安全的在线环境。
为了说明伦理的整合,让我们考虑提供的情感分析示例。当使用 AI 模型分析社交媒体上的情感时,许多挑战需要人类专家的参与。这包括解释比喻语言、考虑文化细微差别、识别危险内容以及进行稳健的情感分析。
例如,如果一个 AI 分析社交媒体评论,它可能难以检测到讽刺或反语,从而导致情感分析不准确。这时,人类语言专家可以帮助标注训练数据以捕捉这些细微差别。同样,如果 AI 被要求识别地方俚语或文化引用中的情感,熟悉这些方面的人类管理员可以确保更准确的情感分类。
因此,应注意的是,将 ChatGPT 整合到数据工作流程中引入了一系列需要特别注意的伦理问题。这些问题包括:(i)歧视问题,(ii)隐私保护,(iii)透明度,(iv)数据质量和(v)分析复杂性和用户专业知识。
解决这些挑战对于确保 ChatGPT 的道德使用至关重要,它保护了数据分析的公平性、机密性和准确性(Sanderson 2023)。这些问题包括分析结果中可能存在的偏见和歧视、保护敏感信息的需要、透明度对明智决策的重要性、数据质量对可靠信息的影响、ChatGPT 对不同分析复杂性的适用性以及用户专业知识在负责任地解释结果中的重要性。解决这些方面对于导航 ChatGPT 在数据分析中伦理环境至关重要。
鉴于这些考虑,在数据分析工作流程中道德使用 ChatGPT 的整体方法涉及几个措施,如图图 9.1 所示。
通过采取这些步骤,组织可以在将 ChatGPT 整合到数据分析工作流程的道德领域中负责任地导航。这种方法确保 ChatGPT 的分析能力被用于做出明智和道德的决定,同时避免偏见、隐私泄露和错误信息的陷阱。
为了使 ChatGPT 的能力与业务需求相匹配并最大化其有用性,一个关键优先事项是建立人类用户和 AI 系统之间的持续反馈渠道。这使得 ChatGPT 能够从特定情境中的经验中不断学习。
有益的评论提供了不准确的、有偏见的或与目标不一致的响应的明确例子,以及根据权衡给出的理想结果的解释性建议。建设性的批评专注于改进系统,而不是发泄不满。
为了衡量反馈的影响,组织应跟踪绩效随时间的变化。用户小组和红队可以提供有价值的见解并帮助识别潜在问题。
迭代反馈在提高 ChatGPT 能力方面发挥着核心作用,导致其向更复杂和细微的交互进化(Sedkaoui 2023)。反馈过程是多方面的,几个关键主题作为这一任务的必要元素浮现出来:
-
具体性至关重要: 在提供反馈时,具体性是基石。模糊的表扬或批评并不能提供改进所需的粒度。提供具体例子,突出理想和不理想响应之间的区别,使 ChatGPT 能够有效地捕捉细微差别。多亏了这些例子,人工智能系统可以学会导航语言复杂性。例如,通过使用提示:“这个总结太模糊了。请提供更多关于销售数据中的关键趋势和指标的具体细节”,ChatGPT 能够理解在数据分析中对精确性和细节的具体期望。有了这种反馈,人工智能可以通过生成更深入的总结并避免泛泛而谈来改进其响应。
![一个流程图说明了在数据分析中负责任地使用 Chat G P T,包含七个列:用户。明确指南。定期审计。用户培训。数据质量。适当使用。用户教育。每一列列出任务,箭头描绘了从制定指南到负责任应用教育的顺序。]()
图 9.1 在数据分析中负责任地使用 ChatGPT
-
对进步的建设性建议: 除了指出错误或陷阱之外,提供建设性建议将 ChatGPT 引向进步。提出潜在改进不仅指出什么错了,而且提供了改进的明确方向。这使 ChatGPT 能够从其错误中学习并朝着提高其输出质量的重要进步迈进。例如,建设性建议如:“这一部分的语气似乎太不正式了。尝试使用更正式的商业语言来撰写这份报告”,为 ChatGPT 提供了调整其写作风格以适应商业环境的宝贵指导。通过整合这类反馈,人工智能可以逐渐发展出适应商业文件中所需语气和语言细微差别的适应能力,提高其在特定用途中的相关性和质量。
-
坚持不懈和持续学习:反馈循环不是一次性的事情,需要耐心和毅力。像 ChatGPT 这样的 AI 系统是不断学习和适应的。随着时间的推移,持续的反馈提供了稳健学习所需的一致数据点。认识到完美不可能一蹴而就至关重要。由于人与 AI 之间的持续合作,持续的进步是改进的道路。在数周和数月内不断提供新示例的耐心和毅力对于帮助 ChatGPT 逐步改进至关重要。即使初始响应没有完美地满足预期,这种重复和持续的反馈也允许 AI 适应并相应地调整其响应。这种方法有助于长期加强 ChatGPT 的学习,提高其理解和生成更准确、情境适当的响应的能力。
-
情境相关性以实用为目的:当考虑到 ChatGPT 运行的情境时,反馈最为有效。通过考虑因素如受众和目的、用例和目标,可以针对企业的实际需求进行定制。这确保了 AI 训练不仅关注一般能力,而且针对特定的、现实世界的场景进行定制,增强了其实际实用性。得益于来自开发、部署和监控的反馈,ChatGPT 随着用户需求的发展而发展,解锁了之前不可见的机会。考虑情境对于微调 ChatGPT 的性能至关重要。例如,通过提供如下提示:“这个内容对我们博客的受众来说似乎太高级了。简化语言以适应普通受众”,我们引导 ChatGPT 调整其响应以适应目标受众。这优化了生成内容的关联性和可理解性,确保其符合特定的需求和目标。
-
多元化的反馈生态系统:在数据团队之外丰富反馈视角至关重要。多样化的观点提供了一个全面的视角,并有助于识别可能从狭窄视角中不明显出现的潜在盲点和偏见。更广泛的输入范围促进了一个更加平衡和无偏见的 AI 系统。鼓励反馈的多样性丰富了 ChatGPT 的训练。例如,通过征求来自市场和数据科学团队的视角来评估 ChatGPT 的仪表板原型并改进双方观点的展示,不同的角度被整合到学习过程中。这种全面的方法有助于识别潜在差距,同时确保系统生成的响应反映了各种观点并避免偏见。
-
反馈速度和自动化:反馈整合到回收过程中的速度是加速学习的关键因素。反馈循环部分自动化的实现可以加快 ChatGPT 进化的步伐。这种快速整合反馈导致更紧密的人类引导学习循环,最终提高 ChatGPT 的表现。通过建立每日自动传输新支持工单摘要到 ChatGPT 的管道,反馈和系统学习得到加速。这种自动化使得对查询的响应准确性持续改进。利用这种反馈速度,ChatGPT 可以更快地调整其能力并优化其结果,从而为更精细的性能和更流畅的用户交互做出贡献。关键在于提供基于真实生活案例的具体说明,而不是抽象的评论。这有助于 ChatGPT 捕捉到人类指导所期望的实质性改进。
-
合作以共同进步:这种迭代反馈的核心在于合作。这是人类与人工智能之间的相互提升。当我们引导人工智能系统向改进方向发展时,我们也加深了对它们能力和局限性的理解。这种协作方法确保了人类与人工智能同步进步,利用彼此的优势实现共同成长。以人为中心协作对于监督的演变至关重要。理想情况下,反馈管道会捕捉到显式纠正和隐式信号,例如使用数据和查询。反馈进一步汇总、分析并用于扩大训练数据的多样性(Sedkaoui 2023)。
为了更好地对齐,业务利益相关者可以提供开放性的贡献,而不仅仅是数据团队。持续的用户反馈与主动治理相结合,使 ChatGPT 能够负责任地进化。
迭代反馈循环是一个动态过程,推动了 ChatGPT 的进化。得益于具体性、建设性建议、耐心、情境相关性、观点多样性、自动化评论和协作原则,我们可以构建既能够满足,又针对人类需求和愿望的人工智能系统。
人类与人工智能之间的这种合作体现了一种共同走向未来的旅程,在这个未来中,两个实体和谐地共同进步。未来是一个人类与人工智能相互促进的时代。## 9.4. 在数据分析中使用 ChatGPT 时解决伦理问题和偏见
将 AI,如 ChatGPT,集成到数据分析工作流程中既带来了难以置信的机会,也带来了需要极其谨慎应对的深刻挑战。随着我们利用 AI 的能力来改进分析过程,建立强大的治理机制以减轻可能出现的风险变得至关重要。这些风险包括不可预见的负面结果、偏见以及 AI 在没有适当监督下运行时的滥用可能性。
尽管像 ChatGPT 这样的 AI 系统无疑可以提高分析吞吐量并提供有价值的见解,但它们也有可能加剧现有的偏见或引入新的扭曲,这会损害公平和正义。这突出了负责任的设计和积极监控的重要性,以确保基于 AI 的分析符合伦理规范和价值。
在 AI 流程中的人为监控至关重要。这意味着精心策划无偏见且具有代表性的训练数据,评估 AI 模型的行为,进行公平性审计,并持续监控其结果。在风险评估中识别潜在损害以及在设定防止滥用的严格标准方面,领域专家发挥着关键作用。
透明度和可解释性是 AI 道德整合的基石。描述 ChatGPT 的能力、局限性和不确定性的清晰文档对于建立信任和问责制至关重要。用户和利益相关者需要了解预测是如何做出的,并能够追溯到其背后的推理和数据。
负责任地整合 AI 的一个关键方面是建立持续的反馈循环。这些循环促进快速纠正和从错误中学习,确保 AI 系统随着时间的推移而改进。代表不同社区的多元化伦理小组在指导 AI 实践的发展方面做出了宝贵的贡献,使它们与多样化的观点和价值更加一致。
在数据分析中制定 ChatGPT 的负责任和道德使用策略对于发挥其潜力同时防止无意中的偏见和歧视至关重要。减轻偏见风险需要一种全面的方法,涵盖整个机器学习流程。
从数据收集开始,确保来源的多样性和包容性至关重要,以最大限度地减少可能延续对代表性不足群体偏见的偏见性表现。在整个模型开发过程中的定期审计充当早期预警系统,在现实世界应用中显现之前识别不公正的迹象。此外,对实时预测的持续监控对于检测和迅速处理新兴的歧视性模式至关重要。
模型的透明度是另一个关键支柱。强调 ChatGPT 的起源和理由可以促进用户信心和理解。这可以通过附加解释、置信度估计和训练数据参考来实现,从而增强模型行为的透明度。这种透明度不仅帮助用户了解预测是如何做出的,而且有助于识别和解决不希望的偏见。
认识到个人的能动性对于人工智能的道德使用至关重要。同意机制允许用户通过确保他们有权决定如何使用他们的信息来控制其数据的应用。参与式设计过程,涉及相关人员在模型行为开发中的参与,确保人工智能系统满足人类需求和价值观。通过优先考虑用户赋权而非潜在的剥削,人工智能成为改善社会的工具。
安全性和保密性保障在防止滥用中起着至关重要的作用。实施严格的访问控制、加密以及基于数据类型的明确使用政策,可以防止敏感信息落入错误之手。通过将 ChatGPT 的能力与伦理原则和人类价值观联系起来,滥用的可能性显著降低。
确保 ChatGPT 在数据分析中的负责任和道德使用的方法至关重要。这个过程使我们能够利用 ChatGPT 的能力,同时防止伤害和无意中的偏见的风险(Sedkaoui 2023)。
这里有一些额外的途径来鼓励在数据分析领域 ChatGPT 的道德和负责任使用:
-
强调在组织内部建立伦理委员会和治理机构以监督人工智能项目的重要性。
-
讨论在人工智能系统设计中整合算法公平性原则的重要性,例如确保正确性、无害性和透明度;
-
强调在组织所有层级对人工智能进行道德培训的重要性,以建立责任文化;
-
强调需要使用如红队技术等手段不断测试人工智能系统,以识别盲点;
-
强调人工智能必须始终是服务于人类目标的工具,而不是一个目标本身;
-
讨论使人工智能系统更加稳健和安全的方法,例如基于道德奖励的强化学习。
ChatGPT 等人工智能系统的道德部署建立在人类价值观的基础之上。这需要我们有意地将技术进步与尊严、正义和自主等原则相一致。通过将人类智慧融入人工智能系统的设计、开发和治理,我们将它们的潜力引导到促进整个社会提升的公平和有益的结果。
ChatGPT 因其广泛的应用而吸引了广泛关注,从创意生成和营销内容开发到代码调试和数据分析。
然而,在向生成式人工智能的快速推进中,许多问题仍然存在,尤其是关于这项技术的潜在风险和收益。尽管 ChatGPT 的现实世界效用给许多人留下了深刻印象,但人工智能进步的更深层次和更具挑战性的影响尚未得到充分探索。
例如,一个重要且尚未解决的问题持续存在:如果 ChatGPT 赋予那些可能没有准备或不愿意负责任地使用这项技术的人,会有什么后果?
尽管它并非明确设计为使编程对公众可访问,但 ChatGPT 已知可以生成代码(Bai 等人 2021),包括可能由暗网上的恶意行为者引发的恶意代码。
现在,让我们将注意力转向机器学习:ChatGPT 能否被用来构建一个可行的机器学习模型,并可能作为机器学习工程师发挥作用?它是否能够对这一领域的未来做出重大贡献?
负责任地整合人工智能辅助数据分析需要一种全面的方法,该方法在组织的所有机器学习实践和流程中拥抱公平性、透明度和问责制。通过采用积极的治理策略,组织可以有效地减轻偏见、不透明和滥用的潜在损害,从而将人工智能的变革能力与伦理原则相一致。
总的来说,为了保证数据分析的公平性、透明度和问责制,有几个关键方面需要考虑。
首先,人类审计员的存在至关重要。这些审计员必须在结果发布之前,仔细检查自动化分析的结果,以寻找任何偏见或不公平的迹象。必须实施严格的测试流程,包括红队测试,以识别和纠正人工智能系统的缺陷。组织还必须高度重视其训练数据的多样化,并持续对其模型进行再训练,以保持长期公平性,适应不断变化的情况和新挑战。
极端透明度是另一个关键方面。为了在自动化信息中建立信任,必须提供完整的文档,描述与分析结果相关的功能、限制和不确定性(Sedkaoui 和 Khelfaoui 2020)。模型行为必须是透明的、可解释的和可重复的。此外,组织必须通过启用为自动化分析提供数据挖掘的信息可追溯性,确保每个结论都基于准确和可靠的信息。
此外,在部署后的阶段,建设性的反馈循环是必不可少的。这些反馈机制使得能够快速识别和纠正 AI 系统性能中可能出现的任何问题。建立一个多元化的伦理委员会可以提供多维度的建议,确保 AI 的发展与包容性价值观相一致。自动报告可以跟踪模型在公平性指标上的表现,促进问责制和进步。
通过采用整合前瞻性和道德指导的动态控制的整体方法,组织可以利用自动化分析的潜力,积极转变其运营。然而,保持人类原则的坚实基础是至关重要的,以确保通过 AI 取得的进步根植于伦理考量。
除了上述策略之外,确保自动化数据分析的公平性、透明度和问责制还涉及其他一些实践。一个关键方面是使用多样化的数据集进行训练。确保训练数据能够代表各种观点和视角可以显著降低分析结果中存在偏差的可能性。此外,人工监控在识别和解决潜在的偏差和问题中起着至关重要的作用。人工审查和评估可以提供额外的控制层,以确保自动化数据分析工具的负责任使用。
自动化数据分析的局限性透明度同样重要(Sedkaoui 2018a)。用户和利益相关者必须意识到这些工具固有的偏差和滥用的可能性。这种意识使用户能够负责任地解释结果,并基于对整体分析过程的理解做出明智的决定。
这些策略和实践的整合确保了自动化数据分析的公平性、透明度和负责任性。公平性、透明度和问责制不仅是伦理要求,对于建立对 AI 系统的信任以及防止歧视、错误信息和其他负面结果也是至关重要的。
为了说明这些概念,让我们以一个使用基于 AI 的系统分析求职申请的组织为例。如果没有良好的治理,该系统可能会无意中偏袒某些数据群体或对其他群体产生偏见。通过遵循全面的整合策略,组织可以确保系统在多样化的数据集上进行训练,由人工审计员进行审查,并透明地记录。这种方法最大限度地减少了偏差的风险,促进了公平性,并在招聘过程中实现了问责制。
表 9.3 总结了策略及其相应的示例。
表 9.3 公平和道德的自动化数据分析策略
| 策略 | 示例 |
|---|---|
| 人工审计员 | 审查自动化分析结果以识别偏差迹象 |
| 严格测试 | 红队行动以检测漏洞 |
| 多样化的训练数据 | 确保训练数据包含各种观点 |
| 极端透明度 | 记录能力、限制和不确定性 |
| 信息可追溯性 | 使用户能够追踪分析到底层数据 |
| 建设性反馈循环 | 整合用户反馈以实现持续改进 |
| 伦理委员会 | 聚集不同观点以指导 AI 的演变 |
| 自动报告 | 监控模型在公平性指标上的表现 |
| 人工监督 | 进行人工审查以确保负责任的使用 |
| 限制透明度 | 使用户意识到潜在的限制和偏差 |
通过采用这些做法,组织可以创建符合伦理原则的 AI 系统,促进透明度,并在数据分析中产生公平的结果。在伦理考量的指导下,AI 能力和人类智慧的共生为各个领域的负责任和积极的变革铺平了道路。
在结束本章之前,让我们强调始终将伦理考量置于 ChatGPT 开发和数据分析使用的前沿的重要性。尽管前景广阔,但这项技术必须明智地管理,以造福所有人。
在本书的结尾,让我们记住,通过谨慎和深思熟虑地结合人类创造力和 AI 的力量,数据分析的未来将充满迷人的潜力。让我们坚定地追求这一增强和负责任分析的探索,其中人类思维引导并增强算法能力。是时候开始这段激动人心的旅程了,与我们的良知携手同行。
结论
自动化的时代已经到来。各种以前需要大量人力和时间才能完成的任务和流程现在可以通过 AI 代理增强或完全管理。数据分析是这些因 AI 而经历变革性变化的领域之一。具体来说,像 ChatGPT 这样的生成语言模型自动化了数据分析工作流程中重复、繁琐或需要大量计算能力的部分。
这项工作突出了使用 ChatGPT 和类似生成 AI 自动化数据分析的巨大潜力。我们正在见证一个人类数据科学家可以与 AI 助手合作以加速和改进分析的时代。当这些 AI 系统得到精心、前瞻性和伦理性的开发时,它们可以成为值得信赖的分析伙伴,而不是窃取工作的对手。
类似于 ChatGPT 这样的生成模型具有某些超人类的能力,这使得它们在人类判断的指导下自动化数据分析方面非常理想。首先,它们的无限记忆和计算速度能够对超出人类规模的大量数据集进行详尽分析。其次,它们的持续不懈提供了 24/7 的分析能力,不会感到疲劳。第三,它们的算法性质确保了重复性任务的连贯性,而不会像人类那样感到无聊或分心。
然而,这些仍然需要在人类监督下进行大量训练,才能成为完全合格的数据分析助手。就像一个孩子从父母那里学习一样,ChatGPT 需要通过适当的分析知识、任务、示例和道德规范来培养,成为一个负责任和值得信赖的伙伴。数据科学家需要指导它每一步——数据清洗、功能工程、建模、评估、解释等。
在拥有丰富多样数据集的经验基础上,ChatGPT 可以从机械记忆指令转变为真正理解分析工作流程背后的原则、权衡和最佳实践。这种概念理解使 ChatGPT 能够根据所学推理自适应地选择适用于新数据集和场景的最佳技术。
然而,尽管经过这样的训练,ChatGPT 仍然缺乏独特的人类通用智能——抽象思维、适应性、常识、判断、价值观。它专注于在其训练领域内出色完成任务,而不是全面理解其现实世界的含义。这就是在部署生成式 AI 时人类创造力和智慧变得如此关键的地方。
人类必须监督并与 ChatGPT 协作,以确保其分析自动化的目的、道德和责任。如果没有人类的良知作为指导,这种强大的 AI 工具可能会被错误地用于危险的方式。我们必须成为深思熟虑的家长,精心培养 AI 的孩子。
关键在于结合人类和 AI 的互补优势,实现超越任一方的协同效应。人类的创造力、道德、洞察力和监督,加上 AI 不知疲倦的精确性、速度和全面计算,能够实现新规模和深度的分析。但人类必须成为 AI 引导的积极合作伙伴。
例如,数据科学家可以通过让 ChatGPT 分析数据集以寻找趋势、相关性及模式,创造性地定义初始问题。ChatGPT 迅速处理数据,其严格测试假设的速度比人类手动操作快得多。它生成见解,突出显著模式,并解释背后的推理。
然后人类评估分析是否完整,以及伦理影响是否合理。我们在直觉的指导下评估偏见或限制是否影响了洞察力。人类的创造力也产生了原始提示中未包含的新分析角度。然后我们可以要求 ChatGPT 研究这些新观点。
这种共生合作,各自发挥其优势,可以加快并显著提高分析速度。但人类的监督确保分析保持深思熟虑、道德和负责任。人类和 AI 单独都无法匹配他们结合的潜力——有点像托尼·斯塔克和钢铁侠合体。
这展示了自动化数据分析中的关键平衡。我们可以让 AI,如 ChatGPT,自主承担超出人类能力范围的重复和繁琐任务——数据清洗、转换、模型验证。但我们必须让人类保持在引导、创造和道德的驾驶员座位上,以定义问题、设定目标、批判性地解释想法并持续改进 AI。
理想的比例是监控所需的最小人力与适合 AI 的最大委托自主性相结合。这最大限度地发挥了在负责任的人类引导下 AI 自动化的力量。随着经验和进步,ChatGPT 的分析技能将继续提高,在人类监督下逐渐实现更大的责任委托。
然而,自动化分析不仅仅是使用 AI 更好地理解数据。训练 ChatGPT 等模型的过程也推动了人类知识和智能的发展。向 AI 助手解释逐步任务迫使我们必须深入理解和规范化领域在结构化框架中。将复杂复杂的问题提炼成连贯的工作流程也使模糊的人类思维变得清晰。
开发基于原则、伦理和责任的人工智能模型需要我们明确阐述价值观、客观性、偏见、假设和最佳实践。在大数据训练集的清洗和准备过程中,当出现矛盾时,会暴露出人类逻辑中的特殊情况和缺陷。通过示例教授像 ChatGPT 这样的空容器,可以增强教师的掌握能力、判断力和责任感。
因此,正如自动化预期通过人工智能指数级提高数据分析一样,这种自动化的开发也提升了人类的智能、责任感和规范化知识。这要求我们将迄今为止非结构化的数据分析职业规范化,构建原则框架、结构化工作流程和经过验证的最佳实践。
总之,通过生成式人工智能实现数据分析的自动化,有望开启一个新时代,在这个时代,人类和机器智能的结合将带来更道德、更有创造性和更快速的数据发现。但我们仍处于这一旅程的起点,就像抚养一个充满潜力的新生儿一样。
如果这样强大且快速发展的 AI 系统没有经过深思熟虑地结合人类的智慧和伦理来开发,那么确实存在风险。还有一些由利润驱动的公司和误导性的未来学家呼吁尽快自动化一切,而不顾人类的福祉。这种无节制的自动化可能会使 AI 成为对手而不是盟友。
但通过谨慎和负责任的发展,我们可以创建使分析更加易于获取、可重复、可分享和符合伦理的 AI 助手——为更广泛的受众开启数据洞察,造福公共利益。未来不是 AI 取代人类的时代;相反,它将借助 AI 的生产力和严谨性,增加创造力和伦理。
随着传统分析任务外包给 AI 合作伙伴,无疑将会带来颠覆性的变化。但历史表明,自动化对社会长期的影响是使人类达到新的高度,而不是使我们过时。正如过去的突破,如发动机和计算机,赋予我们超人的身体和精神能力一样,AI 可以提供数据分析的超能力。
可持续的解决方案不是抵制自动化,而是通过社会适应和教育,负责任地管理其影响。我们必须继续推进人类的创造力、伦理、同理心和智慧,与 AI 分析助手共同繁荣。父母、教育者和领导者通过强调我们独特的人类精神,在为自动化、AI 渗透的世界做准备方面发挥着至关重要的作用。
构建分析 AI 的人有道德义务使其透明、安全并符合人类价值观。我们需要监控其行为,最小化有害偏见,防止滥用。随着采用加速,对 AI 安全性研究、认证标准和治理框架的需求将变得至关重要。
这个自动化数据分析的第一个时代将为未来智能生成 AI 模型的发展与整合设定重要的先例。我们肩负着深刻的责任,同时也拥有明智地规划未来道路的机会。通过提升伦理和人类知识,与分析 AI 并驾齐驱,我们能够进入增强智能时代——人类与 AI 协同互补,共同为公共利益发挥各自的优势。
未来仍然是不确定的。对 AI 对抗或奇点的恐惧在可预见的未来不太可能发生。但通过谨慎和道德的发展,我们可以创造在人类指导下的 AI 协作伙伴。像 ChatGPT 这样的模型仍然是易受影响的儿童,他们从我们这里学习。让我们培养他们的生产潜力,同时强调超越分析的、人类的精神价值观。
如果我们今天种下正确的种子,结合人类的创造力、道德和智慧与人工智能的生产力和严谨性,我们就能培育一个光明的未来,其中两种智能的共生将造福全人类。数据科学家和人工智能开发者的使命必须是推进有益的智能——无论是人类还是人工智能。
使用 ChatGPT 等工具自动化分析只是通过创新、道德、负责任和赋权的人工智能进步永恒追求的第一步。我们塑造我们的工具;然后,我们的工具塑造我们。因此,让我们大胆梦想,但谨慎行事。如果我们与人类意识携手,引导人工智能分析力量,无限协作发现的可能前景将无比广阔! # 附录 # 附录 1
使用 ChatGPT 进行数据分析的提示库
这个仓库汇集了一系列提示,以引导 ChatGPT 通过数据分析过程。它分为几个类别,每个类别都包含针对特定任务的特定提示。这些提示旨在尽可能精确,同时足够灵活,以适应各种项目。主要目标是向用户提供数据分析项目的起点,而不强加预定义的步骤。重要的是要注意,这个仓库并不打算替代完整的数据分析课程或教科书。尽管如此,它对于希望启动新项目或解决现有困境的数据分析师来说,可以是一个无价的资源。
A1.1. 数据收集
A1.1.1. 识别数据来源
-
您能建议与我[分析目标]相关的潜在数据来源吗?
-
我正在寻找与[您感兴趣的话题]相关的[数据集]。有任何推荐吗?
-
我在哪里可以找到关于[您的话题]的[可靠数据来源]?
-
您能帮我确定[我的特定分析项目]的[主要数据来源]吗?
-
我对[收集数据]以[满足您的分析目标]感兴趣。您有什么关于如何开始的建议吗?
A1.1.2. 收集数据
-
我可以使用哪些[有效的数据收集方法]来获取[具体数据]?
-
您能指导我使用[相关数据收集方法]为我的[当前项目]进行[数据收集]吗?
-
哪些工具或 API 适合[检索]与[您分析范围]相关的[数据]?
-
我应该如何[获取数据]以[进行我的分析类型]?
-
我计划[收集数据]以[实现您的目标]。关于最佳实践和[数据收集工具]有什么建议吗?
A1.2. 数据准备
A1.2.1. 数据清洗
-
在[清洗数据]为[特定分析]时,我需要解决哪些[常见数据质量问题]?
-
您能给我一些建议关于[数据清洗],以确保[分析环境中的数据完整性]吗?
-
在[预处理数据]以[满足您的分析目标]时,我如何有效地管理[缺失值]?
-
在进行[特定分析]时,我应该采取哪些步骤来[清理和预处理数据]?
-
我正在进行[当前项目]的[数据清理]。关于处理[数据不一致性]和[错误]的任何建议吗?
A1.2.2. 数据转换
-
我该如何[将文本数据转换为数值]以进行[定量分析]?
-
你能展示如何[标准化数据值]以在[你的项目]中进行[公平比较]吗?
-
为了[将数据分组]到[有意义的类别],以[简化分析],我应该采取哪些步骤?
-
我遇到了[格式错误的数据]。我应该如何[转换数据格式]以使其与[你的分析模型]兼容?
-
为了[为我的分析目标生成新变量],[执行数学运算]于[数据]的常见方法有哪些?
A1.2.3. 处理缺失变量
-
我如何在[我的数据]中[识别缺失值],并在[你的项目]中决定[处理它们的最佳方法]?
-
你能指导我通过[处理缺失值的不同方法]以及[它们对分析的可能影响]吗?
-
我应该采用哪些策略来[在你的数据中一致且可靠地插补缺失值]?
-
我注意到[我的数据集中有缺失值]。我应该如何[决定是否删除、插补或保留它们]以进行[分析]?
-
[不同缺失值插补技术]对于[你的数据]和[你的分析目标]的优点和缺点是什么?
A1.2.4. 异常值管理
-
在[你的数据]中[识别异常值]和[确定是否需要纠正]的步骤是什么,以进行[你的分析]?
-
你能展示如何使用[统计方法]来[检测异常值]并[评估它们对分析的影响]吗?
-
我应该如何以[适当的方式]处理[异常值],以[最小化它们对结果的影响]在[你的项目]中?
-
我已经发现了[可能影响结果的异常值]。我应该[决定是否纠正、删除或保留它们]以进行[你的分析]?
-
在[维护数据完整性和分析目标]的同时,管理[异常值]的最佳实践是什么?
A1.2.5. 数据格式化
-
将[数据]组织成[表格结构]以方便[数据分析]的最佳方法是什么?
-
你能给我一些建议,关于[数据格式化]以[平滑分析]使用[与你的分析工具兼容的格式]吗?
-
在[准备数据]时,我应该如何[适当地转换数据类型]以确保与[分析模型]的[一致性]?
-
我处理[非结构化数据]。我应该采取哪些步骤将它们[组织]成[结构化格式]以进行[更有效的探索]?
-
将[原始数据]格式化为[干净、可理解的格式]以用于[分析目标]的关键步骤是什么?
A1.3. 编码
A1.3.1. 使用编码处理数据
-
[使用编码准备数据]的[常见数据操作方法]有哪些?
-
你能向我解释[如何使用编码来过滤、排序和分组数据],以[提高我的数据质量]吗?
-
我该如何使用[编码]来[合并数据集]和[执行转换操作],以[促进分析]?
-
我可以使用[编码]执行哪些[高级数据清洗技术],以[提高数据质量]?
-
我的[数据]很杂乱。我该如何使用[编码]来[准备它们]以[分析]并[确保一致性]?
A1.3.2. 使用编码进行任务自动化
-
我该如何使用[编码]在[数据分析]中[自动化重复性任务],以[节省时间]?
-
你能展示如何使用[编码]来[创建自动化脚本],以[在你的数据中执行复杂任务]吗?
-
我该如何[在分析工作流程中]使用[编码]来自动化[数据清洗、转换和准备]?
-
使用[编码]来[自动化任务]的最佳实践是什么,以[最大化分析效率]?
-
我希望[自动化分析过程中的某些部分]。我该如何[有效地整合编码]来完成这项工作?
A1.3.3. 使用编码处理缺失值
-
我该如何[使用编码来高效处理数据中的缺失值]?
-
你能向我解释我可以使用[编码]来[维持数据完整性]的[填充缺失值的技巧]吗?
-
[编码]如何帮助[识别缺失值]和[决定最佳填充方法]?
-
有哪些[使用编码处理缺失值的常见方法]可以保证[分析中的可靠结果]?
-
我的[数据集]中存在[缺失值]。我该如何[应用编码]来[高效处理这些值]同时[保持数据完整性]?
A1.4. SQL 查询
A1.4.1. SQL 基础
-
我该如何[开始学习 SQL],以[在数据分析中高效操作数据库]?
-
你能向我解释[SQL 的基础知识]以及[它在分析环境中查询数据库]中的[有用性]吗?
-
有哪些推荐的资源可以帮助我[学习 SQL],以[促进我的分析工作]和[使用数据]?
-
[SQL]如何[优化我的查询]并为[分析项目]提取[相关信息]?
-
我在 SQL 方面经验很少。我该如何[开始学习]并[有效地应用于数据分析]?
A1.4.2. 使用 SQL 进行数据选择和过滤
-
我可以使用[SQL]进行哪些[数据选择和过滤方法],以[提取特定记录]?
-
你能展示如何使用[SQL]进行[选择查询],以[根据我的标准]来[过滤数据]吗?
-
我该如何[选择特定列]和[应用过滤条件]使用[SQL],以[优化数据分析]?
-
我可以使用[SQL]应用哪些[高级过滤技术],以[在分析项目中提取相关数据]?
-
我拥有大量数据。我该如何使用[SQL]来[高效选择和过滤],以[在分析中处理子集]?
A1.4.3. 使用 SQL 进行聚合和分组
-
我该如何使用[SQL]来[汇总数据]和[总结信息],以[获取全局统计数据]?
-
你能解释一下如何使用[SQL]进行[聚合操作],根据[特定标准]对数据进行[分组和汇总]吗?
-
[SQL]如何用于[在数据集中计算总和、平均值和其他聚合]?
-
我可以使用[SQL]中的哪些[高级聚合方法]来[分析大型数据集]?
-
我需要为[我的分析项目]计算[汇总统计]。我该如何使用[SQL]来[满足我的需求],以获得[准确的结果]?
A1.4.4. 使用 SQL 连接表
-
我该如何使用[SQL]来[连接表]和[合并数据],以在[数据分析]中获得[完整的视角]?
-
你能展示如何使用[SQL]来[在表之间执行连接],以[结合来自不同来源的信息]?
-
我该如何使用[SQL]来[根据特定标准合并数据],以[执行内部和外部连接]?
-
我可以使用[SQL]中的哪些[高级表连接技术]来[在分析项目中结合复杂数据]?
-
我有[独立的数据表]并且想要[合并它们]。我该如何使用[SQL]来[执行高效的连接]并在[我的分析]中获得[综合数据]?
A1.5. 数据处理和分析
A1.5.1. 探索数据
-
我该如何[开始探索数据],以[理解数据集中的分布]和[趋势]?
-
你能帮助我使用[探索性方法]来[发现模式]和[异常],以[探索我的数据]吗?
-
我应该遵循哪些[数据挖掘的基本步骤],以便在[我的分析项目中]获得[洞察]?
-
我该如何使用[可视化]和[描述性统计]来[有效地探索我的数据]并[提供信息]?
-
我有复杂的数据。我该如何使用[不同的技术]来[深入探索],以在[我的分析]中[揭示隐藏信息]?
A1.5.2. 分析过程的自动化
-
我该如何通过[使用脚本]来[加速迭代],从而[自动化建模过程]?
-
你能展示如何[设置自动化],以在[保持质量]的同时[减少建模时间]?
-
什么是我可以采用的[自动化建模的最佳实践],这将使我能够[优化资源使用]?
-
我该如何[开发自动化工作流程],以[快速尝试不同的模型]并[识别最佳选项]?
-
我有[几个模型要开发]并且想要[自动化建模过程]。我该如何使用[工具和脚本]来[节省时间并提高效率]?
A1.5.3. 数据分析中的编程
-
我该如何使用[编程]来[优化我的当前项目中的数据分析]?
-
你能帮助我将[编程]集成到[我的分析]中,以[自动化任务]并[提高效率]吗?
-
哪些[编程步骤]将帮助我[处理数据]并[创建定制解决方案]?
-
我该如何[应用脚本和代码]使用[编程方法]来[转换和分析数据]?
-
我有[复杂的分析任务]并且想要[使用编程]。我该如何[采用有效的编程方法]来[提高我的分析]?
A1.5.4. 创建高级函数
-
我该如何从[我的现有数据]中[开发高级功能],以[丰富我的分析]?
-
你能帮我通过[现有数据的巧妙组合]来[创建新变量],以便[更好地理解关系]吗?
-
我可以使用哪些[特征创建方法]来[提高我的预测模型的准确性]?
-
我该如何从[我的数据]中[提取有意义的信息],以[在我的分析中创建相关的指标]?
-
我需要[特定的特征]来[我的分析]。我该如何通过[智能利用数据]来[设计合适的变量]?
A1.6. 特征工程
A1.6.1. 创建新特征
-
我该如何从[现有数据集]中[生成新特征],以[提高模型性能]?
-
你能给我一些[创建特征的技术]的例子,这些技术[可以丰富我的数据]并[添加相关信息]吗?
-
使用[如转换或组合等方法]来[开发新特征]的关键步骤是什么?
-
我需要[额外的特征]来[改进我的模型]。我该如何通过[考虑数据之间的关系]来[高效地创建新特征]?
-
我想通过[开发新特征]来[丰富我的数据]。我可能需要考虑哪些[常见的特征创建方法]?
A1.6.2. 选择特征
-
我该如何通过[降低维度]来[选择对我模型最相关的特征]?
-
你能给我一些建议关于[特征选择],以便在[避免过载]的同时[优化模型性能]吗?
-
我应该使用哪些[特征选择标准]来[选择最有影响力的变量]?
-
我有很多[特征],我想[选择最重要的]。我该如何[应用选择技术]来[简化我的模型]?
-
我想通过[仔细选择特征]来[改进我的模型]。有哪些[选择特征的关键步骤]将对[模型性能]贡献最大?
A1.6.3. 排序数据
-
[排序和组织数据]的[最优方法]是什么,以[满足我的分析需求]?
-
你能展示如何使用[特定标准]来[排序我的数据],以[便于分析]吗?
-
我该如何[重新组织和分类]我的数据,以[升序或降序]来[更好地理解]?
-
我需要采取哪些[步骤]来使用[高效方法]将我的数据[排序],以[优化我的分析]?
-
我有[无序的数据]。我该如何[应用高效的排序]来[组织我的数据],以[进行更平滑的分析]?
A1.6.4. 合并数据
-
我该如何将[不同数据来源]合并[成一个单一数据源],以[进行完整分析]?
-
你能帮我使用[融合技术]从[多个来源]中[合并信息]吗?
-
我应该遵循哪些[数据融合的最佳实践],以[整合我的分析项目中的数据集]?
-
我该如何通过[使用合并键]来[应用合并操作],以[合并数据]并[获得一致的结果]?
-
我有[独立的数据集],我想[合并以进行分析]。我如何在[我的分析]中使用[适当的方法]来[实现高效的合并]?
A1.7. 建模
A1.7.1. 选择一个模型
-
我该如何为[我的特定分析项目]选择一个[合适的模型]?
-
你能根据[我的数据]和[我的目标],帮我[选择最佳模型]吗?
-
选择一个模型的[关键步骤]是什么,这将使我能够[为我的分析]做出[明智的决定]?
-
我该如何使用[相关标准]来[评估不同的模型选项],以[找到最佳解决方案]?
-
我有[不同类型的模型]的想法。我该如何[选择最适合我的分析需求的模型]?
A1.7.2. 训练一个模型
-
我该如何使用[我的训练数据]来[获得准确的结果],以[开始训练一个模型]?
-
你能通过[使用正确的超参数]来[提高性能],帮助我[设置训练过程]吗?
-
训练一个模型以[为我的分析]创建一个有效的模型,[关键步骤]是什么?
-
我该如何[调整设置]和[监控训练过程]以[优化收敛]?
-
我有[训练数据],我想[训练一个模型]。我该如何使用[质量方法]来[获得好的结果]进行[训练]?
A1.7.3. 评估一个模型
-
我该如何通过[使用适当的指标]来[衡量其有效性],以[评估一个模型的性能]?
-
你能帮我通过[解释指标]来[确定其性能],从而[分析模型的结果]吗?
-
评估一个模型的[关键步骤]是什么,这将帮助我[理解其准确性]和[其适应性]?
-
我该如何通过[使用评估技术]来[验证其可靠性],通过[实际值]来[比较模型预测]?
-
我已经[训练了一个模型],我想[评估其性能]。我该如何使用[相关标准]来[分析其结果],以[我的分析项目]为依据?
A1.7.4. 模型验证和重新调整
-
我该如何[验证我的分析模型的性能]以确保[它们的可靠性]?
-
你能展示我如何通过[使用适当的指标]来[评估我的模型的品质],以[选择最佳模型]吗?
-
我需要遵循哪些[模型验证的步骤],以确保[我的分析项目]中的[准确预测]?
-
我该如何通过[优化其性能]来[调整我的模型的超参数],以[获得稳健的结果]?
-
我想[提高我模型的准确性]。我该如何通过[使用交叉验证方法]和[调整技术]来[验证和调整我的模型]?
A1.7.5. 重新训练一个模型
-
在[数据演变]或[性能改进]方面,何时重新训练一个模型是合适的?
-
我该如何通过[结合新数据]同时[保持其准确性]来[更新现有的模型]?
-
使用[当前数据]来[保持其相关性],重新训练一个模型的[关键步骤]是什么?
-
你能帮我理解如何通过[调整超参数]来[优化结果]来[重新训练一个模型]吗?
-
我有一个现有的模型,我想通过[新数据]来[改进其性能]。我该如何[重新训练模型],以[优化其性能]并[整合新信息]?
A1.8. 数据可视化
A1.8.1. 建议图形
-
你能帮我[选择合适的图表类型]来[有效地表示我的分析环境中的数据]吗?
-
在[探索数据]时,[可视化不同变量之间的关系]时,有哪些[推荐的图形]?
-
我该如何[选择相关的图形]来[突出模式]和[从我的数据中传达见解]?
-
我有[各种要可视化的变量],我在寻找[最合适的图表]来[突出趋势]。有什么建议吗?
-
有关[选择图表的最佳实践],哪些将使我能够[清晰地展示我的分析报告中的数据]?
A1.8.2. 识别趋势
-
我该如何使用[有效的可视化方法]在[我的数据]中[识别趋势]?
-
你能教我如何使用[关键指标]从[数据图形]中[检测趋势]吗?
-
我应该使用哪些类型的[趋势图]来[突出时间上的变化]?
-
我想在[我的数据]中[突出趋势]。你推荐哪些[趋势可视化]技术?
-
我该如何使用[可视化]来[快速识别]可能影响[我的分析决策]的[模式和趋势]?
A1.8.3. 创建可视化
-
我该如何使用[可视化工具]如[工具名称]从[我的数据]中[构建可视化]?
-
你能指导我使用[可视化库]通过[显示结果]来[创建可视化]的过程吗?
-
有哪些[创建可视化的基本步骤]将使我能够[有效地传达见解]?
-
我想为[我的数据]创建[吸引人的图形]。[使我的可视化清晰和有信息量]的关键原则是什么?
-
我该如何使用[可视化创建工具]将[我的数据转换为图形]并在[我的分析报告中]改善[展示]?
A1.9. 分析文档
A1.9.1. 设计成功的分析报告
-
我该如何[有效地记录我的分析],以确保[步骤的可追溯性]和[促进协作]?
-
你能教我如何[创建清晰的文档]来[解释我的分析决策]和[使过程透明]吗?
-
我应该遵循哪些[基本文档步骤],以便[以易懂和简洁的方式传达我的结果]?
-
我该如何[构建我的分析报告],以便[让利益相关者了解]所采取的[步骤]和[关键发现]?
-
我需要以[专业和令人信服的方式]记录[我的分析结果]。为了[以有影响力的方式展示我的发现],我应该遵循哪些[最佳实践]?
A1.9.2. 使分析可重复
-
我该如何通过[记录代码和步骤]来[保证我的分析可重复],以便[使其他人能够重现我的结果]?
-
你能教我如何[设置可重复的环境],以[避免在重现分析时出现依赖性问题]?
-
[使我的分析可重复]的关键步骤是什么,以便[其他人可以检查我的结果]和[提出改进]?
-
我该如何[组织我的分析项目],以[促进可重复性]和[避免常见错误]?
-
我需要帮助[使我的分析可重复]。你能指导我通过[记录代码的最佳实践]和[创建可重复的环境]吗?
A1.9.3. 结果展示
-
我该如何[视觉化地展示我的分析结果],以[吸引观众]和[有效地传达洞察]?
-
你能给我展示一些[数据可视化技术],这些技术[有效地突出趋势]和[促进理解]吗?
-
有哪些[创建图表和表格的最佳实践]可以[突出分析的关键点]?
-
我该如何[调整我的演讲以适应听众],以[以有影响力和说服力的方式]传播[相关信息]?
-
我希望[改进我的结果展示],以[使我的分析更具吸引力]。关于[通过数据可视化激发兴趣]和[阐明信息]有什么建议吗?
A1.10. 预测趋势和时间序列
A1.10.1. 预测趋势
-
我该如何在[时间数据]中[预测趋势],以[预测趋势]?
-
你能帮助我使用[预测模型]来[识别时间序列中的新兴趋势]吗?
-
有哪些[预测趋势的关键步骤]将允许我[做出预测]和[做出明智的决定]?
-
我该如何[使用预测方法]来[预测未来运动]和[识别模式],在[我的时间序列数据]中?
-
我有[时间数据],并想[预测趋势]。我该如何[应用预测技术]来[预测分析中的趋势]?
A1.10.2. 解释预测方法
-
我该如何[解释我所使用的预测方法]?
-
你能帮助我[有效地沟通]我为我[时间序列]所采用的预测方法吗?
-
有哪些[关键点]可以[清晰地理解]我所使用的预测方法,针对[序列数据]?
-
我该如何以[可访问]的方式[呈现我的预测方法],以便我[分享我的结果]和[解释它们]?
-
我已经[做出了一些预测],并想[解释我的方法]。我该如何[有效地沟通]我在[分析]中使用的[方法]?
A1.10.3. 时间序列分析
-
我该如何[分析时间序列],以[理解模式]和[检测趋势]?
-
你能帮助我把[时间序列]分解成[关键组件],以[从我的数据中提取信息]吗?
-
时间序列分析中哪些[关键步骤]能让我[突出变化]和[行为]?
-
我该如何[使用时间分析工具]来[识别异常]和[突出]在[我的时间序列]中?
-
我有[时间序列]数据,并想[分析趋势]。我该如何[应用分析技术]来[理解模式]和[解释分析结果]?
A1.11. 机器学习
A1.11.1. 算法选择
-
我该如何确定最适合我的[分类/回归]的机器学习算法?
-
您能提供一些关于[图像识别、序列预测、异常检测]的机器学习算法的例子,并解释一下吗?
-
对于我的[非结构化文本数据、时间序列数据、计算机视觉任务],您推荐考虑哪些具体的机器学习算法?
-
我刚开始学习机器学习。对于[分类、回归、聚类]问题,我应该从哪些多用途算法开始?
-
从[训练时间、性能、可扩展性]方面考虑,哪种机器学习算法最适合[小型或大型数据集]?
A1.11.2. 模型训练
-
在我的数据集上训练[回归、分类、神经网络]模型时,应该遵循哪些最佳实践?
-
我如何在训练[卷积神经网络、循环神经网络、随机森林]时调整模型超参数,如[学习率、层、dropout],以提高模型性能?
-
我在训练数据集上训练模型时,如何使用技术避免过拟合和欠拟合?
-
我如何在训练[深度学习、支持向量机、决策树]模型时确定最佳时期数、批量大小和其他参数?
-
我如何利用验证集、交叉验证等方法在训练过程中严格评估模型?
A1.11.3. 性能评估
-
评估我的[分类、预测、推荐]模型性能最合适的评估指标是什么?
-
我如何通过相互训练不同的机器学习模型来评估它们,并选择最佳表现者?
-
评估不平衡数据集上的模型性能推荐使用哪些技术?
-
除了准确性之外,我还应该分析哪些关键方面来确定我的模型泛化得如何?
-
我应该实施哪些验证策略,如 k 折交叉验证,以严格评估模型性能?
附录 2
GPT-4 与 GPT-3.5:特性比较
表 A2.1. GPT-3.5 与 GPT-4 的比较
| 特征 | GPT-3.5 | GPT-4 |
|---|---|---|
| 参数 | 1750 亿 | 超过 1 万亿 |
| 训练数据期 | 至 2021 年 6 月 | 至 2021 年 9 月 |
| 训练时长 | 标准训练 | 额外六个月用于人类和 AI 反馈 |
| 上下文窗口大小 | 3,000 个标记 | 25,000 个标记 |
| 准确性 | 易于产生幻觉 | 更准确的响应 |
| 安全机制 | 有限 | 增强的安全机制 |
| 编程技能 | 基础代码生成 | 可以迭代和调试代码 |
| 多模态能力 | 仅文本 | 还包括图像(描述图像、上下文、建议) |
| 信息综合 | 难以建立联系 | 可以从多个来源综合 |
| 创造性和一致性 | 基础创意写作 | 改善叙事和角色一致性 |
| 问题解决 | 数学科学有限 | 复杂的数学和科学解决方案 |
| 问题解决能力 | 有限复杂推理 | 能够解决高级数学和科学问题 |
| 偏见与伦理 | 更易受偏见影响 | 减少偏见和不道德的回应 |
| 响应速度 | 响应更快 | 长时间响应较慢 |
| 复杂任务管理 | 有限容量 | 高效管理复杂任务 | # 附录 3
基本术语速查表
算法:用于程序化解决问题的逐步指令。
异常检测:识别与预期行为不同的异常模式。
API:应用程序编程接口,允许从应用程序访问数据和功能。
增强分析:融合人类和人工智能以增强数据洞察。
自动化:使用技术(如人工智能)自动执行任务。
偏见:可能导致模型结果偏差的系统偏见。
商业智能(BI):收集和分析数据以生成业务洞察和做出决策的过程和工具。
聊天机器人:能够进行自然对话的对话式人工智能系统。
ChatGPT:由 OpenAI 创建的高级语言模型,能够参与互动对话,并根据提示生成连贯、上下文相关的文本。
ChatGPT 插件:增强 ChatGPT 功能的第三方集成,例如代码执行、数据可视化或数据库查询。
分类:将数据点分类到不同的类别或类别中。
代码:用编程语言编写的指令集,用于向计算机下达命令并执行特定任务。
代码解释器:使人工智能能够执行和与各种编程语言的代码片段交互的工具。
编码:使用编程语言开发软件、应用程序和技术解决方案的过程。
对话式人工智能:设计用于以自然、对话方式与人类互动和对话的人工智能系统,通常通过理解和生成人类语言来实现。
相关性:评估变量之间的统计关系。
创造力:在制定问题和想象解决方案中的人类独创性。
仪表板:用于视觉监控关键数据和关键指标的用户界面。
数据:可以分析以得出结论的事实、统计数据或信息。
数据分析师:一位专业从事数据解释和分析,以提取有用信息并做出明智决策的人。
数据分析:专注于使用专用工具和技术从数据中提取信息的学科。
数据清洗:纠正数据中的不一致性和错误。
数据收集:从各种来源收集相关数据。
数据管道:从原始状态到处理状态的数据架构流程。
数据准备:手动操作数据以使其可用的过程。
数据质量:评估数据的准确性、完整性和可靠性。
数据科学:一个跨学科领域,使用科学过程和算法从数据中提取知识。
数据科学家:一位数据处理专家,应用统计和计算方法来解决复杂问题并获得可操作的见解。
数据可视化:信息和想法的图形表示。
决策树:表示分类规则的树形模型。
决策制定:根据数据采取行动。
降维:简化多维数据。
伦理:指导 AI 开发和使用的道德原则。
探索性数据分析(EDA):对数据进行初步调查,以检测分布、关系和模式。
通用智能:在不同环境和任务中类似人类的适应性。
生成式 AI:能够使用机器学习模型创建原始内容(如文本或图像)的 AI 系统。
GPT-1:第一个预训练生成器模型,由 OpenAI 于 2018 年推出。
GPT-2:2019 年发布的更大模型,具有 15 亿个参数。
GPT-3:2020 年推出的具有 1750 亿参数的巨大模型。
GPT-3.5:GPT-3 的增强版本,具有更新的架构。
GPT-4:ChatGPT 的最新版本,拥有超过 1000 亿个参数和多模态功能。
人类监督:人们审查和批评 AI 建议。
人类价值观:如同情、创造力和道德等定义人性的品质。
智能助手:如 ChatGPT 等与人类协作的智能系统。
可解释性:人类理解 AI 结果的能力。
大型语言模型(LLM):由 AI 系统处理的人性化沟通,使用自然语言,以实现对话理解和响应。
逻辑回归:用于二元结果的分类算法。
机器学习:从数据中自动学习的算法。
自然语言处理(NLP):使用 AI 理解和生成人类语言。
神经网络:基于生物大脑的计算机系统。
Noteable:将 AI 转换为虚拟笔记助手插件,能够在对话中捕捉、存储和组织信息。
OpenAI:一个著名的 AI 研究组织,是 ChatGPT 和其他生成式 AI 模型等重大发展的背后力量,旨在推动理解和创造力的机器边界。
插件:为现有应用程序添加新功能或功能的附加软件组件。
预测分析:使用数据预测未来结果。
提示:提供给 ChatGPT 的指令(或上下文),以引导其响应。精心设计的提示可以访问 ChatGPT 的能力。
提示工程:创建和选择问题或指令的过程,以引导 AI 模型生成的响应,以便获得相关和有用的结果。
回归:量化变量之间关系的统计模型。
强化学习:通过试错交互学习的智能体。
ShowMe:一个插件,使 AI 能够从文本描述中生成视觉表示,如图表和图形,以促进复杂概念的表达和理解。
SQL:用于管理和查询关系型数据库的结构化查询语言。ChatGPT 可以理解以对话方式解释的 SQL 查询。
结构化数据:以表格格式组织的信息,元素之间有明确的关系,便于通过 SQL 查询或算法进行分析和操作。
监督学习:在标记数据集上训练算法。
共生:生物体之间的互利合作。
时间序列:按时间顺序索引的数据。
透明度:关于 AI 系统工作方式的开放性。
非结构化数据:没有预定义格式的信息,如文本、图像或音频,需要特殊处理以进行分析。
无监督学习:在未标记数据集中寻找模式。
Wolfram:一个强大的知识库,提供访问各种学术和科学领域的高级答案、计算和可视化。
Zapier:连接应用程序以促进数据流和自动执行操作自动化平台。
参考文献
-
Bai, H., Wang, X., Zhao, L. (2021). 问题导向学习模型对中学生 Python 课程计算思维技能的影响。《心理学前沿》,12,771221。
-
Berger, J., Humphreys, A., Ludwig, S., Moe, W.W., Netzer, O., Schweidel, D.A. (2020). 将部落联合起来:利用文本进行市场洞察。《市场营销杂志》,84(1),1–25。
-
Berman, J.J. (2013). 《大数据原理:准备、共享和分析复杂信息》。Elsevier,阿姆斯特丹。
-
Bishop, C. (2006). 《模式识别与机器学习》。Springer 国际出版社,纽约。
-
Chen, M. and Li, G. (2023). ChatGPT 在机械生物学和医学中的应用:一个视角。《机械生物学在医学中的应用》,1(1),100005。
-
Chen, H., Chiang, R.H., Storey, V.C. (2012). 商业智能与分析:从大数据到大数据影响。《管理信息系统季刊》,36(4),1165–1188。
-
Cheng, L., Li, X., Bing, L. (2023). GPT-4 是否是一个好的数据分析师?arXiv,2305.15038。
-
Chui, M., Issler, M., Roberts, R., Yee, L. (2023). 2023 年技术趋势展望。报告,麦肯锡公司,伦敦 [在线]。可在:
www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-top-trends-in-tech获取 [访问日期:2023 年 7 月]。 -
Cupani, M. (2022). 使用 GPT-3 和 GPT-J 进行高级命名实体识别。《数据科学向前进》 [在线]。可在:
towardsdatascience.com/advanced-ner-with-gpt-3-and-gpt-j-ce43dc6cdb9c获取。 -
Davenport, T.H. 和 Dyché, J. (2013)。大公司中的大数据。国际分析研究所,3,1–31 [在线]。可在以下网址获取:
www.sas.com/resources/asset/Big‐Data‐in‐BigCompanies.pdf。 -
Davenport, T.H. 和 Harris, J.G. (2007)。基于分析的竞争:赢得新科学的策略。哈佛商学院评论出版社,波士顿,马萨诸塞州。
-
Delen, D. 和 Demirkan, H. (2013). 数据、信息和分析作为服务。决策支持系统,55(1),359–363。
-
Devlin, J.,Chang, M.-W.,Lee, K.,Toutanova, K. (2019)。Bert:用于语言理解的深度双向变换器预训练。arXiv,1810.04805。
-
Else, H. (2023)。ChatGPT 撰写的摘要欺骗了科学家。自然,613(423),423–423。
-
Frankel, F. 和 Reid, R. (2008)。大数据:从数据中提炼意义。自然,455(30),30–30。
-
Gutierrez, D. (2015)。机器学习和数据科学:使用 R 的统计学习方法入门。Technics Publications,Sedona。
-
Hazen, B.T.,Boone, C.A.,Ezell, J.D.,Jones-Farmer, L.A. (2014)。供应链管理中的数据质量、预测分析和大数据:问题介绍、研究与应用建议。国际生产经济学杂志,154,72–80。
-
Hendrycks, D.,Burns, C.,Basart, S.,Critch, A.,Li, J.,Song, D.,Steinhardt, J. (2021)。使 AI 与共享的人类价值观保持一致。国际学习表示会议论文集(ICLR)。
-
Henke, N.,Bughin, J.,Chui, M.,Manyika, J.,Saleh, T.,Wiseman, B.,Sethupathy, G. (2016)。分析时代:在数据驱动世界中竞争。报告,麦肯锡公司,伦敦 [在线]。可在以下网址获取:
www.mckinsey.com/capabilities/quantumblack/our-insights/the-age-of-analytics-competing-in-a-data-driven-world[2016 年 12 月访问]。 -
Hilton, J.,Nakano, R.,Balaji, S.,Schulman, J. (2021)。通过网络浏览提高语言模型的准确性:WebGPT。OpenAI [在线]。可在以下网址获取:
openai.com/research/webgpt[2021 年 12 月访问]。 -
IBM 商业价值研究院 (2023)。企业生成式 AI:市场现状。IBM [在线]。可在以下网址获取:
www.ibm.com/thought-leadership/institute-business-value/en-us/report/enterprise-generative-ai?utm_medium=Email&utm_source=Adhocoutbound&utm_content=IBVWW&utm_term=17TSL&utm_campaign=Acoustic_23-EL1204-9A9D_A&utm_id=23-EL1204-9A9D_A_1204[2023 年 7 月访问]。 -
Jiang, Z., Xu, F., Araki, J., Neubig, G. (2020). How can we know what language models know? 《计算语言学协会(ACL)交易》,8,423–438.
-
Kim, H., So, B.H., Han, W.S., Lee, H. (2020). Natural language to SQL: Where are we today? 《数据库系统 VLDB 论文集》,13(10),1737–1750.
-
Liebrenz, M., Schleifer, R., Buadze, A., Bhugra, D., Smith, A. (2023). Generating scholarly content with ChatGPT: Ethical challenges for medical publishing. 《柳叶刀数字健康》,5(3),e105–e106.
-
Lucini, F. (2021). The real deal about synthetic data. 《麻省理工学院斯隆管理评论》,63,1–4.
-
Manning, C.D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S.J., McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. 《计算语言学协会(ACL)系统演示论文集》,巴尔的摩,55–60.
-
Martineau, K. (2022). Five ways IBM is using synthetic data to improve AI models. IBM Research [Online]. 可在:
research.ibm.com/blog/synthetic-data-explained. -
McAfee, A. and Brynjolfsson, E. (2011). 《机器竞赛:数字革命如何加速创新、提高生产力,并不可逆转地改变就业和经济》。数字前沿出版社,列克星敦。
-
McKinsey & Co (2023). The economic potential of generative AI: The next productivity frontier. Report, McKinsey & Co, London [Online]. 可在:
www.mckinsey.com/featured-insights/mckinsey-live/webinars/the-economic-potential-of-generative-ai-the-next-productivity-frontier[Accessed 14 June 2023]. -
Mitchell, T.M. (1997). 《机器学习》。麦格劳-希尔,纽约。
-
Mollick, E. (2022). ChatGPT is a tipping point for AI. 《哈佛商业评论》.
-
Morabito, V. (2015). 《大数据与数据分析:战略和组织影响》。斯普林格国际出版社,纽约。
-
OpenAI (2023). GPT-4 技术报告 [在线]. 可在:
cdn.openai.com/papers/gpt-4.pdf. -
Osoba, O. and Welser, W. (2017). 《我们的智能:人工智能中的偏见和错误风险》。兰德公司,圣莫尼卡。
-
Oxford Analytica (2023). GPT-4 underlines mismatch on AI policy and innovation. Report, Oxford Analytica, Oxford/Paris.
-
Piegorsch, W.W. (2015). 《统计数据分析》。约翰·威利与 Sons,纽约。
-
Radford, A. (2018). Improving language understanding with unsupervised learning. OpenAI [Online]. 可在:
openai.com/research/language-unsupervised. -
Rich, A.S. and Gureckis, T.M. (2019). Lessons for artificial intelligence from the study of natural stupidity. 《自然机器智能》,1,174–180.
-
Samuel, A.L. (1959)。使用国际象棋游戏进行机器学习研究。《IBM 研究与发展杂志》,3(3),210–229。
-
Sanderson, K. (2023)。GPT-4 来了:科学家们的看法。《自然》,615(7954),773。
-
Schick, T. 和 Schütze, H. (2021)。不仅仅是大小:小型语言模型也是少样本学习者。《2021 年北美计算语言学协会分会会议:人机语言技术论文集》。计算语言学协会,2339–2352。
-
Sedkaoui, S. (2018a)。数据分析与大数据。ISTE Ltd,伦敦,和 John Wiley & Sons,纽约。
-
Sedkaoui, S. (2018b)。大数据分析促进创业成功:新兴研究和机遇。IGI Global,纽约。
-
Sedkaoui, S. (2023)。ChatGPT 与语言技术的未来:从对话到智能生成。ChatGPT 通往智能生成技术的旅程。《独立出版》。
-
Sedkaoui, S. 和 Gottinger, H.W. (2017)。互联网、数据分析和大数据。《互联网经济学:模型、机制和管理》,Gottinger, H.W(编)。Bentham Science Publishers,沙迦,144–166。
-
Sedkaoui, S. 和 Khelfaoui, M. (2020)。共享经济与大数据分析。ISTE Ltd,伦敦,和 John Wiley & Sons,纽约。
-
Sedkaoui, S., Khelfaoui, M., Keltoum, O. (2022). COVID-19 推文的情感分析。载于《通过网络分析管理业务国际会议》,Sedkaoui, S., Khelfaoui, M., Benaichouba, R., Mohammed Belkebir, K.(编)。Springer,柏林。
-
Shen, Y., Song, K., Tan, X., Li, D., Lu, W., Zhuang, Y. (2023)。HuggingGPT:使用 HuggingFace 中的 ChatGPT 及其朋友解决 AI 任务。《CoRR abs》,2303(17580)。
-
Siegel, E. (2013)。预测分析:预测谁会点击、购买、撒谎或死亡的力量。John Wiley & Sons,纽约。
-
Surameery, N.M.S. 和 Shakor, M.Y. (2023). 使用 ChatGPT 解决编程错误。《信息技术与计算机工程国际杂志》,3(1),17–22。
-
Susnjak, T. (2023)。在科学文献中应用 BERT 和 ChatGPT 进行莱姆病情感分析。《arXiv》,2302(06474)。
-
Taecharungroj, V. (2023)。ChatGPT 能做什么?分析 Twitter 上对创新 AI 聊天机器人的早期反应。《大数据与认知计算》,7(1),35。
-
Tamkin, A., Brundage, M., Clark, J., Ganguli, D. (2021). 理解大型语言模型的能力、局限性和社会影响。doi: 10.48550/ arXiv.2102.02503。
-
Thorp, H.H. (2023)。ChatGPT 很有趣,但不是作者。《科学》,379(6630),313。
-
Tingiris, S. 和 Kinsella, B. (2021)。探索 GPT-3:OpenAI 通用语言处理 API 的非官方初探。《Packt Publishing》,伯明翰。
-
Toubia, O. 和 Netzer, O. (2016)。创意生成、创造力和典型性。《营销科学》,36(1),1–20。
-
Tukey, J.W. (1977)。探索性数据分析。《Addison-Wesley》,雷丁。
-
美国劳工统计局 (2022)。职业展望手册[在线]。可在以下网址获取:
www.bls.gov/ooh/math/data-scientists.htm。 -
Van Dis, E.A.M.,Bollen, J.,Zuidema, W.,van Rooij, R.,Bockting, C.L. (2023). ChatGPT:研究的五个重点。《自然》,614(7947),224–226。
-
Von Hippel, E. (2006)。民主化创新。 MIT Press,Cambridge。
-
Wiles, J. (2023). 超越 ChatGPT:企业生成式人工智能的未来。 Gartner,Stamford。
-
Yilmaz, R. 和 Yilmaz, F.G.K. (2023). 基于生成式人工智能(AI)工具使用对学生计算思维技能、编程自我效能感和动机的影响。《计算机与教育:人工智能》,4,100147。
-
Zhang, Z.,Han, X,Zhou, H.,Ke, P.,Gu, Y.,Ye, D.,Qin, Y.,Su, Y.,Ji, H.,Guan, J. 等人 (2021)。CPM:大规模生成式中文预训练语言模型。《AI 开放》,2,93–99。
索引
A,B
-
准确性,41,42,44,45,48–50,53,64,70,85,93,97,98,101,102,104,125,127,133,139,140,145,151,184,188
-
Alexa,9
-
算法(s),140,183,189
-
去偏,98
-
机器学习,183
-
监督的,120
-
无监督的,120
-
-
Amazon,9,114
- Alexa,9
-
分析/分析学
-
探索性数据分析(EDA),33,72,73,135
-
预测的,79,82,83
-
情感,30,50,53,54,73,79–81,83,87,88,90–92,151
-
统计的,2,58,73,74,83,92
-
文本,50,88
-
-
分析任务,2,12,28,72,80,81,102
-
人工智能,另见生成式 AI,1,188–190
-
音频,99,191
-
自动化/自动化,1,2,8,12,13,30,31,36,38,40,45–48,66,80,82,94,95,99,104,105,107,113,119,127,131,133,137,155,163–166,172,175,191
- 写作,127,131,133
-
Bard,9
-
偏见,7,13,14,39,91,93,97–99,103,104,115,127,140,141,143–146,148–151,154–157,159,160,186
- 错误,4,6,13,38,42,44–48,52,55,67,94,104,107,108,121,124,136–138,140,141,153,156,170,181,188
-
偏见性回应,23,186
-
大数据集,41,124,174
-
BookCorpus,15,22,23
C, D
-
聊天机器人,8,9,21,23,25,26,30
- 虚拟助手,8,30
-
ChatGPT
-
生成模型,39,40,66,74,83,137–139,163
-
图片, 9, 24, 52, 78, 99, 111, 124, 183, 185, 189, 191
-
-
聚类, 111, 113, 124
-
编程, 3, 4, 21, 25, 27, 29, 30, 34, 50, 51, 55, 57, 63, 79, 115–117, 136, 172, 173, 175, 176
-
JavaScript, 25
-
编程, 3, 4, 22, 25, 29, 34, 36, 37, 39, 59, 62, 68, 110, 116, 117, 120, 137, 158, 185, 187, 188
-
Python, 3, 25, 36, 37, 42, 77, 107, 116, 121, 135
-
R, 42, 77, 107, 173
-
-
协作, 2, 5, 10, 11, 21, 29–31, 36, 38, 40, 47, 61, 62, 66, 72, 74, 76, 81, 82, 88, 93, 95, 100, 105, 108, 114, 115, 120, 124, 125, 134, 136, 140, 141, 154, 155, 164, 181
-
Common Crawl, 15, 22, 23
-
持续改进,14,89,92,93,100–105,160
- 反馈循环,另见 反馈循环,14,93,104,105,141,143,150,156,159
-
创造力,5,7,11,12,14,20,35,38,61,75,82,87,113,115,127,136,139,146,161,164–166,189,190
-
增强智能,37,166
-
人类,11,12,14,20,35,61,75,82,87,146,161,164,166
-
-
Dall-E,9
-
数据
-
-bases,62,63,65,77,80,135,173,187,190
-
-sets,41,124,174
-
清洁,2,33,42,45,46,50,54,79,80,102,163,164,170,172
-
特征工程,40,51,121
-
格式化,41,42,45,46,50,95
-
缺失,41,45,48–50,53,121
-
准备,5,34,40–42,44,45,47,48,50,52–55,73,80,92,96,109,115,135,141,172
-
预处理,2,10,15,34,40,45–48,107,115,170
-
质量,6,36,44–47,97,124,140,151,170
-
数量,12,47
-
科学,6,11,17,33–35,38,45,154
-
科学家,11,17,164
-
结构化,59,94,99,105,135,190
-
训练,85,91,119,123
-
转换,3,42,51,52,55
-
非结构化,88,89,99,105,112,172,183,191
-
可视化,34,58,76–80,111,182
-
PowerBI,34
-
表格,4,9,12,26,28,32,34,36,46,49,54,81,89,92,96,98,99,112,118,122,132,135,140,146,149,160,186,188
-
-
-
偏差消除算法,98
-
Duplex,9
E, F, G
-
工程学
-
特征,40,51,121
-
提示,5,6,15–18,20,63
-
-
伦理/伦理的,5,6,11,14,15,20,31,38,86,93,106,139–141,143–147,149–151,153,156,157,159,160,163–166,186,189
-
准确性,41,42,44,45,48–50,64,70,85,93,97,98,101,102,104,125,127,133,139,145,151,184,188
-
考虑,1,30,37,106,141,144,146,147,159,160
-
可靠性,4,13,14,29,39,41,42,44,45,48,52,94,97,98,101,138,150,179,188
-
-
公平,14,31,39,139,141,143,150,151,156–160
-
FastText,51
-
生成式 AI,1,2,4–12,15,17,21,31,32,38–43,46,57–61,64,65,72,73,76,78,88,92,105,108,109,115,117,118,123,130,131,137,139,141,143,147,158,163–166,189,190
-
GloVe,51
-
谷歌,9,114
-
助手,9
-
Bard,9
-
双倍,9
-
-
治理,13,15,38,40,81,86,99,105,143,144,155–158,160,166
-
GPT,1,8,9,21–25,27,28,35,37,68,78,79,99,185,186,189
-
-1,21–23,189
-
-2,23,189
-
-3.5,23,24,79,99,185,189
-
-4,9,21,22,24,27,28,37,68,78,79,99,185,186,189
-
参数,2,7,22–24,33,101,112,118,121,139,178,184,189
-
H,I,J
-
人工监督,14,125,139–141,163,165
-
监控,1,7,11,14,31,38,39,72,73,84–87,89,92,93,95,97,98,100,103,104,107,115,117,120,133,137,139,141,143,144,147,154–156,159,164,165
-
验证,38,46,97,141
-
-
创新,9,30,61,82,94,113,115,125,136,138,147,166
-
交互式仪表板,3,26,30,31,59,61,62,135–137
-
JavaScript,25
K, L, M
-
k-means,113,124
- 聚类,111,113,124
-
大型语言模型 (LLM),15,16,27,68,114,116
-
线性,84
- 判别分析,121
-
机器学习,1,7,8,10,11,13,17,33,36,46,48,50–52,55,58,101,102,104,108–120,123–125,147,156,158,183,184,189
-
超参数,85,115,117–119,121,124,125,135,178,179,184
-
模型,1–4,7,8,11–15,21–30,33–36,39,40,45–47,51–53,57–59,61,62,64,66,68,73,74,76–79,81–86,89,92,93,95–99,101–120,123–125,128,130,131,133,134,137–141,143–145,147,151,156,157,159,163–166,175,176,178–180,182–184,187,189,190
-
管道,117,155,156
-
强化,7,16,110,112–114,157,190
-
-
建模,2,5,22,25,29,33,34,38,42,50,57,69,73,74,76,79,83,84,92,93,95–97,100,102,106,107,109,115,117,118,124,131,150,163,175
-
预测,80,81,86,98,105,106,123,182–184
-
性能,97,98,101,106,118,124,137,177–179
-
-
模型
-
预测性,2,38,43,47,52,53,73,76,83,84,86,92,93,95,106–109,124,131,176,182
- 部署,30,83,85,103,104,125,135,146,147,149,150,154,157,159,164
-
监督的,111,113,120,123–125
-
无监督的,111,120,124
-
N,P
-
自然语言
-
模型,2,34
- 接口,2,109,115,124,187
-
处理(自然语言处理),3,16,21–23,29–31,35,45,50–52,62,64,81,84
-
-
非线性的,53,85
-
参数,2,7,22–24,33,101,112,118,121,139,178,184,189
-
性能提升,8,14,24,28,52,65,71,72,89,92–94,100–105,114,120,153–155,157,160,179
-
插件,35–37,68,78,99,135,136
-
代码解释器,188
-
ShowMe,36,190
-
WebPilot,36
-
Zapier,36,191
-
-
PowerBI,34
-
处理
-
分析,1,13,14,31,75,155
-
清洗,41,45,48,53
-
部署,150
-
迭代,16,74,98,101,103,104,145
-
准备,41
-
-
提示,2,3,5,6,15–18,20,22,24,30,34,36,57,72,80,84,91,99,104,108,115,116,124,130,135,137–139,153,169,187,190
-
Python,3,25,36,37,42,77,107,116,121,135
Q,R
-
查询
-
自然语言,41,55,62–64,68,70,72
-
优化,68,71
-
SQL,55,57,62,65–68,70,71,190
-
结构化,62
-
-
R,42,77,107,173
-
回归,33,53,83,84,113,123,124,183
-
线性,83
-
逻辑回归,84
-
-
可靠性,4, 13, 14, 29, 39, 41, 42, 44, 45, 48, 52, 94, 97, 98, 101, 138, 150, 179, 188
-
责任,97, 139–141, 143, 144, 147, 149, 156–160, 164–166
-
公平,14, 31, 39, 139, 141, 143, 150, 151, 156–160
-
治理,13, 15, 38, 40, 81, 86, 93, 99, 105, 143, 144, 155–158, 160, 166
-
透明度,7, 14, 31, 93, 98, 100, 141, 143, 144, 150, 151, 156, 158–160
-
S, T
-
ShowMe,36, 190
-
软件,29
-
应用,8, 21, 23–25, 29, 30, 36, 48, 73, 78, 85, 87–89, 107, 109, 110, 114, 115, 117, 127, 144, 156, 158, 187, 188, 191
-
开发,29
-
-
SQL,25, 34, 37, 61–63, 65–68, 70–72, 173, 174, 190
- 请求,55, 57, 62, 65–68, 70, 71, 190
-
讲故事,127,128,131–133,135,136
-
仪表盘,28,134–137,140,154
-
数据,127
-
计划,26,32,127,128,130
-
-
战略提示,20
-
结构,4,17,25,29,67–69,74,76,116,123,128,130,134
- 叙事,128
-
协同效应,7,10,15,59,75,78,82,94,110,111,131,133,138,166
-
表格,25,28,32,43,44,46,50,67,88,98,111,112,115,118,120,125,134–136,140,147
-
技术,4,6–8,20,21,24,26,38,46,55,58,64,66,76,78,136,144,147,158,161,187
-
高级自然语言处理,46
-
人工智能,78,144,147
-
-
文本,7,8,15,22–26,41,44,48,50,52,62,72,73,78,88–90,92,93,99,121,131–133,139,185,187,189,191
-
时间序列,81,105,182,183
- 分析,106,183
-
transformer,58,63,110,112,113,163
-
透明度,7,14,31,93,98,100,141,143,144,150,151,156–160
-
趋势,30,42,51,57–64,73–78,82,86–88,91,96,105–108,113,132–134,137,150,153,164,175,180,182,183
V, W, Z
-
价值,2,5,7,8,10,11,13,32,38,68,80,82,89,93,94,100,102,104,105,124,127,135,140,141
- 增加,13,32,82,102,127
-
变量
-
不对称,84
-
类别,55
-
独立,84
-
-
向量,50
-
虚拟助手,8,30
-
网络,36,106,114,128,158
- 页面,7,15,22
-
WebPilot,36
-
WebText,23
-
维基百科,15,23
-
Word2Vec,51
-
工作流程,3,5–7,16,18,20,21,27,32–38,59,75,94–96,99,103,104,107,109,114,115,117,125,136,141,143,147–149,151,153,155,163–165,175
-
分析任务,2,12,28,72,80,81,102
-
数据分析,37,94–96,147,151,153,155
-
-
Zapier,36,191

2024
ALBAN Daniel, EYNAUD Philippe, RICHET Jean-Loup, VITARI Claudio
《信息系统管理:治理、城市化和对齐 – 第 2 版》
PINET François, BATTON-HUBERT Mireille, DESJARDIN Eric
《地理数据不完善 2:用例》
2023
POMEROL Jean-Charles
《不确定行动:专业知识、决策和危机管理》
REVEST Valérie, LIOTARD Isabelle
《数字化转型和公共政策:当前问题》
2022
ACCART Jean-Philippe
《图书馆转型策略》
BOADA Martí, LAZARO Antonio, GIRBAU David, VILLARINO Ramón
《物联网无电池 NFC 传感器》
BRÉZILLON Patrick, TURNER Roy M.
《行动中的建模和使用情境》
CHAMOUX Jean-Pierre
《数字时代 3:习俗和实践》
KARAM Elie
《智慧城市总承包商商业模式:基础和技术》
2021
BEN REBAH Hassen, BOUKTHIR Hafedh, CHÉDEBOIS Antoine
《使用 HTML5 和 CSS3 进行网站设计和开发》
EL ASSAD Safwan, BARBA Dominique
《数字通信 1:基础和技术》
《数字通信 2:指导和实践工作》
GAUDIN Thierry, MAUREL Marie-Christine, POMEROL Jean-Charles
《机遇、计算与生命》
LAURENT Sébastien-Yves
《网络空间中的冲突、犯罪和法规》
(《网络安全套件 – 第 2 卷》)
LE DEUFF Olivier
《超文档》
(《知识产权技术套件 – 第 9 卷》)
PÉLISSIER Maud
《数字生态系统中的文化共享》
(《知识产权技术套件 – 第 8 卷》)
2020
CLIQUET Gérard,与 BARAY Jérôme 合作
《基于位置的营销:地理营销和地理位置》
DE FRÉMINVILLE Marie
《网络安全与决策者:数据安全和数字信任》
GEORGE Éric
社会数字化与社政问题 2:数字、信息和研究
HELALI Saida
系统和网络基础设施集成
LOISEAU Hugo, VENTRE Daniel, ADEN Hartmut
人文社会科学中的网络安全:研究方法方法(网络安全系列 – 第 1 卷)
SEDKAOUI Soraya, KHELFAOUI Mounia
共享经济与大数据分析
SCHMITT Églantine
大数据:决策的艺术
(知识技术系列 – 第 7 卷)
2019
ALBAN Daniel, EYNAUD Philippe, MALAURENT Julien, RICHET Jean-Loup, VITARI Claudio
信息系统管理:治理、城市化与对齐
AUGEY Dominique,与 ALCARAZ Marina 合作
数字信息生态系统:智能出版社
BATTON-HUBERT Mireille, DESJARDIN Eric, PINET FranÉois
地理数据不完善 1:从理论到应用
BRIQUET-DUHAZÉ Sophie, TURCOTTE Catherine
从阅读写作研究到实践
BROCHARD Luigi, KAMATH Vinod, CORBALAN Julita, HOLLAND Scott, MITTELBACH Walter, OTT Michael
节能计算与数据中心
CHAMOUX Jean-Pierre
数字时代 2:政治经济学再访
COCHARD Gérard-Michel
随机过程与模拟导论
DUONG Véronique
SEO 管理:实现成功的方法和技术
GAUCHEREL Cédric, GOUYON Pierre-Henri, DESSALLES Jean-Louis
信息,生命的隐藏面
GEORGE Éric
社会数字化与社政问题 1:数字、通信与文化
GHLALA Riadh
SQL Server 2014/2016 中的分析 SQL
JANIER Mathilde, SAINT-DIZIER Patrick
论据挖掘:语言基础
SOURIS Marc
流行病学与地理:空间原理、方法和工具
分析
TOUNSI Wiem
网络警觉与数字信任:云计算和物联网时代的网络安全
2018
ARDUIN Pierre-Emmanuel
内部威胁
(信息系统进展系列 – 第 10 卷)
CARMÉS Maryse
数字组织制造:脚本、表现力和半政治
(知识技术系列 – 第 5 卷)
CARRÉ Dominique, VIDAL Geneviève
超连接:经济、社会和环境挑战
(计算与连接社会系列 – 第 3 卷)
CHAMOUX Jean-Pierre
数字时代 1:大数据赌注
DOUAY Nicolas
数字时代的城市规划
(知识技术系列 – 第 6 卷)
FABRE Renaud, BENSOUSSAN Alain
知识数字工厂:科学成果的生产与验证
GAUDIN Thierry, LACROIX Dominique, MAUREL Marie-Christine, POMEROL Jean-Charles
生命科学,信息科学
GAYARD Laurent
暗网:地缘政治与用途
(计算与连接社会系列 – 第 2 卷)
IAFRATE Fernando
人工智能与大数据:新智能的诞生
(信息系统进展系列 – 第 8 卷)
LE DEUFF Olivier
数字人文:历史与发展
(知识技术系列 – 第 4 卷)
MANDRAN Nadine
可追溯的人类实验设计研究:理论模型与实践指南
(信息系统进展集 - 第 9 卷)
PIVERT Olivier
NoSQL 数据模型:趋势与挑战
ROCHET Claude
智慧城市:现实还是虚构
SALEH Imad, AMMI, Mehdi, SZONIECKY Samuel
物联网的挑战:技术、使用、伦理
(数字工具与使用集 - 第 7 卷)
SAUVAGNARGUES Sophie
危机情况下的决策:研究与创新以实现最佳培训
SEDKAOUI Soraya
数据分析与大数据
SZONIECKY Samuel
生态系统知识:信息与通信建模与分析方法
(数字工具与使用集 - 第 6 卷)
2017
BOUHAÏ Nasreddine, SALEH Imad
物联网:演变与创新
(数字工具与使用集 - 第 4 卷)
DUONG Véronique
百度 SEO:中国市场营销的挑战与复杂性
LESAS Anne-Marie, MIRANDA Serge
NFC 编程的艺术与科学
(知识产权技术集 - 第 3 卷)
LIEM André
前瞻性人体工程学
(人机交互集 - 第 4 卷)
MARSAULT Xavier
建筑早期阶段的生态生成设计
(建筑与计算机科学集 - 第 1 卷)
REYES-GARCIA Everardo
图像界面:视觉信息的图形支持
(数字工具与使用集 - 第 3 卷)
REYES-GARCIA Everardo, BOUHAÏ Nasreddine
设计交互式超媒体系统
(数字工具与使用集 - 第 2 卷)
SAÏD Karim, BAHRI KORBI Fadia
非对称联盟与信息系统:问题与前景
(信息系统进展集 - 第 7 卷)
SZONIECKY Samuel, BOUHAÏ Nasreddine
集体智能与数字档案:迈向知识生态系统
(数字工具与使用集 - 第 1 卷)
2016
BEN CHOUIKHA Mona
知识管理组织设计
BERTOLO David
在 3D 几何学习背景下的数字平板电脑交互
(人机交互集 - 第 2 卷)
BOUVARD Patricia, SUZANNE Hervé
商业中的集体智能发展
EL FALLAH SEGHROUCHNI Amal, ISHIKAWA Fuyuki, HÉRAULT Laurent, TOKUDA Hideyuki
智慧城市推动因素
FABRE Renaud,与 MESSERSCHMIDT-MARIET Quentin, HOLVOET Margot 合作
知识的新挑战
GAUDIELLO Ilaria, ZIBETTI Elisabetta
通过机器人学习机器人,用机器人学习
(人机交互集 - 第 3 卷)
HENROTIN Joseph
网络时代的战争艺术
(知识产权技术集 - 第 1 卷)
KITAJIMA Munéo
人机交互中的记忆与动作选择
(人机交互集 - 第 1 卷)
LAGRAÑA Fernando
电子邮件与行为变化:电子通信的使用与误用
LEIGNEL Jean-Louis, UNGARO Thierry, STAAR Adrien
数字化转型
(信息系统进展集 - 第 6 卷)
NOYER Jean-Max
集体智能的转型
(知识产权技术集 - 第 2 卷)
VENTRE Daniel
信息战 - 第 2 版
VITALIS André
不确定的数字革命
(计算与连接社会系列 - 第 1 卷)
2015
ARDUIN Pierre-Emmanuel, GRUNDSTEIN Michel, ROSENTHAL-SABROUX Camille
信息与知识系统
(信息系统进展系列 - 第 2 卷)
BÉRANGER Jérôme
医学信息系统伦理
BRONNER Gérald
互联网上的信念与错误信念不对称
IAFRATE Fernando
从大数据到智能数据
(信息系统进展系列 - 第 1 卷)
KRICHEN Saoussen, BEN JOUIDA Sihem
供应链管理与计算机科学中的应用
NEGRE Elsa
信息与推荐系统
(信息系统进展系列 - 第 4 卷)
POMEROL Jean-Charles, EPELBOIN Yves, THOURY Claire
MOOCs
SALLES Maryse
决策与信息系统
(信息系统进展系列 - 第 3 卷)
SAMARA Tarek
ERP 与信息系统:整合或分解
(信息系统进展系列 - 第 5 卷)
2014
DINET Jérôme
数字环境中的信息检索
HÉNO Raphaële, CHANDELIER Laure
建筑 3D 建模:杰出地点
KEMBELLEC Gérald, CHARTRON Ghislaine, SALEH Imad
推荐系统
MATHIAN Hélène, SANDERS Lena
时空方法:地理对象和变化过程
PLANTIN Jean-Christophe
参与式制图
VENTRE Daniel
中国网络安全与防御
2013
BERNIK Igor
网络犯罪与网络战
CAPET Philippe, DELAVALLADE Thomas
信息评估
LEBRATY Jean-Fabrice, LOBRE-LEBRATY Katia
众包:更进一步
SALLABERRY Christian
文本语料库中的地理信息检索
2012
BUCHER Bénédicte, LE BER Florence
GIS 中的创新软件开发
GAUSSIER Eric, YVON François
文本信息访问
STOCKINGER Peter
视听档案:数字文本和话语分析
VENTRE Daniel
网络冲突
2011
BANOS Arnaud, THÉVENIN Thomas
地理信息与城市交通系统
DAUPHINÉ André
分形地理学
LEMBERGER Pirmin, MOREL Mederic
管理信息系统复杂性
STOCKINGER Peter
视听档案导论
STOCKINGER Peter
数字视听档案
VENTRE Daniel
网络战与信息战
2010
BONNET Pierre
企业数据治理
BRUNET Roger
可持续地理学
CARREGA Pierre
地理信息与气候学
CAUVIN Colette, ESCOBAR Francisco, SERRADJ Aziz
主题制图 - 3 卷系列
主题制图与转型 - 第 1 卷
制图与定量革命的影响 - 第 2 卷
主题制图新方法 - 第 3 卷
LANGLOIS Patrice
GIS 中复杂系统的模拟
MATHIS Philippe
图与网络 - 第 2 版
THERIAULT Marius, DES ROSIERS François
城市动态建模
2009
BONNET Pierre, DETAVERNIER Jean-Michel, VAUQUIER Dominique
可持续 IT 架构:使用 SOA 重整信息系统的渐进方式
PAPY Fabrice
信息科学
RIVARD François, ABOU HARB Georges, MERET Philippe
横跨信息系统
ROCHE Stéphane, CARON Claude
GIS 的组织方面
2008
BRUGNOT Geérard
风险的空间管理
FINKE Gerd
运筹学与网络
GUERMOND Yves
地理学中的建模过程
KANEVSKI Michael
环境数据的高级制图
MANOUVRIER Bernard, LAURENT Ménard
应用集成:EAI、B2B、BPM 和 SOA
PAPY Fabrice
数字图书馆
2007
DOBESCH Hartwig, DUMOLARD Pierre, DYRAS Izabela
气候数据的空间插值
SANDERS Lena
空间分析中的模型
2006
CLIQUET Gérard
地理营销
CORNIOU Jean-Pierre
回顾与展望信息技术
DEVILLERS Rodolphe, JEANSOULIN Robert
空间数据质量基础
WILEY 最终用户许可协议
访问 www.wiley.com/go/eula 以获取 Wiley 电子书最终用户许可协议。


浙公网安备 33010602011771号