哈尔滨金融学院--实验指导(二):利用AI大模型辅助学生完成金融数据分析综合实践作业--零代码实现聚类分析任务
实验指导(二):利用AI大模型辅助学生完成金融数据分析综合实践作业--零代码实现聚类分析任务
1、实验目的
- 掌握通过上传表格文件,利用AI大模型辅助进行数据分析的方法
- 掌握完全利用AI大模型模型,零代码完成数据聚类任务的方法
2、实验内容
在前序实验指导中,已经介绍了如何利用AI大模型进行辅助编程的方法。前序的任务中,假定的场景为学生基于本地的数据进行分析,开发工具为本地的Anaconda环境,在开发的过程中,辅助利用AI大模型改正和完成自己的部分代码。本实验更进一步地,将数据上传到AI大模型平台,通过提示词,零代码(学生自己不写任何代码)的完成数据聚类任务。本次作为背景内容的实验案例为仍为《农村地区居民人均可支配收入水平综合评价》综合实践任务,实验给定一个表格(见附件7),表格文件名为: 农村居民人均可支配收入来源2016.xlsx ,表格的数据为2016年我国31个省、自治区和直辖市的农村地区居民的工资性收入、经营净收入、财产净收入、转移净收入,要求学生根据每个省份的这四个指标数据,使用聚类技术,将居民收入分布比较类似的省份划分到一起。AI大模型平台为前序实验指导中的智谱清言(ChatGLM),之前注册的账号可以继续使用。
本次实验的代码可以分为三个部分,分别为:
- (1) 上传数据到智谱清言的“数据分析”智能体中
- (2) 使用合适的提示词,让该智能体自动完成描述型数据分析
- (3) 使用合适的提示词,让该智能体自动完成聚类分析任务
3、实验步骤
3.1 上传表格文件到"数据分析"智能体中
AI大模型的智能体(Agent)指的是一个能够在特定环境中感知、决策和行动的自主系统。智谱清言的智能体是基于其平台的大语言模型GLM-4创建的,允许用户无需编程经验即可创建个性化的智能体。这些智能体能够实现聊天、代码执行、数据分析等功能。由于数据分析功能的需求广泛存在,所以智谱清言在其智能体中心中默认已经配置好了“数据分析”智能体。我们可以直接与这个智能体进行交互。
步骤如下:
-
- 在页面中找到数据分析智能体,点击进行该智能体
-
- 将农村居民人均可支配收入来源2016.xlsx上传到该智能体中(在输入框出有一个上传按钮,点击即可),并输入下面的提示词:
Student:请基于该文件里面的数据内容,根据我下面的指令,完成任务。
- 将农村居民人均可支配收入来源2016.xlsx上传到该智能体中(在输入框出有一个上传按钮,点击即可),并输入下面的提示词:
不出意外的,“数据分析”智能体会读取我们上传的表格,并自动的显示表格的前5行(这是“数据分析”智能体的默认配置行为),并会给我们一些可以进行哪些任务的提示。
3.2 描述型数据分析:直接输入下面的提示词,让ChatGLM完成下面的3个小任务
-
- 哪一个城市的工资性收入最高?
-
- 财产净收入收入垫底的5个省份是哪些?
-
- 北京市农村居民的收入总和是多少?
-
- 自己再设计3个描述型数据分析的小任务,并设计对应的提示词,和ChatGLM进行交互,将结果记录在实验手册上
教师提示:在你和ChatGLM使用上面的提示词进行交互的过程中,也许你未必能够得到正确的结果。如果不正确,请修改提示词,重新和ChatGLM进行交互,直到你获得正确的结果。
3.3 零代码完成聚类分析任务
众所周知,我国省份众多,在经济发展过程中,呈现明显的区域性差异。在农村居民收入这一个指标上,也应该有类似的体现。为了验证这一点结论,我们基于聚类分析的思想,利用ChatGLM完全零代码的完成任务,并让ChatGLM帮助我们对聚类结果进行分析。输入下面的提示词。
Student: 基于该数据集,在农村居民收入这个指标上,哪些省份比较类似呢?
ChatGLM: 要确定哪些省份在农村居民收入方面比较相似,我们可以使用聚类分析。聚类分析可以帮助我们根据收入指标将省份分组,从而找出相似的省份群体。我们将使用以下步骤进行聚类分析:
- 数据预处理:标准化数据,使每个特征具有相同的尺度。
- 选择聚类算法:在这里,我们可以使用 K-means 聚类算法。
- 确定聚类数:使用肘部法则来确定最佳的聚类数。
- 执行聚类:使用选定的聚类数运行 K-means 算法。
- 分析结果:分析聚类结果以确定哪些省份在收入方面相似。
......
[ChatGLM回答完毕]
教师提示:下面的介绍基于教师与ChatGLM进行对话的结果,也许与你的不同,你需要结合自己与ChatGLM对话的结果进行分析
不出意外的话,ChatGLM可以帮助我们自动完成了聚类,默认的聚类数是3,将表格中的所有省份分成了3组,其中 群组1包括了“北京、天津、上海、浙江”,群组2包括了"河北、辽宁、江苏、福建、山东、广东",其余省份被分在群组3。群组1包含了北京、天津、上海等经济较发达的直辖市和浙江省,其工资性收入远高于其他两个群组,这可能反映了这些地区更高的经济发展水平和工资水平。
假如你对这个聚类结果不满意,想划分为更多的类,比如4个,可以继续和ChatGLM进行交互,使用下面的提示词:
Student:设定聚类数量为4,重新完成上述过程。
教师提示:聚类本身属于机器学习中的无监督学习方法,另外K均值聚类有一定的随机性,聚类结果是否合理需要人手动来判断
最终,通过你不停的设定提示词和ChatGLM进行交互,将你认为合理的聚类结果记录在实验手册上。
4. 实验总结
- (1) 请回答:在实验中你收获哪些AI技巧?
- (2) 请回答:在实验中你解决了哪些问题?
- (3) 请回答:在实验中你还存在哪些问题没有解决?
5.附件1:表格数据
| 地区 | 工资性收入 | 经营净收入 | 财产净收入 | 转移净收入 |
|---|---|---|---|---|
| 北京 | 16637.5 | 2061.9 | 1350.1 | 2260 |
| 天津 | 12048.1 | 5309.4 | 893.7 | 1824.4 |
| 河北 | 6263.2 | 3970 | 257.5 | 1428.6 |
| 山西 | 5204.4 | 2729.9 | 149 | 1999.1 |
| 内蒙古 | 2448.9 | 6215.7 | 452.6 | 2491.7 |
| 辽宁 | 5071.2 | 5635.5 | 257.6 | 1916.4 |
| 吉林 | 2363.1 | 7558.9 | 231.8 | 1969.1 |
| 黑龙江 | 2430.5 | 6425.9 | 572.7 | 2402.6 |
| 上海 | 18947.9 | 1387.9 | 859.6 | 4325 |
| 江苏 | 8731.7 | 5283.1 | 606 | 2984.8 |
| 浙江 | 14204.3 | 5621.9 | 661.8 | 2378.1 |
| 安徽 | 4291.4 | 4596.1 | 186.7 | 2646.2 |
| 福建 | 6785.2 | 5821.5 | 255.7 | 2136.9 |
| 江西 | 4954.7 | 4692.3 | 204.4 | 2286.4 |
| 山东 | 5569.1 | 6266.6 | 358.7 | 1759.7 |
| 河南 | 4228 | 4643.2 | 168 | 2657.6 |
| 湖北 | 4023 | 5534 | 158.6 | 3009.3 |
| 湖南 | 4946.2 | 4138.6 | 143.1 | 2702.5 |
| 广东 | 7255.3 | 3883.6 | 365.8 | 3007.5 |
| 广西 | 2848.1 | 4759.2 | 149.2 | 2603 |
| 海南 | 4764.9 | 5315.7 | 139.1 | 1623.1 |
| 重庆 | 3965.6 | 4150.1 | 295.8 | 3137.3 |
| 四川 | 3737.6 | 4525.2 | 268.5 | 2671.8 |
| 贵州 | 3211 | 3115.8 | 67.1 | 1696.3 |
| 云南 | 2553.9 | 5043.7 | 152.2 | 1270.1 |
| 西藏 | 2204.9 | 5237.9 | 148.7 | 1502.3 |
| 陕西 | 3916 | 3057.9 | 159 | 2263.6 |
| 甘肃 | 2125 | 3261.4 | 128.4 | 1942 |
| 青海 | 2464.3 | 3197 | 325.2 | 2677.8 |
| 宁夏 | 3906.1 | 3937.5 | 291.8 | 1716.3 |
| 新疆 | 2527.1 | 5642 | 222.8 | 1791.3 |

浙公网安备 33010602011771号