如何提升我的数据分析与可视化工作流程-Microsoft-Power-BI
如何提升我的数据分析与可视化工作流程:Microsoft Power BI
原文:
towardsdatascience.com/how-microsoft-power-bi-elevated-my-data-analysis-and-visualization-workflow/
然而,它不仅仅是这样。数据分析与可视化是数据科学的重要方面,有助于你理解复杂的数据,弄清楚其含义,并创建可操作的见解。
在我数据科学的早期,我从未看到数据可视化的必要性,那是因为我没有接触过,也不熟悉有效地处理可视化任务的知识和工具。
我仍然记得花费数小时埋头于 Excel 表格中,手动更新数据透视表,无尽地调整图表布局的挫败感,只是为了构建一个仍然无法讲述我想讲述的故事。
请不要误解,Excel 很棒,但有时它就是不够用。
作为一名对数据越来越感兴趣的计算机科学专业的学生,我知道一定有更好的方法——但我当时还不知道那是什么。
我第一次真正的挑战是在一个大学项目中,我必须分析多个学期学生的表现数据。
我知道你在想什么;那应该相当简单。
嗯,是的,它确实如此。
但对我来说,当时并不是这样。
我有成行成行的分数、出勤率、课程代码等等,但将所有这些数据转化为有意义的见解,感觉就像是在尝试教托尼·斯塔克谦逊一样。
我尝试了所有方法:Excel 公式、条件格式化,甚至稍微涉猎了一些 matplotlib 来生成一些图表。但都没有成功;这让人感到压倒性。
那时,一位资深同事提到了Microsoft Power BI。
对于那些不知道的人来说,Power BI 是由微软开发的数据可视化和商业分析工具,它允许你连接、转换、分析,最重要的是,可视化数据。
起初,它听起来就像是我尚未完全掌握的软件列表上的另一个工具。所以我不得不进行一些个人阅读。
我得到了一本由 Brett Powell 撰写的书,“Power BI 食谱: 创建分析数据模型、报告和仪表板的商业智能解决方案”,这标志着美好事物的开始。
这不仅仅是一本书籍,更像是一本全面指南,用于理解使用 Power BI 创建交互式可视化的整个概念。
在学习了 Power BI 的工作原理几天后,我已经导入了我的数据集,使用 Power Query 进行了清理,并构建了我的第一个交互式仪表板。
对我来说,我把它看作不仅仅是技术升级,更是一种我之前不知道自己需要的思维方式转变,这让我在进入数据科学领域时受益匪浅。它改变了我对数据本身的看法。
在本文中,我将分享 Power BI 如何帮助我在数据分析与可视化旅程中取得进展的强大方法,以及个人故事和可操作的经验教训,这些可以帮助你在数据科学家职业上取得进步。
我停止复制粘贴并开始生活的日子
是的,这是一个巨大的突破。
当我开始分析数据时,我的工作流程就像一场混乱的接力赛:我打开一个 Excel 文件,复制数据,打开一个新窗口,将其粘贴到另一个工作表上,然后交叉手指,向天祈祷一切都不会出错。
猜猜看,总是会有事情出错。
在从一份文件复制粘贴到另一份文件之后,我的文件夹里充满了像Sales_Q4_FINAL_final2.xlsx这样的文件,而我仍然无法跟踪所有这些信息。
Power BI 能够从实际上任何地方获取数据,包括数据库、电子表格,甚至云服务,这意味着我不再需要玩数据俄罗斯方块。只需几点击,我就连接了我的 Excel 表格、SQL 数据库、API,甚至是我本地存储的数据文件。
如果你遇到了导入数据集的挑战,或者某些事情没有按预期工作,不要担心。相信我,这很容易,你只需要更多的练习。
在仪表板上玩一玩,了解每个按钮的功能以及如何使用它们。当你找到自己的方法时,会有一种满足感。
第一次看到所有数据实时更新时,我只是坐下来微笑。没有复制粘贴,没有混乱,只有干净且连接的数据。
具有自定义选项的直观可视化
就像我在开头说的那样,大多数人低估了良好视觉信息的力量,尤其是在处理数据时。我觉得这很荒谬,因为说实话,原始数据并不总是能讲述一个故事。
根据发表在期刊信息可视化上的一项研究,人们处理视觉信息的速度比处理文本快 60,000 倍。
如果这还不能打动你,甚至麻省理工学院也建议,人脑可以识别在13 毫秒内看到的图像。
在实际应用中,这些研究意味着在有人读完你的图表标题甚至查看你花费数小时计算出的数字之前,你的仪表板视觉信息已经被吸收和解读。
我最喜欢的 Power BI 功能必须是交互式和高级的数据可视化能力。凭借其直观的拖放界面,你可以将最枯燥的(尽管我爱数据,但有时它看起来很枯燥)数据集变成动态仪表板。
在广泛的可视化选项中,包括:
-
矩阵和表格可视化
-
仪表和 KPI 可视化
-
切片器和过滤器
-
分解树
-
演示图
-
地图可视化
还有更多其他工具,但我认为这些是我的个人最爱。
数据科学家和分析师需要能够成功解读数据,识别趋势,并帮助企业做出更好的决策。
作为计算机科学先驱,本·施奈德曼正确地指出:
“可视化为你提供了你不知道自己会问的问题的答案”
Power Query:我的干净数据的幕后英雄
你可能会问,什么是 Power Query?
Power Query是 Power BI 中内置的数据转换向导。这是一个非常棒的功能,允许你在将数据加载到模型进行分析和可视化之前,对数据进行清理、重塑和准备。
我认为它是 Power BI 中数据准备的动力引擎。
数据是杂乱的。这只是工作的一部分。此外,随着公司和企业的扩张,越来越多的数据被收集。对于大多数数据科学家和分析师来说,掌握大量原始数据是非常具有挑战性的。
记得我大学项目中的挑战吗?
结果表明,我之所以发现分析困难,其中一个原因是我的数据集都是混乱的。
我被要求分析学生的表现,这需要从三个不同的 CSV 文件中提取数据,每个文件都有其特点。一个文件使用入学代码而不是姓名,另一个使用不一致的日期格式,第三个文件中的课程标题全部大写(对我大喊大叫)。
使用 Power Query,以下是我构建完整工作流程的方法:
-
将入学代码替换为可读的名称
-
转换日期格式
-
标准化文本格式
-
将所有内容合并到一个有组织的表格中
数据准备占据了数据分析师时间的80%。想象一下,当你将所有这些时间和脑力都集中在生成更好的洞察力上时,你会节省多少时间,你会变得多么高效。时间被用来喝咖啡,以及进行真正的分析。
协作共享和云访问
我认为协作是数据科学行业的关键参与者,原因如下:通常没有一个人拥有从原始数据到真实世界项目的所有所需专业知识。
请继续跟随我。
将数据科学视为一个过程。它涉及收集数据,将其存储在数据库中,并创建改进数据质量、分析、可视化和其他基本要素的算法和模型。
为了有效地处理数据,这些阶段通常由各种专业于不同领域的专业人士处理,他们共同努力实现共同目标。因此,协作。
作为基于云的平台,Power BI 允许你与其他数据专业人士发布和分享你的分析报告。
与其通过电子邮件发送 Excel 文件(我相信我们每个人都至少做过一两次),只需几点击,我就能发布仪表板并与我的团队分享一个实时链接。他们可以实时进行更改,分享他们的想法,甚至更新数据源。
在远程/混合工作世界中,拥有这种无缝协作对于数据科学家来说确实是一个真正的游戏改变者。
适用的要点
如果你曾经尝试过数据分析与可视化,但发现它难以理解或复杂,可能你还没有使用正确的工具。
Power BI 不仅帮助我解决了我在最初开始处理数据时遇到的问题,它还彻底改变了我的数据处理方法。
我们中的大多数人都已经熟悉 Power BI,而对于其他人来说,它是一个新的冒险。无论你属于哪个类别,我都强烈鼓励你持续学习这个工具及其如何最大化其功能。
我强烈推荐在 YouTube 上查看Guy in a Cube,他通过他的信息视频教授 Power BI。
对于喜欢口头学习的人来说,你可以从Brett Powell 的书籍中获得大量信息。我在介绍中提到了它,并且就我个人而言,这是我看过的关于数据可视化的最佳书籍。
熟悉这些功能,并开始改进你的数据分析与可视化工作流程。

浙公网安备 33010602011771号