文章分类 -  数据科学

摘要:在第一级中,我们清理了表格,而没有注意到数据结构或记录的数值。在第二级中,我们的注意力是要有一个能支持我们分析目标的数据结构,但我们仍然没有太注意记录值的正确性或适当性。这就是第三层次的数据清理的目标。 在第三层次的数据清理中,我们将重点关注记录的数值,并将采取措施确保关于数据中记录的数值的三个事项 阅读全文
posted @ 2023-01-12 08:33 不会写代码的花生 阅读(963) 评论(0) 推荐(0)
摘要:1 例子1--解压列并重新制定表格 在这个例子中,我们将使用经过一级清理的speech_df数据集来创建以下条形图。我们在第九章《数据清理第一级--清理表》的例1--不明智的数据收集一节中清理了这个数据框架。经过I级清理的speech_df数据库只有两列。文件名和内容。为了能够创建下面的视觉效果,我 阅读全文
posted @ 2023-01-10 22:40 不会写代码的花生 阅读(138) 评论(0) 推荐(0)
摘要:我们终于到了! 在确保我们拥有必要的技术技能(本书第一部分)和分析技能(本书第二部分)之后,我们可以开始讨论有效的数据预处理。我们将通过研究数据清洗开始这一旅程。本章将数据清洗分为三个层次:第一、第二和第三层次。随着你在这些层次上的提升,对数据清洗概念的学习将变得更深入、更复杂。我们将谈论它们是什么 阅读全文
posted @ 2023-01-09 23:28 不会写代码的花生 阅读(188) 评论(0) 推荐(0)
摘要:8.1 聚类模型 由于你已经学会了如何在数据分析中执行预测和分类任务,在本章中,你将学习聚类分析。在聚类中,我们努力对数据集中的数据对象进行有意义的分组。我们将通过一个例子来学习聚类分析。 8.1.1 使用二维数据集进行聚类的例子 在这个例子中,我们将使用WH Report_preprocessed 阅读全文
posted @ 2023-01-08 21:57 不会写代码的花生 阅读(654) 评论(0) 推荐(1)
摘要:image.png 在上一章中,你学会了如何去预测数值,在本章中,我们将把注意力转向预测分类数值。从本质上讲,这就是分类的含义:预测未来的分类值。预测的重点是估计一些数值在未来会是什么,而分类则是预测事件在未来的发生或不发生。例如,在本章中,我们将看到分类是如何预测一个人是否会拖欠贷款的。在本章中, 阅读全文
posted @ 2023-01-07 23:27 不会写代码的花生 阅读(202) 评论(0) 推荐(0)
摘要:能够利用数据来预测未来正变得越来越可能。不仅如此;很快,能够进行成功的预测性建模将不再是一种竞争优势--它将成为生存的必需品。为了提高预测性建模的有效性,许多人把注意力集中在用于预测的算法上;然而,你可以采取许多有意义的步骤,通过进行更有效的数据预处理来提高预测的成功率。这就是本书的最终目标:学习如 阅读全文
posted @ 2023-01-06 19:22 不会写代码的花生 阅读(243) 评论(0) 推荐(0)
摘要:能够将数据可视化是数据分析的骨干。数据可视化的领域是非常令人兴奋的,因为在绘制可视化的过程中,有无限的可能性来实现新颖性和创造性,从而更好地讲述数据的故事。然而,即使是最具创新性的图形,其核心机制也是相似的。在本章中,我们将介绍这些可视化的基本机制,它们赋予数据以生命,使我们能够比较、分析和看到其中 阅读全文
posted @ 2023-01-06 19:13 不会写代码的花生 阅读(562) 评论(0) 推荐(0)
摘要:数据库是有效和高效地记录和检索数据的技术解决方案。在本章中,我们将首先讨论数据库在有效分析和预处理中的技术作用。然后,我们将列举并了解不同类型的数据库。最后,我们将介绍连接到数据库并从数据库中提取数据的五种不同方法。本章将涉及以下主题。 • 什么是数据库? • 数据库的类型 • 连接到数据库并从数据 阅读全文
posted @ 2023-01-04 20:15 不会写代码的花生 阅读(548) 评论(0) 推荐(0)
摘要:1 分布状态 1.1 描述统计 使用Python的Pandas包,将数据转换为dataframe格式,使用df.describe()可以生成描述数据的报表。 import pandas as pd data = [87,77,92,68,80,78,84,77,81,80,80,77,92,86, 阅读全文
posted @ 2022-12-08 11:40 不会写代码的花生 阅读(227) 评论(0) 推荐(0)
摘要:Pandas 行列转换 1.pivot_table 创建一个电子表格风格的数据透视表作为数据帧。 数据透视表中的级别将存储在结果DataFrame的索引和列上的MultiIndex对象(分层索引)中。 pd.pivot_table(data, # 制作透视表的数据 values=None, # 值 阅读全文
posted @ 2022-01-19 17:03 不会写代码的花生 阅读(1178) 评论(0) 推荐(0)
摘要:Pyecharts基础 官网:https://pyecharts.org/#/ 折线图示例:https://gallery.pyecharts.org/#/Line/line_base 1.安装pyecharts pip insatll pyecharts -i https://pypi.douba 阅读全文
posted @ 2022-01-09 13:43 不会写代码的花生 阅读(204) 评论(0) 推荐(0)
摘要:大数据技术学习路线指南 1.前言 三个发展方向 平台搭建优化/运维/监控 大数据开发/设计/架构 数据分析/挖掘 2.大数据的发展史 启蒙阶段:数据仓库的出现 传统的数据仓库,第一次明确了数据分析的应用场景,并采用单独的解决方案去实现,不依赖业务数据库。 技术变革:Hadoop诞生 优势 完全分布式 阅读全文
posted @ 2022-01-05 15:10 不会写代码的花生 阅读(935) 评论(0) 推荐(0)
摘要:概率分布 3.1 数据分布与概率分布 (1)频数分布与频率分布 注:我们需要从特定数据到一般规律的抽象,才能奠定数据科学的基础。 (2)随机变量 分布函数 离散随机变量 连续随机变量 3.2 数据动力学-矩 矩 力矩 数据的原点矩 数据的中心距 矩的计算 数学期望 方差 概率分布的矩-数字特征 3. 阅读全文
posted @ 2021-12-31 16:32 不会写代码的花生 阅读(299) 评论(0) 推荐(0)
摘要:绪论、概率论基础 1 绪论 1.1 数据信息知识 (1) DIKW知识链 注:通过结构获得一定的信息 注:130表示同一标识地区同一天出生的顺序号,基数分配给男性,偶数分配给女性;最后一位是校验码,通过SO的标准计算(0-9、X)。 (2) 相关数学理论 注:集合论是研究集合(由一堆抽象对象构成的整 阅读全文
posted @ 2021-12-31 15:28 不会写代码的花生 阅读(143) 评论(0) 推荐(0)
摘要:威布尔分布 阅读全文
posted @ 2021-12-30 13:34 不会写代码的花生 阅读(51) 评论(0) 推荐(0)
摘要:数据科学理论与实践-6.典型案例及实践 大数据时代比较有代表性的应用领域 医学、零售、建筑、银行、交通 6.1统计分析 (1)数据读入 (2)数据理解 (3)数据规整化处理。 (4)模型训练 模型的参数 模型的解释能力 (5)模型解读与评价。 显著性检验 回归系数的检验:检验,大于Ta/2则相关,查 阅读全文
posted @ 2021-12-28 22:25 不会写代码的花生 阅读(718) 评论(0) 推荐(0)
摘要:数据科学理论与实践-4.技术与工具 4.1数据科学的技术体系 大数据产业全景图( Big Data Landscape) 现阶段的大数据技术体系主要类型包括基础设施、分析工具、企业应用、行业应用、跨平台基础设施和分析工具、开源工具、数据源与App、数据资源 1.基础设施 为大数据产业提供基础设施服务 阅读全文
posted @ 2021-12-28 22:14 不会写代码的花生 阅读(239) 评论(0) 推荐(0)
摘要:数据科学理论与实践-5.数据产品及开发 5.1数据产品的定义 5.1.1定义 能够通过数据来帮助用户实现其某一个(些)目标的产品 数据产品是在数据科学项目中形成,能够被人、计算机以及其他软硬件系统消费、调用或使用,并满足他们(它们)某种需求的任何产品,包括数据集、文档、知识库、应用系统、硬件系统、服 阅读全文
posted @ 2021-12-28 22:01 不会写代码的花生 阅读(1177) 评论(0) 推荐(0)
摘要:数据科学理论与实践--3.流程与方法 3.1基本流程 1.数据化 • 数据化是指捕获人们的生活、业务或社会活动,并将其转换为数据的过程 • 本质:从现实世界中采集信息,并对采集到的信息进行计量和记录之后, 形成原始数据,即零次数据。 2.数据加工及规整化处理 (1)本质:将低层次数据转换为高层次数据 阅读全文
posted @ 2021-11-24 16:44 不会写代码的花生 阅读(1410) 评论(0) 推荐(0)
摘要:数据科学理论与实践--2.理论基础 2.1数据科学的学科地位 (1)“数学与统计知识”是数据科学的主要理论基础之一。 (2)“黑客精神与技能”是数据科学家的主要精神追求和技能要求一一大胆创新、喜欢挑战、追求完美和不断改进。 (3)“领域实务知识”是对数据科学家的特殊要求一一不仅需要掌握数学与统计知识 阅读全文
posted @ 2021-11-23 22:19 不会写代码的花生 阅读(957) 评论(0) 推荐(0)