摘要:
目录 数据样式 数据导入 数据检验 绘制相关系数矩阵和相关性t检验矩阵 绘制企业投资平均水平随时间的变化 序列相关性检验 模型检验 pool模型还是固定效应模型——F检验 固定效应模型还是随机效应模型——Hausman检验 LM检验 尾声 我们知道,针对面板数据主要有四种模型,分别是: pool模型 阅读全文
posted @ 2021-07-07 16:56
BabyGo000
阅读(4904)
评论(0)
推荐(0)
摘要:
R Markadown 作为一款通过R语言创建动态文档的写作排版工具,为数据科学提供了现成的写作框架。通过 R Markdown 不仅可以运行和保存R代码,还可以生成高质量的数据分析报告并以HTML、PDF或者word的形式分享。 1 get started 很早就对R语言可以制作高质量的报告有所耳 阅读全文
posted @ 2021-07-07 16:55
BabyGo000
阅读(1051)
评论(0)
推荐(0)
摘要:
隔了好久都没及时把爬虫后的数据进行处理,干吗去了呢,看了个异步加载网页爬虫以及emmm校园琐事,今天填坑。 上次爬虫后主有六个维度的信息:价格、面积、当前热度,这三个是数值型的;区域、描述、户型,这三个是文本型。 这次并没有对户型和描述做分析,这个放在下次单独学 词云的作图。 先对数值型进行分析 d 阅读全文
posted @ 2021-07-07 16:54
BabyGo000
阅读(434)
评论(0)
推荐(0)
摘要:
第一步: 使用csv模块以列表形式读取数据集。 导入csv模块。 使用open()函数打开文件。 使用csv.reader()函数加载打开的文件。 在结果上调用list()以获取文件中所有数据的列表。 将结果分配给变量data。 显示第一5行data以验证一切。 import csv with op 阅读全文
posted @ 2021-07-07 16:53
BabyGo000
阅读(1488)
评论(0)
推荐(0)
摘要:
租房信息数据分析 1 题目:租房信息数据分析 导入数据 各行政区房源分布 小区房源数量TOP10 户型TOP10分布 租金分布 Python——线性回归模型 数据源:在百度网盘喏,自行下载。 链接: https://pan.baidu.com/s/1bJbwmBza9KAmWMmXi4se7A 提取 阅读全文
posted @ 2021-07-07 16:52
BabyGo000
阅读(1571)
评论(0)
推荐(0)
摘要:
1.项目说明以及流程概要 爬取网站: 智联招聘(https://sou.zhaopin.com/) 开发环境:Python3.7(Pycharm编辑器),全流程通过代码实现 爬取时间:2021/3/30 上午1:13 的实时招聘信息数据 爬取城市:共12个,上海、北京、广州、深圳、天津、武汉、西安、 阅读全文
posted @ 2021-07-07 16:51
BabyGo000
阅读(2458)
评论(1)
推荐(0)
摘要:
介绍 现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年大数据开发经验,精通数据可视化,曾经处理过百万亿级别的数据,现在就让我带领大家做一个开源的大数据可视化系统吧,爬虫部分我们用python开发 开发思路 阅读全文
posted @ 2021-07-07 16:49
BabyGo000
阅读(1355)
评论(0)
推荐(0)
摘要:
概念 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。双因素方差分析即影响试验的因素有两个,且分为无交互作用和有交互作用两种情况。 一、无交互作用的情况 由于不考虑交互作用的影响,对每一个因素组合 ( 阅读全文
posted @ 2021-07-07 16:48
BabyGo000
阅读(2196)
评论(0)
推荐(0)
摘要:
# 概念 T检验,也称 student t 检验 ( Student’s t test ) ,用来比较两个样本的均值差异是否显著,通常用于样本含量较小 ( n <30 ) 的样本。分为单样本 t 检验、两独立样本 t 检验和两配对样本 t 检验。 # 适用条件 1. 已知一个总体均数; 2. 可得到 阅读全文
posted @ 2021-07-07 16:43
BabyGo000
阅读(1416)
评论(0)
推荐(0)
摘要:
# python数据分析之模型评估-第九次笔记 * * * #### 1.分类模型评估 – ***1.1正确率** – ***1.2召回率** – ***1.3查准率(精准率)** #### 2.回归模型评估 – ***2.1MAE** – ***2.2MSE** – ***2.3RMSE** – 阅读全文
posted @ 2021-07-07 16:22
BabyGo000
阅读(218)
评论(0)
推荐(0)
摘要:
**pandas** (Python Data Analysis Library )是基于numpy的一种工具,该工具是为了解决数据分析任务而创建的。pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 * 阅读全文
posted @ 2021-07-07 16:20
BabyGo000
阅读(252)
评论(0)
推荐(0)
摘要:
1 Series 线性的数据结构, series是一个一维数组 Pandas 会默然用0到n-1来作为series的index, 但也可以自己指定index( 可以把index理解为dict里面的key ) 1.1创造一个serise数据 import pandas as pd import num 阅读全文
posted @ 2021-07-07 16:19
BabyGo000
阅读(257)
评论(0)
推荐(0)
摘要:
本篇文章目录 一、简介 二、安装 三、数组的创建 3.1 array创建 3.2 arange创建 3.3 随机数创建数组 3.3.1 创建随机小数 3.3.2 创建随机整数 3.3.3 创建标准正态分布数组 3.3.4 创建指定期望与方差的正态分布数组 四、ndarray对象的属性 五、其他形式创 阅读全文
posted @ 2021-07-07 16:18
BabyGo000
阅读(968)
评论(0)
推荐(0)
摘要:
Matplotlib数据可视化的应用实例 分析 :2000至2017年各季度国民生产总值数据 npy文件——numpy专用的二进制格式 np.load()和np.save()是读写磁盘数组数据的两个重要函数。使用时,数组会以未压缩的原始二进制格式保存在扩展名为.npy的文件中。 分析国民生产总值: 阅读全文
posted @ 2021-07-07 16:13
BabyGo000
阅读(1482)
评论(0)
推荐(0)
摘要:
通常来说,一个Python程序可以从键盘读取输入,也可以从文件读取输入;而程序的结果可以输出到屏幕上,也可以保存到文件中便于以后使用。 一、控制台I/O 1.读取键盘输入 内置函数input,用于从标准输入读取一个行,并返回一个字符串(去掉结尾的换行符): >>> str1=input('请输入:' 阅读全文
posted @ 2021-07-07 16:12
BabyGo000
阅读(413)
评论(0)
推荐(0)
摘要:
1单选(1分) 一般说,numpy-matplotlib-pandas是数据分析和展示的一条学习路径,哪个是对这三个库不正确的说明? A.pandas仅支持一维和二维数据分析,多维数据分析要用numpy B.matplotlib支持多种数据展示,使用pyplot子库即可 C.numpy底层采用C实现 阅读全文
posted @ 2021-07-07 16:11
BabyGo000
阅读(1330)
评论(0)
推荐(0)
摘要:
Python数据分析与挖掘之收入的预测分析 数据集形式 # 导入第三方包 import pandas as pd import numpy as np import seaborn as sns # 导入绘图模块 import matplotlib.pyplot as plt # 导入模型评估模块 阅读全文
posted @ 2021-07-07 16:05
BabyGo000
阅读(810)
评论(0)
推荐(0)
摘要:
1.前言 博主研究生第一年已经成为过去式了,上了课,修了学分。接下来两年就是要搞搞学术了,方向为:大数据分析与数据挖掘。从此篇开始,就将学习过程中一些问题和想法与友交流之。这里是博主在学习中看的一本书《python数据分析与挖掘实战》中基础篇的一些代码规范以及参考方法,供大家学习。 2.错误分析 由 阅读全文
posted @ 2021-07-07 16:02
BabyGo000
阅读(618)
评论(0)
推荐(0)
摘要:
客户在餐厅点餐时,面对着菜单中大量的菜品信息,往往无法迅速的找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯,菜品的荤素和口味,有些菜品之间是互相关联的,而有些菜品之间是对立或竞争关系(负关联)。这些规律都隐藏在大量的历史菜单数据中,如 阅读全文
posted @ 2021-07-07 16:01
BabyGo000
阅读(1031)
评论(0)
推荐(0)
摘要:
航空公司客户价值分析 一、 背景与挖掘目标 客户关系管理是企业的核心问题,关键在于客户的分类:区别无价值客户,高价值客户,针对不同客户群体有的放矢投放具体服务方案,实现企业利润最大化的目标。 各大航空公司采取优惠措施喜迎更多客户,国内航司面对客户流失和资源未完全利用等危机,因此建立一个客户价值评估模 阅读全文
posted @ 2021-07-07 15:49
BabyGo000
阅读(924)
评论(0)
推荐(0)
摘要:
阅读提示 本文将进入数据挖掘与分析中较为困难的一部分———建模分析,将提到简单的分类预测实现方式,例如回归分析、决策树、人工神经网络等等。 目录 阅读提示 第五章 挖掘建模 一、分类与预测 1、实现过程 2、常见的分类与预测算法 3、回归分析 4、决策树 5、人工神经网络 6、Python分类预测模 阅读全文
posted @ 2021-07-07 15:47
BabyGo000
阅读(795)
评论(0)
推荐(0)
摘要:
阅读提示 本文将提到Python数据分析与挖掘中的 数据探索与数据特征分析 目录 阅读提示 一、数据探索 1、数据质量的分析 2、异常值的分析 3、一致性分析 二、数据特征分析 1、分步分析 2、对比分析 3、统计量分析 4、周期性分析 5、贡献度分析 6、相关性分析 一、数据探索 根据观测、调查收 阅读全文
posted @ 2021-07-07 15:44
BabyGo000
阅读(1436)
评论(1)
推荐(1)
摘要:
数据分析与可视化(一) 1.1 数据分析 1.1.1 数据、信息与数据分析 1.1.2数据分析与数据挖掘的区别 1.1.3数据分析的流程 1.2 数据可视化 1.3 数据分析与可视化常用工具 1.4 Python数据分析与可视化常用类库 1.1 数据分析 1.1.1 数据、信息与数据分析 数据 : 阅读全文
posted @ 2021-07-07 15:42
BabyGo000
阅读(416)
评论(0)
推荐(0)
摘要:
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发 阅读全文
posted @ 2021-07-07 15:41
BabyGo000
阅读(1450)
评论(0)
推荐(0)
摘要:
说明:本文章为Python数据处理学习日志,主要内容来自书本《利用Python进行数据分析》,Wes McKinney著,机械工业出版社。 电影数据分析 所需文件在Day2中下载,接下来要用到的一些文件的文件格式如下: users.dat文件格式 1::F::1::10::48067 2::M::5 阅读全文
posted @ 2021-07-07 15:40
BabyGo000
阅读(103)
评论(0)
推荐(0)
摘要:
文章目录 1、明确需求和目的 2、数据收集 3、数据预处理 3.1 数据整合 3.1.1 加载相关库和数据集 3.1.2 数据概览 3.2 数据清洗 3.2.1 缺失值处理 3.2.2 异常值处理 3.2.3 多余记录的删除 3.2.4 重复值的处理 4、数据分析 4.1 总体情况分析 4.2 各维 阅读全文
posted @ 2021-07-07 15:39
BabyGo000
阅读(638)
评论(0)
推荐(0)
摘要:
数学名词 离散化和面元划分 :就是分组,进行相应的计算 对于数据进行离散化和面元划分的前提条件是:连续变化的数据 例如下面是一组人的年龄数据,现在要按照年龄划分为不同年龄的4组(即把数据拆分为4个面元), 分别为“18到25”、“25到35”、“35到60”及“60以上。为了实现分组,需要使用pan 阅读全文
posted @ 2021-07-07 15:37
BabyGo000
阅读(608)
评论(0)
推荐(0)
浙公网安备 33010602011771号