从月薪30K被裁,到跳槽阿里,多亏了这几个大数据分析工具
摘要:就在前去年年底,我有一个在某旅游公司上班的好朋友被裁员了,他的岗位是大数据分析师,就是通过可视化来给用户做画像和分析整个行业趋势的,那为什么会被裁员呢? 这图已经实锤了 众所周知,旅游业是靠用户来生存的,无论是线上还是线下,但是资金回笼比较慢,年前裁员还能省一波年终奖,这波操作实在是妙!而且他被裁前
阅读全文
posted @
2021-07-09 19:21
BabyGo000
阅读(150)
推荐(0)
从头学习爬虫(二)----数据分析
摘要:本文主要介绍下爬虫数据分析的步骤,不是实战项目,只有详细分析。 数据来源 总有人问为什么我写的爬虫数据拿不到,那下面就浅谈下数据来源: 1、页面直接加载 2、动态加载 判断依据 首先我们打开百度首页分析,下面新闻怎么爬。 第一步,不是点击元素审查(Elements),请忘记查看源码(它是由各种请求渲
阅读全文
posted @
2021-07-09 19:20
BabyGo000
阅读(329)
推荐(0)
成不了数据分析师,都是这些套路搞的鬼!
摘要:很久很久以前…… 菊花还是一种花,黄瓜只是餐桌上的食物, 2B只是铅笔,你妹真的只是你妹妹, 陈老师也只是一名演员而已…… 那时候 搞计算机的手里捧着的还是《代码大全》《编程思想》, 老师讲课还追求个因材施教, 学习交流群也还是交流学习用的…… 小编自认为也是一个热爱学习热爱编程追赶潮流的好少年,
阅读全文
posted @
2021-07-09 19:19
BabyGo000
阅读(83)
推荐(0)
不想做人肉跑数机,数据分析师要掌握沟通能力
摘要:“那谁谁给个数!”是数据分析师最讨厌听到的话。如果有更讨厌的,就是在你快下班的时候,突然一个电话打过来“那谁谁快给个数,我们总监马上要看,如果有问题让你老板亲自给我们总监解释!!!”——听完砍人的心都有了。 于是很多小哥小姐姐挂着“数据分析师”的title,实际上干着人肉跑数机的活,日写sql两千行
阅读全文
posted @
2021-07-09 19:15
BabyGo000
阅读(79)
推荐(0)
笔经面经_2018春招美团数据分析实习生笔试
摘要:商业分析实习生?数据分析实习生?差不多就是这么叫的 3月19日通过内推扫码投了简历,21号通知笔试,22号晚7点在线笔试,时长一小时。 因为没有选择研发岗,所以只有综合能力测试。 分成4个部分,40个选择题,2.5分一个 逻辑推理 数字判断 言语理解 材料分析 美团笔试算是我有生以来参加的第一场招聘
阅读全文
posted @
2021-07-09 19:14
BabyGo000
阅读(109)
推荐(0)
北、上、广、深数据分析职位分析
摘要:2016年12月,麦肯锡全球研究院发表了一份名为《 分析时代 : 在数据驱动的世界中竞争 (The Age of Analytics:Competing in a Data-Driven World)》的报告,该报告指出:未来社会,大数据分析仍将在五个领域拥有很大的潜力,其中对于数据分析人员的需求的
阅读全文
posted @
2021-07-09 19:12
BabyGo000
阅读(215)
推荐(0)
百度业务运营部_数据分析师(产品运营)岗位要求详解(1)
摘要:首先,附上百度业务运营部_数据分析师(产品运营)岗位的招聘详情: 业务运营部_数据分析师(产品运营) 所属部门: 百度 工作地点: 北京市 招聘人数: 若干公 司: 百度 职位类别: 产品 发布时间: 2016-04-11 工作职责: -对百度重点行业的行业现状、核心企业、市场动态、发展趋势、互联网
阅读全文
posted @
2021-07-09 19:11
BabyGo000
阅读(199)
推荐(0)
案例▍Python实战 爬取万条票房数据分析2019春节档电影状况
摘要:题图|《流浪地球》海报 作者|量化小白上分记 36大数据获授权转载 今年春节档全国共有8部影片上映,对于影片的对比分析已经非常多,孰优孰劣,每个人心里都有一杆秤,不再赘述。本文着重分析影片票房的地域差别,爬取了年后两周各地万余家影院的票房数据,一起来看看各地影院今年春节档表现如何,非官方统计,数据一
阅读全文
posted @
2021-07-09 19:09
BabyGo000
阅读(329)
推荐(1)
安卓运行Jupyter Notebook操作指南,不用电脑也能做数据分析!
摘要:作者 | Datawhale 来源 | Datawhale(ID: Datawhale ) ** 【导读】今天介绍下Pydroid 3这款堪称是Android上最易用且功能最强大的Python3 IDE,帮助你在安卓上也可以完美使用Jupyter notebook,还有手把手安装教学参考。接下来,快
阅读全文
posted @
2021-07-09 19:08
BabyGo000
阅读(903)
推荐(0)
安装python及数据分析相关安装包小结
摘要:由于重装系统以及 64 位电脑安装了 32 位 python 导致数据量导入过大时,出现 memoryerror 错误,干脆总结安装过程,省得每次安装去找教程和资源。 Python 安装 从官方网站下载 python ,各种版本可供选择: https://www.python.org/downloa
阅读全文
posted @
2021-07-09 19:07
BabyGo000
阅读(137)
推荐(0)
阿里天池:母婴用品电商数据分析(Power BI 可视化)
摘要:本项目数据来源: 阿里天池数据集 数据概览: 本数据为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据,数据集包含两个表格: (sample)sam_tianchi_mum_baby(base 表):包含用户ID、儿童出生日期、儿童性别的基本信息 (sample)
阅读全文
posted @
2021-07-09 19:06
BabyGo000
阅读(1543)
推荐(0)
阿里数据分析师实习生笔试题2014年3月29日
摘要:时间为90分钟 题型:10道选择,3道简答,2道分析题 回忆版 选择题: 1)若 r=0,则两者的关系: 我选择的是 没有线性关系 2)以下两种行为分别对应哪种分类算法的评价标准: 行为1:警察如何判别某人是小偷 行为2:小偷是如何被识别出来(+_+行为记不清楚,请记得的童鞋补上) 选项是Recal
阅读全文
posted @
2021-07-09 19:05
BabyGo000
阅读(79)
推荐(0)
阿里巴巴(alibaba)数据分析统计工具
摘要:目前阿里国际站旺铺的产品越来越多,竞争越来越激烈, 1. 我们自己的产品在平台上面的排名情况到底如何呢? 2. 别人为何能够有200个/月甚至更多的询盘呢? 3. 我们的行业关键词是否都覆盖了呢? 4. 哪些关键词客户的搜索热度更高,同时我们自己排名是否上到第一页了呢? 5. 我们上传的产品里是否关
阅读全文
posted @
2021-07-08 20:03
BabyGo000
阅读(1725)
推荐(0)
Wireshark 数据分析(二)
摘要:数据包概述 下图是笔者我实际中用Wireshark 抓到的HTTP的完整数据包,现分析如下: 网络接口层(物理层和数据链路层) | IP头(网络层) | TCP头(传输层) | HTTP协议+data(应用层) | | | 1. 在链路层 由以太网的物理特性决定了数据帧的长度为[46+18]-[15
阅读全文
posted @
2021-07-08 20:02
BabyGo000
阅读(1252)
推荐(0)
UCI 人口收入数据分析(python)
摘要:import pandas as pd import sklearn file = pd.read_table('http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', sep=',', names=['
阅读全文
posted @
2021-07-08 20:00
BabyGo000
阅读(223)
推荐(0)
Superset可视化数据分析平台
摘要:背景 Superset 是 Airbnb 开源的数据分析与可视化平台,同时也是由 Python 语言构建的轻量级 BI 系统。Superset 可实现对 TB 量级数据进行处理,兼容常见的数十种关系或非关系型数据库,并在内部实现 SQL 编辑查询等操作。除此之外,基于 Web 服务的 Superse
阅读全文
posted @
2021-07-08 19:59
BabyGo000
阅读(729)
推荐(0)
Superset 数据分析平台搭建及使用 1Superset 数据分析平台搭建
摘要:Superset 数据分析平台搭建 一、实验介绍 1.1 实验内容 Superset 是 Airbnb 开源的数据分析与可视化平台,同时也是由 Python 语言构建的轻量级 BI 系统。Superset 可实现对 TB 量级数据进行处理,兼容常见的数十种关系或非关系型数据库,并在内部实现 SQL
阅读全文
posted @
2021-07-08 19:58
BabyGo000
阅读(611)
推荐(0)
StataIC——短面板数据分析(以检验啤酒税将降低交通死亡率的假说为例)一、面板数据与模型二、面板数据模型估计及标准误的修正三、短面板数据分析的基本程序
摘要:一、面板数据与模型 1.面板数据分类 (1)短面板(N>T)和长面板(N<T) (2)动态面板(解释变量包含被解释变量的滞后值)和静态面板 (3)平衡面板(每个个体在相同的时间内都有观测值)和非平衡面板 2.面板数据模型 (1)非观测效应模型(存在不可观测的个体效应模型) 固体效应模型(fixed
阅读全文
posted @
2021-07-08 19:57
BabyGo000
阅读(5000)
推荐(0)
Stata 数据分析
摘要:最近在学习STATA做分析的时候,发现这个软件很多功能很强大,但是背后的统计学知识要求也比较高,作为一边深入学习统计知识一遍用软件的小白,好多东西只是知其然不知其所以然,因此尝试自己把STATA的一些运算分解出来。因此这里记录一下学习内容。 在做STATA的主成分分析和因子分析的时候,觉得这两个东西
阅读全文
posted @
2021-07-08 19:56
BabyGo000
阅读(1489)
推荐(0)
SPSS数据分析中出现的常见问题总结
摘要:总结最近数据分析过程中遇到的一些问题的思考 1.问卷中多选题的录入与分析 2.数据分析流程的第一步:对所分析的样本数据本身的特征结构进行预分析 3.根据数据中的某个因素的几个水平来分析数据总体的差异性。 4.根据数据中的变量之间的相关性,了解数据的内部关系,并建立模型。 5.数据的降维处理。 6.结
阅读全文
posted @
2021-07-08 19:55
BabyGo000
阅读(2797)
推荐(0)
SPSS:数据分析3、T检验(T Test)方差分析(ANOVA)(Chi-square Test)灰色关联度分析(Grey Relation Analysis,GRA)弗里德曼检验(箱图(Box)
摘要:目录 1、数据采集 2、数据是否服从正态分布 3、T检验(T Test) 4、方差分析(ANOVA) 5、卡方检验(Chi-square Test) 6、灰色关联度分析(Grey Relation Analysis,GRA) 7、弗里德曼检验(Friedman Test) 8、箱图(Box) 1、数
阅读全文
posted @
2021-07-08 19:54
BabyGo000
阅读(4541)
推荐(0)
splunk大数据分析 从入门到实践
摘要:index="apachedata" sourcetype="access_combined_wcookie" "action=purchase" |top 3 productId[/code] 
推荐(0)
spark高级数据分析实战---随机森林实现
摘要:**package** mllib.tree **import** org.apache.log4j.{Level, Logger} **import** org.apache.spark.mllib.evaluation.MulticlassMetrics **import** org.apach
阅读全文
posted @
2021-07-08 19:25
BabyGo000
阅读(314)
推荐(0)
Spark大数据分析与实战:Spark Streaming编程初级实践Spark Streaming编程初级实践
摘要:Spark Streaming编程初级实践 一、安装Hadoop和Spark 具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作: Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420 Sca
阅读全文
posted @
2021-07-08 19:24
BabyGo000
阅读(1597)
推荐(0)
Spark大数据分析与实战:RDD编程初级实践Spark大数据分析与实战:RDD编程初级实践
摘要:Spark大数据分析与实战:RDD编程初级实践 一、安装Hadoop和Spark 具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作: Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420 S
阅读全文
posted @
2021-07-08 19:23
BabyGo000
阅读(577)
推荐(0)
Spark SQL 初探: 使用大数据分析2000万数据
摘要:去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。 Spark是UC Berkeley
阅读全文
posted @
2021-07-08 19:22
BabyGo000
阅读(284)
推荐(0)
SEM数据分析之做好关键词报告
摘要:做SEM的我们都知道,百度凤巢系统的后台其实功能很强大,有几大数据报告报表十分的有用,可以帮助我们更好的进行优化账户工作,也为我们优化操作提供了强有力的依据。 像搜索词报告、无效点击报告、地域报告、高级样式报告都是SEM数据分析的一个重要依据,那么今天我们就来讲讲其中的关键词报告。 对于数据分析中,
阅读全文
posted @
2021-07-08 19:21
BabyGo000
阅读(300)
推荐(0)
R语言与数据分析之四:聚类算法2
摘要:<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天
阅读全文
posted @
2021-07-08 19:20
BabyGo000
阅读(64)
推荐(0)
R语言与数据分析之二:绘图
摘要:图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大的吐血展示功能。今天我由简单到复杂分别和小伙伴们分享如何用R语言画出各位想要的图形。 首先罗列下所有可选图形: 1、直方图(hist());2、散
阅读全文
posted @
2021-07-08 19:18
BabyGo000
阅读(532)
推荐(0)
R语言小例子---简易的数据分析和画图
摘要:目前有 10 名儿童(男)的年龄和身高的数据( 虚构数据) ,感兴趣的是升高的分布及体重和年龄的关系。 年龄(岁) | 体重( kg ) | 年龄(岁) | 体重( kg ) | | | 4 | 95 | 6 | 116 4 | 97 | 7 | 120 5 | 106 | 7 | 121 5 |
阅读全文
posted @
2021-07-08 19:17
BabyGo000
阅读(457)
推荐(0)
R语言数据分析、展现与实例(01)R语言数据分析、展现与实例(01)
摘要:统计参考书:《统计建模与R软件》 用于管理R工作空间的函数: 常用R对象: 向量c() 矩阵matrix() 数组array() 数据框dataframe() 列表list() 因子factor() 创建向量和矩阵 产生向量 Seq()函数 ——以指定的规律产生向量 产生字母序列letters wh
阅读全文
posted @
2021-07-08 19:15
BabyGo000
阅读(414)
推荐(0)
R语言1-面板数据分析全过程 附代码用途
摘要:R语言1-面板数据分析全过程 附代码 # 用途 面板数据常见于计量经济学领域,本质上是一种线性回归方法。截面数据和时间序列数据的组合可以更多的反应数据情况,同时也需要克服二者都存在的问题。 ## 数据初步处理 在Excel中将原数据进行初步处理和排列并另存为csv格式,建议将文件存放于便于提取的路径
阅读全文
posted @
2021-07-08 19:13
BabyGo000
阅读(2770)
推荐(0)
R语言 面板数据分析 plm包实现(三)——面板数据与面板模型的检验数据样式数据检验模型检验尾声
摘要:目录 数据样式 数据导入 数据检验 绘制相关系数矩阵和相关性t检验矩阵 绘制企业投资平均水平随时间的变化 序列相关性检验 模型检验 pool模型还是固定效应模型——F检验 固定效应模型还是随机效应模型——Hausman检验 LM检验 尾声 我们知道,针对面板数据主要有四种模型,分别是: pool模型
阅读全文
posted @
2021-07-07 16:56
BabyGo000
阅读(4794)
推荐(0)
RStudio_用R Markdown生成你的R语言数据分析报告
摘要:R Markadown 作为一款通过R语言创建动态文档的写作排版工具,为数据科学提供了现成的写作框架。通过 R Markdown 不仅可以运行和保存R代码,还可以生成高质量的数据分析报告并以HTML、PDF或者word的形式分享。 1 get started 很早就对R语言可以制作高质量的报告有所耳
阅读全文
posted @
2021-07-07 16:55
BabyGo000
阅读(986)
推荐(0)
Py爬虫后的数据分析+出图
摘要:隔了好久都没及时把爬虫后的数据进行处理,干吗去了呢,看了个异步加载网页爬虫以及emmm校园琐事,今天填坑。 上次爬虫后主有六个维度的信息:价格、面积、当前热度,这三个是数值型的;区域、描述、户型,这三个是文本型。 这次并没有对户型和描述做分析,这个放在下次单独学 词云的作图。 先对数值型进行分析 d
阅读全文
posted @
2021-07-07 16:54
BabyGo000
阅读(419)
推荐(0)
python做数据分析实例
摘要:第一步: 使用csv模块以列表形式读取数据集。 导入csv模块。 使用open()函数打开文件。 使用csv.reader()函数加载打开的文件。 在结果上调用list()以获取文件中所有数据的列表。 将结果分配给变量data。 显示第一5行data以验证一切。 import csv with op
阅读全文
posted @
2021-07-07 16:53
BabyGo000
阅读(1437)
推荐(0)
Python——租房信息数据分析
摘要:租房信息数据分析 1 题目:租房信息数据分析 导入数据 各行政区房源分布 小区房源数量TOP10 户型TOP10分布 租金分布 Python——线性回归模型 数据源:在百度网盘喏,自行下载。 链接: https://pan.baidu.com/s/1bJbwmBza9KAmWMmXi4se7A 提取
阅读全文
posted @
2021-07-07 16:52
BabyGo000
阅读(1541)
推荐(0)
Python项目:爬取智联招聘网站的数据分析职位信息并进行可视化分析
摘要:1.项目说明以及流程概要 爬取网站: 智联招聘(https://sou.zhaopin.com/) 开发环境:Python3.7(Pycharm编辑器),全流程通过代码实现 爬取时间:2021/3/30 上午1:13 的实时招聘信息数据 爬取城市:共12个,上海、北京、广州、深圳、天津、武汉、西安、
阅读全文
posted @
2021-07-07 16:51
BabyGo000
阅读(2330)
推荐(0)
Python网易云音乐爬虫大数据分析可视化系统——大屏数据可视化开发之路
摘要:介绍 现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年大数据开发经验,精通数据可视化,曾经处理过百万亿级别的数据,现在就让我带领大家做一个开源的大数据可视化系统吧,爬虫部分我们用python开发 开发思路
阅读全文
posted @
2021-07-07 16:49
BabyGo000
阅读(1314)
推荐(0)
Python玩转数据分析——双因素方差分析概念一、无交互作用的情况二、有交互作用的情况
摘要:概念 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。双因素方差分析即影响试验的因素有两个,且分为无交互作用和有交互作用两种情况。 一、无交互作用的情况 由于不考虑交互作用的影响,对每一个因素组合 (
阅读全文
posted @
2021-07-07 16:48
BabyGo000
阅读(2113)
推荐(0)
Python玩转数据分析——T检验概念适用条件单样本 t 检验两独立样本 t 检验两配对样本 t 检验
摘要:# 概念 T检验,也称 student t 检验 ( Student’s t test ) ,用来比较两个样本的均值差异是否显著,通常用于样本含量较小 ( n <30 ) 的样本。分为单样本 t 检验、两独立样本 t 检验和两配对样本 t 检验。 # 适用条件 1. 已知一个总体均数; 2. 可得到
阅读全文
posted @
2021-07-07 16:43
BabyGo000
阅读(1320)
推荐(0)
python数据分析之模型评价-第九次笔记python数据分析之模型评估-第九次笔记
摘要:# python数据分析之模型评估-第九次笔记 * * * #### 1.分类模型评估 – ***1.1正确率** – ***1.2召回率** – ***1.3查准率(精准率)** #### 2.回归模型评估 – ***2.1MAE** – ***2.2MSE** – ***2.3RMSE** –
阅读全文
posted @
2021-07-07 16:22
BabyGo000
阅读(195)
推荐(0)
Python数据分析之pandas统计分析基础1
摘要:**pandas** (Python Data Analysis Library )是基于numpy的一种工具,该工具是为了解决数据分析任务而创建的。pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 *
阅读全文
posted @
2021-07-07 16:20
BabyGo000
阅读(229)
推荐(0)
python数据分析之pandas里的Series1 Series
摘要:1 Series 线性的数据结构, series是一个一维数组 Pandas 会默然用0到n-1来作为series的index, 但也可以自己指定index( 可以把index理解为dict里面的key ) 1.1创造一个serise数据 import pandas as pd import num
阅读全文
posted @
2021-07-07 16:19
BabyGo000
阅读(221)
推荐(0)
Python数据分析之Numpy库的使用详细讲解一、简介二、安装三、数组的创建
摘要:本篇文章目录 一、简介 二、安装 三、数组的创建 3.1 array创建 3.2 arange创建 3.3 随机数创建数组 3.3.1 创建随机小数 3.3.2 创建随机整数 3.3.3 创建标准正态分布数组 3.3.4 创建指定期望与方差的正态分布数组 四、ndarray对象的属性 五、其他形式创
阅读全文
posted @
2021-07-07 16:18
BabyGo000
阅读(953)
推荐(0)
Python数据分析之Matplotlib数据可视化实例
摘要:Matplotlib数据可视化的应用实例 分析 :2000至2017年各季度国民生产总值数据 npy文件——numpy专用的二进制格式 np.load()和np.save()是读写磁盘数组数据的两个重要函数。使用时,数组会以未压缩的原始二进制格式保存在扩展名为.npy的文件中。 分析国民生产总值:
阅读全文
posted @
2021-07-07 16:13
BabyGo000
阅读(1430)
推荐(0)
python数据分析之(1)数据输入和输出
摘要:通常来说,一个Python程序可以从键盘读取输入,也可以从文件读取输入;而程序的结果可以输出到屏幕上,也可以保存到文件中便于以后使用。 一、控制台I/O 1.读取键盘输入 内置函数input,用于从标准输入读取一个行,并返回一个字符串(去掉结尾的换行符): >>> str1=input('请输入:'
阅读全文
posted @
2021-07-07 16:12
BabyGo000
阅读(390)
推荐(0)
Python数据分析与展示 _ 课程综合测试(客观题)
摘要:1单选(1分) 一般说,numpy-matplotlib-pandas是数据分析和展示的一条学习路径,哪个是对这三个库不正确的说明? A.pandas仅支持一维和二维数据分析,多维数据分析要用numpy B.matplotlib支持多种数据展示,使用pyplot子库即可 C.numpy底层采用C实现
阅读全文
posted @
2021-07-07 16:11
BabyGo000
阅读(1320)
推荐(0)
Python数据分析与挖掘----收入的预测分析
摘要:Python数据分析与挖掘之收入的预测分析 数据集形式 # 导入第三方包 import pandas as pd import numpy as np import seaborn as sns # 导入绘图模块 import matplotlib.pyplot as plt # 导入模型评估模块
阅读全文
posted @
2021-07-07 16:05
BabyGo000
阅读(789)
推荐(0)
Python数据分析与挖掘实战中的错误总结与分析(持续更新)1.前言2.错误分析2.3第五章挖掘建模部分
摘要:1.前言 博主研究生第一年已经成为过去式了,上了课,修了学分。接下来两年就是要搞搞学术了,方向为:大数据分析与数据挖掘。从此篇开始,就将学习过程中一些问题和想法与友交流之。这里是博主在学习中看的一本书《python数据分析与挖掘实战》中基础篇的一些代码规范以及参考方法,供大家学习。 2.错误分析 由
阅读全文
posted @
2021-07-07 16:02
BabyGo000
阅读(579)
推荐(0)
python数据分析与挖掘实战——协同过滤——关联算法——Apriori算法菜品推荐
摘要:客户在餐厅点餐时,面对着菜单中大量的菜品信息,往往无法迅速的找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯,菜品的荤素和口味,有些菜品之间是互相关联的,而有些菜品之间是对立或竞争关系(负关联)。这些规律都隐藏在大量的历史菜单数据中,如
阅读全文
posted @
2021-07-07 16:01
BabyGo000
阅读(988)
推荐(0)
python数据分析与挖掘实战---航空公司客户价值分析
摘要:航空公司客户价值分析 一、 背景与挖掘目标 客户关系管理是企业的核心问题,关键在于客户的分类:区别无价值客户,高价值客户,针对不同客户群体有的放矢投放具体服务方案,实现企业利润最大化的目标。 各大航空公司采取优惠措施喜迎更多客户,国内航司面对客户流失和资源未完全利用等危机,因此建立一个客户价值评估模
阅读全文
posted @
2021-07-07 15:49
BabyGo000
阅读(890)
推荐(0)
Python数据分析与挖掘强化篇1——数据挖掘与分析中的挖掘与建模(决策树、回归分析、人工神经网络)附实例!
摘要:阅读提示 本文将进入数据挖掘与分析中较为困难的一部分———建模分析,将提到简单的分类预测实现方式,例如回归分析、决策树、人工神经网络等等。 目录 阅读提示 第五章 挖掘建模 一、分类与预测 1、实现过程 2、常见的分类与预测算法 3、回归分析 4、决策树 5、人工神经网络 6、Python分类预测模
阅读全文
posted @
2021-07-07 15:47
BabyGo000
阅读(778)
推荐(0)
Python数据分析与挖掘进阶篇1——异常值分析、一致性分析、数据特征分析等(附实例!)
摘要:阅读提示 本文将提到Python数据分析与挖掘中的 数据探索与数据特征分析 目录 阅读提示 一、数据探索 1、数据质量的分析 2、异常值的分析 3、一致性分析 二、数据特征分析 1、分步分析 2、对比分析 3、统计量分析 4、周期性分析 5、贡献度分析 6、相关性分析 一、数据探索 根据观测、调查收
阅读全文
posted @
2021-07-07 15:44
BabyGo000
阅读(1371)
推荐(0)
Python数据分析与可视化学习笔记(一)数据分析与可视化概述1.1 数据分析1.2 数据可视化1.3 数据分析与可视化常用工具
摘要:数据分析与可视化(一) 1.1 数据分析 1.1.1 数据、信息与数据分析 1.1.2数据分析与数据挖掘的区别 1.1.3数据分析的流程 1.2 数据可视化 1.3 数据分析与可视化常用工具 1.4 Python数据分析与可视化常用类库 1.1 数据分析 1.1.1 数据、信息与数据分析 数据 :
阅读全文
posted @
2021-07-07 15:42
BabyGo000
阅读(376)
推荐(0)
Python数据分析系列之——王一博微博转发量分析1 数据说明2 粉丝结构初步分析3 粉丝画像最后的话
摘要:首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~ 但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发
阅读全文
posted @
2021-07-07 15:41
BabyGo000
阅读(1211)
推荐(0)
Python数据分析示例(2)Day3
摘要:说明:本文章为Python数据处理学习日志,主要内容来自书本《利用Python进行数据分析》,Wes McKinney著,机械工业出版社。 电影数据分析 所需文件在Day2中下载,接下来要用到的一些文件的文件格式如下: users.dat文件格式 1::F::1::10::48067 2::M::5
阅读全文
posted @
2021-07-07 15:40
BabyGo000
阅读(96)
推荐(0)
python数据分析实战之电商交易分析
摘要:文章目录 1、明确需求和目的 2、数据收集 3、数据预处理 3.1 数据整合 3.1.1 加载相关库和数据集 3.1.2 数据概览 3.2 数据清洗 3.2.1 缺失值处理 3.2.2 异常值处理 3.2.3 多余记录的删除 3.2.4 重复值的处理 4、数据分析 4.1 总体情况分析 4.2 各维
阅读全文
posted @
2021-07-07 15:39
BabyGo000
阅读(624)
推荐(0)
python数据分析十六:pandas的面元划分和哑变量(get_dummies()、哑变量)
摘要:数学名词 离散化和面元划分 :就是分组,进行相应的计算 对于数据进行离散化和面元划分的前提条件是:连续变化的数据 例如下面是一组人的年龄数据,现在要按照年龄划分为不同年龄的4组(即把数据拆分为4个面元), 分别为“18到25”、“25到35”、“35到60”及“60以上。为了实现分组,需要使用pan
阅读全文
posted @
2021-07-07 15:37
BabyGo000
阅读(562)
推荐(0)
Python数据分析师面试之“完美世界”数据分析师实习生
摘要:class A { private: static int s_value; };[/code] 类的静态成员是该类所有实例的共用成员,也就是在该类的范畴内是个全局变量,也可以理解为是一个名为A::s_value的全局变量,只不过它是带有类安全属性的;道理很简单,因为它是在程序初始化的时候分配的,所
阅读全文
posted @
2021-07-05 22:00
BabyGo000
阅读(129)
推荐(0)
Python数据分析入门 matplotlib数据可视化基础【一】掌握绘图基础语法与常用参数
摘要:matplotlib数据可视化基础【一】 掌握绘图基础语法与常用参数 掌握pyplot基础语法 创建画布与创建子图 添加画布内容 保护与显示图形 设置pyplot的动态参数 掌握绘图基础语法与常用参数 掌握pyplot基础语法 import matplotlib.pyplot as plt pypl
阅读全文
posted @
2021-07-05 21:59
BabyGo000
阅读(484)
推荐(0)
python数据分析利用python进行数据分析
摘要:所有资料汇总学习: [ 点这里 ](https://blog.csdn.net/weixin_39778570/article/details/100052454) # 利用python进行数据分析 ## 数据在这里下载 [ github连接 ](https://github.com/13days/
阅读全文
posted @
2021-07-05 21:58
BabyGo000
阅读(198)
推荐(0)
Python数据分析--结果导出导出为.xlsx文件导出.csv文件将文件导出到多个Sheet
摘要:结果导出 导出为.xlsx文件 设置文件导出路径 设置Sheet名称 设置索引 设置要导出的列 设置编码格式 缺失值处理 无穷值处理 导出.csv文件 设置文件导出 设置索引 设置要导出的列 设置分割符号 缺失值处理 设置编码格式 将文件导出到多个Sheet 导出为.xlsx文件 设置文件导出路径
阅读全文
posted @
2021-07-05 21:57
BabyGo000
阅读(667)
推荐(0)
Python数据分析--计算函数pandasnumpy
摘要:本篇记录python下pandas/numpy的数学计算函数(求和、累积、累和、方差、标准差、中位数、整数、平方根、对数、倒数、指数、余数等)、三角函数(正弦、余弦、切线等) pandas 各函数详情请查阅 pandas 函数说明 df.count() 非NA观测数量 df.sum(axis=0,
阅读全文
posted @
2021-07-05 21:56
BabyGo000
阅读(714)
推荐(0)
python数据分析基础之图与图表——多图并列
摘要:#_author:"zhengly" #date:2018/8/30 ''' 除了使用matplotlib创建标准统计图,还可以使用panda来创建其他类型的统计图 本例实现:利用panda创建一个条形图和箱线图,并将它们并排放置 ''' import pandas as pd import num
阅读全文
posted @
2021-07-05 21:54
BabyGo000
阅读(502)
推荐(0)
Python数据分析基础技术之scikit-learn(史上最全面)
摘要:1、scikit-learn 简介 scikit-learn (sklearn) 是基于 Python 语言的机器学习工具。 是简单高效的数据挖掘和数据分析工具 可供大家在各种环境中重复使用 建立在 NumPy ,SciPy 和 matplotlib 上 开源,可商业使用 - BSD许可证 skle
阅读全文
posted @
2021-07-05 21:53
BabyGo000
阅读(1174)
推荐(0)
Python数据分析-机器学习 常用算法总结。python机器学习,不同分类介绍。仅供参考。机器学习算法分两个说法分类二:分类三:Scikit-learn库简介
摘要:python机器学习,不同分类介绍。仅供参考。 分类一: 机器学习算法分两个说法 一:学习方式 监督学习(有标签) 决策树学习(ID3,C4.5等) 朴素贝叶斯分类 最小二乘回归 逻辑回归(Logistic Regression) 支撑向量机 集成方法 反向传递神经网络(Back Propagati
阅读全文
posted @
2021-07-02 21:49
BabyGo000
阅读(299)
推荐(0)
Python数据分析工具,主要有哪些?
摘要:python数据分析工具一:IPython IPython是一个在多种编程语言之间进行交互计算的命令行shell,最开始是用python开发的,提供增强的内省,富媒体,扩展的shell语法,tab补全,丰富的历史等功能。IPython提供了如下特性: 更强的交互shell(基于Qt的终端) 一个基于
阅读全文
posted @
2021-07-02 21:48
BabyGo000
阅读(561)
推荐(0)
python数据分析的交叉分析和分组分析 -第三次笔记python数据分析 -第三次笔记
摘要:# python数据分析 -第三次笔记 * * * – **1.交叉分析** – **2.分组分析** * * * ## 1.交叉分析 **交叉分析的含义**是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。这种方法虽然复杂,但它弥补了“各自为政”分析
阅读全文
posted @
2021-07-02 21:46
BabyGo000
阅读(400)
推荐(0)
Python数据分析从小白到高手的几个步骤
摘要: 曾经看过一篇老外写的文章,把Numpy/Pandas甚至各种机器学习和神经网络算法组织成了不同的结构图,看起来
阅读全文
posted @
2021-07-02 21:45
BabyGo000
阅读(226)
推荐(0)
python数据分析处理:PUBG Finish Placement Prediction
摘要:PUBG Finish Placement Prediction (Kernels Only) 比赛网址:https://www.kaggle.com/c/pubg-finish-placement-prediction/data 问题背景: 在PUBG游戏中,每场比赛最多有100名玩家,玩家可以根
阅读全文
posted @
2021-07-02 21:43
BabyGo000
阅读(561)
推荐(0)
python数据分析常用库
摘要:numpy 创建矩阵: 引入numpy库并生成矩阵 import numpy as np a = np.array([[1,2,3],[4,5,6]]) 常用方法: 矩阵元素个数 a.size 矩阵形状 a.shape 矩阵维度 a.ndim 矩阵元素类型 a.dtpye 矩阵的加减乘除 。np.d
阅读全文
posted @
2021-07-02 21:42
BabyGo000
阅读(381)
推荐(0)
Python数据分析笔记
摘要:第一章 NumPy基础:数组和矢量计算 1.Numerical Python是高性能科学计算和数据分析的基础包。它提供了一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组ndarray;用于对整组数据进行快速运算的标准数学函数(无需编写循环);用于读写磁盘数据的工具以及用于操作内存映射文件
阅读全文
posted @
2021-07-02 21:41
BabyGo000
阅读(383)
推荐(0)
python数据分析——pyecharts折线图全解(小白必看)1.基本折线图2.连接空数据(折线图)3.多条折线重叠4.平滑曲线折线图5.阶梯图6.变换折线的样式7.折线面积图8.双横坐标折线图9.用电量随时间变化
摘要:折线图是排列在工作表的列或行中的数据可以绘制到折线图中。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 下面我给大家介绍一下如何用pyecharts画出各种折线图 1.基本折线图 import pyecharts.options as opt
阅读全文
posted @
2021-07-02 21:38
BabyGo000
阅读(1534)
推荐(0)
python数据分析pandas包入门学习(一)pandas数据结构介绍
摘要:本文参考《利用python进行数据分析》的第五章 pandas入门 1 pandas数据结构介绍 pandas有两种主要的数据结构:series和DataFrame Series: 一种类似于一维数组的对象,由一组数据(各种Numpy数据类型)以及一组与之对应的数据标签(索引)组成。 
推荐(0)
python数据分析-numpy模块基础知识(3)
摘要:前面已经介绍了numpy的一些基础知识: numpy模块基础知识(1) numpy模块基础知识(2) #今天这一篇文章主要介绍的是array的索引以及array的迭代# 首先,注意索引是从0开始的,存在第0行第0列 array[m,n] 表示提取第m行n列的元素,符号“:”则类似于python列表中
阅读全文
posted @
2021-07-02 21:32
BabyGo000
阅读(52)
推荐(0)
python数据分析-numpy模块基础知识(2)
摘要:#这篇文章主要涉及的是矩阵的加减运算,乘法运算,如何得到矩阵的最大值,最小值,平均值等以及矩阵的转置# ps:如果有些知识看不太懂的话,可以先浏览下这个基础(1): numpy模块基础知识(1) 1.矩阵的加减运算 import numpy as np a=np.array([[1,3,7,2],[
阅读全文
posted @
2021-07-02 21:29
BabyGo000
阅读(53)
推荐(0)
python数据分析-numpy模块基础知识(1)
摘要:呀~博主是正在学习数据分析的一员,记录的是自己学习过程中总结的知识点,肯定有不完善的地方,如有问题可以私聊我改正,共同学习进步。希望大家都能保持学习的热情,坚持自己,不断超越自己! 博客地址: qxi的博客 PS:我先简单说明一下,从统计学语言的角度来看, 一维数组 可以称为vector(向量);而
阅读全文
posted @
2021-07-01 21:51
BabyGo000
阅读(120)
推荐(0)
Python数据分析——Matplotlib数据可视化基础(二)Python数据分析——Matplotlib数据可视化基础(二)
摘要:Python数据分析——Matplotlib数据可视化基础(二) 思维导图: 图形的绘制 认识要绘制的图形 基本绘图流程 pyplot基础图表函数 pyplot饼图的绘制 pie函数 matplotlib.pyplot.pie(x, explode=None, labels=None, colors
阅读全文
posted @
2021-07-01 21:10
BabyGo000
阅读(427)
推荐(0)
Python数据分析_第01课:Python概览_笔记变量类型运算符
摘要:文章目录 变量类型 打印 行和缩进 多行语句 引号 注释 空行 码组 帮助 变量赋值 数字 删除 字符串 列表 元组 字典 运算符 比较运算符 赋值运算符 位运算符 逻辑运算符 成员运算符 身份运算符 运算符优先级 GitHub: https://github.com/RealEmperor/Pyt
阅读全文
posted @
2021-07-01 21:08
BabyGo000
阅读(75)
推荐(0)
python数据分析:流量数据化运营(下)——基于自动K值得KMeans广告效果聚类分析
摘要:案例背景 某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。 以下是在开展研究之前的基本预设条件: 广告渠道的范畴是什么?具体包括哪些渠
阅读全文
posted @
2021-07-01 21:05
BabyGo000
阅读(727)
推荐(0)
Python数据分析:股价相关性
摘要:好久没发博客了,今天来发一篇分析股价相关度的。╮ ( ╯ ▽ ╰ ) ╭ 为什么要分析股价相关度呢,我们来引入一个概念——配对交易 所谓的配对交易,是基于统计套利的配对交易策略是一种市场中性策略,具体的说,是指从市场上找出历史股价走势相近的股票进行配对,当配对的股票价格差偏离历史均值时,则做空股价较
阅读全文
posted @
2021-07-01 20:55
BabyGo000
阅读(578)
推荐(0)
Python数据分析:pandas数据操作和分析案例
摘要:# Python数据分析:pandas数据操作和分析案例 ###### 项目介绍: * [ https://www.kaggle.com/openfoodfacts/world-food-facts ](https://www.kaggle.com/openfoodfacts/world-food-
阅读全文
posted @
2021-07-01 20:53
BabyGo000
阅读(764)
推荐(0)
Python数据分析(统计分析)视频教程
摘要:课程简介 5:59 正太分布 19:23 二项式分布 11:02 泊松分布 15:55 均匀分布 3:22 卡方分布 5:35 beta分布 14:54 第2章:统计描述 统计描述概述 7:54 频数分布 5:25 集中趋势描述 9:40 Pandas描述统计常用函数 8:21 恐怖袭击数据集描述
阅读全文
posted @
2021-07-01 20:52
BabyGo000
阅读(890)
推荐(0)
python数据分析(pandas入门)
摘要:1、pandas数据结构之DataFrame DataFrame生成方式:1、从另一个DataFrame创建。2、从具有二维形状的NumPy数组或数组的复合结构生成。3、使用Series创建。4、从CSV之类文件生成。下面介绍DataFrame的简单用法: a):读取文件 代码: from pand
阅读全文
posted @
2021-07-01 20:51
BabyGo000
阅读(441)
推荐(0)
python-数据分析-(11)pandas聚合函数、透视表、交叉表、表格合并常见操作
摘要:一 聚合函数 1. numpy、pandas使用的统计方式 在数组中经常使用的聚合方式 data[['counts', 'ches_name']].agg([np.mean, np.std]) agg({'xx':np.mean, 'xx2':[np.sum, np.std]}) 2. 在panda
阅读全文
posted @
2021-07-01 20:50
BabyGo000
阅读(889)
推荐(0)
Python数据分析(6)----招聘信息数据分析
摘要:## **本次实验内容为餐饮订单数据的分析,数据请见:[ https://pan.baidu.com/s/1tL7FE5lxs-gb6Phf8XRu_Q ](https://pan.baidu.com/s/1tL7FE5lxs-gb6Phf8XRu_Q),文件夹:data_analysis,下面的文
阅读全文
posted @
2021-07-01 20:48
BabyGo000
阅读(1365)
推荐(0)
Python数据分析(3)-numpy中nd数组的创建
摘要:ndarray的内存结构 和其他的库一样,每个库都可能有自己独特的数据结构,例如OpenCV,numpy库的多维数组叫做ndarray( N dimensionality array ),它的内存结构如下图: ndarray的内存结构 在这个结构体中有两个对象,一个是用来描述元素类型的头部区域,一个
阅读全文
posted @
2021-07-01 20:47
BabyGo000
阅读(317)
推荐(0)
python数据分析&自动化办公实战(二):批量输入输出excel文件
摘要:此篇起皆为实战总结,以 代码+注释+相关总结 为主,基础语法请自行学习,注意各种数据类型间的不同就好。 任务目标 :给定一年中每个月每一笔订单的详细信息(csv),需要输出每个月的客户名称、业务类型、收入、成本并计算毛利(excel) 目标拆解 :获取文件夹下所有csv文件的文件路径,依照文件路径读
阅读全文
posted @
2021-07-01 20:46
BabyGo000
阅读(291)
推荐(0)
Python数据分析 三剑客篇(一)NumPyPython数据分析(一)Numpy
摘要:Python数据分析(一)Numpy NumPy,Pandas和 Matplotlib “工欲善其事,必先利其器。” Numpy ,pandas 和 Matplotlib 被称为Python数据分析的三剑客模块。首先我们来讲讲安装问题,推荐直接傻瓜式安装Anaconda,里面封装了大量的第三方库,其
阅读全文
posted @
2021-07-01 20:45
BabyGo000
阅读(364)
推荐(0)
Python实验五:Pandas数据分析及数据预处理
摘要:任务一:对用户信心更新表和登陆信息表进行长宽转换 需求说明:通过对数据的描述性统计、以及时间数据信息提取,分组聚合操作已经获得了相当多的信息,但用户信息更新表和登录信息表是长表,而主表是宽表,需要通过长宽表转换将数据合并在一张以用户编号为主键的表内。 任务二:插补用户用电量数据缺失值 需求说明:用户
阅读全文
posted @
2021-07-01 20:42
BabyGo000
阅读(1335)
推荐(0)