07 2021 档案

摘要:1、成为一名数据分析师需要具备哪些技能? 要成为一名数据分析师,需要掌握丰富的报告软件包(Business Objects),编程语言(XML,Javascript或ETL框架),数据库(SQL,SQLite等);能够准确分析、组织、收集或传播数据;掌握数据库设计,数据模型,数据挖掘等方面的技术知识 阅读全文
posted @ 2021-07-09 17:27 老酱 阅读(2712) 评论(0) 推荐(0)
摘要:前段时间,老同学居然和我说她在学编程。当时我很不理解,她是市场专员,又不是程序员,为啥要学编程?直到上周,她请我吃饭,告诉我她调到了新项目组做主管。 “学编程不一定就是做程序员,我用python搜集竞品信息,对产品和服务做数据分析,毕竟知己知彼,百战不殆嘛。” 新职位给了她更大的职场可能,也获得了翻 阅读全文
posted @ 2021-07-09 17:26 老酱 阅读(1719) 评论(0) 推荐(0)
摘要:一、提出问题 你要么获取一批数据,然后根据它提问,或者先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。 二、理解数据 1、理解各字段的意思,如果有英文可修改成中文更易理解。 2、在数据清洗前复制一份保存,将CSV文件另存为xls 阅读全文
posted @ 2021-07-09 17:24 老酱 阅读(5423) 评论(0) 推荐(0)
摘要:为一名合格的数据分析师或者说一名称职的数据挖掘领域从业者,大家肯定都耳熟能详的认为其必须具有如下基本技能: ** 一、熟练的掌握SQL、Hive等; ** ** 二、R、SAS、Python等至少精通其中一种。 ** 但往往大家忽视了最基本的技能要求:使用Excle进行数据处理与数据分析的能力。大家 阅读全文
posted @ 2021-07-09 17:23 老酱 阅读(2621) 评论(0) 推荐(0)
摘要:众所周知,excel是一个强大的办公软件。作为一个统计学专业的学生,一提到数据分析,大家所用的都是python、C、R等语言,却忘了很多基本的工作完全可以在excel里面用更简单的操作完成,尤其是那些对编程头痛的小伙伴,这是一种福音,当然这些可能只是数据分析师的初级工作。这篇文章是在听了知乎上猴子的 阅读全文
posted @ 2021-07-09 17:21 老酱 阅读(664) 评论(0) 推荐(1)
摘要:目录 一、常用技巧 二、数据收集、清洗技巧 三、常用公式 四、常用函数 五、数组 六、查找与引用函数 七、图表 八、数据透视表 九、交互式界面和组合框动态制作 十、录制宏 十一、Power BI(商业智能) (一)Power Query :#查询编辑器# (二)Power Pivot:#“超级”数据 阅读全文
posted @ 2021-07-09 17:20 老酱 阅读(449) 评论(0) 推荐(0)
摘要:今天给大家分享的是在数据分析中很重要的一环,也就是描述统计。在百科的解释中,描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在这三个部分当中,集中趋势主要是靠数据当中 阅读全文
posted @ 2021-07-09 17:18 老酱 阅读(2070) 评论(0) 推荐(0)
摘要:**1、组织数据 (需要处理每条数据开头和结尾的中括号) (1)创建Hive表weibo_json(json string),表只有一个字段,导入所有数据,并验证查询前5条数据 ** create table weibo_json(json string); load data local inpa 阅读全文
posted @ 2021-07-09 17:17 老酱 阅读(1003) 评论(0) 推荐(0)
摘要:Kaggle竞赛:泰坦尼克号灾难数据分 https://www.kaggle.com/c/titanic 目标确定 :根据已有数据预测未知旅客生死 数据准备 : 数据获取,载入训练集csv、测试集csv 数据清洗,补齐或抛弃缺失值,数据类型变换(字符串转数字) 数据重构,根据需要重新构造数据(重组数 阅读全文
posted @ 2021-07-09 17:15 老酱 阅读(414) 评论(0) 推荐(0)
摘要:分析背景 某电信公司市场部为了预防用户流失,收集了已经打好流失标签的用户数据。现在要对流失用户情况进行分析,找出哪些用户可能会流失? 理解数据 采集数据 本数据集描述了电信用户是否流失以及其相关信息,共包含7043条数据,共21个字段,分别介绍如下: customerID : 用户ID。 gende 阅读全文
posted @ 2021-07-09 17:12 老酱 阅读(1403) 评论(0) 推荐(0)
摘要:一、MapReduce第一讲WordCount(单词计数) 在这里小编做一下简介:MapReduce计算框架。 MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure 阅读全文
posted @ 2021-07-09 17:10 老酱 阅读(420) 评论(0) 推荐(0)
摘要:CSDN 课程推荐:《迈向数据科学家:带你玩转Python数据分析》,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员;已出版《跟老齐学Python:轻松入门》《跟老齐学Python:Django实战》、《跟老齐学Python:数据分析》和《Python大学实用教程 阅读全文
posted @ 2021-07-08 17:04 老酱 阅读(434) 评论(0) 推荐(0)
摘要:Python 天气情况数据分析及可视化 环境配置 Pycharm开发环境 python 版本 python3.7 Anconda 集成开发环境 第三方库导入 ## pip install 模块 清华大学镜像源 import requests from bs4 import BeautifulSoup 阅读全文
posted @ 2021-07-08 16:44 老酱 阅读(759) 评论(0) 推荐(0)
摘要:pandas pandas是基于Numpy的一种工具,该工具是为解决数据分析任务而创建的,pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需要的的工具,pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 表格数据操作(增删改查) 实现多个表格的处理 数据清洗操作 阅读全文
posted @ 2021-07-08 16:43 老酱 阅读(95) 评论(0) 推荐(0)
摘要:-- coding: utf-8 -- #1. 概念:RFM分析是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法. #R(Recency):近度,客户最近一次交易时间的间隔。R越大,表示客户越久未发生交易,R越小,表示客户越近有交易发生 #F(Frequency):频度,客户在最近一段时 阅读全文
posted @ 2021-07-08 16:41 老酱 阅读(438) 评论(0) 推荐(0)
摘要:所有做数据分析的前提就是:你得有数据,而且已经经过清洗,整理成需要的格式。 不管你从哪里获取了数据,你都需要认真仔细观察你的数据,对不合规的数据进行清理,虽然不是说一定要有这个步骤,但是这是一个好习惯,因为保不齐后面分析的时候发现之前因为没有对数据进行整理,而导致统计的数据有问题,今天小编就把平时用 阅读全文
posted @ 2021-07-08 16:40 老酱 阅读(532) 评论(0) 推荐(0)
摘要:PYTHON大数据分析-IWC赛题1(企业投资价值评估)数据分析方法总结 一、目的 二、代码结构简述 三、数据分析过程 1、数据清洗 2、模型选型 3、参数调优 4、模型校验 5、结果预测 四、比赛心得 一、目的 本次比赛主要解决的问题是根据官方提供的37个EXCEL表信息与企业评分,训练出一个模型 阅读全文
posted @ 2021-07-08 16:26 老酱 阅读(353) 评论(0) 推荐(0)
摘要:(1)筛选 使用作业1的程序 完成对沪深300指数成分股过去2015年1月-2018年1月三年的数据分析 按alpha从大到小,选择出30只alpha最高的股票形成股票池1,以备进一步分析 (2)预测 对沪深300指数成分股2018年1月-2021年1月三年的数据分析 选择出30只alpha最高的股 阅读全文
posted @ 2021-07-08 16:22 老酱 阅读(2565) 评论(1) 推荐(0)
摘要:新的代码 :https://github.com/Whitehua/datamine.git 特性: 全自动爬取,每个城市建一张表 Mysql数据库 带有拟合曲线分析 2020.1.04 最近在做一个课程设计,关于爬取安居客房价信息的,本次用到的框架有 BeautifulSoup xlwt,xlrd 阅读全文
posted @ 2021-07-08 16:20 老酱 阅读(172) 评论(0) 推荐(0)
摘要:python金融风控评分卡模型和数据分析微专业课(博主录制): [ http://dwz.date/b9vv ](https://study.163.com/series/1202875601.htm?share=2&shareId=400000000398149) ![在这里插入图片描述](htt 阅读全文
posted @ 2021-07-08 11:07 老酱 阅读(648) 评论(0) 推荐(0)
摘要:文章目录 5.1.3 其他绘图样式 5.2 金融学图表 #第5章 数据可视化 ##5.1 二维绘图 ###5.1.1 一维数据集 按照给定的x和y值绘图 import matplotlib as mpl import matplotlib.pyplot as plt %matplotlib inli 阅读全文
posted @ 2021-07-08 11:06 老酱 阅读(201) 评论(0) 推荐(0)
摘要:_无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。教程链接: https://www.cbedai.net/qtlyx _ 1.简单的例子 了解一点金融工程的对这个公式都不会太陌生,是用现在股价预测T时 阅读全文
posted @ 2021-07-08 11:04 老酱 阅读(1072) 评论(0) 推荐(0)
摘要:由于雾霾问题,全社会都很关注空气质量,政府也花了很多钱力图改善空气质量。我们作为城市市民经常要问:我们城市的空气质量到底怎样?这几年我们城市的空气质量是在改善还是恶化?我们城市的空气质量与其他城市相比,是更好还是更差? 官方媒体一般都是说:我们的空气质量在改善,但有数据证明吗?官方数据可信吗?我们心 阅读全文
posted @ 2021-07-07 15:05 老酱 阅读(284) 评论(0) 推荐(0)
摘要:Python数据分析学习入门四——房价分析 房价预测 导入数据,查看数据结构和类型 倒入项目所需的包 将划分好的数据导入分析 简单查看训练集数据 查看每列的数据类型 查看因变量y的分布,处理极值 查看数据基本情况 画出直方图,直观查看数据 对y值进行优化 查看特征值x的情况,处理缺失值 查看特征值 阅读全文
posted @ 2021-07-07 15:02 老酱 阅读(178) 评论(0) 推荐(0)
摘要:# Create linear regression object regr = linear_model.LinearRegression() # Train the model using the training sets regr.fit(data_X_train, data_y_train 阅读全文
posted @ 2021-07-07 15:00 老酱 阅读(1229) 评论(0) 推荐(0)
摘要:数据及要求 文件可以在博主得资源上下载,如果是源文件有个缺考得话,把他人为改成0或者使用python代码写也可以 现请帮班主任做如下工作: 给成绩表加上姓名列; 给成绩表加上字段“总分”列,并求出总分; 增加列字段“等级”,标注每人“总分”的“优、良、中、及格、差”(270≤优,240≤良, 210 阅读全文
posted @ 2021-07-07 14:59 老酱 阅读(644) 评论(0) 推荐(0)
摘要:文章目录 一、Pandas的使用 1.Pandas介绍 2.Pandas基本操作 Series的操作 创建DataFrame 常见列操作 常见行操作 DateFrame的基本操作 时间操作 3.Pandas进行数据分析 读取数据 选择数据子集 数据清洗 布尔索引 group_by()的使用 基本画图 阅读全文
posted @ 2021-07-07 14:57 老酱 阅读(674) 评论(0) 推荐(0)
摘要:背景介绍 随着我国的经济迅速发展,城市人口急剧增加,随之带来的是一系列的问题,交通拥堵,环境受到破坏,发展公共交通可以完美的解决现在我们面临的这些问题,自行车具有机动灵活、低碳环保的优点,如果自行车可以取代现在的机动车,那么道路就不会那么拥挤,人们的出行效率就会大大提升,汽车废气的排放量也将大大的减 阅读全文
posted @ 2021-07-07 14:56 老酱 阅读(803) 评论(2) 推荐(0)
摘要:读取数据 含有逗号分隔符文件 JSON文件 源文件 含有逗号分隔符文件 本节主要讲CSV类型的文件以及如何使用Pandas库来读取CSV文件。 CSV文件的简介 用Pandas来读取CSV文件 CSV文件的简介 在机器学习中以逗号作为分隔符的文件很常见(CSV文件),这种类型的文件每一行都有数据,每 阅读全文
posted @ 2021-07-07 14:54 老酱 阅读(632) 评论(0) 推荐(0)
摘要:缺失值处理: 举止,中位数,众数插补法 使用固定值(规定的标准值) 最近邻插补法 回归方法 插值法 插值法有拉格朗日差值和牛顿插值法。 一个较大的区别是,当节点增减的时候,拉格朗日插值必须重新计算,牛顿法则 可以避免这一点。 下面是python scipy中的lagrange插值函数的使用,使用某个 阅读全文
posted @ 2021-07-07 14:53 老酱 阅读(641) 评论(0) 推荐(0)
摘要:一、Python数据分析工具 二、数据探索 一、 对数据的质量分析 异常值的分析: 简单的统计量分析:查看最大最小值是否在合理范围 2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超过3倍的标准差。 3.箱形图分析: 异常值被定义为小于QL-1.5IQR 或大于QR+1.5IQR QL 阅读全文
posted @ 2021-07-07 14:52 老酱 阅读(639) 评论(0) 推荐(0)
摘要:第五章 数据建模 (一)聚类分析 1、主要方法 2、距离分析 度量样本之间的相似性,采用距离算法: ![](https://img-blog.csdnimg.cn/20190722172908696.png?x-oss- process=image/watermark,type_ZmFuZ3poZW 阅读全文
posted @ 2021-07-07 14:51 老酱 阅读(351) 评论(0) 推荐(0)
摘要:这一节开始就正式开始啦~~ 这一部分主要是针对淘宝的部分商品数据(小零食)进行预处理。 读取商品源数据 这里拿到的数据是sql数据,因此需要使用mysql。首先我们安装好mysql,可以直接通过指令安装: sudo apt-get install mysql-server apt-get insta 阅读全文
posted @ 2021-07-07 14:47 老酱 阅读(434) 评论(0) 推荐(0)
摘要:python数据分析之金融欺诈行为检测 项目的思维导图 数据分析与处理 声明所使用的库 `import numpy as np import pandas as pd #panda主要用于处理结构化的数据列表,具有数据挖掘和数据分析,对数据进行清洗 import matplotlib.pyplot 阅读全文
posted @ 2021-07-07 14:45 老酱 阅读(1210) 评论(0) 推荐(0)
摘要:numpy (Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。numpy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用. numpy 是一个运行速度 阅读全文
posted @ 2021-07-07 14:44 老酱 阅读(1220) 评论(0) 推荐(0)
摘要:python常用网址: 1.Python官网: https://www.python.org/ 2.各种库的whl离线安装包: [ http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn ](http://www.lfd.uci.edu/~go 阅读全文
posted @ 2021-07-07 14:41 老酱 阅读(310) 评论(0) 推荐(0)
摘要:原文地址: http://blog.sina.com.cn/s/blog_727a704c0102vn44.html 使用Python 进行简单文本类数据分析,包括: 分词 生成语料库,tfidf加权 lda主题提取模型 词向量化word2vec 参考: http://zhuanlan.zhihu. 阅读全文
posted @ 2021-07-06 18:30 老酱 阅读(596) 评论(0) 推荐(0)
摘要:** 利用Python进行文本分类, 可用于过滤垃圾文本 抽样 人工标注样本文本中垃圾信息 样本建模 模型评估 新文本预测 参考: http://scikit-learn.org/stable/user_guide.html PYTHON自然语言处理中文翻译 NLTK Natural Languag 阅读全文
posted @ 2021-07-06 18:29 老酱 阅读(1337) 评论(0) 推荐(0)
摘要:1.时间序列 不管在哪个领域中(金融学、经济学、生态学、神经科学、物理学等),时间序列数据都是一种重要的结构化数据形式,在多个时间点观察或者测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15分钟、每5分钟、每一个月等)。时间序列也可 阅读全文
posted @ 2021-07-06 18:27 老酱 阅读(401) 评论(0) 推荐(0)
摘要:一、初识Pandas Pandas 是基于 NumPy 的一个非常好用的库,它有两种自己独有的基本数据结构Series (一维)和 DataFrame(二维),它们让数据操作更简单了。虽然Pandas有着两种数据结构,但它依然是 Python 的一个库,所以,Python 中有的数据类型在这里依然适 阅读全文
posted @ 2021-07-06 18:26 老酱 阅读(2537) 评论(0) 推荐(0)
摘要:**前言:这是根据 B站《R语言入门与数据分析》 自学整理的学习笔记。非科班出身,之前也没接触过代码,自己理解能力也比较差,所以会显得外行又笨拙,但还是希望多交流学习,才有动力持续进步。 目前这个课程笔记还没完结,会边学边更新。 ** 文章目录 P1 课程介绍 P2 数据分析 P3 数据挖掘 P4 阅读全文
posted @ 2021-07-06 18:25 老酱 阅读(830) 评论(0) 推荐(0)
摘要:基本操作(包括读取数据) 设置工作目录 setwd('D://R/') 读取数据文件 listing<-read.csv('listings.csv',header = T,sep = ',',quote = '') listings<-na.omit(listing) # 去除所有含缺失值的行 连 阅读全文
posted @ 2021-07-06 18:24 老酱 阅读(716) 评论(0) 推荐(0)
摘要:文章目录 第三章 数据探索 3.1数据质量分析 1.主要任务 2.缺失值分析 3.异常值分析 4.一致性分析 3.2数据特征分析 1.分布分析 2.对比分析 3.统计量分析 4.周期性分析 5.相关性分析 3.3 R语言主要数据探索函数 1.统计特征函数 2.统计作图函数 第三章 数据探索 什么是数 阅读全文
posted @ 2021-07-06 18:23 老酱 阅读(358) 评论(0) 推荐(0)
摘要:‍‍‍‍‍‍‍‍‍ ** 作者简介 Introduction ** 姚某某 知乎专栏: https://zhuanlan.zhihu.com/mydata 往期回顾: [ R语言之高级数据分析「聚类分析」 ](http://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5N 阅读全文
posted @ 2021-07-06 18:22 老酱 阅读(483) 评论(0) 推荐(0)
摘要:我们需要用到的包有:arules、arulesViz、chron、dplyr、ggplot2、gplots、reshape2、wordcloud2、plyr。 > library("arules", lib.loc="~/R/win-library/3.5") > library("arulesVi 阅读全文
posted @ 2021-07-06 18:19 老酱 阅读(392) 评论(0) 推荐(0)
摘要:原文地址:http://supstat.com.cn/blog/2015/01/07/use-r-in-banking-industry/ 研究方法 搜集银行业上市公司的财务数据分析股票价格的财务影响因素,观测流动比率、净资产负债比率、资产固定资产比率、每股收益、净利润、增长率、股价和公布时间等数据 阅读全文
posted @ 2021-07-06 18:17 老酱 阅读(355) 评论(0) 推荐(0)
摘要:文章目录 RNA-seq 数据分析流程 相关软件安装 下载数据 sra转fastq格式 数据质控 数据质控,过滤低质量reads,去接头 比对 首先下载参考基因组及注释文件,建立索引 比对 sam文件转bam 为bam文件建立索引 reads的比对情况统计 计数 counts 差异基因分析 RNA- 阅读全文
posted @ 2021-07-06 18:14 老酱 阅读(1354) 评论(0) 推荐(0)
摘要:基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 Sqoop: 1.4.6 Spark: 2.1.0 Eclipse: 3.8 ECharts: 3. 阅读全文
posted @ 2021-07-06 18:12 老酱 阅读(3892) 评论(0) 推荐(0)
摘要:以前总是分不清楚spark中flatmap和map的区别,现在弄明白了,总结分享给大家,先看看flatmap和map的定义。 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一 阅读全文
posted @ 2021-07-06 18:05 老酱 阅读(88) 评论(0) 推荐(0)
摘要:通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。 数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz 数据格式以及意义: 111,30.655325 阅读全文
posted @ 2021-07-06 18:01 老酱 阅读(934) 评论(0) 推荐(0)
摘要:文章目录 用例1:数据清洗 用例2:用户留存分析 用例3:活跃用户分析 用例4:活跃用户地域信息分析 用例5:用户浏览深度分析 本项目用到的文件获取如下,提取码: 6xdx 点我获取文件 注意:本文都是在spark-shell环境下完成 用例1:数据清洗 读入日志文件并转化为RDD[Row]类型 按 阅读全文
posted @ 2021-07-06 17:55 老酱 阅读(860) 评论(0) 推荐(0)
摘要:一.数据来源 本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。 数据下载地址为:http://www.sogou.co 阅读全文
posted @ 2021-07-06 17:53 老酱 阅读(709) 评论(0) 推荐(0)
摘要:声明: 因项目中使用clickhouse引擎这里springboot使用的方式是jdbc方式连接,这种方式的好处是可以使用clickhouse 自带的fetch方法批量从clickhouse中获取数据,对于大量数据的下载来说,比较好 因为如果全部拿到内存中处理,大量数据会有内存溢出的结果 如果批量多 阅读全文
posted @ 2021-07-06 17:14 老酱 阅读(504) 评论(0) 推荐(0)
摘要:获取数据 数据可以是自己爬取,也可以是其它方式获取,不多说。 数据的特征提取和数据清洗 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190116192233803.png?x-oss- process=image/watermark,type_ZmFuZ3p 阅读全文
posted @ 2021-07-06 17:11 老酱 阅读(450) 评论(0) 推荐(0)
摘要:![](https://upload- images.jianshu.io/upload_images/10105021-baf5a49e9c73dd4f.png?imageMogr2/auto- orient/strip%7CimageView2/2/w/1240) 一提到数学,高等数学,线性代数 阅读全文
posted @ 2021-07-06 17:01 老酱 阅读(936) 评论(0) 推荐(0)
摘要:最近几日忙于在淘宝上接单做数据分析,从接单的情况来看,数据分析主要的对象是在校大学生和部分在职公职人员。 分析的主要问题包括对问卷的数据分析与简单的模型建立。 SPSS对于问卷的数据分析: 1.数据的录入:需要将问卷的选项编码成数字,主要存在的问题包括问卷的答案可能是A B C D你需要通过重新编码 阅读全文
posted @ 2021-07-06 16:54 老酱 阅读(2271) 评论(0) 推荐(0)
摘要:因子分析在成绩综合评价中的应用 成绩可以是多方面的,包括在校大学生的考试成绩、高考生的入学成绩、公务员考试的笔试(面试)成绩、公司员工或政府官员的测评考核成绩等,本节以学生的考试成绩为例,利用因子分析进行对考核对象的综合评价。 学生成绩能反映学生掌握知识和各种能力的程度,综合得分是评价一个学生学习好 阅读全文
posted @ 2021-07-05 21:28 老酱 阅读(2710) 评论(0) 推荐(0)
摘要:从今天开始,小白将深入给大家带来关于数据分析工具SPSS的使用和讲解,在这段时间里我会带着大家来一起学习了解如何使用SPSS进行描述性统计分析、假设检验、相关分析、回归分析、聚类分析、主成份分析、因子分析等。在分享的途中会出现大量的分析实例,通过实例来解析数据分析的技术和技巧,最后提高SPSS数据分 阅读全文
posted @ 2021-07-05 21:25 老酱 阅读(6880) 评论(0) 推荐(0)
摘要:一些注意事项 在字符串中为了区分转义符,可以在前面加个\ 或者在最前面加r; 字符串加好拼接;乘号重复; 索引【-1】代表最后一个; endwith布尔值检查结尾; startwirh检查开始;检查的可以是元组,里面多个元素; find找位置;忽略大小写使用re.findall; join拼接; 注 阅读全文
posted @ 2021-07-05 21:23 老酱 阅读(886) 评论(0) 推荐(0)
摘要:SQL与MySQL简介 数据库基础 从SQL的角度来看,数据库就是一个以某种有组织的方式存储的数据集合。我们可以采用数据库对数据进行有效的存储与管理,并运用数据库进行合理的处理与分析,使其转化为有价值的数据信息。 理解数据库的一种简单办法是将其想象为一个存放数据的文件柜, 往文件柜里存放数据资料时, 阅读全文
posted @ 2021-07-05 21:21 老酱 阅读(868) 评论(0) 推荐(0)
摘要:文章目录 奥迪销售驾驶舱 1 准备数据源 2 同比及环比 2.1 准备工作 2.2 同比及环比 3 车型-销售额分析 4 月度销售趋势(近12个月) 5 区域销售占比图 6 销量Top 3及Bottom 3的车型 6.1 Top 3 6.2 Bottom 3 6.3 切换 7 销售驾驶舱 8 仪表盘 阅读全文
posted @ 2021-07-05 21:20 老酱 阅读(971) 评论(0) 推荐(0)
摘要:数据来源: kaggle的Titanic 生存模型:titanic_train.csv。 引入的库: import numpy as np import pandas as pd import sys reload(sys) sys.setdefaultencoding('gbk') import 阅读全文
posted @ 2021-07-05 21:18 老酱 阅读(248) 评论(0) 推荐(0)
摘要:同步转载至个人公众号:R语言学习 同步转载至个人知乎专栏:R语言可视化进阶 泰坦尼克沉船事故已经过去多年,但是关于它的生存预测问题一直是数据分析与建模的经典案例,今天抽空把Chuck Talbert大师做的预测进行简单翻译和再现,并加入个人理解,原文链接: [ Titanic: A TidyCare 阅读全文
posted @ 2021-07-05 21:17 老酱 阅读(1900) 评论(0) 推荐(0)
摘要:这是关于TMDB5000条电影数据的分析报告 数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata 报告分为 : (1)提出问题 (2)认识数据 (3)清洗数据 (4)分析数据 (5)总结 (一)提出问题 (1)对电影类型的分析,电影 阅读全文
posted @ 2021-07-05 21:14 老酱 阅读(825) 评论(0) 推荐(0)
摘要:WireShark抓包数据分析: 1、TCP报文格式 ![](https://img- blog.csdn.net/20150910095914634?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/f 阅读全文
posted @ 2021-07-05 21:12 老酱 阅读(1071) 评论(0) 推荐(0)
摘要:在分析数据之前,我们先了解一下我们传输数据的结构体系,如下图: ![这是两种体系,我们常知的一般都是TCP/IP体系结构。](https://img- blog.csdnimg.cn/20201014121916198.png?x-oss- process=image/watermark,type_ 阅读全文
posted @ 2021-07-05 21:10 老酱 阅读(848) 评论(0) 推荐(0)
摘要:数据分析-用python分析中国五大城市的PM2.5值(ols建立回归模型) 文章目录 分析目的 观察数据 数据清洗 数据整合 数据分析 分析目的 细颗粒物又称PM2.5,指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物。它能较长时间悬浮于空气中,其在空气中含量浓度越高,就代表空气污染越严重 阅读全文
posted @ 2021-07-01 21:09 老酱 阅读(862) 评论(0) 推荐(0)
摘要:对“数据分析”相关岗位的综合分析 数据来源:拉勾网(爬虫) 查看爬虫代码 关键字:数据分析 样本量:1631条 截至日期:2019-07-15 目的 “数据分析”职位在各城市招聘数量分布 总体薪资以及应届生薪资分布 工作经验对于薪资的影响 相同工作经验下,学历对薪资的影响 北京本科应届生及不限经验的 阅读全文
posted @ 2021-07-01 21:08 老酱 阅读(211) 评论(0) 推荐(0)
摘要:数据分析 第八讲 Seaborn ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210327203745851.jpg?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text 阅读全文
posted @ 2021-07-01 20:44 老酱 阅读(546) 评论(0) 推荐(0)
摘要:数据分析 - Kaggle TMDB 票房预测 环境准备 数据集 正文 数据预处理 数据探索性分析 建模 环境准备 使用了的环境: Windows 10 python 3.7.2 Jupyter Notebook (代码均在此测试成功) 数据集 https://www.kaggle.com/c/tm 阅读全文
posted @ 2021-07-01 20:41 老酱 阅读(588) 评论(0) 推荐(0)