夜的独白

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

06 2021 档案

摘要:用Excel进行数据分析练习(一) 跟随秦路老师的课程,用Excel进行数据分析,主要目的是回顾关于Excel的一些基本操作 问题描述 数据: 一份餐食数据 主要问题描述: 全国点评数最高的饭店是哪家? 哪个城市的饭店人均口味最好? 哪个类型的餐饮评价最好? 类型为川菜的店里,有多少个带‘辣’字,有 阅读全文
posted @ 2021-06-30 15:39 夜的独白 阅读(699) 评论(0) 推荐(0)

摘要:写在前面的话 ![](https://img-blog.csdnimg.cn/20200629070722682.jpeg?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nL 阅读全文
posted @ 2021-06-30 15:22 夜的独白 阅读(544) 评论(0) 推荐(0)

摘要:原创文章,转载请注明原地址 http://blog.csdn.net/stevenprime 三.数据的分析 数据的分析其实分为实时与非实时,非实时的话比较好办,就是将收集收集到的日志用程序来跑就行, java,python,hadoop都可以. 首先讲讲非实时数据分析(离线数据分析) 数据分析的方 阅读全文
posted @ 2021-06-30 15:15 夜的独白 阅读(112) 评论(0) 推荐(0)

摘要:![file](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9ncmFwaC5iYWlkdS5jb20vcmVzb3VyY2UvMjIyOGVlN2Y2YTgyMWU3MzBkOTUxMDE1ODgwNTI5OTAucG5n?x-oss- process=imag 阅读全文
posted @ 2021-06-30 14:47 夜的独白 阅读(730) 评论(0) 推荐(0)

摘要:作者 | 蓝鲸网站分析博客 来源 | http: //bluewhale.cc/2017-04-21/use-python-for-data-analysis-like- excel-3.html 常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用 Excel 做分析但不太会用 阅读全文
posted @ 2021-06-30 14:19 夜的独白 阅读(841) 评论(0) 推荐(0)

摘要:完整的数据分析、挖掘流程简介 这是在一次面试过程中遇到的一个问题,自己回答了个大概,但是缺少了一部分的东西,所以就抽时间查阅了一些相关的资料来总结了一下,也算是自己的一个学习过程了,将学习总结的内容以markdown笔记的形式记录下来,仅做学习参考使用。 一个完整的数据分析或者是数据挖掘过程包括许多 阅读全文
posted @ 2021-06-30 14:06 夜的独白 阅读(1067) 评论(0) 推荐(0)

摘要:一个数据分析系统的技术架构设计浅析 作者:成晓旭 版权保留,严禁转载 本文是曾经参与的一个大型项目的解决方案的技术架构设计的简要总结与阐释,仅仅分析该系统的众多的内部构件之间的逻辑关系,仅供参考。 数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。系统内部对所有 阅读全文
posted @ 2021-06-30 14:01 夜的独白 阅读(775) 评论(0) 推荐(0)

摘要:第一份数据报告的诞生 陈丹奕 · 6 个月前 因为在之前的回答里提到,建议希望成为数据分析师的知友们在学习过相关知识以后,做一份自己的数据报告,作为求职的敲门砖,展示已有能力。后来发现,我这个建议自以为干货,但其实犯了“给鸡汤不给勺子”的错误,很多人(>20个)发私信来问我报告到底怎么做…… 为了不 阅读全文
posted @ 2021-06-30 13:49 夜的独白 阅读(151) 评论(0) 推荐(0)

摘要:一、线性回归 1.定义 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线 阅读全文
posted @ 2021-06-30 13:45 夜的独白 阅读(1432) 评论(0) 推荐(0)

摘要:对于刚进入数据分析行业新手来说,EXCEL可以被当做一款入门的软件。在学习R或Python前,事先掌握一定的EXCEL知识是百利而无一害。EXCEL凭借其功能强大的函数、可视化图表、以及整齐排列的电子表格功能,使你能够快速而深入的洞察到数据不轻易为人所知的一面。 但与此同时,EXCEL也有它的一些不 阅读全文
posted @ 2021-06-30 13:36 夜的独白 阅读(489) 评论(0) 推荐(0)

摘要:项目来自阿里云天池 目录 提出问题(Business Understanding ) 理解数据(Data Understanding) 采集数据 导入数据 查看数据集信息 数据清洗(Data Preparation ) 缺失值处理 时间格式处理 体重数据的处理 虚拟变量 数据分析与数据可视化 构建模 阅读全文
posted @ 2021-06-30 13:25 夜的独白 阅读(422) 评论(0) 推荐(0)

摘要:![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9TcUdUNVI3b1hWVjRmUVljR1NBcWVYRFdyUnFhTGw3a2liaWE1TmpwRzI1bWF1eGlhaWFHWDZ1 阅读全文
posted @ 2021-06-30 13:21 夜的独白 阅读(1384) 评论(0) 推荐(0)

摘要:新冠疫情来临,我简单的做一次疫情的数据分析温习我的python知识,也希望能帮到各位。分析中我用到的技术有:pyton爬取数据html+css将分析结果排版。用到的工具有excel+tableau进行数据处理分析和绘图。数据分析中还是存在很多的不足,很多地方有待提高,希望大家多多交流。 首先,我们要 阅读全文
posted @ 2021-06-30 12:20 夜的独白 阅读(1107) 评论(0) 推荐(0)

摘要:从GEO数据库下载数据的方法 1、在GEO DATASETS中输入关键词,选择符合的GSE,在ftp中进行 手动下载 2、找到符合的GSE,在R中使用 GEOquery 包进行下载 GEO数据库的数据种类 1、Platforms 平台 包含有芯片的探针信息,如cDNAs,寡核苷酸,ORFs,抗体。 阅读全文
posted @ 2021-06-30 11:57 夜的独白 阅读(2042) 评论(0) 推荐(0)

摘要:您好,喜欢数据分析的初学者: 十年生死两茫茫 数据人,忙忙忙 良辰美景,平添我凄凉 一天早晚闲不住 调研急 报告狂 夜来思路忽闪现 寻笔记 怕遗忘 需求多变 改改又何妨 料得午夜加班时 听家人 鼾声响 以上是一位资深的数据分析师写的自嘲的段子,却是很多分析师的真实写照。在耀眼的职业光环下,数据分析师 阅读全文
posted @ 2021-06-30 11:55 夜的独白 阅读(79) 评论(0) 推荐(0)

摘要:数据库 说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。 后来有了newSQL、NoSQL(not o 阅读全文
posted @ 2021-06-30 11:50 夜的独白 阅读(102) 评论(0) 推荐(0)

摘要:销量下降的原因分析 利用结构化思维拆分销量。 对 “店铺销量构成” 进行拆解并分析不同类目的销量,进一步明确问题根源(哪几类商品销量下降最严重)。接下来我们针对每种品类去分析影响销量的因素有哪些,可能原因见图1。 ![在这里插入图片描述](https://imgconvert.csdnimg.cn/ 阅读全文
posted @ 2021-06-30 11:41 夜的独白 阅读(453) 评论(0) 推荐(0)

摘要:![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4uZ2Vla2RpZ2dpbmcuY29tL3B5dGhvbi9zcGlkZXItYmxvZy9QeXRob25fbG9nby5qcGc?x-oss- process=image/format,png) 阅读全文
posted @ 2021-06-30 11:23 夜的独白 阅读(248) 评论(0) 推荐(0)

摘要:![](https://img-blog.csdnimg.cn/20200205102749702.jpeg?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9nZWVrZGlnZ2lu 阅读全文
posted @ 2021-06-30 11:07 夜的独白 阅读(248) 评论(0) 推荐(0)

摘要:![](https://img-blog.csdnimg.cn/20200204093829892.jpeg?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9nZWVrZGlnZ2lu 阅读全文
posted @ 2021-06-30 10:38 夜的独白 阅读(114) 评论(0) 推荐(0)

摘要:【Matlab】 文章目录 A 数据统计分析 * A.a 求最大值与最小元素 A.b 求平均值和中值 A.c 求和与求积 A.d 累加和与累乘积 A.e 求标准差与相关系数 A.f 排序 B 多项式计算 * B.a 多项式的表示 B.b 多项式的四则运算 B.c 多项式的求导(polyder) B. 阅读全文
posted @ 2021-06-29 15:32 夜的独白 阅读(273) 评论(0) 推荐(0)

摘要:假设检验分为参数假设检验和分布拟合假设检验和非参数检验 一、假设检验的思想: 建立假设 选择检验统计量并给出拒绝域形式 选择显著性水平 给出拒绝域 做出判断 二、p 值:利用样本观测值能够作出拒绝原假设的最小显著性水平 三、参数假设检验类型:详见茆诗松 正态总体参数假设检验 指数参数假设检验,对指数 阅读全文
posted @ 2021-06-29 15:27 夜的独白 阅读(308) 评论(0) 推荐(0)

摘要:1、字符串组合 &可用于组合两个字符串 例如”a”&”b”可以得到ab,如果组合的字符串中含有双引号,可以加上转义符“ 阅读全文
posted @ 2021-06-29 15:19 夜的独白 阅读(269) 评论(0) 推荐(0)

摘要:1. 赛题背景 校园一卡通是集身份认证、金融消费、数据共享等多项功能于一体的信息集成系统。在为师生提供优质、高效信息化服务的同时,系统自身也积累了大量的历史记录,其中蕴含着学生的消费行为以及学校食堂等各部门的运行状况等信息。 很多高校基于校园一卡通系统进行“智慧校园”的相关建设,例如《扬子晚报》20 阅读全文
posted @ 2021-06-29 15:17 夜的独白 阅读(988) 评论(0) 推荐(0)

摘要:从今天开始看 《Python数据分析实战》 这本书,今天看了这本书的第三章:Numpy部分,在书中看到了numpy中的两个方法numpy.column_stack与numpy.row_stack有一点自己的思考,先上代码: >>> import numpy as np >>> a = np.arra 阅读全文
posted @ 2021-06-29 15:09 夜的独白 阅读(124) 评论(0) 推荐(0)

摘要:本文转自:http://blog.csdn.net/qq_27469517/article/details/53482563 整个第四章都是数据预处理。 4.1是数据清洗。就是处理无关数据,缺失或者异常数据等等。 具体看书,就不赘述了,还是上代码实践。 书上给的代码是有问题的! [python] v 阅读全文
posted @ 2021-06-29 15:07 夜的独白 阅读(242) 评论(0) 推荐(0)

摘要:本文是基于《Python数据分析与挖掘实战》的实战部分的第10章的数据——《家用电器用户行为分析与事件识别》 做的分析。 接着前一篇文章的内容,本篇博文重点是处理用水事件中的属性构造部分,然后进行构建模型分析。 1 属性构造 由文中可知:需要构造的属性如下: 热水事件起始数据编号、终止数据编号、开始 阅读全文
posted @ 2021-06-29 14:56 夜的独白 阅读(111) 评论(0) 推荐(0)

摘要:本文是基于《Python数据分析与挖掘实战》的实战部分的第12章的数据——《电子商务网站用户行为分析及服务推荐》做的分析。 由于此章内容很多,因此,分为三个部分进行分享——数据探索(上)、数据预处理(中)、模型构建(下) _ 本文是继前一篇文章,进行的工作。 本文是“ 数据预处理(中) ” 部分 _ 阅读全文
posted @ 2021-06-29 14:51 夜的独白 阅读(104) 评论(0) 推荐(0)

摘要:文章目录 1.挖掘背景与目标 2.2 数据探索与预处理 * 2.1 数据筛选 2.2 数据去重 2.3 删除前缀评分 2.4 jieba分词 3 基于LDA 模型的主题分析 4.权重 5.如何在主题空间比较两两文档之间的相似度 本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据— 阅读全文
posted @ 2021-06-29 14:27 夜的独白 阅读(724) 评论(0) 推荐(0)

摘要:第0周 Python基本语法元素 conda : 一个工具,用于包管理和环境管理,其中:包管理与pip类似,管理Python第三方库环境管理能够允许用户使用不同版本Python,并能灵活切换 anaconda :一个集合,包括conda、某版本Python、一批第三方库等 conda将工具、第三方库 阅读全文
posted @ 2021-06-29 14:23 夜的独白 阅读(122) 评论(0) 推荐(0)

摘要:写在前面的话: 实例中的所有数据都是在GitHub上下载的,打包下载即可。 地址是: [ http://github.com/pydata/pydata-book ](http://github.com/pydata/pydata- book) 还有一定要说明的: 我使用的是Python2.7,书中 阅读全文
posted @ 2021-06-29 14:22 夜的独白 阅读(92) 评论(0) 推荐(0)

摘要:学习《利用Python进行数据分析》第二章的时候,处理1880-2010年间全美婴儿姓名数据,有句代码总是报错: total_births=names.pivot_table('births',rows='year',cols='sex',aggfunc=sum) [/code] 报错信息如下: ` 阅读全文
posted @ 2021-06-29 13:57 夜的独白 阅读(107) 评论(0) 推荐(0)

摘要:由于刚开始接触python的数据分析,第二章引言和第三章IPython就先略读了下,对能做的事和开发环境有了个大致的认识,但针对其中提到的一些优势还有没体会,回头再重新看。今天直接学习python数据分析中重要的库之一: Numpy(numerical python) 看看它在pypi上的说明(理解 阅读全文
posted @ 2021-06-29 13:50 夜的独白 阅读(61) 评论(0) 推荐(0)

摘要:import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline [/code] //anaconda/lib/python2.7/site-packages/matplotlib/fo 阅读全文
posted @ 2021-06-29 13:23 夜的独白 阅读(99) 评论(0) 推荐(0)

摘要:WGS(Whole Genome Sequencing) 指将物种细胞里面完整的基因组序列全部DNA,检测并排列,此技术几乎能够鉴定出基因组上任何类型的突变。 对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性,当然也意味着更大的数据解读和更高的技术挑战。 测 阅读全文
posted @ 2021-06-29 11:59 夜的独白 阅读(1328) 评论(0) 推荐(0)

摘要:《数据分析实战》–用R做聚类分析 本文参考的是 《数据分析实战》 的第八章。 背景: 针对某公司的产品,现目前需要服务好已有的用户,针对不同的用户群体设计并推广不同的营销策略。 现状: 目标用户不明确。 预期: 明确目标用户群。 读取数据 读取Dau数据: > dau <- read.csv('da 阅读全文
posted @ 2021-06-29 11:54 夜的独白 阅读(248) 评论(0) 推荐(0)

摘要:【赋值栅格】工具:此处仅设置【忽略背景值】为黑边像元值,而不设置NoData值,避免所有指定像素将在输出栅格数据集中被设置为 NoData。 忽略背景值: 1、 使用此选项移除在栅格数据周围创建的不需要的值 。指定的值与栅格数据集中的其他有用数据不同。例如,栅格边界上为零的值不同于栅格数据集内的零值 阅读全文
posted @ 2021-06-29 11:42 夜的独白 阅读(356) 评论(0) 推荐(0)

摘要:因为自己准备的时候战战兢兢,所以希望给学弟学妹一些经验,希望大家都万事胜意o( ̄▽ ̄)ブ 不知道这算不算侵字节爸爸的权啊,是的话麻烦提醒一下,我就删了…… 一、准备 岗位描述: 1、负责分字节跳动旗下国内外产品及业务的数据分析工作; 2、分析各项影响产品提升与增长的因素、各项业务细节,结合业务方向, 阅读全文
posted @ 2021-06-29 11:16 夜的独白 阅读(208) 评论(0) 推荐(0)

摘要:文章目录 * 一、工具库简介 * 1、作用 2、安装 3、统计方法归纳 二、描述性统计分析 * 1、介绍 2、操作 三、直方图 * 1、介绍 2、操作 四、抽样分析 * 1、介绍 2、操作 五、相关分析 * 1、介绍 2、操作 六、回归分析 * 1、介绍 2、操作 * 1)简单线性回归 2)多重线性 阅读全文
posted @ 2021-06-29 11:14 夜的独白 阅读(366) 评论(0) 推荐(0)