摘要: @(电信用户流失分析与预测) 这是作者自己做的一个数据分析项目,闲暇时间陆陆续续耗时大约2周,通篇采用大量python源码编写,欢迎一起学习交流,提升自我。 我的CSDN地址:https://blog.csdn.net/weixin_46274061/article/details/10779060 阅读全文
posted @ 2020-08-05 17:24 吕二口 阅读(1766) 评论(0) 推荐(0) 编辑
摘要: 先来看一道题: 一行代码实现1+2+3+...+100。 方法一: sum(range(1,101)) 输出:5050 方法二: import numpy as np np.sum(np.arange(1,101)) #5050 再来看一道题: 一行代码实现由[1,2,3,4,5]生成[1,4,9, 阅读全文
posted @ 2020-07-06 10:47 吕二口 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 什么是监督学习?什么是无监督学习? 监督学习:有目标y值,如线性回归,分类算法 无监督学习:无目标y值,如聚类 逻辑回归是分类算法,不要被名字误导,得到的是离散值 引入逻辑回归 逻辑回归主要用于二分类 在线性回归中:Y=W1X1+W2X2+W3X3 +...+b=WT*X 在逻辑回归中,习惯用Z表示 阅读全文
posted @ 2020-06-16 23:53 吕二口 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 本博客主要来自作者对开课吧老师梁勇老师的学习笔记,想深入学习的同学就去开课吧报名吧。 1. 研究背景 AQI(空气质量指数),用来衡量空气清洁或者污染的程度。值越小,表示空气质量越好。近年来,因为环境问题,空气质量也越来越受到人们的重视。 2. 提出问题 哪些城市的空气质量较好? 空气质量在地理位置 阅读全文
posted @ 2020-06-16 16:15 吕二口 阅读(2061) 评论(1) 推荐(0) 编辑
摘要: 吐血整理 史诗巨作 耗时数日 修炼不易 笔记本写不下了 阅读全文
posted @ 2020-06-14 18:45 吕二口 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 在Hive中支持窗口函数,Mysql在8.0版本后也支持使用,用好之后犹如开挂! Window Function又称为窗口函数、分析函数。聚合函数可以将多行数据按照规定聚合为一行,一般来讲聚集后的行数要少于聚集前的行数。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时便引入了窗口函数。 阅读全文
posted @ 2020-06-13 01:05 吕二口 阅读(821) 评论(0) 推荐(0) 编辑
摘要: 第一次听说这几个词汇 认真查了下资料再加自己的理解整理如下: 全量表:1.无分区(也就相当于只1个分区),以下都以天来计算,表中的数据是前面一天的所有数据; 2.比如今天12号,全量表就有11号的所有数据; 3.是最新的一天数据,会覆盖10号的所有数据,无历史数据; 4.用途:所有报表 快照表:1. 阅读全文
posted @ 2020-06-12 17:54 吕二口 阅读(3044) 评论(0) 推荐(0) 编辑
摘要: 1.获取当前日期 如2020-13-22 current_date() 或者current_date 获取当前时间:from_unixtime(unix_timestamp()) -->返回格式:yyyy-MM-dd HH:mm:ss :current_timestamp() -->返回格式:yyy 阅读全文
posted @ 2020-06-12 15:58 吕二口 阅读(1738) 评论(0) 推荐(0) 编辑
摘要: 先看下如何创建数据表 create [external] table if not exists 表名 (列名数据类型 [comment 本列注释],...) [comment 表注释] [partitioned by (列名数据类型 [comment 本列注释],...)] [clustered 阅读全文
posted @ 2020-06-12 14:21 吕二口 阅读(936) 评论(0) 推荐(0) 编辑
摘要: 为什么要用索引? 一般的应用系统,读写比例在10:1左右,插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 索引是什么? 索引在MySQL中也叫做“键”,是存储引 阅读全文
posted @ 2020-06-09 23:43 吕二口 阅读(2507) 评论(0) 推荐(0) 编辑