摘要:最近在看《Pentaho Kettle 解决方案》,看到 ETL子系统,发现信息量比较大,用简短的语句做一下笔记。 ETL子系统有34种子系统,被分成4个部分:抽取、清洗和更正、发布、管理。 一、抽取 子系统1:数据剖析系统 指从不同源系统中搜集数据的统计信息或其他相关信息的过程,目的是分析不同数据 阅读全文
posted @ 2019-08-26 10:55 Max_Lyu 阅读 (37) 评论 (0) 编辑
摘要:一、斐波那契数列 斐波那契数列是这样的一组数列:1、1、2、3、5、8、13、21、34、……在数学上,斐波纳契数列以如下被以递推的方法定义:F(1)=1,F(2)=1, F(n)=F(n-1)+F(n-2)(n>=3,n∈N*)即大于2的部分是由前两个相加获得。 若要求第 N 个数的值,我们可以用 阅读全文
posted @ 2019-08-06 21:15 Max_Lyu 阅读 (63) 评论 (1) 编辑
摘要:这些天在实习,公司要做数据分析,要先建立数据仓库。但是经常有人问我做什么,我回答数据仓库都不是特别明白是什么东西,我也不知道应该怎么更好的表述。因此我决定通过这篇文章好好解释一下什么是数据仓库。 按照官方解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业 阅读全文
posted @ 2019-07-29 21:42 Max_Lyu 阅读 (108) 评论 (0) 编辑
摘要:先理解一下正类(Positive)和负类(Negetive),比如现在要预测用户是否点击了某个广告链接,点击了才是我们要的结果,这时,点击了则表示为正类,没点击则表示为负类。 TP(True Positive):被预测成了正类的正类,即正确预测的正类 FP(False Positive):被预测成了 阅读全文
posted @ 2019-06-21 20:32 Max_Lyu 阅读 (117) 评论 (0) 编辑
摘要:一、itchat itchat是一个开源的微信个人号接口,这一次就用它来来玩玩。 在使用之前,先下载,老规矩通过 pip install itchat 即可安装。 想要获取朋友圈信息,只需要几行代码就可以获取。为减少登录次数,将获取到的信息保存到 json 文件中即可。 二、读取文件获取信息 我们只 阅读全文
posted @ 2019-06-14 15:03 Max_Lyu 阅读 (446) 评论 (3) 编辑
摘要:上次已经讲了怎么下载数据,这次就不说废话了,直接开始。首先导入相应的模块,然后检视一下数据情况。对数据有一个大致的了解之后,开始进行下一步操作。 一、分析数据 1、Survived 的情况 2、Pclass 和 Survived 之间的关系 3、Embarked 和 Survived 之间的关系 二 阅读全文
posted @ 2019-05-31 18:58 Max_Lyu 阅读 (112) 评论 (0) 编辑
摘要:今天看了个新闻,说是中国社会科学院城市发展与环境研究所及社会科学文献出版社共同发布《房地产蓝皮书:中国房地产发展报告No.16(2019)》指出房价上涨7.6%,看得我都坐不住了,这房价上涨什么时候是个头啊。为了让自己以后租得起房,我还是好好努力吧。于是我打开了Kaggle,准备上手第一道题,正巧发 阅读全文
posted @ 2019-05-25 20:13 Max_Lyu 阅读 (478) 评论 (0) 编辑
摘要:概述 聚类属于机器学习的无监督学习,在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。它跟分类的最主要区别就在于有没有“标签”。比如说我们有一组数据,数据对应着每个“标签”,我们通过这些数据与标签之间的相关性,预测出某些数据属于哪些“标签”,这属于分类 阅读全文
posted @ 2019-05-22 17:42 Max_Lyu 阅读 (140) 评论 (0) 编辑
摘要:前阵子报名参加了一个数据比赛,题目是预测5月15号(星期三)招商银行的股价,截止时间是在5月12号(星期天)。在本次预测中,我用到的是岭回归。 一、岭回归 线性回归 先回顾一下普通线性回归。一般来说,线性回归方程:y=w1x1+w2x2...+wnxn。我们把这组变量 xn 定成一个矩阵 X,把回归 阅读全文
posted @ 2019-05-14 17:36 Max_Lyu 阅读 (601) 评论 (3) 编辑
摘要:前两篇博客分别对拉勾中关于 python 数据分析有关的信息进行获取(https://www.cnblogs.com/lyuzt/p/10636501.html)和对获取的数据进行可视化分析(https://www.cnblogs.com/lyuzt/p/10643941.html),这次我们就用  阅读全文
posted @ 2019-04-20 15:25 Max_Lyu 阅读 (1037) 评论 (0) 编辑