随笔分类 -  数据分析/数据挖掘

摘要:最近同事聊起所谓面向对象,这里使用Python实现一个搜索引擎的小功能,来作为对面向对象的理解。相关概念网上很多,这里不再多复述,先从代码走起,再代入概念。 代码功能:根目录下有1.txt 2.txt 3.txt 三个文件,实现输入文件名,返回是否有该文件及该文件的文件大小 代码要实现的功能很简单, 阅读全文
posted @ 2021-01-29 19:38 Rango_lhl 阅读(194) 评论(0) 推荐(0)
摘要:搭建宽表作用,就是为了让业务部门的数据分析人员,在日常工作可以直接提取所需指标,快速做出对应专题的数据分析。在实际工作中,数据量及数据源繁多,如果每个数据分析人员都从计算加工到出报告,除了工作效率巨慢也会导致服务器资源紧张。因此建设数据集市层,包含了该宽表层并在非工作时间做自动生成。 本文引用CDN 阅读全文
posted @ 2021-01-14 11:29 Rango_lhl 阅读(475) 评论(0) 推荐(0)
摘要:目前就职公司数据流转原先流程如上一篇提及:https://www.cnblogs.com/rango-lhl/p/12662473.html 到后期每天同步数据有15G左右,由于生产的机子性能差,导致同步巨慢,影响了平台日常使用,因此做了优化。 ps:公司初期业务为主,数据量也较少,因此机器投入相对 阅读全文
posted @ 2020-08-21 17:58 Rango_lhl 阅读(217) 评论(0) 推荐(0)
摘要:1、数据加工pyecharts图实现: 数据源:本地CSV文件 ps:由于是跟生产环境做交互,生产环境指标由HSQL加工,使用存储过程挂后台定时运行,后使用python实现导出及定时分发,本地python接收获取附件解压 2、上传文件至服务器 本地pycharm跑通后,把项目对应文件上传至服务器目录 阅读全文
posted @ 2020-08-10 15:22 Rango_lhl 阅读(2209) 评论(0) 推荐(0)
摘要:对现有数据体系整理优化的探索。 目前现有体系为生产数据库为ORACLE,分析平台数据库为基于HADOOP平台开发,两个平台并行运行。 基于业务要求,生产ORACLE按一定期限会删除数据,而分析平台则保存历史所有但是会做了脱敏处理,只满足分析使用,目前架构整理如下: 阅读全文
posted @ 2020-04-08 20:17 Rango_lhl 阅读(407) 评论(0) 推荐(1)
摘要:基于Oracle; 题:编写一个 SQL 查询,查找所有至少连续出现三次的数字。 例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。 题目不难也不复杂,思路比较有趣,故写文解释一下,写代码往往有一些取巧的方式,由于SQL毕竟只是数据库语言,不能跟其他语言比功能性,所以有时需要用一些 阅读全文
posted @ 2019-02-12 19:59 Rango_lhl 阅读(4012) 评论(0) 推荐(0)
摘要:原文链接:https://blog.csdn.net/Just_youHG/article/details/83904618 背景 《Python数据分析与挖掘实战》 案例2–航空公司客户价值分析在该案例中的雷达图缺少相应的代码,查看相关文档之后,实现的代码如下。 数据用于作图的数据对象名为data 阅读全文
posted @ 2018-12-19 16:08 Rango_lhl 阅读(10434) 评论(0) 推荐(0)
摘要:数据集下载地址:https://github.com/Rango-2017/Pandas_exercises 1 - 开始了解你的数据 探索Chipotle快餐数据 -- 将数据集存入一个名为chipo的数据框内-- 查看前10行内容-- 数据集中有多少个列(columns)?-- 打印出全部的列名 阅读全文
posted @ 2018-10-04 22:57 Rango_lhl 阅读(8090) 评论(0) 推荐(3)
摘要:参考Kernels里面评论较高的一篇文章,整理作者解决整个问题的过程,梳理该篇是用以了解到整个完整的建模过程,如何思考问题,处理问题,过程中又为何下那样或者这样的结论等! 最后得分并不是特别高,只是到34%,更多是整理一个解决问题的思路,另外前面三个大步骤根据思维导图看即可,代码跟文字等从第四个步骤 阅读全文
posted @ 2018-09-24 14:23 Rango_lhl 阅读(16327) 评论(5) 推荐(1)