会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cac2020
博客园
首页
新随笔
管理
上一页
1
···
15
16
17
18
19
20
21
22
23
···
41
下一页
2019年7月3日
【电商日志项目之四】数据清洗-ETL
摘要: 环境 hadoop-2.6.5 首先要知道为什么要做数据清洗?通过各个渠道收集到的数据并不能直接用于下一步的分析,所以需要对这些数据进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证等处理操作,转换成可用的数据。具体要做的工作可以参考文章:数据清洗的一些梳理 当了解ETL之后,有
阅读全文
posted @ 2019-07-03 09:10 cac2020
阅读(1345)
评论(0)
推荐(0)
2019年7月2日
【Sqoop学习之二】Sqoop使用
摘要: 环境 sqoop-1.4.6 一、基本命令1、帮助命令 查看某个命令的帮助,比如导入 [root@node101 ~]# sqoop help import Warning: /usr/local/sqoop-1.4.6/../hbase does not exist! HBase imports
阅读全文
posted @ 2019-07-02 10:35 cac2020
阅读(525)
评论(0)
推荐(0)
2019年7月1日
【Sqoop学习之一】Sqoop简介
摘要: 环境 sqoop-1.4.6 Sqoop:将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具。 两个版本:两个版本完全不兼容,sqoop1使用最多:sqoop1:1.4.xsqoop2:1.99.x 同类产品:DataX 阿里顶级数据交换工具 一、架
阅读全文
posted @ 2019-07-01 15:46 cac2020
阅读(790)
评论(0)
推荐(0)
2019年6月28日
【Flume学习之二】Flume 使用场景
摘要: 环境 apache-flume-1.6.0 一、多agent连接 1、node101配置 option2 2、node102配置 option1 3、启动顺序先启动node102-flume,后启动node101-flume,看一下flume启动顺序就知道,要先创建sink,然后创建channel,
阅读全文
posted @ 2019-06-28 16:50 cac2020
阅读(648)
评论(1)
推荐(0)
【Flume学习之一】Flume简介
摘要: 环境 apache-flume-1.6.0 Flume是分布式日志收集系统。可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase;同类工具:Facebook Scribe,Apache chukwa,淘宝Time Tunnel 应用场景图 一、Flume核心组件1、Event: 一个
阅读全文
posted @ 2019-06-28 09:43 cac2020
阅读(703)
评论(0)
推荐(0)
2019年6月27日
【电商日志项目之三】数据收集二
摘要: 环境 tengine-2.1.0 Tengine是由淘宝网发起的Web服务器项目。它在Nginx的基础上,针对大访问量网站的需求,添加了很多高级功能和特性。Tengine的性能和稳定性已经在大型的网站如淘宝网,天猫商城等得到了很好的检验。它的最终目标是打造一个高效、稳定、安全、易用的Web平台。 一
阅读全文
posted @ 2019-06-27 16:23 cac2020
阅读(344)
评论(0)
推荐(0)
2019年6月1日
【电商日志项目之二】数据收集一
摘要: 环境 js java 一、埋点分析,是网站分析的一种常用的数据采集方法。数据埋点是一种良好的私有化部署数据采集方式。 二、页面数据收集事件的分析和设计1、针对不同分析模块,需要不同的数据,来设计页面事件:(1)用户基本信息就是用户的浏览行为信息分析,只需要pageview事件就可以了;(2)浏览器信
阅读全文
posted @ 2019-06-01 15:15 cac2020
阅读(921)
评论(0)
推荐(0)
2019年5月31日
【电商日志项目之一】项目介绍
摘要: 通过收集电商网站用户购物操作日志记录,依据这些日志,分用户基本信息分析模块、浏览器信息分析模块、地域信息分析模块、用户浏览深度分析模块、外链数据分析模块、订单分析模块以及事件分析模块七个维度来进行分析,然后通过报表图表等形式展示出来。 1、概念:(1)用户/访客:表示同一个浏览器代表的用户。唯一标示
阅读全文
posted @ 2019-05-31 16:57 cac2020
阅读(786)
评论(0)
推荐(0)
2019年5月23日
【机器学习算法】逻辑回归调优
摘要: 环境 spark-1.6 python3.5 一、有无截距对于逻辑回归分类,就是找到z那条直线,不通过原点有截距的直线与通过原点的直线相比,有截距更能将数据分类的彻底。 二、线性不可分问题对于线性不可分问题,可以使用升高维度的方式转换成线性可分问题。低维空间的非线性问题在高维空间往往会成为线性问题。
阅读全文
posted @ 2019-05-23 10:26 cac2020
阅读(4220)
评论(0)
推荐(0)
2019年5月18日
【机器学习算法】逻辑回归
摘要: 环境 spark-1.6 python3.5 一、逻辑回归逻辑回归又叫logistic回归分析,是一种广义的线性回归分析模型。线性回归要求因变量必须是连续性的数据变量,逻辑回归要求因变量必须是分类变量,可以是二分类或者多分类(多分类都可以归结到二分类问题),逻辑回归的输出是0~1之间的概率。比如要分
阅读全文
posted @ 2019-05-18 17:01 cac2020
阅读(1003)
评论(0)
推荐(0)
上一页
1
···
15
16
17
18
19
20
21
22
23
···
41
下一页
公告