会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Volcano!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
20
下一页
2020年7月25日
大数据:日志采集
摘要: 一、概述 数据采集渠道:主要采集 Web 端和 App 端日志数据; 数据加工分层理念:操作数据层(Operational Data Store ,ODS)、明细数据层(Data Warehouse Detail,DWD)、汇总数据层(Data Warehouse Summary,DWS)、应用数据
阅读全文
posted @ 2020-07-25 16:19 何永灿
阅读(2497)
评论(0)
推荐(0)
2019年9月2日
Hadoop:HDFS 读写数据流程及优缺点
摘要: 一、HDFS 写数据流程 写的过程: CLIENT(客户端):用来发起读写请求,并拆分文件成多个 Block; NAMENODE:全局的协调和把控所有的请求,提供 Block 存放在 DataNode 上的地址; DATANODE:负责数据的存储,可以有很多个; 客户端想 NameNode 发出请求
阅读全文
posted @ 2019-09-02 15:04 何永灿
阅读(1308)
评论(0)
推荐(0)
Hadoop:JDK安装、HDFS伪分布式环境搭建、HDFS 的shell操作
摘要: 所有的内容都来源与 Hadoop 官方文档 一、Hadoop 伪分布式安装步骤 1)JDK安装 解压:tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app 添加到系统环境变量: ~/.bash_profile export JAVA_HOME=/home/hado
阅读全文
posted @ 2019-09-02 11:21 何永灿
阅读(481)
评论(0)
推荐(0)
Hadoop:HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略
摘要: 一、HDFS 的设计思路 1)思路 切分数据,并进行多副本存储; 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题 缺点 不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处理,节点可能成为网络瓶颈,很难进行大数据的处理; 存储负载很难均衡,每个节点的利用率很低; 二、HD
阅读全文
posted @ 2019-09-02 09:03 何永灿
阅读(2348)
评论(0)
推荐(0)
2019年9月1日
Hadoop:简介
摘要: 一、简介 定义:开源的,做分布式存储与分布式计算的平台; 功能:搭建大型数据仓库,对PB级数据进行存储、处理、分析、统计等业务;(如日志分析、数据挖掘) Hadoop工作模块 Common:提供框架和工具,对其它Hadoop模块的支持; Distributed File System(HDFS:分布
阅读全文
posted @ 2019-09-01 21:41 何永灿
阅读(637)
评论(0)
推荐(0)
2019年7月4日
环境搭建:Jupyter Notebook 密码设置
摘要: 原文参考:关于jupyter notebook密码设置 原文博主:01010101 一、windows下,打开命令行,重新生成一个jupyter配置文件 jupyter notebook --generate-config 二、修个配置文件 找到这个新生成的文件:Windows: C:\Users\
阅读全文
posted @ 2019-07-04 09:40 何永灿
阅读(2368)
评论(1)
推荐(0)
2019年7月3日
环境搭建:添加 xgboost 到 Anaconda
摘要: 原文参考:https://blog.csdn.net/lvsehaiyang1993/article/details/80619495 原文博主:Big_quant
阅读全文
posted @ 2019-07-03 11:54 何永灿
阅读(392)
评论(0)
推荐(0)
数据科学:pd.DataFrame.drop()
摘要: 一、功能 删除集合中的整行或整列; 二、格式 df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise') 二、例 1)例一 删除行 删除列 2)例二 midx =
阅读全文
posted @ 2019-07-03 08:08 何永灿
阅读(11090)
评论(0)
推荐(0)
2019年6月27日
Python:基础复习
摘要: 一、数据类型 对象的三大特征:值、身份、类型; 1)数字 Number 整型、浮点型 进制 布尔类型 复数 compler:数字后缀 j (如 10j); 2)序列 字符串 str 单引号与双引号 三引号 # 关于专业字符 “\n” 的识别; 转义字符 原始字符串 字符串运算 列表 list 元组
阅读全文
posted @ 2019-06-27 22:49 何永灿
阅读(692)
评论(0)
推荐(0)
2019年3月6日
数据挖掘:(一)数据获取
摘要: 数据分析:利用统计分析方法,从数据中提取有用的信息,并进行总结和概括的过程。 Python 的胶水特性:Python 可以粘合其它语言代码段。 一、数据获取手段 1)数据仓库 将所有业务数据汇总处理,构成数据仓库(DW); 特点: 2)监测与抓取 监测:利用设备和算法直接获取数据;(如传感器、网络等
阅读全文
posted @ 2019-03-06 21:06 何永灿
阅读(1815)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
20
下一页
公告