04 2019 档案

摘要:一、分布式文件系统(HDFS)与linux系统文件系统关系 HDFS基于操作系统的文件系统; 假设有一个1G的大文件,在linux文件系统上就是一个文件,由1G/512b的block组成;在HDFS上需要1024MB/64MB=16块,即16个linux文件组成,所以相当于一个普通1G的文件分成了1 阅读全文

posted @ 2019-04-28 11:55 深圳私塾 阅读(128) 评论(0) 推荐(0)

摘要:又搞事了,发生了啥事呢;生产分区数暴了,What? 目前的情况: 前提:单Region Server分区上限设置为1000; 目前A表的数据量半年达到25E,20G一分区,达到了900多个分区,这是要搞事情呀,咋办: 查了下原因:这个表居然没有开启压缩,这是。。。 果断在大晚上对表进行变更:开启Sn 阅读全文

posted @ 2019-04-18 17:48 深圳私塾 阅读(161) 评论(0) 推荐(0)

摘要:rpc是远端过程调用,其调用协议通常包含传输协议和序列化协议。 传输协议包含: 如著名的 [gRPC](grpc / grpc.io) 使用的 http2 协议,也有如dubbo一类的自定义报文的tcp协议。 序列化协议包含: 如基于文本编码的 xml json,也有二进制编码的 protobuf 阅读全文

posted @ 2019-04-09 11:15 深圳私塾 阅读(113) 评论(0) 推荐(0)

摘要:SciKit learn的简称是SKlearn,是一个python库,专门用于机器学习的模块。 SKlearn包含的机器学习方式: 分类,回归,无监督,数据降维,数据预处理等等,包含了常见的大部分机器学习方法。 SKlearn给出了如何选择正确的方法: 官网清晰图:(太棒了~~~) 图表对于什么样的 阅读全文

posted @ 2019-04-03 11:55 深圳私塾 阅读(165) 评论(0) 推荐(0)

导航