摘要: 我的博客 作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。 矩阵A(m,n)与矩阵B(n,k)乘积C维度是多少? 抛一枚硬币,正面表示1,反面表示0,那么取值的数学期望E(x)是多少? 阅读全文
posted @ 2021-02-10 23:53 大数据技术派 阅读(1967) 评论(6) 推荐(5) 编辑
摘要: 主要内容 发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。 时间就是一把尺子,它能衡量奋斗者前进 阅读全文
posted @ 2020-12-13 12:36 大数据技术派 阅读(959) 评论(3) 推荐(6) 编辑
摘要: 概论 HashMap 是无论在工作还是面试中都非常常见常考的数据结构。比如 Leetcode 第一题 Two Sum 的某种变种的最优解就是需要用到 HashMap 的,高频考题 LRU Cache 是需要用到 LinkedHashMap 的。HashMap 用起来很简单,所以今天我们来从源码的角度 阅读全文
posted @ 2020-11-28 16:24 大数据技术派 阅读(682) 评论(5) 推荐(9) 编辑
摘要: 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 (3) 阅读全文
posted @ 2021-10-16 13:41 大数据技术派 阅读(66) 评论(0) 推荐(1) 编辑
摘要: 1、 HDFS 中的 block 默认保存几份? 默认保存3份 2、HDFS 默认 BlockSize 是多大? 默认64MB 3、负责HDFS数据存储的是哪一部分? DataNode负责数据存储 4、SecondaryNameNode的目的是什么? 他的目的使帮助NameNode合并编辑日志,减少 阅读全文
posted @ 2021-10-13 12:53 大数据技术派 阅读(9) 评论(0) 推荐(1) 编辑
摘要: 1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的, 阅读全文
posted @ 2021-10-13 12:44 大数据技术派 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 提问: mysql的字段,unsigned int(3), 和unsinged int(6), 能存储的数值范围是否相同。如果不同,分别是多大? 回答: 不同,int(3)最多显示3位无符号整体,int(6)最多显示6位无符号数。 如果你的答案和上面的一致,恭喜你和我犯了一样的错误。 真实情况: i 阅读全文
posted @ 2021-10-10 18:34 大数据技术派 阅读(54) 评论(2) 推荐(0) 编辑
摘要: 因为前面Hbase2集群出现过一次故障,当时花了一个周末才修好,就去了解整理了一些hbase故障的,事故现场可以看前面写的一篇:Hbase集群挂掉的一次惊险经历 一. HBCK一致性 一致性是指Region在meta中的meta表信息、在线Regionserver的Region信息和hdfs的Reg 阅读全文
posted @ 2021-10-08 22:54 大数据技术派 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 假设docker已经安装好了,如果没有安装,可以照着 5分钟安装docker教程 安装一下。 一. 下载镜像 默认下载最新版本,如果想指定对应版本,可以用冒号后加版本,像这样mysql:5.7: docker pull mysql:5.7 docker pull wordpress docker p 阅读全文
posted @ 2021-10-02 17:01 大数据技术派 阅读(255) 评论(2) 推荐(1) 编辑
摘要: 最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。 我去hdfs目录查看了一下该目录: 发现确实有很多小文件,有480个小文件,我觉得我找到了 阅读全文
posted @ 2021-09-20 14:02 大数据技术派 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 行存储与列存储 当今的数据处理大致可分为两大类,联机事务处理 OLTP(on-line transaction processing)联机分析处理 OLAP(On-Line Analytical Processing)=,OLTP 是传统关系型数据库的主要应用来执行一些基本的、日常的事务处理比如数据 阅读全文
posted @ 2021-09-19 19:54 大数据技术派 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。 阅读全文
posted @ 2021-07-23 14:13 大数据技术派 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+ 阅读全文
posted @ 2021-06-16 22:27 大数据技术派 阅读(230) 评论(0) 推荐(0) 编辑