摘要:作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。 矩阵A(m,n)与矩阵B(n,k)乘积C维度是多少? 抛一枚硬币,正面表示1,反面表示0,那么取值的数学期望E(x)是多少? 作为一个 阅读全文
posted @ 2021-02-10 23:53 小柯同学 阅读(1552) 评论(6) 推荐(5) 编辑
摘要:主要内容 发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。 时间就是一把尺子,它能衡量奋斗者前进 阅读全文
posted @ 2020-12-13 12:36 小柯同学 阅读(716) 评论(3) 推荐(6) 编辑
摘要:概论 HashMap 是无论在工作还是面试中都非常常见常考的数据结构。比如 Leetcode 第一题 Two Sum 的某种变种的最优解就是需要用到 HashMap 的,高频考题 LRU Cache 是需要用到 LinkedHashMap 的。HashMap 用起来很简单,所以今天我们来从源码的角度 阅读全文
posted @ 2020-11-28 16:24 小柯同学 阅读(625) 评论(5) 推荐(9) 编辑
摘要:有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+ 阅读全文
posted @ 2021-06-16 22:27 小柯同学 阅读(108) 评论(0) 推荐(0) 编辑
摘要:本文首发于:Java大数据与数据仓库,Flink实时计算pv、uv的几种方法 实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用Flink实时计算pv,uv。 我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求. 每秒 阅读全文
posted @ 2021-06-10 23:07 小柯同学 阅读(190) 评论(0) 推荐(0) 编辑
摘要:数据迁移使用场景 冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与 阅读全文
posted @ 2021-06-09 23:32 小柯同学 阅读(150) 评论(0) 推荐(1) 编辑
摘要:当你看到这篇文章的时候,表明你已经有docker的基础知识了,或者可以看上一篇文章 Docker 入门教程。 传统的使用wordpress搭建网站,意味着你需要搭建以下四个环境: php; apache / nginx; mysql; wordpress; 这里面主要是php的搭建真心麻烦,各种依赖 阅读全文
posted @ 2021-05-30 12:07 小柯同学 阅读(62) 评论(0) 推荐(0) 编辑
摘要:Centos安装docker需要操作系统是 CentOS 7 or 8,必须启用centos extras存储库。默认情况下,此存储库处于启用状态,但如果已禁用它,则需要重新启用它。 卸载旧版本 老版本的docker被称作docker 或者 docker-engine,如果有老版本的docker,把 阅读全文
posted @ 2021-05-28 23:07 小柯同学 阅读(271) 评论(1) 推荐(0) 编辑
摘要:经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数 阅读全文
posted @ 2021-05-25 21:55 小柯同学 阅读(122) 评论(0) 推荐(1) 编辑
摘要:一、前言 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入 阅读全文
posted @ 2021-04-20 22:23 小柯同学 阅读(225) 评论(0) 推荐(1) 编辑
摘要:窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。 阅读全文
posted @ 2021-04-01 23:23 小柯同学 阅读(341) 评论(0) 推荐(1) 编辑
摘要:TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。 1. 用到的知识点 Flink创建kafka数据源; 基于 EventTime 处理,如何指定 Watermark; Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口; State状态的使用; P 阅读全文
posted @ 2021-03-11 21:54 小柯同学 阅读(336) 评论(0) 推荐(0) 编辑
摘要:作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。 矩阵A(m,n)与矩阵B(n,k)乘积C维度是多少? 抛一枚硬币,正面表示1,反面表示0,那么取值的数学期望E(x)是多少? 作为一个 阅读全文
posted @ 2021-02-10 23:53 小柯同学 阅读(1552) 评论(6) 推荐(5) 编辑