02 2021 档案
摘要:目录 来自GNU的操作系统原生——Bash 我是一名大数据开发。 我看过很多人在用Python,也有很多人给我推荐了Python。 我已经做开发十余年。 我并不排斥任何一种语言。 只要它用得顺手。 ——我 用Scala写Spark 用Java写Flink 用SQL写业务分析、ETL 用C++写MFC
阅读全文
摘要:IDEA一直报错: 真的是要烦死了! 解决办法: 点击File > Settings 配置成以下即可。
阅读全文
摘要:如今的软件开发其实大都是面向数据的开发,近些年,我们看到了数不胜数的各种存储,眼花缭乱。MySQL、Redis、Kafka、HBase、MongoDB、ClickHouse、Elasticsearch、Druid等等,甚至在计算引擎中也会有存储的出现。不禁感叹,组件千变万化! 是否疲于学习各种技术组
阅读全文
摘要:说到图计算,很多人会觉得离自己很远。嗯,很多人大概的想法是这样的。 呃...我得把《离散数学》中的图论学一遍。 嗯...得学无向图、有向图、加权图、循环图、二部图、欧拉图、哈密顿图、平面图。 哈...最短路径、关键路径、DFS、BFS、生成树、PageRank、社群算法。 艹...我还是乖乖回去打王
阅读全文
摘要:几年前,包括最近,我看了各种书籍、教程、官网。但是真正能够把RDD、DataFrame、DataSet解释得清楚一点的、论据多一点少之又少,甚至有的人号称Spark专家,但在这一块根本说不清楚。还有国内的一些书籍,小猴真的想问一声:Are you OK?书名别再叫精通xxx技术了,请改名为 xxx技
阅读全文
摘要:操作系统要求 在安装CDH之前,我们来看看平台对系统有什么样的要求。通过官方文档,我们可以看到有5个方面的要求: 软件依赖 CDH和CM支持的依赖 文件系统要求 nproc配置 Kudu所要求的nscd 软件依赖 Python 操作系统带的Python是支持的(Hue和Spark会有一点问题),但P
阅读全文
摘要:为了方便用CentOS学习集群环境操作,本次我们基于vmware来快速搭建3台虚拟机规模的集群环境。 准备工作 下载vmware 大家可以下载vmware 15,自己找个激活码自己激活下。 下载centos 下载地址:http://mirrors.aliyun.com/centos/7.9.2009
阅读全文
摘要:Hadoop Beginner's Guide.pdf item description 封面 初版时间 2014-01-01 出版社 人民邮电出版社 作者 Garry Turkington 页数 310 Hadoop技术内幕:深入解析MapReduce架构设计与实现原理.pdf item desc
阅读全文
摘要:本篇要解决的问题: Flink是使用Java的序列化方式吗? Java序列化方式有什么问题? Java中是用Class描述类型,Flink也是用Class描述吗? 请解释以下Java类型擦除。 Flink中为什么使用Lambda表达式实现flatMap需要通过returns指定类型呢? new Ar
阅读全文
摘要:Flink官方文档 每一个学习Flink的同学,都应该熟悉官网提供的文档资源。Flink官网上拥有最全、最权威的学习资源,Flink对中国用户很友好,大部分资源都已经做了汉化。 https://ci.apache.org/projects/flink/flink-docs-release-1.12/
阅读全文
摘要:打包是一项神圣、而庄严的工作。package意味着我们离生产已经非常近了。它会把我们之前的大量工作浓缩成为一个、或者多个文件。接下来,运维的同学就可以拿着这些个打包文件在生产上纵横四海了。 这么一项庄严、神圣的工作,却没有受到多数人的关注,大家习惯去网上随意copy一段pom的xml代码,往自己项目
阅读全文
摘要:Hadoop 3.0 EC技术 EC的设计目标 Hadoop默认的3副本方案需要额外的200%的存储空间、和网络IO开销 而一些较低I/O的warn和cold数据,副本数据的访问是比较少的(hot数据副本会被用于计算) EC可以提供同级别的容错能力,存储空间要少得多(官方宣传不到50%),使用了EC
阅读全文

浙公网安备 33010602011771号