随笔档案「2021年2月」 - 斜杠代码日记

竟然还用Notepad写Shell！！！当GNU Bash遇见VSCode

摘要：目录来自GNU的操作系统原生——Bash 我是一名大数据开发。我看过很多人在用Python，也有很多人给我推荐了Python。我已经做开发十余年。我并不排斥任何一种语言。只要它用得顺手。 ——我用Scala写Spark 用Java写Flink 用SQL写业务分析、ETL 用C++写MFC 阅读全文

posted @ 2021-02-27 23:33 斜杠代码日记阅读(336) 评论(0) 推荐(0)

解决：IDEA不停报错Untrusted Server's Certificate

摘要：IDEA一直报错：真的是要烦死了！解决办法：点击File > Settings 配置成以下即可。阅读全文

posted @ 2021-02-27 00:36 斜杠代码日记阅读(823) 评论(0) 推荐(0)

ClickHouse/TiDB/HBase/.../你学得完吗?其实每个开发应该都应该去理解这些

摘要：如今的软件开发其实大都是面向数据的开发，近些年，我们看到了数不胜数的各种存储，眼花缭乱。MySQL、Redis、Kafka、HBase、MongoDB、ClickHouse、Elasticsearch、Druid等等，甚至在计算引擎中也会有存储的出现。不禁感叹，组件千变万化！是否疲于学习各种技术组阅读全文

posted @ 2021-02-25 15:18 斜杠代码日记阅读(2195) 评论(0) 推荐(1)

只会MySQL中间表多对多？不懂这个哪来的勇气做架构？

摘要：说到图计算，很多人会觉得离自己很远。嗯，很多人大概的想法是这样的。呃...我得把《离散数学》中的图论学一遍。嗯...得学无向图、有向图、加权图、循环图、二部图、欧拉图、哈密顿图、平面图。哈...最短路径、关键路径、DFS、BFS、生成树、PageRank、社群算法。艹...我还是乖乖回去打王阅读全文

posted @ 2021-02-21 16:13 斜杠代码日记阅读(888) 评论(0) 推荐(0)

别再人云亦云了！！！你真的搞懂了RDD、DF、DS的区别吗？

摘要：几年前，包括最近，我看了各种书籍、教程、官网。但是真正能够把RDD、DataFrame、DataSet解释得清楚一点的、论据多一点少之又少，甚至有的人号称Spark专家，但在这一块根本说不清楚。还有国内的一些书籍，小猴真的想问一声：Are you OK？书名别再叫精通xxx技术了，请改名为 xxx技阅读全文

posted @ 2021-02-21 16:09 斜杠代码日记阅读(8435) 评论(2) 推荐(1)

安装CM 6.3.1和CDH 6.3.2

摘要：操作系统要求在安装CDH之前，我们来看看平台对系统有什么样的要求。通过官方文档，我们可以看到有5个方面的要求：软件依赖 CDH和CM支持的依赖文件系统要求 nproc配置 Kudu所要求的nscd 软件依赖 Python 操作系统带的Python是支持的（Hue和Spark会有一点问题），但P 阅读全文

posted @ 2021-02-19 09:20 斜杠代码日记阅读(972) 评论(0) 推荐(0)

基于vmware安装CentOS 7.9以及集群环境配置

摘要：为了方便用CentOS学习集群环境操作，本次我们基于vmware来快速搭建3台虚拟机规模的集群环境。准备工作下载vmware 大家可以下载vmware 15，自己找个激活码自己激活下。下载centos 下载地址：http://mirrors.aliyun.com/centos/7.9.2009 阅读全文

posted @ 2021-02-18 00:43 斜杠代码日记阅读(330) 评论(0) 推荐(0)

分享一些Hadoop的学习资源

摘要：Hadoop Beginner's Guide.pdf item description 封面初版时间 2014-01-01 出版社人民邮电出版社作者 Garry Turkington 页数 310 Hadoop技术内幕：深入解析MapReduce架构设计与实现原理.pdf item desc 阅读全文

posted @ 2021-02-17 16:10 斜杠代码日记阅读(192) 评论(0) 推荐(0)

5分钟快速掌握Flink类型与序列化

摘要：本篇要解决的问题： Flink是使用Java的序列化方式吗？ Java序列化方式有什么问题？ Java中是用Class描述类型，Flink也是用Class描述吗？请解释以下Java类型擦除。 Flink中为什么使用Lambda表达式实现flatMap需要通过returns指定类型呢？ new Ar 阅读全文

posted @ 2021-02-17 02:30 斜杠代码日记阅读(1025) 评论(0) 推荐(0)

想要自学Flink，看这些资源就足够了

摘要：Flink官方文档每一个学习Flink的同学，都应该熟悉官网提供的文档资源。Flink官网上拥有最全、最权威的学习资源，Flink对中国用户很友好，大部分资源都已经做了汉化。 https://ci.apache.org/projects/flink/flink-docs-release-1.12/ 阅读全文

posted @ 2021-02-17 02:17 斜杠代码日记阅读(844) 评论(0) 推荐(0)

恕我直言！！！对于Maven，菜鸟玩dependency，神仙玩plugin

摘要：打包是一项神圣、而庄严的工作。package意味着我们离生产已经非常近了。它会把我们之前的大量工作浓缩成为一个、或者多个文件。接下来，运维的同学就可以拿着这些个打包文件在生产上纵横四海了。这么一项庄严、神圣的工作，却没有受到多数人的关注，大家习惯去网上随意copy一段pom的xml代码，往自己项目阅读全文

posted @ 2021-02-16 17:35 斜杠代码日记阅读(3109) 评论(3) 推荐(8)

Hadoop 3.0 EC技术

摘要：Hadoop 3.0 EC技术 EC的设计目标 Hadoop默认的3副本方案需要额外的200%的存储空间、和网络IO开销而一些较低I/O的warn和cold数据，副本数据的访问是比较少的（hot数据副本会被用于计算） EC可以提供同级别的容错能力，存储空间要少得多（官方宣传不到50%），使用了EC 阅读全文

posted @ 2021-02-16 17:21 斜杠代码日记阅读(4599) 评论(0) 推荐(0)

斜杠代码日记

是的！我就是那只笨鸟！

02 2021 档案

公告