03 2020 档案
摘要:前言 建造者模式也是常用的设计模式,Lombok的@Builder就是一个典型的应用。 google guava cache创建cache就只能通过builder方式 建造者模式 建造者模式有四个角色: 1product 2抽象builder 3实现builder 4 director 建造者模式是
阅读全文
摘要:前言 最近看代码看到了缓存,缓存有各种各样的实现,基于自定义map,基于工具的。 Guava cache是google开源的,api学习很简单。 我直接贴下常用的api代码 代码
阅读全文
摘要:前言 Spark读取和保存文件格式是非常多的,json,csv,haoop SequenceFile ,hbase等等。本文就是简单的spark读取文件 spark 读写csv 使用opencsv jar包读取,先在maven配置。 读取方式因逐行读取、以单个文件为key读取整个文件,代码实现略有不
阅读全文
摘要:前言 我自己家里用无线网络,设置了桥接网卡,到部门就访问不了虚机了。 因此需要设置一张新的桥接网卡,电脑在公司连接的是有线,设置桥接网卡犯了一个错误,两种网卡都是无线网络,导致无法连接。 virtualbox设置两种桥接网络 查看当前的的本地网络设置 网卡一设置 网卡二设置 虚拟机设置ip 到虚拟机
阅读全文
摘要:前言 自己经常使用redhat 或者 centos,但是工作还是接触到ubuntu。因此就准备装一个虚拟机跑docker容器,遇到麻烦的问题就ip地址固化,并设置dns。 dns最后使用netplan工具设置的,dns设置不好识别不了各种域名,下载软件不得行。 下载的版本是ubuntu server
阅读全文
摘要:Spark RDD 分区 Spark RDD分区是并行计算的一个计算单元,RDD在逻辑上被分为多个分区,分区的格式决定了并行计算的粒度,任务的个数是是由最后一个RDD的 的分区数决定的。 Spark自带两中分区:HashPartitioner RangerPartitioner。一般而言初始数据是没
阅读全文
摘要:spark pair转化操作 sparik pair rdd是一种键值对数据,常见的转化函数如下图 以单词统计 使用mapToPair方法,返回二元组 使用reduceKey方法归纳统计相同的健,把值相加,统计 调用默认的rdd sortByKey函数将所有的字符排序 例子源码 结果输出
阅读全文
摘要:spark rdd的转化方法 rdd作为抽象分布式数据集,有常见的转化函数,比如map,flatmap,collect map和flatMap方法区别 flatmap返回的是扁平化的数值,返回的更多。 map返回的T数目跟原来是一样的,对原来的数据做了处理仍然封装了在一起 collect返回 col
阅读全文
摘要:下载程序包并配置 1.http://archive.apache.org/dist/hadoop/core/hadoop 3.0.0/ 2.解压 3.新建系统变量HADOOP_HOME Path增加%HADOOP_HOME%\bin 5.下载 "winUtils" 对应版本的bin,加压并覆盖HAD
阅读全文
摘要:前言 本来想参考这篇博文 "IDEA的terminal设置成Linux的终端一样" ,最终配置成功了。win10装成了ubuntu, 但是进去之后发现提示装jdk之类,我一想算了,这么烦,我还是配置成PowerShell吧,反正我也懂点shell和bat。 idea terminal配置PowerS
阅读全文

浙公网安备 33010602011771号