博客园 - 孙晨c
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=132173
2021-07-14T07:23:54Z
孙晨c
https://www.cnblogs.com/sunbr/
feed.cnblogs.com
https://www.cnblogs.com/sunbr/p/15011090.html
如何使用DBeaver连接hive - 孙晨c
@ 1. 新建一个对hive的连接 2. 填写主机地址和登录信息 3. 最重要的一步,配置驱动 4. 点击进来后,会发现这里有一个默认的驱动,把它删掉 5. 使用hive自带的驱动,去到hive的安装目录下,有一个jdbc目录 使用sz命令把这个jar包下载到本地(rz命令是上传文件) sz hiv
2021-07-14T07:23:00Z
2021-07-14T07:23:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 1. 新建一个对hive的连接 2. 填写主机地址和登录信息 3. 最重要的一步,配置驱动 4. 点击进来后,会发现这里有一个默认的驱动,把它删掉 5. 使用hive自带的驱动,去到hive的安装目录下,有一个jdbc目录 使用sz命令把这个jar包下载到本地(rz命令是上传文件) sz hiv <a href="https://www.cnblogs.com/sunbr/p/15011090.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14860364.html
Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo - 孙晨c
问题 在yarn集群上提交一个spark-submit的任务,最后抛出一个异常 解决 原因: 因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-s
2021-06-07T12:09:00Z
2021-06-07T12:09:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】问题 在yarn集群上提交一个spark-submit的任务,最后抛出一个异常 解决 原因: 因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-s <a href="https://www.cnblogs.com/sunbr/p/14860364.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14591908.html
Spark中普通集合与RDD算子的zip()拉链有什么区别 - 孙晨c
集合中的zip: 如果两个集合的元素个数不相等,那么会将同等数量的数据进行拉链,多余的数据省略不用 RDD算子的zip: 该操作可以将两个RDD中的元素,以键值对的形式进行合并。其中,键值对中的Key为第1个RDD中的元素,vaue为第2个RDD中的元素。 不同于集合中的zip()方法,将两个RDD
2021-03-29T05:12:00Z
2021-03-29T05:12:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】集合中的zip: 如果两个集合的元素个数不相等,那么会将同等数量的数据进行拉链,多余的数据省略不用 RDD算子的zip: 该操作可以将两个RDD中的元素,以键值对的形式进行合并。其中,键值对中的Key为第1个RDD中的元素,vaue为第2个RDD中的元素。 不同于集合中的zip()方法,将两个RDD <a href="https://www.cnblogs.com/sunbr/p/14591908.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14591845.html
Spark中普通集合与RDD算子的sortBy()有什么区别 - 孙晨c
分别观察一下集合与算子的sortBy()的参数列表 普通集合的sortBy() RDD算子的sortBy() 结论:普通集合的sortBy就没有false参数,也就是说只能默认的升序排。 如果需要对普通集合中的元素需要升序排怎么办? 如图所示,我这调用的sortby()是List集合的方法了,不是算
2021-03-29T04:33:00Z
2021-03-29T04:33:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】分别观察一下集合与算子的sortBy()的参数列表 普通集合的sortBy() RDD算子的sortBy() 结论:普通集合的sortBy就没有false参数,也就是说只能默认的升序排。 如果需要对普通集合中的元素需要升序排怎么办? 如图所示,我这调用的sortby()是List集合的方法了,不是算 <a href="https://www.cnblogs.com/sunbr/p/14591845.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14524871.html
如何使用python把json文件转换为csv文件 - 孙晨c
@ 了解json整体格式 这里有一段json格式的文件,存着全球陆地和海洋的每年异常气温(这里只选了一部分):global_temperature.json { "description": { "title": "Global Land and Ocean Temperature Anomalie
2021-03-12T08:44:00Z
2021-03-12T08:44:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 了解json整体格式 这里有一段json格式的文件,存着全球陆地和海洋的每年异常气温(这里只选了一部分):global_temperature.json { "description": { "title": "Global Land and Ocean Temperature Anomalie <a href="https://www.cnblogs.com/sunbr/p/14524871.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14444709.html
scala:分别使用懒汉式和饿汉式实现单例模式 - 孙晨c
在java中,单例模式需要满足以下要求: 构造方法私有化,使得本类之外的地方不能使用构造方法new出对象 提供私有静态属性,接收单例对象 公共的、静态的getInstance方法,便于外界拿到单例对象 想了解Java单例模式的请转到:Java单例模式-懒汉式、恶汉式、静态内部类、枚举以及线程安全问题
2021-02-24T17:04:00Z
2021-02-24T17:04:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】在java中,单例模式需要满足以下要求: 构造方法私有化,使得本类之外的地方不能使用构造方法new出对象 提供私有静态属性,接收单例对象 公共的、静态的getInstance方法,便于外界拿到单例对象 想了解Java单例模式的请转到:Java单例模式-懒汉式、恶汉式、静态内部类、枚举以及线程安全问题 <a href="https://www.cnblogs.com/sunbr/p/14444709.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14444570.html
java创建对象的五种方式 - 孙晨c
new 反射:使用Class类的forName()方法得到指定类对象,然后使用类对象的newInstance()方法创建对象 克隆:实现Cloneable接口,需要已经有一个分配了内存的对象,使用这个已经创建的对象克隆新对象 反序列化:实现Serializable接口,将一个对象序列化到磁盘上,采用
2021-02-24T15:59:00Z
2021-02-24T15:59:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】new 反射:使用Class类的forName()方法得到指定类对象,然后使用类对象的newInstance()方法创建对象 克隆:实现Cloneable接口,需要已经有一个分配了内存的对象,使用这个已经创建的对象克隆新对象 反序列化:实现Serializable接口,将一个对象序列化到磁盘上,采用 <a href="https://www.cnblogs.com/sunbr/p/14444570.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14441396.html
scala:主构造方法和辅助构造方法 - 孙晨c
@ 构造器(构造方法) 作用: 构造对象 初始化属性(给对象的属性赋值) Java中构造器 方法名和类名保持一致 构造方法没有返回值类型 构造方法可以重载 Scala中构造器 主构造方法 在声明类的同时,就定义了主构造方法,换言之,类就是主构造方法 在一个类中,主构造方法只能有一个 辅助构造方法 方
2021-02-24T06:45:00Z
2021-02-24T06:45:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 构造器(构造方法) 作用: 构造对象 初始化属性(给对象的属性赋值) Java中构造器 方法名和类名保持一致 构造方法没有返回值类型 构造方法可以重载 Scala中构造器 主构造方法 在声明类的同时,就定义了主构造方法,换言之,类就是主构造方法 在一个类中,主构造方法只能有一个 辅助构造方法 方 <a href="https://www.cnblogs.com/sunbr/p/14441396.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14440709.html
java和scala的访问权限修饰符及其异同点 - 孙晨c
Java -private 只能在当前类中被访问 -default(默认) 当前类以及同包的其他类 -protected 当前类以及同包的其他类以及非同包的子类 -public 所有类 Scala -在scala中,类、方法、属性默认就是public修饰,但是没有public关键字 -private
2021-02-24T04:43:00Z
2021-02-24T04:43:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】Java -private 只能在当前类中被访问 -default(默认) 当前类以及同包的其他类 -protected 当前类以及同包的其他类以及非同包的子类 -public 所有类 Scala -在scala中,类、方法、属性默认就是public修饰,但是没有public关键字 -private <a href="https://www.cnblogs.com/sunbr/p/14440709.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14431715.html
scala:把函数作为值或参数进行传递、作为返回值进行返回,以及什么是闭包和柯里化 - 孙晨c
@ 函数可以作为值进行传递 语法var f = 函数名 _ 如果明确了变量的数据类型,那么下划线可以省略 //函数正常的声明与调用 def foo():Int={ println("foo...") 10 } //将foo函数的执行结果赋值给res变量 //val res: Int = foo()
2021-02-22T09:43:00Z
2021-02-22T09:43:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 函数可以作为值进行传递 语法var f = 函数名 _ 如果明确了变量的数据类型,那么下划线可以省略 //函数正常的声明与调用 def foo():Int={ println("foo...") 10 } //将foo函数的执行结果赋值给res变量 //val res: Int = foo() <a href="https://www.cnblogs.com/sunbr/p/14431715.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14427772.html
scala:函数至简原则、函数简化过程 - 孙晨c
1.return可以省略,Scala会使用函数体的最后一行代码作为返回值 2.如果函数体只有一行代码,可以省略花括号 3.返回值类型如果能够推断出来,那么可以省略(:和返回值类型一起省略) 4.如果有return,则不能省略返回值类型,必须指定 5.如果函数明确声明unit,那么即使函数体中使用re
2021-02-21T15:06:00Z
2021-02-21T15:06:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】1.return可以省略,Scala会使用函数体的最后一行代码作为返回值 2.如果函数体只有一行代码,可以省略花括号 3.返回值类型如果能够推断出来,那么可以省略(:和返回值类型一起省略) 4.如果有return,则不能省略返回值类型,必须指定 5.如果函数明确声明unit,那么即使函数体中使用re <a href="https://www.cnblogs.com/sunbr/p/14427772.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14423962.html
使用hql-统计连续登陆的三天及以上的用户 - 孙晨c
@ 这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期…… 数据提供 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user01,2018-03-04 user01,2018-
2021-02-20T16:20:00Z
2021-02-20T16:20:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期…… 数据提供 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user01,2018-03-04 user01,2018- <a href="https://www.cnblogs.com/sunbr/p/14423962.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14405763.html
azkaban群起/群停脚本 - 孙晨c
群起包括: 第一步启动exec 此时这列的值为0,下一步激活后变成1 第二步激活exec 第三步打开web页面 脚本代码(注意修改自己的主机名和安装路径) #!/bin/bash start-web(){ for i in hadoop102; do ssh $i "cd /opt/module/a
2021-02-15T15:19:00Z
2021-02-15T15:19:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】群起包括: 第一步启动exec 此时这列的值为0,下一步激活后变成1 第二步激活exec 第三步打开web页面 脚本代码(注意修改自己的主机名和安装路径) #!/bin/bash start-web(){ for i in hadoop102; do ssh $i "cd /opt/module/a <a href="https://www.cnblogs.com/sunbr/p/14405763.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14374029.html
Hive读取索引文件问题:select * 和select count(*)读取出来的行数不一致 - 孙晨c
两种方式,分别查询数据有多少行: hive (gmall)> select * from ods_log; Time taken: 0.706 seconds, Fetched: 2955 row(s) hive (gmall)> select count(*) from ods_log; 2959
2021-02-04T09:41:00Z
2021-02-04T09:41:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】两种方式,分别查询数据有多少行: hive (gmall)> select * from ods_log; Time taken: 0.706 seconds, Fetched: 2955 row(s) hive (gmall)> select count(*) from ods_log; 2959 <a href="https://www.cnblogs.com/sunbr/p/14374029.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14347780.html
scala/java等其他语言从CSV文件中读取数据,使用逗号','分割可能会出现的问题 - 孙晨c
众所周知,csv文件默认以逗号“,”分割数据,那么在scala命令行里查询的数据: 可以看见,字段里就包含了逗号“,”,那接下来切割的时候,这本应该作为一个整体的字段会以逗号“,”为界限进行切割为多个字段。 现在来看看这里的_c0字段一共有多少行记录。 记住这个数字:60351行 写scala代码读
2021-01-29T16:43:00Z
2021-01-29T16:43:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】众所周知,csv文件默认以逗号“,”分割数据,那么在scala命令行里查询的数据: 可以看见,字段里就包含了逗号“,”,那接下来切割的时候,这本应该作为一个整体的字段会以逗号“,”为界限进行切割为多个字段。 现在来看看这里的_c0字段一共有多少行记录。 记住这个数字:60351行 写scala代码读 <a href="https://www.cnblogs.com/sunbr/p/14347780.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14340820.html
hadoop3.1.3版本的secondaryNamenode的web界面不能显示的问题? - 孙晨c
@ 发现问题 在浏览器输入secondaryNamenode的网址后不能显示,解决: 先按F12,然后选择console,就能看见报错信息了: 解决问题 找到根源 那就通过find命令找到这个dfs-dust.js文件: 根治问题 vim编辑器进入后,在命令模式输入 :se nu 设置行号,找到61
2021-01-28T09:00:00Z
2021-01-28T09:00:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 发现问题 在浏览器输入secondaryNamenode的网址后不能显示,解决: 先按F12,然后选择console,就能看见报错信息了: 解决问题 找到根源 那就通过find命令找到这个dfs-dust.js文件: 根治问题 vim编辑器进入后,在命令模式输入 :se nu 设置行号,找到61 <a href="https://www.cnblogs.com/sunbr/p/14340820.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14339845.html
启动kafka消费报错:WARN [Consumer clientId…] 1 partitions have leader brokers without a matching listener,… - 孙晨c
别看其他文章了,你就是防火墙没关!不信试试看你的防火墙状态是不是running? firewall-cmd --state 再送上关闭防火墙的命令: systemctl stop firewalld 防火墙开机自启动: systemctl enable firewalld.service
2021-01-28T06:57:00Z
2021-01-28T06:57:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】别看其他文章了,你就是防火墙没关!不信试试看你的防火墙状态是不是running? firewall-cmd --state 再送上关闭防火墙的命令: systemctl stop firewalld 防火墙开机自启动: systemctl enable firewalld.service <a href="https://www.cnblogs.com/sunbr/p/14339845.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14336224.html
centos6和centos7的防火墙命令,以及它们的区别是是什么? - 孙晨c
@ 一、 Centos6和Centos7 防火墙命令的区别 Centos6自带的防火墙工具是iptables Centos7自带的防火墙工具是firewall iptables 用于过滤数据包,属于网络层防火墙。 firewall 能够允许哪些服务可用,哪些端口可用,属于更高一层的防火墙。 ipta
2021-01-27T09:58:00Z
2021-01-27T09:58:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ 一、 Centos6和Centos7 防火墙命令的区别 Centos6自带的防火墙工具是iptables Centos7自带的防火墙工具是firewall iptables 用于过滤数据包,属于网络层防火墙。 firewall 能够允许哪些服务可用,哪些端口可用,属于更高一层的防火墙。 ipta <a href="https://www.cnblogs.com/sunbr/p/14336224.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14334718.html
kafka项目经验之如何进行Kafka压力测试、如何计算Kafka分区数、如何确定Kaftka集群机器数量 - 孙晨c
@ Kafka压测 用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈==(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。 == 使用下面两个kafka自带的脚本 kafka-consumer-perf-test.sh kafka-producer
2021-01-27T06:09:00Z
2021-01-27T06:09:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】@ Kafka压测 用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈==(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。 == 使用下面两个kafka自带的脚本 kafka-consumer-perf-test.sh kafka-producer <a href="https://www.cnblogs.com/sunbr/p/14334718.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/sunbr/p/14328243.html
/dev/null--Linux系统黑洞,解决控制台的刷屏问题 - 孙晨c
通常控制台在执行某个jar包时,屏幕会刷个不停,直到程序执行完毕,类似这种: 那么就可以编写一个脚本,把输出的内容全部扔进“黑洞”。此脚本模拟在hadoop102和hadoop103两台主机上循环执行jar文件: #!/bin/bash for i in hadoop102 hadoop103 do
2021-01-25T16:40:00Z
2021-01-25T16:40:00Z
孙晨c
https://www.cnblogs.com/sunbr/
【摘要】通常控制台在执行某个jar包时,屏幕会刷个不停,直到程序执行完毕,类似这种: 那么就可以编写一个脚本,把输出的内容全部扔进“黑洞”。此脚本模拟在hadoop102和hadoop103两台主机上循环执行jar文件: #!/bin/bash for i in hadoop102 hadoop103 do <a href="https://www.cnblogs.com/sunbr/p/14328243.html" target="_blank">阅读全文</a>