摘要:
修改app/builde.gradle.kts和gadle/libs.versions.toml如下即可引入依赖(以RecylceView)为例 我的Java版本是Java17,注意修改为自己的版本。 plugins { alias(libs.plugins.android.application) 阅读全文
posted @ 2025-07-30 14:11
rusthx
阅读(14)
评论(0)
推荐(0)
摘要:
Android studio每次新建项目都要下载gradle,挂了代理也老是下载失败。更换阿里的镜像源也一直报错。直到接触到了腾子的大手…… 修改图中的两个文件。/gradle/wrapper.gradle-wrapper.properties、settings.gradle.kts #Sat Ma 阅读全文
posted @ 2025-07-30 14:11
rusthx
阅读(500)
评论(0)
推荐(0)
摘要:
我出于自身需要,已经编译好了doriswriter和clickhousewriter,有相同需求的可以直接云盘下载。 https://wwsx.lanzouw.com/b00y9w9ovg 密码:byxl 前置准备工作:准备一个JDK8及以上,安装好maven。 拉取DataX源码 这里有两种方法, 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(92)
评论(0)
推荐(0)
摘要:
sqoop功能稳定后就没再更新了,最新版本就是1.4.7。而最新版的sqoop又分为支持Hadoop2的版本和纯净的版本。 我们需要把两个包都下下来,提取部分sqoop_hadoop2.6.0版本的jar包放到纯净版sqoop的lib目录下,在sqoop配置文件中加入获取当前环境中的hive及had 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(28)
评论(0)
推荐(0)
摘要:
usage: hive -d,--define <key=value> Variable substitution to apply to Hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(2)
评论(0)
推荐(0)
摘要:
点击新建项目,选择Java Maven项目 点击文件-设置->插件。搜索安装Scala插件 点击左上角文件,项目结构 点击全局库,点击+新建全局库,点击添加Scala SDK,可以在IDEA里下载,也可以自己在Scala官网手动下载后手动导入。 scala官网:https://www.scala-l 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(30)
评论(0)
推荐(0)
摘要:
分类 join有如下种类 (inner) join left (outer) join right (outer) join cross join :笛卡尔积,与inner join不指定on等效 straight_join :效果等同于inner join,只是指定左表为驱动表 full (out 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(25)
评论(0)
推荐(0)
摘要:
简介 广播变量允许程序员在每台机器上缓存只读变量,而不是随任务一起发送副本。 例如,它们可以用来以高效的方式为每个节点提供一个大型输入数据集的副本。 Spark 还尝试使用高效的广播算法分发广播变量,以降低通信成本。 广播变量是通过调用 broadcast 从变量 v 中创建的。 广播变量是 v 的 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(16)
评论(0)
推荐(0)
摘要:
简介 累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在 Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后, 传回 Driver 端进行 merge。 快速上手 数据如下,数据格式为学生姓 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(3)
评论(0)
推荐(0)
摘要:
学习源码所用的Spark的版本是Spark3.3.2_2.12(Scala2.12写的Spark3.3.2) 类别 Spark底层有五种join实现方式 前置介绍:HashJoin 参考资料:https://www.6aiq.com/article/1533984288407 先来看看这样一条SQL 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(12)
评论(0)
推荐(0)
摘要:
删除 删除未在他表出现的数据 下面有一条效率较差的删除语句,主要功能是将t1表中id未出现在t2表的记录删除。效率差的原因是in中用了子查询,导致删除语句不会走索引,从而导致锁全表,继而导致删除效率差。 delete from t1 where id not in ( select id from 阅读全文
posted @ 2025-07-30 14:10
rusthx
阅读(18)
评论(0)
推荐(0)
摘要:
作者由于水平问题,文中也许有一些错误遗漏的地方,欢迎联系指正(2024087171@qq.com) 简介 参考资料:https://blog.csdn.net/weixin_42868529/article/details/84622803 Shuffle 过程本质上都是将 Map 端获得的数据使用 阅读全文
posted @ 2025-07-30 14:09
rusthx
阅读(6)
评论(0)
推荐(0)
摘要:
参考资料:《SQL进阶》P106 (鹿书) 关系(表)结构 现有一张住宿表(stay_people)如下 guest(入住客人) start_date(入住时间) end_date(退房时间) 阿良良木历 2006-10-26 2006-10-27 阿良良木月火 2006-10-28 2006-10 阅读全文
posted @ 2025-07-30 14:09
rusthx
阅读(4)
评论(0)
推荐(0)
摘要:
前置条件 需要部署好Hadoop集群和zookeeper集群 上传软件包 下载hbase包,上传到虚拟机或者服务器中。放在适合的位置。我放在了/usr/local/下 下载链接:https://archive.apache.org/dist/hbase/2.6.2/hbase-2.6.2-bin.t 阅读全文
posted @ 2025-07-30 14:09
rusthx
阅读(16)
评论(0)
推荐(0)
摘要:
下载apache服务器 sudo apt-get update sudo apt-get install apache2 可以用apache2 -v查看版本 此时可以在浏览器中输入Ubuntu的ip地址访问apache服务器 修改默认网页。有两种方式,apache服务器的默认网页是/var/www/ 阅读全文
posted @ 2025-07-30 14:09
rusthx
阅读(123)
评论(0)
推荐(0)
摘要:
Kafka3依赖Zookeeper进行元数据管理,分为Scala2.12和Scala2.13编写的两个版本。 而Kafka4则移除了对Zookeeper的依赖,采用KRaft协议确保一致性。 同时需要注意的是Kafka3的运行时环境(JRE)是Java8,而Kafka4的运行时环境是Java17。 阅读全文
posted @ 2025-07-30 14:08
rusthx
阅读(49)
评论(0)
推荐(0)
摘要:
参考:尚硅谷Hadoop课程。 CSDN相关教程 在搭建Hadoop集群前需要先搭建好Ubuntu虚拟机,具体可参考下面的教程。 前置虚拟机搭建 本文搭建了三台虚拟机,其中hadoop1是主节点,主机名与ip对应关系如下。 如果你想抄我的配置,不想在部署的时候修改ip,你得先在vmvare里点击左上 阅读全文
posted @ 2025-07-30 14:08
rusthx
阅读(138)
评论(0)
推荐(0)
摘要:
主从复制可以用来做数据库的实时备份,保证数据的完整性;也可以做读写分离,提升数据库系统整体的读写性能。 主从复制原理 参考资料:https://xiaolincoding.com/mysql/log/how_update.html#主从复制是怎么实现 MySQL集群的主从复制过程梳理成3个阶段: 写 阅读全文
posted @ 2025-07-30 12:59
rusthx
阅读(10)
评论(0)
推荐(0)
摘要:
定义 数据库死锁是在多个事务执行过程中发生的一种状态,其中每个事务都在等待其他事务释放它们需要的资源,而这些资源又被其他事务占用。这种相互等待的情况导致事务无法继续执行,因为没有任何事务能够获取它们所需的全部资源来完成操作。 死锁死循环四要素 互斥条件:指进程对所分配到的资源进行排它性使用,即在一段 阅读全文
posted @ 2025-07-30 12:28
rusthx
阅读(1)
评论(0)
推荐(0)
摘要:
DataX介绍 DataX的Github介绍如下: DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、 阅读全文
posted @ 2025-07-30 12:26
rusthx
阅读(97)
评论(0)
推荐(0)
摘要:
问题 有一张交易流水表(transaction),主键为账号,每个账号有所属公司。有一张公司信息表(company_info),主键为公司id,表中有上级公司id。 需要得到每个公司的交易信息(资金流入流出余额),但是每个公司的数据都应该是该公司及下属公司的汇总。 但是数据库并不支持树形结构也不支持 阅读全文
posted @ 2025-07-30 12:12
rusthx
阅读(3)
评论(0)
推荐(0)
摘要:
参考资料:B站@左美美_ 相关视频 数据倾斜定义 任务进度长时间维持在99%,查看任务监异页面,发现只有少量1个或几个reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多,最长时长远大于平均时长。 数据倾斜产生 阅读全文
posted @ 2025-07-30 12:06
rusthx
阅读(65)
评论(0)
推荐(0)

浙公网安备 33010602011771号