会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
数·大·招·疯
-- 技术原创、优秀文章转载
首页
联系
订阅
管理
[置顶]
HBase中MemStore的刷写触发机制
摘要: 触发MemStore刷写的机制大概分为:人为手动触发、HBase定时触发、HLog数量限制触发,其他事件触发(Compact、Split、Truncate等)、内存限制触发。其中内存限制触发细分为:MemStore级别限制触发、Region级别限制触发、RegionServer级别限制触发。
阅读全文
posted @ 2021-01-26 21:15 数大招疯-公众号同名
阅读(260)
评论(0)
推荐(0)
2023年9月20日
Docker Desktop 界面功能介绍,添加国内镜像源
摘要: 默认情况下,Docker Desktop会从Docker Hub下载镜像,但在国内由于网络的原因,下载速度可能较慢,配置国内镜像源可以提速镜像下载。在Docker Desktop中配置镜像源非常简单,点击1、2后,在3处粘贴如下内容,重启生效。
阅读全文
posted @ 2023-09-20 23:18 数大招疯-公众号同名
阅读(3585)
评论(0)
推荐(0)
2023年9月19日
个人电脑(windows、mac)安装Docker Desktop
摘要: 在学习大数据、人工智能等技术时,常常需要安装相应软件来支持我们的学习和实践。然而,很多这样的软件更适合在 Linux 环境下进行部署和运行。通过在个人电脑安装Docker Desktop可以解决该类问题,在个人电脑上轻松地搭建软件环境,以支持我们的技术学习和实践。 什么是 Docker? Docke
阅读全文
posted @ 2023-09-19 22:30 数大招疯-公众号同名
阅读(384)
评论(0)
推荐(0)
2022年10月17日
利用杰卡德系数计算文本相似度
摘要: 利用杰卡德系数计算文本相似度发布于2022-06-01 08:26:33阅读 21401. 杰卡德相似系数两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。Jaccard相似指数用来度量两个集合之间的相似性。2. 杰卡德距离 与杰卡德相似系
阅读全文
posted @ 2022-10-17 10:58 数大招疯-公众号同名
阅读(354)
评论(0)
推荐(0)
局部敏感哈希(Locality Sensitive Hashing)和MinHash介绍与实例
摘要: 在实际应用中,我们所面对的数据是海量的,并且有着很高的维度。在对数据的各种操作中,查询操作是最常见的一种,这里的查询是指输入一个数据,查找与其相似的数据,那么怎样快速地从海量高维数据中,找到与某个数据最相似的数据,成为了一个难点和问题。 低维的小数据集,可通过线性查找来解决,但如果是对一个海量的高维
阅读全文
posted @ 2022-10-17 10:48 数大招疯-公众号同名
阅读(767)
评论(0)
推荐(0)
2022年8月4日
mvn clean package “Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes”
摘要: [ERROR] Failed to execute goal org.apache.maven.plugins:maven-assembly-plugin:2.2-beta-5:single (make-assembly) on project biz-spark: Execution make-a
阅读全文
posted @ 2022-08-04 15:40 数大招疯-公众号同名
阅读(223)
评论(0)
推荐(0)
2022年5月12日
Maven依赖使用本地仓库
摘要: 1、发布jar到本地maven仓库 mvn install:install-file -DgroupId=org.shims -DartifactId=shims -Dversion=0.9.27.01 -Dpackaging=jar -Dfile=shims/build/libs/shims-0.
阅读全文
posted @ 2022-05-12 11:00 数大招疯-公众号同名
阅读(261)
评论(0)
推荐(0)
2022年5月9日
Mac 安装Gradle教程
摘要: brew update && brew install gradle 2.gradle -version 过程可能会需要一段时间,执行结束后,可以使用 gradle -version 查看是否更新成功。
阅读全文
posted @ 2022-05-09 16:15 数大招疯-公众号同名
阅读(58)
评论(0)
推荐(0)
2022年4月26日
mac thrift 安装
摘要: thrift 依赖 bison,所以需要先安装bison bison安装 1、bison下载链接:http://www.gnu.org/software/bison/ 可以浏览器下载,也可以执行命令下载:wget http://ftp.gnu.org/gnu/bison/bison-3.2.tar.
阅读全文
posted @ 2022-04-26 16:24 数大招疯-公众号同名
阅读(610)
评论(0)
推荐(0)
2022年2月24日
cpc、hyperloglog原理简述
摘要: cpc原理简述: cpc、hyperloglog等是使用概率思想实现“去重计数”的方法,该类方法不直接存储数据集合本身,而是通过一定的概率统计方法预估数据集中不重复元素的个数,这种方法可以大大节省内存,同时保证误差控制在一定范围内。 1、基本概率思想 伯努利试验:一次实验只有两种结果,比如抛硬币结果
阅读全文
posted @ 2022-02-24 14:19 数大招疯-公众号同名
阅读(435)
评论(0)
推荐(0)
2022年2月7日
spark 异常:ClassCastException: Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
摘要: 最近在执行Hive insert/select语句的过程碰到下面这种类型的异常: 异常1: Caused by: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.h
阅读全文
posted @ 2022-02-07 15:02 数大招疯-公众号同名
阅读(2121)
评论(0)
推荐(0)
2021年10月28日
深入分析Spark UDF的性能
摘要: 这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。 Spark提供了多种解决方案来应对复杂挑战, 但是我们面临了很多场景, 原生的函数不足以解决问题。因此,Spark允许我们注册自定义函数(Use
阅读全文
posted @ 2021-10-28 10:21 数大招疯-公众号同名
阅读(562)
评论(0)
推荐(0)
2021年8月6日
Linux CPU个数、CPU核心数、CPU线程数
摘要: CPU个数即CPU芯片个数 CPU的核心数是指物理上,也就是硬件上存在着几个核心。比如,双核就是包括2个相对独立的CPU核心单元组,四核就包含4个相对独立的CPU核心单元组。 线程数是一种逻辑的概念,简单地说,就是模拟出的CPU核心数。 比如,可以通过一个CPU核心数模拟出2线程的CPU,也就是说,
阅读全文
posted @ 2021-08-06 15:14 数大招疯-公众号同名
阅读(814)
评论(0)
推荐(0)
Linux性能监控(CPU监控)
摘要: Linux性能监控(CPU监控) 主要分为四类: cup监控 内存监控命令 IO性能 网络性能 cup监控 关于CPU,有3个重要的概念:上下文切换(context switchs),运行队列(Run queue)和使用率(utilization)。 上下文切换: 目前流行的CPU在同一时间内只能运
阅读全文
posted @ 2021-08-06 15:11 数大招疯-公众号同名
阅读(586)
评论(0)
推荐(0)
2021年2月19日
02 Hive支持的数据类型( Data Type)
摘要: Hive支持简单、复杂两大类数据类型, 简单类型 Hive 简单数据类型 Java 数据类型 长度 例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整数 20 INT int 4byte 有符号整数 20 BIGINT long 8byte
阅读全文
posted @ 2021-02-19 20:07 数大招疯-公众号同名
阅读(690)
评论(0)
推荐(0)
2021年2月9日
04 线程、线程的实现及多线程模型
摘要: 线程 60年代,在操作系统中能拥有资源和独立运行的基本单位是进程,然而随着计算机技术的发展,进程出现了很多弊端,一是由于进程是资源拥有者,创建、撤消与切换存在较大的时空开销;二是由于对称多处理机(SMP)出现,可以满足多个运行单位,而多个进程并行开销过大。因此在80年代,出现了线程(Threads)
阅读全文
posted @ 2021-02-09 20:51 数大招疯-公众号同名
阅读(176)
评论(0)
推荐(0)
2021年2月8日
03 进程通信
摘要: 什么是进程通信 进程通信是指在进程间传输数据(交换信息)。进程是分配系统资源的单位(包括内存地址空间),因此各进程拥有的内存地址空间相互独立,而且为了保证安全,一个进程不能直接访问另外一个进程的地址空间。进程通信分为三种方式:共享内存模式、消息传递模式、共享文件模式。 共享内存 进程通信采用共享内存
阅读全文
posted @ 2021-02-08 20:53 数大招疯-公众号同名
阅读(152)
评论(0)
推荐(0)
02 进程控制和原语
摘要: 什么是进程控制? 进程控制的主要功能是对系统中的所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能。简化理解:进程控制就是实现进程状态转换 什么是原语 原语是在操作系统中调用核心层子程序的指令。与一般广义指令的区别在于它是不可中断的,而且总是作为一个基本单位出现。它与一般
阅读全文
posted @ 2021-02-08 20:35 数大招疯-公众号同名
阅读(1088)
评论(0)
推荐(0)
01 进程的组成与状态
摘要: 什么是进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述,进程是程序的
阅读全文
posted @ 2021-02-08 20:34 数大招疯-公众号同名
阅读(474)
评论(0)
推荐(0)
2021年2月6日
01 Hive简介、架构、及安装部署模式
摘要: 简介 Hive是一个数据仓库基础工具,提供sql查询,并可以将sql语句转换为MapReduce、Tez、Spark等任务,用来处理Hadoop HDFS中的数据,使得查询和分析更加方便。除此外,Hive还讲HDFS上的数据转换为了有行和列的二维表,并提供了统一的元数据管理功能。 架构 如上所述,H
阅读全文
posted @ 2021-02-06 22:07 数大招疯-公众号同名
阅读(653)
评论(0)
推荐(0)
2021年2月2日
SQL JOIN 的常见用法-MySQL、Hive、Spark、Presto
摘要: 无论是关系型数据库,还是SQL on Hadoop类的大数据技术组件,都有SQL JOIN功能,join大致分为内连接(inner join)、左外连接(left outer join)、右外连接(right outer join)、全外连接(full outer join)。 笛卡尔积 要理解各种
阅读全文
posted @ 2021-02-02 21:14 数大招疯-公众号同名
阅读(652)
评论(1)
推荐(0)
下一页
公告