会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
江东邮差
——时间是宝贵的
博客园
首页
新随笔
联系
订阅
管理
[置顶]
文章目录
摘要: 分类文章目录 大数据文章目录、Java/Scala文章目录、数据结构&算法题集(收藏目录)、代码设计文章目录 文档网站 网址收集整理(收藏论坛博客主页) 优秀博客 【 大数据 】金竹的博客、kafka教程 【 Java 】Java技术驿站 、loveincode、how2j、纯洁的微笑 【数据结构&
阅读全文
posted @ 2018-06-09 01:51 江东邮差
阅读(228)
评论(0)
推荐(0)
[置顶]
读过的书
摘要: 记录自己读的书,方便总结进步:)
阅读全文
posted @ 2014-11-11 21:53 江东邮差
阅读(143)
评论(0)
推荐(0)
2024年1月16日
苏宁OLAP架构设计
摘要: 一. 功能综述 OLAP引擎为存储和计算二合一的引擎,自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部,外部系统不允许直接操作底层数据,而是需要通过暴露出来的接口来读写引擎内部数据。 目前整体来说OLAP功能由两部分组成:数据管理,查询引擎。 1.1 数据管理 引擎中数据核心概
阅读全文
posted @ 2024-01-16 23:52 江东邮差
阅读(88)
评论(0)
推荐(0)
2023年6月17日
selenium headless报错Message: unknown error: failed to wait for extension background page to load
摘要: selenium进行打开chrome浏览器操作时报错。 完整报错: selenium.common.exceptions.WebDriverException: Message: unknown error: failed to wait for extension background page
阅读全文
posted @ 2023-06-17 13:51 江东邮差
阅读(94)
评论(0)
推荐(0)
2023年3月20日
mac系统免费支持ntfs读写
摘要: 1、安装homebrew,以下选择一种即可 使用ruby安装 /usr/bin/ruby -e "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/homebrew-install/install)" bash环境安装 /bin/bash -c "$(cu
阅读全文
posted @ 2023-03-20 21:31 江东邮差
阅读(283)
评论(0)
推荐(0)
2023年2月27日
Spark DataSource 源码解析
摘要: SparkSession.read() 创建DataFrameReader对象,进行数据读取任务。 DataFrameReader format schema option json、csv、text… 通过format函数设置格式,并调用load函数加载数据。 load 调用DataSource.
阅读全文
posted @ 2023-02-27 16:50 江东邮差
阅读(392)
评论(0)
推荐(0)
Spark DataSource API 分析
摘要: 1.么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力,它可以方便地把不同的数据格式通过DataSource API注册成Spark的表,然后通过Spark SQL直
阅读全文
posted @ 2023-02-27 15:45 江东邮差
阅读(174)
评论(0)
推荐(0)
2022年10月7日
车辆机械相关
摘要: 一、发动机 文章·作为发动机中技术含量最高的零件,你对活塞环知道多少 视频·发动机原理系列 二、变速箱(传动系统) 视频·传动系统系列 视频·手动变速器原理
阅读全文
posted @ 2022-10-07 15:42 江东邮差
阅读(28)
评论(0)
推荐(0)
作为发动机中技术含量最高的零部件,你对活塞环知多少
摘要: 活塞环是汽车发动机曲柄连杆机构活塞连杆组中的一个零部件,它分气环和油环两种,一般每个气缸中有两道气环、一道油环,个别发动机有三道气环、一道油环。 气环与油环的功用 气环的主要功用是密封和传热:密封是指保证活塞与气缸壁之间的良好密封,防止气缸内的可燃混合气和高温燃气漏入曲轴箱,保证进入发动机中的可燃混
阅读全文
posted @ 2022-10-07 15:31 江东邮差
阅读(316)
评论(0)
推荐(0)
2022年9月1日
[转]Spark SQL repartition 为啥生成的文件变大了?
摘要: 1.问题 原表数据1400MB左右; spark sql查询后对dataframe使用reparation,再写入结果表; 结果表有12个800多MB的parquet文件,严重膨胀。 2.结论 先说明两个函数区别: repartition : 把record完全打乱最终随机插入到10个文件 有Shu
阅读全文
posted @ 2022-09-01 15:18 江东邮差
阅读(647)
评论(0)
推荐(0)
2022年7月9日
【转】SparkSQL扩展到自定义数据源之Druid-Spark查询druid
摘要: Druid是Apache 下开源的一款存储与计算一体的olap查询引擎,spark则是纯计算引擎。Druid的数据存储在历史节点,通过broker节点查询,整体的查询流程是两阶段的聚合。数据分布在多个历史节点,查询时,第一阶段在各个历史节点并行计算,第二阶段,多个历史节点的数据汇聚到broker节点
阅读全文
posted @ 2022-07-09 15:00 江东邮差
阅读(325)
评论(0)
推荐(0)
2022年6月28日
SparkSQL Catalyst中的TreeNode
摘要: 引言 Scala Product、case类和元组 case 关键字不仅可以推断出val,同时自动增加一些方法,那么增加了那些方法呢? 你定义的case 类会混入scala.Product 特征,它提供了几个关于实例字段的通用方法。例如,对于Person 的实例: package cn.com.te
阅读全文
posted @ 2022-06-28 21:53 江东邮差
阅读(242)
评论(0)
推荐(0)
下一页
公告