江东邮差

[置顶] 文章目录

摘要：分类文章目录大数据文章目录、Java/Scala文章目录、数据结构&算法题集（收藏目录）、代码设计文章目录文档网站网址收集整理（收藏论坛博客主页）优秀博客【大数据】金竹的博客、kafka教程【 Java 】Java技术驿站、loveincode、how2j、纯洁的微笑【数据结构& 阅读全文

posted @ 2018-06-09 01:51 江东邮差阅读(234) 评论(0) 推荐(0)

[置顶] 读过的书

摘要：记录自己读的书，方便总结进步：）阅读全文

posted @ 2014-11-11 21:53 江东邮差阅读(149) 评论(0) 推荐(0)

2024年1月16日

苏宁OLAP架构设计

摘要：一. 功能综述 OLAP引擎为存储和计算二合一的引擎，自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部，外部系统不允许直接操作底层数据，而是需要通过暴露出来的接口来读写引擎内部数据。目前整体来说OLAP功能由两部分组成：数据管理，查询引擎。 1.1 数据管理引擎中数据核心概阅读全文

posted @ 2024-01-16 23:52 江东邮差阅读(140) 评论(0) 推荐(0)

2023年6月17日

selenium headless报错Message: unknown error: failed to wait for extension background page to load

摘要： selenium进行打开chrome浏览器操作时报错。完整报错： selenium.common.exceptions.WebDriverException: Message: unknown error: failed to wait for extension background page 阅读全文

posted @ 2023-06-17 13:51 江东邮差阅读(128) 评论(0) 推荐(0)

2023年3月20日

mac系统免费支持ntfs读写

摘要： 1、安装homebrew，以下选择一种即可使用ruby安装 /usr/bin/ruby -e "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/homebrew-install/install)" bash环境安装 /bin/bash -c "$(cu 阅读全文

posted @ 2023-03-20 21:31 江东邮差阅读(306) 评论(0) 推荐(0)

2023年2月27日

Spark DataSource 源码解析

摘要： SparkSession.read() 创建DataFrameReader对象，进行数据读取任务。 DataFrameReader format schema option json、csv、text… 通过format函数设置格式，并调用load函数加载数据。 load 调用DataSource. 阅读全文

posted @ 2023-02-27 16:50 江东邮差阅读(443) 评论(0) 推荐(0)

Spark DataSource API 分析

摘要： 1.么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力，它可以方便地把不同的数据格式通过DataSource API注册成Spark的表，然后通过Spark SQL直阅读全文

posted @ 2023-02-27 15:45 江东邮差阅读(211) 评论(0) 推荐(0)

2022年10月7日

车辆机械相关

摘要：一、发动机文章·作为发动机中技术含量最高的零件，你对活塞环知道多少视频·发动机原理系列二、变速箱（传动系统）视频·传动系统系列视频·手动变速器原理阅读全文

posted @ 2022-10-07 15:42 江东邮差阅读(36) 评论(0) 推荐(0)

作为发动机中技术含量最高的零部件，你对活塞环知多少

摘要：活塞环是汽车发动机曲柄连杆机构活塞连杆组中的一个零部件，它分气环和油环两种，一般每个气缸中有两道气环、一道油环，个别发动机有三道气环、一道油环。气环与油环的功用气环的主要功用是密封和传热：密封是指保证活塞与气缸壁之间的良好密封，防止气缸内的可燃混合气和高温燃气漏入曲轴箱，保证进入发动机中的可燃混阅读全文

posted @ 2022-10-07 15:31 江东邮差阅读(415) 评论(0) 推荐(0)

2022年9月1日

[转]Spark SQL repartition 为啥生成的文件变大了？

摘要： 1.问题原表数据1400MB左右； spark sql查询后对dataframe使用reparation，再写入结果表；结果表有12个800多MB的parquet文件，严重膨胀。 2.结论先说明两个函数区别： repartition ：把record完全打乱最终随机插入到10个文件有Shu 阅读全文

posted @ 2022-09-01 15:18 江东邮差阅读(697) 评论(0) 推荐(0)

2022年7月9日

【转】SparkSQL扩展到自定义数据源之Druid-Spark查询druid

摘要： Druid是Apache 下开源的一款存储与计算一体的olap查询引擎，spark则是纯计算引擎。Druid的数据存储在历史节点，通过broker节点查询，整体的查询流程是两阶段的聚合。数据分布在多个历史节点，查询时，第一阶段在各个历史节点并行计算，第二阶段，多个历史节点的数据汇聚到broker节点阅读全文

posted @ 2022-07-09 15:00 江东邮差阅读(357) 评论(0) 推荐(0)

2022年6月28日

SparkSQL Catalyst中的TreeNode

摘要：引言 Scala Product、case类和元组 case 关键字不仅可以推断出val，同时自动增加一些方法，那么增加了那些方法呢？你定义的case 类会混入scala.Product 特征，它提供了几个关于实例字段的通用方法。例如，对于Person 的实例： package cn.com.te 阅读全文

posted @ 2022-06-28 21:53 江东邮差阅读(262) 评论(0) 推荐(0)

——时间是宝贵的

公告