RZ_Lee

2019年4月6日

摘要：考察spark自定义排序方式一：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成自定义类类型的RDD，使用本身排序即可。方式2：自定义一个类继承Ordered和序列化，Driver端将数据变成RDD，整理数据转成元组类型的RDD，使用就自定义类做排序规则。方阅读全文

posted @ 2019-04-06 01:52 RZ_Lee 阅读(640) 评论(0) 推荐(1)

Spark- 根据ip地址计算归属地

摘要：主要考察的是广播变量的使用： 1、将要广播的数据 IP 规则数据存放在HDFS上，（广播出去的内容一旦广播出去产就不能改变了，如果需要实时改变的规则，可以将规则放到Redis中） 2、在Spark中转成RDD，然后收集到Driver端， 3、把 IP 规则数据广播到Executor中。Driver端阅读全文

posted @ 2019-04-06 00:15 RZ_Lee 阅读(867) 评论(0) 推荐(1)

2019年3月28日

Spark- 使用第三方依赖解析IP地址

摘要：使用 github上已有的开源项目1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目: mvn clean package- DskipTests 3)安装jar包到自己的 maven仓库 mvn install: insta 阅读全文

posted @ 2019-03-28 00:30 RZ_Lee 阅读(1133) 评论(0) 推荐(0)

2019年3月26日

Spark- 使用hiveContext时提交作业报错

摘要：在spark上操作hive时不需要搭建hive环境，只需要从现有的hive集群中hive的conf目录下拷贝 hive-site.xml 到spark的conf目录下即可提交程序运行出现报错 root cause ：是没有给程序指定MySQL驱动包的路径 solution：在提交程序的命令中添加阅读全文

posted @ 2019-03-26 22:22 RZ_Lee 阅读(299) 评论(0) 推荐(0)

2019年3月10日

Springboot- Spring缓存抽象学习笔记

摘要： Spring缓存作用准备： 1、准备数据（准备一个有数据的库和表/导入数据库文件，准备好表和表里面的数据） 2、创建javaBean封装数据 3、整合MyBatis操作数据库( 这里用MyBatis) 1，配置数据源信息 2、使用注解版的MyBatis； 1）、@MapperScan指定需要扫描的M 阅读全文

posted @ 2019-03-10 22:57 RZ_Lee 阅读(368) 评论(0) 推荐(0)

2019年3月8日

DataWarehouse- 从面试定位自己的水平

摘要： 1.讲一下什么是维度表和事实表。用户资料表算是什么类型表。 2. 维度建模属于第几范式，让你对维度建模改进，有什么思路吗。 3. 了解数据血缘分析吗，让你实现的话有什么技术方案，感觉难点在哪。 4. 了解数据分层吗，讲一下分四层或者五层各有什么优劣。自己摸你一个场景，给出不同的方案。 5. 数据口径阅读全文

posted @ 2019-03-08 00:28 RZ_Lee 阅读(239) 评论(0) 推荐(0)

2019年2月21日

Python- NumPy

摘要： NumPy包括的内容 NumPy系统是 Python的一种开源的数值计算扩展,是一个用 python实现的科学计算包。包括：一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组,称为 ndarray(N-dimensional array object ) 用于对整组数据进行快速运算的标准阅读全文

posted @ 2019-02-21 00:06 RZ_Lee 阅读(358) 评论(0) 推荐(0)

2019年2月19日

Springboot- Caused by: org.hibernate.AnnotationException: No identifier specified for entity:

摘要：错误与异常：原因：引用了不对的包，去掉import org.springframework.data.annotation.Id;即可。阅读全文

posted @ 2019-02-19 09:50 RZ_Lee 阅读(343) 评论(0) 推荐(0)

2019年2月3日

数据仓库- 建模理念

摘要：数仓建模的目标访问性能：能够快速查询所需的数据，减少数据I/O 数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本。使用效率：改善用户使用体验，提高使用数据的效率数据质量：改善数据统计口径的不一致性，减少数据计算错误的可性，提供高质量的、一致的数据访问平阅读全文

posted @ 2019-02-03 16:19 RZ_Lee 阅读(501) 评论(0) 推荐(0)

2019年1月25日

SpringBoot- springboot集成Redis出现报错：No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory'

摘要： Springboot将accessToke写入Redisk 缓存，springboot集成Redis出现报错 No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory' 原阅读全文

posted @ 2019-01-25 15:22 RZ_Lee 阅读(29946) 评论(0) 推荐(0)

积累点滴，终成大器

公告