摘要: 未进行整合 1.在处理一些事情的时候,可以从自己上级的角度出发,需要平常观察自己上级的技术理解力,承担能力,沟通能力,处理事情的决策能力,才能更好的应对一些繁琐的事情,从繁琐的事情中理清解决事情的思路 2.公司尤其做研发,一个个都是像机器人一样做着重复的工作,也就在遇到问题的时候,显得才有点那种氛围 阅读全文
posted @ 2021-04-02 11:32 齐方 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 1.OLAP系统: Greenplum,Druid,Kylin,Kudu,Presto,Impala 2.Flink 双流 阅读全文
posted @ 2021-04-01 10:06 齐方 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 1.left join产生的数据倾斜 两个子集LEFT JOIN之后GROUP BY从代码角度出发更综合,但是当两个子集特别大时,会影响到效率,应该分别GROUP BY之后再进行LEFT JOIN,防止数据倾斜; 2.维度理解 维度太多了,有个dwd层放入多个维度,比如一个用户在不同的页面操作一个内 阅读全文
posted @ 2021-03-29 16:27 齐方 阅读(127) 评论(0) 推荐(0) 编辑
摘要: mac图标可以设置大小及行列 设置Lunchpad,App启动台的行列数: 打开终端。 设置 Launchpad 的列数,一行几个App? defaults write com.apple.dock springboard-columns -int 12 设置 Launchpad 的行数,有几行Ap 阅读全文
posted @ 2021-03-08 11:01 齐方 阅读(241) 评论(0) 推荐(0) 编辑
摘要: zeepplin zeeplin是基于Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于web的可视化界面,可以连接肌肤所有的Apache大数据处理服务系统。(用于大数据的分析和可视化) zeppelin-daemon.sh sta 阅读全文
posted @ 2020-06-15 10:33 齐方 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 1.业务数据库同一个订单的不同状态的数据怎么处理 拉链表 2.数据仓库了解吗?建模模型 3.几个业务系统? 4.把数据存到哪儿,分析人员怎么去查数据 5.数据源有哪些 6.用户量有多少?日活多少?数据量多少? 2到3亿,人均130条数据,日活10万+,总共3亿条数据,每条1.6k,数据量300G 阅读全文
posted @ 2020-06-15 10:28 齐方 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 不同的视频APP可能和不同公司的ADX有股份关系,甚至,有的视频APP做大了,可以用自己的ADX,那从app到ADX的数据可以直接对接,否则就要有合作,然后ADX对接广告投放引擎 广告投放引擎(也就是媒体服务器)对接多个媒体的数据, (从广告投放引擎,怎么将数据Flume到hdfs,这个不清楚) 这 阅读全文
posted @ 2020-06-14 22:53 齐方 阅读(421) 评论(0) 推荐(0) 编辑
摘要: Spark 第一代引擎:mapreduce 第二代引擎:impala(DAG) 第三代引擎:spark 第四代引擎:flink 定义 大数据的统一的计算引擎。采用 DAG来进行计算。 Spark是一种快速、通用、可扩展的大数据分析引擎 Spark部署模式 Local 多用于本地测试,如在eclips 阅读全文
posted @ 2020-06-08 10:37 齐方 阅读(370) 评论(0) 推荐(0) 编辑
摘要: scala依赖库的加载 然后: 点OK,再点apply就可以了 输出控制台log4j信息过多 添加log4j.properties文件到resources中 文件内容: # 屏蔽控制台日志输出# Global logging configurationlog4j.rootLogger=WARN, s 阅读全文
posted @ 2020-06-02 11:26 齐方 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 解决方法,就是在项目的src下创建名为scala的路径,并且Mark Directory as Source root 同样在test中也创建,然后Mark Directory as Test Sources Root 阅读全文
posted @ 2020-05-31 19:03 齐方 阅读(148) 评论(0) 推荐(0) 编辑