Data4Strategy

——合抱之木,生于毫末;九层之台,起于累土
摘要: 为什么要使用external hive metastore可以跨workspace的共享元数据,不用每次创建workspace的时候都重复的把元数据重建一次。更好的元数据集中管理,Create once, use everywhere。为灾难恢复(DR)做好为准备,并降低复杂性。(PAAS一样会存在 阅读全文
posted @ 2023-03-31 11:54 John.Xiong 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 本文介绍 Azure Databricks 中的 Delta Sharing,这是安全的数据共享平台,可用于与组织外的用户共享 Azure Databricks 中的数据。sharing分两类:开放共享:可与任何用户共享数据(无论他们是否有权访问 Azure Databricks)。Databric 阅读全文
posted @ 2023-03-28 22:17 John.Xiong 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 目录先决条件在Azure Databricks环境中设置Unity Catalog元存储步骤1:为元存储创建blob存储步骤2:创建Azure Databricks访问连接器步骤3:在Azure Databricks帐户控制台中创建元存储步骤4a:创建catalog和托管表步骤4b:创建一个外部表U 阅读全文
posted @ 2023-03-28 01:37 John.Xiong 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 先总结下unity catalog是databricks的数据治理解决方案,他提供了统一的元数据管理、权限访问控制、数据审核、数据质量、数据血缘、数据发现、数据共享等功能。数据血缘真的很不错,如果是一个新的用户,又是global的我强烈推荐您使用起来。本人使用下来的感受:功能还是很强大,解决了以前权 阅读全文
posted @ 2023-03-28 01:13 John.Xiong 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 问题Spark sql 查询出的数据量与hive不一致,重启spark就没问题,查询结果一致。或者报错说读取的文件不存在,类似如下的错误FileReadException: Error while reading file xxx.It is possible the underlying file 阅读全文
posted @ 2023-01-10 22:07 John.Xiong 阅读(1905) 评论(0) 推荐(1) 编辑
摘要: Overview定义计算资源(集群、作业和池),并确定用于不同工作负载的资源。描述几个用例的集群资源调配策略,以最大限度地提高可用性和成本效益。描述集群治理的最佳实践,包括集群策略。描述Azure Databricks的容量限制。描述如何管理成本和执行按存储容量使用计费分析。计算资源/Computa 阅读全文
posted @ 2022-12-30 18:32 John.Xiong 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 问题尝试使用 TIMESTAMP 创建 Parquet 表,但收到一条错误消息Error in SQL statement: QueryExecutionException: FAILED: Execution Error, return code 1 from org.apache.hadoop. 阅读全文
posted @ 2022-12-06 22:52 John.Xiong 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 一、背景接触talend也挺长一段时间了,在项目中每天都是使用它开发job,做ETL,也看了前辈开发的很多ETL Job,学到不少。也接触了TAC(talend administration center),也发现了TAC的一些优点和不足。优点:1、TAC可以更好的界面化管理job、部署、HA等,提升了job运行的良好环境。2、通过plan可以更好的将不同的job进行关联成线,更好的对数据处理做到... 阅读全文
posted @ 2020-05-08 22:16 John.Xiong 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 背景talend的源代码控制用的是gitlab,以前都是http方式的,但是最近突然改了https,所以talend登录失败,必须要SSL方式才能获取到分支等数据,才能提交代码。证书导入1、talend studio导入gitlab生成证书,证书一般这个可以从gitlab上下载并转换成base64格式的#导入命令如下:D:\talendworkspace\gitlab.cer换成你本地的地址key... 阅读全文
posted @ 2019-12-18 18:59 John.Xiong 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 核心原理因为talend job build出来是一个可直接运行的程序,可以通过shell命名启动job进程,因此可以使用airflow的bashoperator调用生成好的talend job包里面的sh脚本,启动talend job。设计talend job任务本例子主要将一批数据同步到mysql表中导出talend job将设计好的talend job build到zip包。定义airflo... 阅读全文
posted @ 2019-12-03 18:04 John.Xiong 阅读(646) 评论(0) 推荐(0) 编辑
摘要: 该文是基于python虚拟化环境来安装,非虚拟化也是一样,虚拟化我只是不想破环系统环境。安装python虚拟环境pip install virtualenv设置环境变量sudo vi /etc/profile将如下内容添加到末尾export PYTHON_HOME=/usr/local/python3export PATH=$PATH:$PYTHON_HOME/binsource /etc/pro... 阅读全文
posted @ 2019-11-11 16:35 John.Xiong 阅读(790) 评论(0) 推荐(0) 编辑
摘要: 声明本文摘录了很多前辈的文章,原文如下:https://www.jianshu.com/p/2ecef979c606Airflow 简介Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控... 阅读全文
posted @ 2019-11-11 16:12 John.Xiong 阅读(9665) 评论(1) 推荐(1) 编辑
摘要: 1、下载redis安装包cd /softwares/wget http://download.redis.io/releases/redis-5.0.5.tar.gz2、解压redis-5.0.5.tar.gztar -xzf redis-5.0.5.tar.gz3、进入解压的redis目录,通过make命令进行编译cd redis-5.0.5/make #编译make test #验证#当mak... 阅读全文
posted @ 2019-11-11 15:50 John.Xiong 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 1、安装必须的软件#更新源中包列表yum -y update#先安装扩展源EPEL 才能安装pip 否则会报错yum -y install epel-release//解决ssl问题,否则报错:pip is configured with locations that require TLS/SSL//你只需执行即可,具体解决过程参见:http://www.cnblogs.com/minglee/... 阅读全文
posted @ 2019-11-11 15:42 John.Xiong 阅读(3943) 评论(0) 推荐(1) 编辑
摘要: 1、将mysql压缩包解压至 /usr/local 文件夹下,将其改名为mysql#解压tar -zxf mysql-5.7.27-el7-x86_64.tar.gz -C /usr/local/#重命名cd /usr/local/mv mysql-5.7.27-el7-x86_64/ mysql2、进入mysql,由于5.7没有data目录,自己创建一个cd mysql/mkdir data3、... 阅读全文
posted @ 2019-11-11 15:06 John.Xiong 阅读(5911) 评论(2) 推荐(0) 编辑
摘要: 1、背景SQL Server配置管理器可用来管理与SQL Server相关联的服务、配置SQL Server使用的网络协议以及从SQL Server客户端计算机管理网络连接配置。但是win10从1709升级到1803,升级成功后发现SQL SERVER配置管理器找不到了,以为又是win10给我删除了文件,搜索了下发现有人与我同样的问题,解决方案如下。2、解决方案2.1、可以通过:计算机——>右键—... 阅读全文
posted @ 2019-05-18 08:10 John.Xiong 阅读(2341) 评论(0) 推荐(0) 编辑
摘要: 转载地址:https://mp.weixin.qq.com/s?__biz=MzA3OTg1Mzk4Nw==&mid=2453261363&idx=1&sn=5674f1df83b833b0cb20368920c6a216&chksm=88604cffbf17c5e9e83ef06032f0b99004737e57b6f7eb110cdffa35bf2e276302cf17c764ef&mpsha... 阅读全文
posted @ 2019-01-11 12:51 John.Xiong 阅读(815) 评论(0) 推荐(0) 编辑
摘要: 原文地址:https://mp.weixin.qq.com/s?__biz=MzA3OTg1Mzk4Nw==&mid=2453261363&idx=2&sn=e0f42602271d4bb0415b174dfad9963b&chksm=88604cffbf17c5e9b4a48daf5ec09341f34e0d4a44bba9e31501cbb1701bd8d995a5d173e3e8&mpsha... 阅读全文
posted @ 2019-01-11 11:29 John.Xiong 阅读(950) 评论(0) 推荐(0) 编辑
摘要: 更新2019/1/16:增加了允许5个附件发送、smtp等配置的字段。一、背景在ETL数据整合过程中,肯定会涉及到email的通知,比如ETL的执行情况汇报,执行耗时汇报,关键数据更新情况等信息汇报等,这些信息都是需要及时给到相应的operation人员或者使用BI数据的人员。但是,如果一开始没有规划好邮件推送的一些基本信息,有可能会导致后期邮件发送混乱和不好管理等问题,例如:每个人都有自己的et... 阅读全文
posted @ 2019-01-03 15:59 John.Xiong 阅读(1054) 评论(2) 推荐(0) 编辑
摘要: 一、背景在企业BI平台建设过程中,数据整合始终是一切的基础,简单BI项目可以通过存储过程来实现,而复杂、全面、多方异构数据来源等就大大增加了复杂性,存储过程的可管理性、可维护性、容错性等就无法很好的跟上企业的BI的发展脚步和需要。因此,一个完善的、健壮的、可视化的、易于开发和管理的ETL解决方案,就非常重要,而这其中,ETL工具的地位不言而喻,更是重中之重。选择一个优秀的ETL工具,不仅可以加快异... 阅读全文
posted @ 2019-01-03 14:18 John.Xiong 阅读(2294) 评论(0) 推荐(0) 编辑
摘要: 1 简介SQL Server 代理具有发送电子邮件的功能。您可以配置 SQL Server 代理邮件,使其在出现下列情况时向预定义的操作员发送电子邮件:警报触发时。可以配置警报,以针对所发生的特定事件发送电子邮件通知。例如,可以配置警报,将可能需要立即采取行动的特定数据库事件或操作系统情况通知操作员。有关配置警报的详细信息,请参阅定义警报。计划任务成功完成或未完成(例如,数据库备份或复制事件)。例... 阅读全文
posted @ 2018-01-09 16:53 John.Xiong 阅读(2327) 评论(0) 推荐(1) 编辑
摘要: 1. 准备工作安装Oracle11gR2client的时候,如果刚从网上下载的Oracle client,可能无法再2008 R2或者2012 R2的服务器上面运行。报错:[INS-13001]环境不满足最低要求,此时需要在配置文件\stage\cvu\cvu_prereq.xml中添加代码:当然,如果是32位的就将改成即可。2. 安装过程运行setup.exe程序,稍等检查完毕后,安装类型选择【... 阅读全文
posted @ 2018-01-05 21:49 John.Xiong 阅读(10748) 评论(0) 推荐(0) 编辑
摘要: 1. 优先安装软件1. net framework3.5。2. 在安装SQL SERVER 2012前需要3.5的支持。在WIN 2012系统可以在系统管理的添加角色和功能中安装,如下将【.NET Framework 3.5功能】、【.NET Framework 4.5功能】下的组件全部勾选上。3. 在安装以上内容需要配置个源,因为有些安装程序是在外部的,并不是系统自带的,所以需要安装前挂载Win... 阅读全文
posted @ 2018-01-05 18:49 John.Xiong 阅读(119043) 评论(1) 推荐(5) 编辑
摘要: 1. 前期准备1) 2012系统的IIS安装的时候,需要系统安装盘里面的一些软件,因此需要在安装前将系统安装盘挂载到服务器的盘符上,以便使用。2. 添加角色和功能打开服务器管理器,点击管理菜单,选择【添加角色和功能】,并按照如下步骤执行即可。在勾选【Web服务器(IIS)】选项时候,可能会弹出如下类似的需要添加其它角色和功能的确认框,点击【添加功能】即可。3. 勾选IIS全部安装组件在该界面,将【... 阅读全文
posted @ 2018-01-04 15:41 John.Xiong 阅读(71409) 评论(1) 推荐(7) 编辑
摘要: 1. 导语 客单价是指每一个顾客平均购买商品的金额,也即是平均交易金额。它的计算公式是:客单价=商品平均单价*每一顾客平均购买商品的个数;客单价=销售额÷顾客数。 由此可见门店的销售额是由客单价和顾客数所决定的,在门店提升顾客数难度较大或顾客数相对稳定的状况下,提高客单价则是提高门店销售额的唯一途径 阅读全文
posted @ 2014-08-19 13:35 John.Xiong 阅读(9771) 评论(0) 推荐(0) 编辑
摘要: 导语 导语 企业在提高客单价的过程中,重要的是要根据顾客上述行为因素开发具体的、可操作的卖场营销的方法和技术。只有卖场全部营销活动适应于顾客的这种购买行为和意识,才能使卖场营销的结果富有效果和效率 作为顾客店内购买行为结果的客单价,一般是由以下5个相互关联、相互作用的主要因素构成。 客单价=动线长度 阅读全文
posted @ 2014-08-19 13:19 John.Xiong 阅读(3649) 评论(0) 推荐(0) 编辑
摘要: 转载博客:http://www.dotblogs.com.tw/allanyiin/archive/2010/11/21/19585.aspx SSIS 为了要能够在64位的机器上面让SSIS存取Oracle,当然需要安装64位的Oracle Provider,但是遇到最大的问题在于SSIS在执行的 阅读全文
posted @ 2014-08-18 21:19 John.Xiong 阅读(1825) 评论(0) 推荐(1) 编辑
摘要: 可以使用 PIVOT 和 UNPIVOT 关系运算符将表值表达式更改为另一个表。PIVOT 通过将表达式某一列中的唯一值转换为输出中的多个列来旋转表值表达式,并在必要时对最终输出中所需的任何其余列值执行聚合。UNPIVOT 与 PIVOT 执行相反的操作,将表值表达式的列转换为列值。 注意:对升级到 阅读全文
posted @ 2014-07-16 16:51 John.Xiong 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 问题: 安装完SQL Server 2012后,准备安装DQS服务,但是总是提示:操作“检查系统重新引导是否处于挂起状态”已完成,但有错误,正在中止安装。非常无奈,因为都根据其要求重启计算机很多次了。(祸不单行,安装Adobe DW5的时候也出现这个提示)。最后搜索下,知道原来是注册表中有记录一些程 阅读全文
posted @ 2014-06-24 10:11 John.Xiong 阅读(1730) 评论(0) 推荐(0) 编辑
摘要: 支持10万个同时请求 阅读全文
posted @ 2014-04-20 13:46 John.Xiong 阅读(6238) 评论(0) 推荐(6) 编辑