05 2020 档案
摘要:基础组件 Ambari 适合小规模集群作测试,使用的是HDP 原生 & Ganglia 理论上对节点数量没有限制,但对集群的管理要求很高 功能组件 Hue 可视化集群的数据,可以连接hdfs、hbase、spark、pig、hive Datax 跨数据源转换数据 Airflow 以DAG方式编排任务
阅读全文
摘要:win安装 win下配置开发环境,我常用的组合是anaconda+pycharm,anaconda自带有很多包,使用起来会方便一点,pycharm是ide全家桶之一,使用起来也很棒。anaconda下载地址见【1】,注意安装时勾选写入环境变量,以免命令行无法识别python。 Linux安装 cen
阅读全文
摘要:一门编程语言所要涉及到的知识点实在太多,不可能在一篇文章里讲完,这里抽象的谈一谈语言的演进过程 程序就是调度计算机资源的过程 计算机的本质是调度各种资源来满足人的生产生活需求;概括起来有四种资源:计算资源、内存资源、存储资源、网络资源,而语言则是告诉机器如何调度这些资源,来达到人的目的。最基础的语言
阅读全文
摘要:t检验 原理和用途 计算A=(已知样本平均值与总体样本平均值的差值) 除以(总体样本标准差除以根号下[n if n>30 else n-1]得到的标准偏差)的比值,查t值表,就是看平均值的差异是否属于标准偏差允许的范围内,如果差异过大,两者就没有相关性,t检验限定条件是服从正态分布的连续变量,t检验
阅读全文
摘要:清楚了业务的状态,也就能估算现状和目标之间的成本差异,下一步就是要迭代优化。 优化方式 在增量市场和存量市场对应不同的优化方式 增量 增量市场主扩张,扩充自身的影响力,优化方式对应加枝 存量 存量市场主优化,提高业务的运转效率,强化主干,剔除低利润的部分,减掉末端的产能 行动方式 清楚了优化方式,也
阅读全文
摘要:1个SQL题,1个场景题,会有点难度! SQL题 该SQL题大量涉及到row_number,case when,group by等高级用法,有一定的实用价值,总结出来,供日后参考 Question.1: 分组汇总 给定筛选条件 Question.2: 全集合保留最大值所在行(针对天做处理) 为月维度
阅读全文
摘要:清楚了业务的状态,还需要了解业务现在的状态和目标之间的差距,以便后续迭代优化,衡量这种差距的方式有两种,分别是距离和极大似然。 距离 评估距离,需要弄清楚所处的空间,在数学中一维的空间是线,二维的空间是面,三维的空间是体,在现实中这种维度会有点不一样,这里的维度指事物的属性,常见的几种距离有绝对值,
阅读全文
摘要:垂直型 一家企业成长的过程就是结构化的过程,在这个过程中,做了两种算法,一种是加法,一种是乘法,当需要给结构添加基础单元时就是在做加法,当需要添加新的分支时,就是在做乘法,在产品发展过程中,结构呈树状铺开。定义这种垂直产品类,使用漏斗模型,弄清楚模型的每个节点含义及特征,以及变化情况,使用向量即可。
阅读全文
摘要:mysql优化 优化的第一步是要弄清楚优化的对象,该对象有两个,数据存储和计算逻辑,优化就要从这两点着手。 数据存储 mysql最常用的数据引擎是InnoDB,数据引擎的意思是它负责怎么存储数据和取出数据,InnoDB采用了B+Tree索引来排列数据,重点介绍B+Tree。 磁盘和内存可以看成一个一
阅读全文
摘要:安装 mkdir /opt/hive && tar -zxf /root/apache-hive-3.1.1-bin.tar.gz -C /opt/hive && \ tar -zxf /root/mysql-connector-java-8.0.16.tar.gz && \ cp /root/my
阅读全文
摘要:先验概率 概率是认知史上一次重要的进步,狭义的来说,概率代表一件事发生的几率,但广义上来看,概率代表了一种分布特征;典型的以男女比例来说,生男生女都是50%的几率,在没有人为干扰的情况下,社会的上的男女比例接近于1:1。先验概率是在条件单一的情况下的分布特征,往往聚焦于某一场景或者维度。 后验概率
阅读全文
摘要:这一部分很有意思,主要是搞清楚这个世界是如何变化的,同时会将数学分析里面一些基本的概念联系起来 数学分析 连续 数学分析开篇讲极限,随后就讲连续,连续性为何如此重要,举个例子,文学作品里常常有这样的题材,假如穿越到过去会怎么样,假如穿越到未来会怎么样,这类题材将过去和现在,以及现在和过去看成一个个孤
阅读全文
摘要:一张纸是白色的,正方形的,薄薄的物体,把它揉成一团就变成了圆形的,厚厚的物体,那么如何来明确描述这张纸呢?里面蕴含着深刻的哲理,要想清晰的描述事物,需要从定性和定量这两个角度考量。从定性上来看,可以从颜色,形状,厚度这三个属性来观察;从定量上来看,前面的纸对应着白色,正方形,0.1毫米,后面的纸则对
阅读全文
摘要:数据是信息的载体,反应客观事实的一部分,它由两部分构成,一是指标,一是内容,分别对应定性和定量。 指标 指标是对业务定性的表达,它需要记录业务流的每个节点,并在业务结构发生变化时,也随之变化,业务流可以看成一张RoadMap,指标就是路标,来反应整个业务图的客观状态以及结构,变动等等。指标设计时需要
阅读全文
摘要:描述数据时,需要从许多维度来观察,在Excel里透视表就承担着这个功能,透视表由3个层构成:数据层、转换层、可视化层 数据层 本地 透视表只能加载矩阵格式的数据,首行是标题,首行以下的是具体内容,透视表可以通过详细的路径选择数据范围,注意,如果选择的是A1:B2这样具体的范围,则数据进行往后追加时,
阅读全文
摘要:Excel的函数有上千种,常用的只有几十种,包含两个类别f(x),f(x,y),参数的类型又对应数字,文本,日期,整个的函数集合构成是2X3,掌握这个不等式,就可以轻松应对各种数据处理场景。 f(x)型 数字 =ROUND(4.56789,1) =MOD(21,4) =SUMIF(D37:D38,"
阅读全文
摘要:安装 配置服务 启动服务 工作原理 RDD、DateFrame和SparkSQL SparkStreaming和Structured Streaming MLlib GraphX
阅读全文
摘要:安装 配置HA模式 启动 工作原理 在推荐算法中,一篇文章会被解析成上亿维的向量,所有文章构成的矩阵是一个巨大的稀疏矩阵,Hbase就是为了存储这个巨大矩阵而衍生出来的产物;由于它的稀疏性,数据都是一块一块的,其他绝大部分都是空的,Hbase就是基于HDFS,将向量的上亿维度,通过3级树形结构来降维
阅读全文
摘要:安装 在SecureCRT中通过sftp上传到虚拟机 解压缩 系统环境 配置Zookeeper 分别启动各组件 原理 当数据量多的时候,单机无法处理,Hadoop是为了解决海量计算而应运而生的方案,包含3和方面:存储平台,计算逻辑,计算资源 存储平台对应HDFS,将数据看成矩阵,它由两部分构成,方向
阅读全文
摘要:Window系统下安装 下载点这里mysql安装包,按提示安装即可,注意使用传统的加密方式,chacha20和sha256加密方式需要额外的组件才能使用,许多客户端也就不支持这些加密方式。 Linux系统下安装 通过yum安装 shell> wget https://dev.mysql.com/ge
阅读全文
摘要:SQL语句 mysql 一:设计数据库 1.数据库(DATABASE) 创建:mysql CREATE DATABASE d1; 删除:mysql DROP DATABASE d1; 查看:mysql SHOW DATABASES; mysql SELECT DATABASE(); mysql SH
阅读全文
摘要:SQL 高效排版指北 统一 SQL 排版的相关用法,极大提高编写和维护 SQL 的效率。 注: column = 选取的字段;table = 选取的表名 语句结构 错误 正确 解析 SQL 语句在内部执行时会解析成树状展开的结构,SELECT,FROM,WHERE 等关键字定义了结构体,这些关键词统
阅读全文
摘要:新装的虚拟机还不能直接使用,需要为它配置环境,主要配置网卡、DNS、主机名、hosts、ssh、防火墙、时间 网卡 设置固定网卡,参考【1】 这里使用桥接的方式连接宿主机,并给虚拟机分配固定IP 注意事项 关闭宿主机防火墙 第一台虚拟机需要通过Hyper v配置网卡和ssh,以便在宿主机中可以通过s
阅读全文
摘要:Hyper-V Hyper-V是windows系统自带的虚拟机,使用时要满足两点 Bios里开启CPU虚拟化,可以在任务管理器 - 性能里查看是否支持虚拟化 教育版和家庭版不支持启用Hyper-V,最好是企业版和专业版 启用方式 控制面板\程序\程序和功能 - 启用或关闭Windows功能 - Hy
阅读全文

浙公网安备 33010602011771号