2019 年 2月随笔档案 - LestatZ

摘要：在自动化中经常需要将日志文件发送到指定用户组，于是记录一下使用sendmail发送邮件及附件的shell脚本模板阅读全文

posted @ 2019-02-27 15:49 LestatZ 阅读(1528) 评论(0) 推荐(0)

spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别

摘要：在关于spark任务并行度的设置中，有两个参数我们会经常遇到，spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什么区别的？首先，让我们来看下它们的定义看起来它们的定义似乎也很相似，但在实际测试中， spark 阅读全文

posted @ 2019-02-27 10:30 LestatZ 阅读(2016) 评论(0) 推荐(1)

Spark Shuffle

摘要：文章目录 Spark Shuffle 可能引起shuffle的操作 Shuffle的优化参考资料文章目录 Spark Shuffle 可能引起shuffle的操作 Shuffle的优化参考资料 Spark Shuffle 可能引起shuffle的操作 Shuffle的优化参考资料 Spark 阅读全文

posted @ 2019-02-26 15:19 LestatZ 阅读(514) 评论(0) 推荐(0)

[Spark学习] Spark RDD详解

摘要：文章目录什么是RDD RDD的主要属性 RDD的组成 RDD的分区(Partition) RDD分区的特征 RDD分区与任务执行的关系 RDD的分区器(Partitioner) RDD的逻辑执行计划(Lineage) RDD的依赖关系(Dependencies) 窄依赖(Narrow Depend 阅读全文

posted @ 2019-02-25 14:42 LestatZ 阅读(2126) 评论(0) 推荐(0)

将时间戳(timestamp)转换为MongoDB中的ObjectId

摘要：文章目录什么是ObjectIdObjectId的构造方法ObjectId实例方法ObjectId与Timestamp的转换shellpythonjavascript什么是ObjectIdObjectId是MongoDB文档的默认主键，通常位于插入文档的_id... 阅读全文

posted @ 2019-02-25 10:22 LestatZ 阅读(3066) 评论(0) 推荐(0)

如何使用pig的AvroStorage存储array/map类型

摘要：文章目录问题描述解决方法文章目录问题描述解决方法问题描述解决方法问题描述解决方法问题描述解决方法问题描述之前项目一直使用pig进行数据迁移，输出文件的类型是Avro。一开始都是将字段设为string类型，但后来随着上有数据类型变得复杂，原来pig脚本已经无法使用。因为我阅读全文

posted @ 2019-02-24 22:01 LestatZ 阅读(330) 评论(0) 推荐(0)

关于Avro中的Unions类型

摘要：Avro中的复杂类型 Avro支持六种复杂类型： records enums arrays maps unions fixed Unions类型介绍 Unions使用JSON数组表示。例如，[“null”，“string”]声明一个字段的类型可以是null或string。注意当替类型为unio 阅读全文

posted @ 2019-02-24 20:39 LestatZ 阅读(658) 评论(0) 推荐(0)

机器学习面试问题整理(5) — 正则项&损失函数 &优化

摘要：文章目录概述L1和L2的区别? 为什么L2能提升泛化能力（减少预测误差，防止过拟合？）L1正则化有哪些好处L1正则为什么可以把系数压缩成0，坐标下降法的具体实现细节为什么要做数据归一化？归一化方式交叉熵cross entropy损失函数？0-1分类的交叉熵... 阅读全文

posted @ 2019-02-24 10:43 LestatZ 阅读(720) 评论(0) 推荐(0)

机器学习面试问题整理(4) — Emsenble learning集成学习

摘要：文章目录概述集成学习树集成模型有哪几种形式？Boosting和bagging的区别Bagging为什么能减小方差概述基本推导和理论还是以看李航老师的《统计学习方法》为主。各种算法的原理，推荐理解到可以手撕的程度。以下为通过网络资源搜集整理的一些问题及答案，准... 阅读全文

posted @ 2019-02-24 09:28 LestatZ 阅读(613) 评论(0) 推荐(0)

机器学习面试问题整理(3) — Tree树形模型

摘要：文章目录概述决策树笔记随机森林优缺点GBDT的原理，如何做分类和回归GBDT分类树拟合的是什么GBDT+ LR 是怎么做的CART分类回归树和ID3以及C4.5有什么区别决策树的优点和缺点RF, GBDT, XGBOOST, XGB的区别改变随机森林的训练... 阅读全文

posted @ 2019-02-24 09:23 LestatZ 阅读(1153) 评论(0) 推荐(0)

机器学习面试问题整理(2) — SVM支持向量机

摘要：文章目录概述SVM原理及推导SVM与随机森林比较SVM为什么要引入拉格朗日的优化方法。SVM原问题和对偶问题关系？SVM在哪个地方引入的核函数, 如果用高斯核可以升到多少维?SVM怎么防止过拟合 ?SVM的目标函数。常用的核函数。SVM硬软间隔对偶的推导概述... 阅读全文

posted @ 2019-02-24 09:09 LestatZ 阅读(1767) 评论(0) 推荐(0)

机器学习面试问题整理(1) — LR逻辑斯蒂回归

摘要：文章目录概述logistics公式及推导LR为什么用sigmoid函数，为什么不用其他函数？这个函数有什么优点和缺点？逻辑斯蒂回归怎么实现多分类？Softmax公式逻辑回归估计参数时的目标函数，如果加上一个先验的服从高斯分布的假设，会是什么样?LR和SVM... 阅读全文

posted @ 2019-02-24 08:57 LestatZ 阅读(1317) 评论(0) 推荐(0)

Pandas加载含有嵌套(nested)文档的mongodb数据

摘要：文章目录读取MongoDB数据到Pandas中不含嵌套数据含有嵌套数据读取MongoDB数据到Pandas中我们可以通过pymongo包连接mongodb进行数据处理，然后将数据存储到pandas的dataframe里面。例子中的student表的数据结构如... 阅读全文

posted @ 2019-02-23 20:42 LestatZ 阅读(634) 评论(0) 推荐(0)

[Spark笔记]Spark Streaming连接Kafka的入门代码

摘要：用scala写的一段Spark Streaming连接Kafka的入门代码阅读全文

posted @ 2019-02-23 17:18 LestatZ 阅读(540) 评论(0) 推荐(0)

[Spark笔记]Apache Spark — Overview

摘要：文章目录 Spark简介为什么用Spark 文章目录 Spark简介为什么用Spark Spark简介为什么用Spark Spark简介为什么用Spark Spark简介为什么用Spark Spark简介 Apache Spark是一个开源的分布式通用计算框架，具有(大部分)内存数据处理引阅读全文

posted @ 2019-02-23 17:12 LestatZ 阅读(165) 评论(0) 推荐(0)

[Hive笔记]Hive常用命令整理

摘要：文章目录 Commonly used Hive Commands DDL Commands DML Commands 文章目录 Commonly used Hive Commands DDL Commands DML Commands Commonly used Hive Commands DDL 阅读全文

posted @ 2019-02-23 17:05 LestatZ 阅读(164) 评论(0) 推荐(0)

Mac上安装MongoDB后没有默认用户或密码，需要创建用户

摘要：默认情况下，MongoDB没有启用访问控制，因此没有默认用户或密码。要启用访问控制，请使用命令行选项·--auth或security.authorization配置文件设置。具体细节请查看官方文档的启用验证章节以下使我在Mac上测试的具体步骤：打开终端，启动... 阅读全文

posted @ 2019-02-23 16:23 LestatZ 阅读(873) 评论(0) 推荐(0)

Mac/Anaconda — conda install慢的解决方法

摘要：查看了Anaconda 镜像使用帮助我们可以通过以下命令为Anaconda添加仓库conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/cond... 阅读全文

posted @ 2019-02-23 15:59 LestatZ 阅读(806) 评论(0) 推荐(0)

Mac/Homebrew — brew update慢的解决方法

摘要：Homebrew是Mac的软件包管理器，我们可以通过它安装大多数开源软件。但是在使用brew update更新的时候竟然要等待很久。猜测可能是因为brew的官方源被墙或或者响应慢。于是想到的切换Homebrew的更新源的办法, 如果coding.net的源还... 阅读全文

posted @ 2019-02-23 14:58 LestatZ 阅读(824) 评论(0) 推荐(0)

Mac上安装MongoDB

摘要：文章目录什么是MongoDB 准备工作安装Homebrew 安装概述使用Homebrew安装和运行MongoDB 从MongoDB官网下载并手动安装创建用户&开启用户验证文章目录什么是MongoDB 准备工作安装Homebrew 安装概述使用Homebrew安装和运行MongoDB 阅读全文

posted @ 2019-02-23 14:29 LestatZ 阅读(123) 评论(0) 推荐(0)

[学习笔记]CA Autosys(2) — condition依赖条件

摘要：Dependent Jobs 具有依赖的作业在Autosys中，作业(Job)可以取决于其他作业的完成结果。具有依赖的作业和简单作业之间的唯一区别是它依赖于另一个或多个作业。我们可以通过condition属性来指定作业依赖关系。我们还可以在作业的依赖关系中添加时间限制，即回看条件(look-b 阅读全文

posted @ 2019-02-23 11:58 LestatZ 阅读(577) 评论(0) 推荐(0)

[Hive笔记]Hive编译器

摘要：Hive编译器文章目录 Hive编译器编译器主要部分 Hive SQL的编译过程文章目录 Hive编译器编译器主要部分 Hive SQL的编译过程 Hive编译器编译器主要部分 Hive SQL的编译过程 Hive编译器编译器主要部分 Hive SQL的编译过程编译器主要部分 Hive 阅读全文

posted @ 2019-02-21 21:22 LestatZ 阅读(1294) 评论(0) 推荐(0)

Pymongo index索引相关操作总结

摘要：简单总结一下pymongo中与index操作相关一些函数, 常用的有：create_indexdrop_indexindex_information其中最主要的是create_index, 可以用它来为mongo的collection建立索引。以下操作一些简... 阅读全文

posted @ 2019-02-21 15:21 LestatZ 阅读(2726) 评论(0) 推荐(0)

[Hive笔记]Hive数据模型

摘要：Hive数据模型 Hive中的数据模型主要分为：表，这些类似于关系数据库中的表。表可以过滤，投影，连接和联合。此外，表的所有数据都存储在HDFS的目录中。 Hive还支持外部表的概念，其中通过向表创建DDL提供适当的位置，可以在HDFS中的现有文件或目录上创建表。分区，每个表可以有一个或多个分区阅读全文

posted @ 2019-02-20 21:27 LestatZ 阅读(1026) 评论(0) 推荐(0)

Pig Control Structures控制结构 - 删除空文件输出

摘要：PigLatin中没有类似于if-else的控制结构。如果需要完成类似的控制结构，则需要使用embedded pig来完成。例如我们可以在Python中嵌入Pig Latin语句和Pig命令（请确保Jython jar包含在类路径中）。以下例子为判断pig作... 阅读全文

posted @ 2019-02-20 16:24 LestatZ 阅读(134) 评论(0) 推荐(0)

Pig Mongo 连接串多个host报错

摘要：问题描述原来pig作业中的连接器只指定了一个primary host，为了防止mongo服务器主从切换时能够继续使用，于是想利用replica set的特性，将多个host传给mongo连接器：例如 ‘mongodb://user:passwd@host1:port1,host2:port2/’ 阅读全文

posted @ 2019-02-20 12:41 LestatZ 阅读(146) 评论(0) 推荐(0)

Hive to Mongo Update性能差

摘要：文章目录问题描述解决办法文章目录问题描述解决办法问题描述解决办法问题描述解决办法问题描述解决办法问题描述项目中有一个作业是通过pig来利用hive表的数据来更新mongo表的数据，简而言之就是Hive to Mongo use MongoUpdateStorage. 这种方阅读全文

posted @ 2019-02-19 22:21 LestatZ 阅读(433) 评论(0) 推荐(0)

Mac上解决访问github慢之懒人版

摘要：写了一个简单脚本用来解决Mac上访问github慢的问题，基本思路如下：访问 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 获取github的IP地址在/etc/hosts中加入查询到的I... 阅读全文

posted @ 2019-02-18 21:20 LestatZ 阅读(1407) 评论(0) 推荐(0)

[Hive笔记]Hive架构

摘要：Hive架构图 Hive主要组件 UI 用户界面用户通过用户界面（CLI或则Web UI）向系统提交查询或者其他操作 Driver 驱动器接受查询的组件，提供了JDBC/ODBC接口。 Compiler 编译器解析查询的组件，对不同的查询块或查询语句进行语义解析，并配合表和分区的元数据生成执行阅读全文

posted @ 2019-02-18 16:23 LestatZ 阅读(223) 评论(0) 推荐(0)

[学习笔记]CA Autosys(1)

摘要：start_mins 的最小间隔是15分钟如果版本允许(11.3.x)，推荐使用FileTrigger代替FileWatcher condition的长度上限是4096个字符要配置复杂的条件condition，请将一系列条件和AND或OR逻辑运算符组合使用。可以使用管道符号（|）代替OR，（＆阅读全文

posted @ 2019-02-17 21:19 LestatZ 阅读(403) 评论(0) 推荐(0)

[文章翻译]时间序列异常检测

摘要：文章目录背景介绍文章翻译Abstract 摘要Keywords 关键词INTRODUCTION 简介RELATED WORK 相关工作DATA PREPROCESSING AND INITIAL ANALYTICS 数据预处理与初始分析DETECTION R... 阅读全文

posted @ 2019-02-17 20:09 LestatZ 阅读(1128) 评论(0) 推荐(0)

Mac上配置IntelliJ IDEA的Spark源码阅读环境

摘要：文章目录环境准备主要工具/软件Git 安装IntelliJ IDEA 下载及 Scala 插件安装sbt 安装基本步骤获取git目录在IDEA中构建sparkIDEA中查看代码环境准备主要工具/软件gitIntellij IDEA & Scala Plugi... 阅读全文

posted @ 2019-02-17 18:22 LestatZ 阅读(680) 评论(0) 推荐(0)

Apache Pig使用MongoLoader产生大量空文件问题

摘要：文章目录问题描述原因分析解决方法文章目录问题描述原因分析解决方法问题描述原因分析解决方法问题描述原因分析解决方法问题描述项目中需要利用Pig MongoLoader将MongoDB里面的数据每日增量备份到hive的外部分区表中，但是在检查hdfs文件发现分区文件夹下产生阅读全文

posted @ 2019-02-16 22:08 LestatZ 阅读(252) 评论(0) 推荐(0)

执行sparksql出现OOM问题

摘要：一开始使用yarn-client模式提交作业时一切正常，但换成cluster模式下使用sparksql方法执行hive查询语句时，却出现了如下的OOM问题：出现这个错误原主要原因是太多的类或者太大的类都被加载到永久代，导致存储器中永久代的内存耗尽。而我们这里主要是因为SparkSql在获取Hiv 阅读全文

posted @ 2019-02-16 21:03 LestatZ 阅读(1591) 评论(0) 推荐(0)

VirtualBox共享MacOS的VPN

摘要：在Mac上装了一个Cloudera的quickstart版本到virtualbox里面发现无法共享主机的VPN，简单搜索了一下，只需要做一些基本的配置就可以了。设置主机SS的HTTP 代理如图：设置虚拟机网络连接模式选择桥接模式,并选择WiFI(Airpor... 阅读全文

posted @ 2019-02-16 12:28 LestatZ 阅读(0) 评论(0) 推荐(0)

[TD笔记]Teradata XML

摘要：简介Teradata数据库 (以下简称TD) 为存储和处理XML数据提供以下支持：XML数据类型，允许用户以紧密二进制形式存储XML内容，用来保留XML文档的信息集支持常见XML操作，如解析，验证，转换（XSLT）和查询（XPath和XQuery）等和方法用... 阅读全文

posted @ 2019-02-16 12:11 LestatZ 阅读(318) 评论(0) 推荐(0)

Redhat上离线/非root安装python库

摘要：文章目录问题概述主要思路NotesUse external python packageRPM packageUsing rpm2cpio (Recommended)Test python package using `export PYTHONPATH`B... 阅读全文

posted @ 2019-02-16 12:09 LestatZ 阅读(714) 评论(2) 推荐(0)

[TD笔记]Teradata数据压缩

摘要：工作上需要研究Teradata CLOB类型，因为去看了官方文档，自己做了点笔记如下：Teradata数据压缩概况本章描述了几种数据压缩选项，它能够帮助你减少磁盘空间的使用，在某种情况下，还可以提高I/O性能。多值压缩（MVC)算法压缩（ALC）行压缩行标题... 阅读全文

posted @ 2019-02-16 11:59 LestatZ 阅读(463) 评论(0) 推荐(0)

Mac共享主机网络给虚拟机

摘要：因工作需要需要且身边没有windows系统的笔记本，无奈只好在mac上利用虚拟机安装一个win7系统作为临时过渡。我使用的虚拟机软件是Parallels Desktop（以下简称PD）PD提供三种不同网络模式供用户选择:共享网络（推荐）桥接网络Host-On... 阅读全文

posted @ 2019-02-16 11:39 LestatZ 阅读(922) 评论(0) 推荐(0)

Mac上如何用命令行修改proxy设置

摘要：Mac上如何用命令行修改proxy设置在Mac OS上，除了通过系统设置的UI界面修改网络设置外，我们还可以用 networksetup 这个命令修改需要的网络代理设置。以下是我利用该命令导出我ss的proxy 参数：networksetup -setweb... 阅读全文

posted @ 2019-02-16 10:56 LestatZ 阅读(1652) 评论(0) 推荐(0)

Mac上解决访问github慢问题

摘要：Mac 访问github慢访问 http://github.global.ssl.fastly.net.ipaddress.com/#ipinfo 获取github的IP地址在/etc/hosts中加入查询到的IP和域名（需要root 权限）在终端在输以下... 阅读全文

posted @ 2019-02-16 10:43 LestatZ 阅读(730) 评论(0) 推荐(0)

LestatZ

02 2019 档案

公告