摘要:一、MMP数据库MPP是massively parallel processing,一般指使用多个SQL数据库节点搭建的数据仓库系统。执行查询的时候,查询可以分散到多个SQL数据库节点上执行,然后汇总返回给用户。MPP解决了单个SQL数据库不能存放海量数据的问题,但是也存在一些问题,例如:当节点数达到100左右的时候,MPP有些仍会遇到Scalability的问题,速度变慢,或者不稳定。而且,当增... 阅读全文
posted @ 2018-07-10 11:44 DyanLi 阅读 (241) 评论 (0) 编辑
摘要:记录了日常使用时遇到的特殊的查询语句。不断更新~1. SQL查出内容输出到文件hive -e "...Hive SQL..." > /tmp/out sparkhive --disableQuotingForSV=true --slient=true --showHeader=false --outputformat=tsv -e "...SPARK SQL..." > /tmp/out--di... 阅读全文
posted @ 2018-06-29 20:17 DyanLi 阅读 (145) 评论 (0) 编辑
摘要:ROI (Return On Investment): 投资回报率 =订单额/消费量(即广告费用)=(单均额*转化量)/(CPA*转化量)=单均额/CPACPC (Cost Per Click): 按点击计费(平均点击价格)=消费量/点击量CPA (Cost Per Action): 按成果数计费 =消费量/转化量=(CPC*点击量)/(CVR*点击量)=CPC/CVRCPM (Cost Per ... 阅读全文
posted @ 2018-06-28 15:42 DyanLi 阅读 (655) 评论 (1) 编辑
摘要:创建目录hadoop fs -mkdir/input查看hadoop fs -ls递归查看hadoop fs ls -R上传hadoop fs -put 下载hadoop fs -get 删除hadoop fs -rm从本地剪切粘贴到hdfshadoop fs -moveFromLocal /input/xx.txt /input/xx.txt从hdfs剪切粘贴到本地hadoop fs -mov... 阅读全文
posted @ 2018-06-28 11:42 DyanLi 阅读 (169) 评论 (0) 编辑
摘要:1. sz 与 rzsz:将选定的文件从本地发送(send)到远端机器 rz:运行该命令会弹出一个文件选择窗口,从本地选择文件夹,接收(receive)从远端的文件mac 下使用 brew 安装:brew install lrzsz还需要配合iterm2设置一下属性,教程如下:https://www.jianshu.com/p/4926a957a41e2. dd测试带宽dd if = /dev... 阅读全文
posted @ 2018-06-27 21:16 DyanLi 阅读 (85) 评论 (0) 编辑
摘要:Spark是由Scala编写的。Spark作为一款十分易用高效的大数据框架使用越来越广泛,Scala也随之有更多的人去学习。 语言相通,相信有python、java基础的程序员学习Scala并没有太大的难度。但是Scala程序中奇奇怪怪的操作符却让人十分挠头。 Scala的教程大多都是从变量定义、函 阅读全文
posted @ 2018-05-04 10:11 DyanLi 阅读 (989) 评论 (0) 编辑
摘要:记录一下搜索常用语法格式,可以大幅提高检错效率哦~1、双引号(“ ”)格式:“关键词”概念:这个指令的意思是,完全匹配搜索,也就是说,搜索结果的页面中必须包含双引号里面的所有词语,并且顺序不能打乱,词语不能分割。2、减号(-)格式:关键词A -关键词B概念:关键词A后面必须得加一个空格。这个指令的意思是,搜索结果不包含关键词B。3、intitle格式:intitle:关键词 概念:关键词前面的... 阅读全文
posted @ 2018-04-27 21:01 DyanLi 阅读 (89) 评论 (0) 编辑
摘要:一、shell的引号们1."" -> 双引号(不保留完整内容,比如遇到$, 反引号, \ 等就会执行相应的shell) echo "Today is `date`" -> Today is Wed Aug 3 05:50:34 GMT 2011 2.'' -> 单引号(完整保留内容) echo "Today is `date`" -> Today is `date` 3.`` ->... 阅读全文
posted @ 2018-03-21 11:24 DyanLi 阅读 (61) 评论 (0) 编辑
摘要:昨天发了Jupyter的使用,补一篇Jupyter服务器的搭建~一、搭建Jupyter1.安装使用virtualenv建虚拟环境。在虚拟环境中安装jupyter、matplotlib等等需要的库。这里不赘述了。2.配置为Jupyter 相关文件准备一个目录mkdir /data/jupytercd /data/jupyter建立一个目录作为 Jupyter 运行的根目录mkdir /data/ju... 阅读全文
posted @ 2018-01-25 10:55 DyanLi 阅读 (3568) 评论 (0) 编辑
摘要:在腾讯云上搭建了一个Jupyter Notebook 还是很好用的, 这里总结了一些看到的小技巧及快捷键使得我们更加快捷的完成工作。Notebook 与 Vim 有些类似,有两种键盘输入模式,即命令模式和编辑模式。命令模式与编辑模式切换为 Enter / Esc 。一、一些魔法魔法中的魔法,查看所有魔法功能可以用%magic也可以加载本地文件或者网络上的文件%load查看当前目录%pwd使用Ma... 阅读全文
posted @ 2018-01-23 18:35 DyanLi 阅读 (357) 评论 (0) 编辑