06 2018 档案

摘要:sqoop简介 sqoop是一款开源的工具,主要用于在hadoop和与传统的数据库之间进行的数据的传递,可以将一个关系型数据库中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。sqoop的命名由来就是sql to hadoop,它的原理就是将导入或者导出命令翻译成M 阅读全文
posted @ 2018-06-24 20:49 古明地盆 阅读(1553) 评论(0) 推荐(0)
摘要:当我们在读写文件的时候,如果多个进程同时进行操作的话,那么很容易出现混乱。这时候就需要加锁了,正如操作数据库表的时候需要加锁一样。 而 Python 提供了一个库:fcntl,通过 fcntl.flock 函数即可实现对文件进行加锁和解锁。 注意:这个模块目前不支持 Windows,我们只能在类 U 阅读全文
posted @ 2018-06-23 21:09 古明地盆 阅读(1672) 评论(0) 推荐(0)
摘要:楔子 我们之前在格式化字符串的时候会使用百分号占位符或者format函数,但Python在3.6版本的时候新增了一个格式化字符串的方法,称之为f-string。下面我们就来看看用法。 格式化字符串的方式 我们先来看看之前格式化字符串时,所使用的方式。 name = "古明地觉" age = 17 w 阅读全文
posted @ 2018-06-23 16:37 古明地盆 阅读(2285) 评论(0) 推荐(1)
摘要:楔子 pandas里面有这么一个方法:pd.read_clipboard,可以根据你复制的内容生成DataFrame。是的,就是我们平时选中,然后复制、或者Ctrl+C时拷贝的内容,所以比较神奇,那么pandas到底是怎么做到的,它是怎么读出我们使用Ctrl +C复制的内容呢。 看了一下源码,不同的 阅读全文
posted @ 2018-06-23 16:33 古明地盆 阅读(4589) 评论(0) 推荐(0)
摘要:Python 发送邮件可以使用标准库 smtplib,但是那个库使用起来比较麻烦。下面介绍一个第三方库:yagmail,发送邮件简直不能更方便。首先进行安装,直接 pip install yagmail 即可。 如果你要发送邮件,首先你必须要有一个邮箱,然后开启SMTP服务,并拿到相应的授权码。 这 阅读全文
posted @ 2018-06-22 16:29 古明地盆 阅读(617) 评论(0) 推荐(0)
摘要:初识 RabbitMQ 下面我们来学习一下 RabbitMQ,它是一款实现了高级消息队列协议的消息中间件,可以和不同的进程进行通信,从而实现上下游之间的消息传递。有了消息中间件之后,上游服务和下游服务就无需直接通信了,上游服务将消息发送到队列中,下游从队列中去取即可,从而实现上下游服务之间的 "逻辑 阅读全文
posted @ 2018-06-22 09:32 古明地盆 阅读(3176) 评论(4) 推荐(1)
摘要:数仓分层都分哪些层? 一般来说,数据仓库我们可以分为如下5层: 关于数仓分层,不同的公司分的层数是不一样的,并且数仓的每一层的命名也没有一个统一的标准,比如这一层就叫这个名字,但是整体思想是一样的。 ODS层: 用于存放原始数据,数据不做任何修改,所以这相当于起到一个备份作用。因为在数仓建设当中,数 阅读全文
posted @ 2018-06-20 18:12 古明地盆 阅读(3551) 评论(1) 推荐(2)