摘要: 一、项目架构分析: 1、项目描述: 将通话记录数据由原来的oracle系统改造成使用大数据架构解决方案。主要使用hbase做通话数据的存储方案。需要将原有oracle数据导入到hbase中,以及新生成数据通过flume收集到kafka,再通过消费者存储到hbase数据库。 2、项目的目标: hado 阅读全文
posted @ 2018-12-06 19:46 发酸的丶蛋炒饭 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 、hive: —————————————————————————————— ·hive解释 hive是建立在hdfs之上,对数据操作分析的工具。hive存储数据结构(schema)在数据库中,处理的数据进入hdfs. ·hive结构 hdfs: 存储真正的数据 Meta store:元数据库:存储表 阅读全文
posted @ 2018-11-09 20:25 发酸的丶蛋炒饭 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 转:1、为什么要序列化? 一般来说,”活的”对象只存在内存里,关机断电就没有了。而且”活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储”活的”对象,可以将”活的”对象发送到远程计算机。 2、什么是序列化? 序列化就是指将对象(实例)转化为字节流(字符数组)。反 阅读全文
posted @ 2018-11-05 20:50 发酸的丶蛋炒饭 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 1 #多线程模板 2 import threading 3 class A(threading.Thread): 4 def __init__(self): 5 threading.Thread.__init__(self) 6 def run(self): 7 for i in range(0,10): 8 ... 阅读全文
posted @ 2018-09-19 11:15 发酸的丶蛋炒饭 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 本代码爬取前两页微信文章 注意: 1.代理服务器应即使更换,防止网站屏蔽 2.伪装浏览器类型:Chrome 阅读全文
posted @ 2018-09-18 18:03 发酸的丶蛋炒饭 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 1 #自动爬取淘宝图片 2 #先看看淘宝上月饼相连的三个链接的例子(分别是第二页、第三页、第四页): 3 #可以看到&p4ppushleft=1%2C48&s=44,88,132 每跳转一页增加44 这里是跳转页面抓图片的关键 4 ''' 5 https://s.taobao.com/search?q=%E6%9C%88%E9%A5%BC 6 &imgfile=&commend=... 阅读全文
posted @ 2018-09-17 15:24 发酸的丶蛋炒饭 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 友情提示:一般的网站都会有反爬虫技术,因此 想要爬取这些网站信息 就必须学会浏览器的伪装 想要伪装成浏览器 则必须为爬虫添加浏览器报头信息 ,这些报头信息需要技术人员亲自从网站代码中复制 例如csdn报头信息如下: 阅读全文
posted @ 2018-09-15 22:50 发酸的丶蛋炒饭 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 一、这里提前解释说明: urlretrieve(url, filename=None, reporthook=None, data=None) 参数filename指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。) 参数reporthook是一个回调函数,当连接上服务器、 阅读全文
posted @ 2018-09-15 22:42 发酸的丶蛋炒饭 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 这里,提供一个代理服务器爬取百度的例子: 最后返回爬取数据的长度 最后若输出data长度 这说明成功爬到数据 阅读全文
posted @ 2018-09-15 22:37 发酸的丶蛋炒饭 阅读(315) 评论(0) 推荐(0) 编辑
摘要: Idea打包遇到如下问题 问题显示遇到 2.2删去发生错误的编译器相应版本的文件包(我的是3.7.0)因为发生错误一定是下载不完整导致的,所以我们只需要重新下载就行了 2.3重新执行maven 的pom文件,这时候maven会重新下载该版本的编译器 2.4编译打包 3.如果还是发生上面的错误。 你就 阅读全文
posted @ 2018-07-17 17:08 发酸的丶蛋炒饭 阅读(627) 评论(0) 推荐(0) 编辑