发酸的丶蛋炒饭

2018年12月6日

摘要：一、项目架构分析： 1、项目描述：将通话记录数据由原来的oracle系统改造成使用大数据架构解决方案。主要使用hbase做通话数据的存储方案。需要将原有oracle数据导入到hbase中，以及新生成数据通过flume收集到kafka，再通过消费者存储到hbase数据库。 2、项目的目标： hado 阅读全文

posted @ 2018-12-06 19:46 发酸的丶蛋炒饭阅读(557) 评论(0) 推荐(0)

2018年11月9日

hive详解

摘要：、hive： —————————————————————————————— ·hive解释 hive是建立在hdfs之上，对数据操作分析的工具。hive存储数据结构(schema)在数据库中,处理的数据进入hdfs. ·hive结构 hdfs：存储真正的数据 Meta store:元数据库：存储表阅读全文

posted @ 2018-11-09 20:25 发酸的丶蛋炒饭阅读(341) 评论(0) 推荐(0)

2018年11月5日

hadoop文件的序列化（转）

摘要：转：1、为什么要序列化？一般来说，”活的”对象只存在内存里，关机断电就没有了。而且”活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储”活的”对象，可以将”活的”对象发送到远程计算机。 2、什么是序列化？序列化就是指将对象（实例）转化为字节流（字符数组）。反阅读全文

posted @ 2018-11-05 20:50 发酸的丶蛋炒饭阅读(320) 评论(0) 推荐(0)

2018年9月19日

python 多线程模板

摘要： 1 #多线程模板 2 import threading 3 class A(threading.Thread): 4 def __init__(self): 5 threading.Thread.__init__(self) 6 def run(self): 7 for i in range(0,10): 8 ... 阅读全文

posted @ 2018-09-19 11:15 发酸的丶蛋炒饭阅读(373) 评论(0) 推荐(0)

2018年9月18日

python爬微信文章

摘要：本代码爬取前两页微信文章注意： 1.代理服务器应即使更换，防止网站屏蔽 2.伪装浏览器类型：Chrome 阅读全文

posted @ 2018-09-18 18:03 发酸的丶蛋炒饭阅读(461) 评论(0) 推荐(0)

2018年9月17日

爬取淘宝上面图片

摘要： 1 #自动爬取淘宝图片 2 #先看看淘宝上月饼相连的三个链接的例子（分别是第二页、第三页、第四页）： 3 #可以看到&p4ppushleft=1%2C48&s=44,88,132 每跳转一页增加44 这里是跳转页面抓图片的关键 4 ''' 5 https://s.taobao.com/search?q=%E6%9C%88%E9%A5%BC 6 &imgfile=&commend=... 阅读全文

posted @ 2018-09-17 15:24 发酸的丶蛋炒饭阅读(647) 评论(0) 推荐(0)

2018年9月15日

浏览器伪装技术爬取csdn伪装技术

摘要：友情提示：一般的网站都会有反爬虫技术，因此想要爬取这些网站信息就必须学会浏览器的伪装想要伪装成浏览器则必须为爬虫添加浏览器报头信息，这些报头信息需要技术人员亲自从网站代码中复制例如csdn报头信息如下：阅读全文

posted @ 2018-09-15 22:50 发酸的丶蛋炒饭阅读(453) 评论(0) 推荐(0)

python爬取新浪新闻

摘要：一、这里提前解释说明： urlretrieve(url, filename=None, reporthook=None, data=None) 参数filename指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）参数reporthook是一个回调函数，当连接上服务器、阅读全文

posted @ 2018-09-15 22:42 发酸的丶蛋炒饭阅读(626) 评论(0) 推荐(0)

爬虫防屏蔽之代理服务器运用

摘要：这里，提供一个代理服务器爬取百度的例子：最后返回爬取数据的长度最后若输出data长度这说明成功爬到数据阅读全文

posted @ 2018-09-15 22:37 发酸的丶蛋炒饭阅读(345) 评论(0) 推荐(0)

2018年7月17日

Idea编译打包过程发生错误

摘要： Idea打包遇到如下问题问题显示遇到 2.2删去发生错误的编译器相应版本的文件包（我的是3.7.0）因为发生错误一定是下载不完整导致的，所以我们只需要重新下载就行了 2.3重新执行maven 的pom文件，这时候maven会重新下载该版本的编译器 2.4编译打包 3.如果还是发生上面的错误。你就阅读全文

posted @ 2018-07-17 17:08 发酸的丶蛋炒饭阅读(693) 评论(0) 推荐(0)

发酸的丶蛋炒饭

公告