随笔 - 25  文章 - 0 评论 - 14 trackbacks - 0

共 3 页: 上一页 1 2 3
摘要:前文介绍了python的scrapy爬虫框架和登录知乎的方法.这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中.首先,看一下我要爬取哪些内容:如下图所示,我要爬取一个问题的6个信息:问题的id(question_id)标题(title)问题描述(intro)回答个数(answer_num)关注人数(attention_uv)浏览次数(read_pv)爬取结果我保存到mysql数据库中,... 阅读全文
posted @ 2018-09-13 10:09 wangt.cc 阅读 (75) 评论 (0) 编辑
摘要:java并发编程中最长用到的关键字就是synchronized了,这里讲解一下这个关键字的用法和容易混淆的地方.synchronized关键字涉及到锁的概念, 在java中,synchronized锁大家又通俗的称为:方法锁,对象锁 和 类锁 三种.先上结论!1 无论是修饰方法还是修饰代码块都是 对象锁,当一个线程访问一个带synchronized方法时,由于对象锁的存在,所有加synchroni... 阅读全文
posted @ 2018-09-12 09:43 wangt.cc 阅读 (791) 评论 (1) 编辑
摘要:前面了解了scrapy框架的大概各个组件的作用, 现在要爬取知乎数据,那么第一步就是要登录! 看下知乎的登录页面发现登录主要是两大接口 一: 登录页面地址,获取登录需要的验证码,如下图 打开知乎登录页面,需要输入用户名和密码, 还有一个验证码, 看chrome 调试工具发现验证码是这个地址返回的:  阅读全文
posted @ 2018-09-10 15:30 wangt.cc 阅读 (109) 评论 (0) 编辑
摘要:python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 python和scrapy的安装就不介绍了,资料很多 这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序 首先开始一个scrapy项目 用命令: scrapy startproject 项目名 创 阅读全文
posted @ 2018-09-05 10:17 wangt.cc 阅读 (107) 评论 (0) 编辑
摘要:Druid.io(以下简称Druid)是2013年底开源出来的, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。 Druid简介: Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、 阅读全文
posted @ 2018-09-04 10:21 wangt.cc 阅读 (2148) 评论 (0) 编辑
共 3 页: 上一页 1 2 3