摘要: 在爬取一些网页的时候,往往有些网页的内容是需要登陆才可以获取的,这个时候我们就需要用到模拟登陆。 一开始搞模拟登陆的时候,我尝试过... 阅读全文
posted @ 2017-11-28 09:11 mrliqifeng 阅读(11) 评论(0) 推荐(0)
摘要: 当我们使用爬虫大量重复的请求一个网站时,我们可能回去到封IP的情况,这时候我们就需要使用代理来伪装我们的IP,使之请求能够再次发... 阅读全文
posted @ 2017-11-27 18:14 mrliqifeng 阅读(53) 评论(0) 推荐(0)
摘要: Python是运行在解释器中的语言,查找资料知道,python中有一个全局锁(GIL),在使用多进程(Thread)的情况... 阅读全文
posted @ 2017-11-07 11:54 mrliqifeng 阅读(21) 评论(0) 推荐(0)
摘要: 获取Mongodb安装包 我们首先要去官网获得对应版本的安装包 https://www.mongodb.com/download-c... 阅读全文
posted @ 2017-11-07 11:09 mrliqifeng 阅读(10) 评论(0) 推荐(0)
摘要: 统计分析基础 (一)数据统计与图表 1 数据统计 1.1 统计学 统... 阅读全文
posted @ 2017-10-12 14:30 mrliqifeng 阅读(104) 评论(0) 推荐(0)
摘要: 继2014年3月份Java 8发布之后,Open JDK加快了开发速度, Java 9的发布已经提上日程。预计在2016年发布Jav... 阅读全文
posted @ 2017-10-11 22:18 mrliqifeng 阅读(12) 评论(0) 推荐(0)
摘要: 简介以及安装: selenium作为一个自动化的测试工具,主要用于web页面的测试,在Python爬虫中,我们可以使用此工具来对网页... 阅读全文
posted @ 2017-10-11 08:14 mrliqifeng 阅读(40) 评论(0) 推荐(0)
摘要: 测试用的文件为txt格式文件,大小为2.12MB package IO;import java.io.BufferedReader;... 阅读全文
posted @ 2017-09-23 20:55 mrliqifeng 阅读(21) 评论(0) 推荐(0)
摘要: 之前呢,我怕去了百度贴吧的一些图片,并且保存的下来,然后我想用相同的方法爬取淘女郎-美人库的内容,发现不管怎么编写正则表达式都获取不... 阅读全文
posted @ 2017-09-18 20:10 mrliqifeng 阅读(19) 评论(0) 推荐(0)
摘要: 首先,我理解中的爬虫就是一个网页抓取工具和信息筛选工具的集合。 其中的工作原理无非就是首先获取到网页的源码,然后再通过筛选工具,将... 阅读全文
posted @ 2017-09-13 23:15 mrliqifeng 阅读(57) 评论(0) 推荐(0)