文章分类 -  爬虫

爬虫学习
摘要:Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 阅读全文
posted @ 2018-06-17 15:28 liang哥哥 阅读(597) 评论(0) 推荐(0)
摘要:代理池设计 获取器:就是我们的爬虫接口,抓取免费ip,这里我们为了后面的可扩展性,需要支持自由添加爬虫进获取器; 数据库:我们选择Mongodb存放有效的代理,上面文章写了关于Mongodb可扩展的封装,我们这里直接搬来使用; 调度器:主要是用于检测爬虫是否有效,并添加有效代理入库,定制计划任务检测 阅读全文
posted @ 2018-06-17 14:33 liang哥哥 阅读(1363) 评论(0) 推荐(1)
摘要: 阅读全文
posted @ 2018-06-16 23:50 liang哥哥 阅读(58) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 23:49 liang哥哥 阅读(99) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 23:46 liang哥哥 阅读(71) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 23:39 liang哥哥 阅读(63) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 23:28 liang哥哥 阅读(97) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 23:25 liang哥哥 阅读(70) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 21:44 liang哥哥 阅读(79) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 21:25 liang哥哥 阅读(64) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 21:09 liang哥哥 阅读(72) 评论(0) 推荐(0)
摘要:from bs4 import BeautifulSoup html_doc = """ The Dormouse's story asdf The Dormouse's story总共 f Once upon a time there were three little sisters; and their names were... 阅读全文
posted @ 2018-06-16 21:04 liang哥哥 阅读(142) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-16 10:38 liang哥哥 阅读(52) 评论(0) 推荐(0)
摘要:网页的三大特性: 1.每个网页都有自己的网页来进行定位。 2.网页使用HTML来描述页面。 3.网页都使用HTTP/HTTPS协议来传输HTML数据。爬虫的设计思路: 1.首先确定爬去网页url地址。 2.通过HTTP/HTTPS协议来获取对应的HTML页面。 3.提取HTML页面里用的数据。 a. 阅读全文
posted @ 2018-06-15 16:34 liang哥哥 阅读(228) 评论(0) 推荐(0)
摘要:Scrapy-Redis分步式策略: Master端(核心服务器):例如在windows,搭建一个Redis数据库,不负责爬取,只负责url指纹判重,Request的分配,以及数据库的存储。 Slaver端(爬虫程序执行端):负责执行爬虫程序,运行程序过程中提交新的Request给Master。 1 阅读全文
posted @ 2018-06-12 00:23 liang哥哥 阅读(100) 评论(0) 推荐(0)
摘要:Cookie概念 在浏览某些 网站 时,这些网站会把 一些数据存在 客户端 , 用于使用网站 等跟踪用户,实现用户自定义 功能. 是否设置过期时间: 如果不设置 过期时间,则表示这个 Cookie生命周期为 浏览器会话期间 , 只要关闭浏览器,cookie就消失了. 这个生命期为浏览会话期的cookie,就是会话Co... 阅读全文
posted @ 2018-06-04 14:50 liang哥哥 阅读(105) 评论(0) 推荐(0)
摘要:读取csv文件 import csv 1. with open('d:/zl.csv', 'w') as f: # 创建一个my对象 my = csv.writer(f) # writerow一行一行的写入 my.writerow([7,'g']) lis = [[1,2,3],[4,5,6]] # writerows一次写入多行 my.... 阅读全文
posted @ 2018-06-02 15:56 liang哥哥 阅读(207) 评论(0) 推荐(0)
摘要:firefox:https://udger.com/resources/ua-list/browser-detail?browser=FIREFOX google: https://udger.com/resources/ua-list/browser-detail?browser=Chrome 代 阅读全文
posted @ 2018-05-29 23:21 liang哥哥 阅读(118) 评论(0) 推荐(0)
摘要:import requests import csv import re from tqdm import tqdm from urllib.parse import urlencode from requests.exceptions import RequestException def get 阅读全文
posted @ 2018-05-24 09:32 liang哥哥 阅读(101) 评论(0) 推荐(0)
摘要:因为面试的是Python爬虫岗位,面试官大多数会考察面试者的基础的Python知识,包括但不限于: Python2.x与Python3.x的区别 Python的装饰器 Python的异步 Python的一些常用内置库,比如多线程之类的 Python2.x与Python3.x的区别 Python的装饰 阅读全文
posted @ 2018-05-22 16:08 liang哥哥 阅读(252) 评论(0) 推荐(0)