文章分类 - 爬虫
爬虫学习
摘要:Python学习网络爬虫主要分3个大的版块:抓取,分析,存储
阅读全文
摘要:代理池设计 获取器:就是我们的爬虫接口,抓取免费ip,这里我们为了后面的可扩展性,需要支持自由添加爬虫进获取器; 数据库:我们选择Mongodb存放有效的代理,上面文章写了关于Mongodb可扩展的封装,我们这里直接搬来使用; 调度器:主要是用于检测爬虫是否有效,并添加有效代理入库,定制计划任务检测
阅读全文
摘要:from bs4 import BeautifulSoup html_doc = """ The Dormouse's story asdf The Dormouse's story总共 f Once upon a time there were three little sisters; and their names were...
阅读全文
摘要:网页的三大特性: 1.每个网页都有自己的网页来进行定位。 2.网页使用HTML来描述页面。 3.网页都使用HTTP/HTTPS协议来传输HTML数据。爬虫的设计思路: 1.首先确定爬去网页url地址。 2.通过HTTP/HTTPS协议来获取对应的HTML页面。 3.提取HTML页面里用的数据。 a.
阅读全文
摘要:Scrapy-Redis分步式策略: Master端(核心服务器):例如在windows,搭建一个Redis数据库,不负责爬取,只负责url指纹判重,Request的分配,以及数据库的存储。 Slaver端(爬虫程序执行端):负责执行爬虫程序,运行程序过程中提交新的Request给Master。 1
阅读全文
摘要:Cookie概念 在浏览某些 网站 时,这些网站会把 一些数据存在 客户端 , 用于使用网站 等跟踪用户,实现用户自定义 功能. 是否设置过期时间: 如果不设置 过期时间,则表示这个 Cookie生命周期为 浏览器会话期间 , 只要关闭浏览器,cookie就消失了. 这个生命期为浏览会话期的cookie,就是会话Co...
阅读全文
摘要:读取csv文件 import csv 1. with open('d:/zl.csv', 'w') as f: # 创建一个my对象 my = csv.writer(f) # writerow一行一行的写入 my.writerow([7,'g']) lis = [[1,2,3],[4,5,6]] # writerows一次写入多行 my....
阅读全文
摘要:firefox:https://udger.com/resources/ua-list/browser-detail?browser=FIREFOX google: https://udger.com/resources/ua-list/browser-detail?browser=Chrome 代
阅读全文
摘要:import requests import csv import re from tqdm import tqdm from urllib.parse import urlencode from requests.exceptions import RequestException def get
阅读全文
摘要:因为面试的是Python爬虫岗位,面试官大多数会考察面试者的基础的Python知识,包括但不限于: Python2.x与Python3.x的区别 Python的装饰器 Python的异步 Python的一些常用内置库,比如多线程之类的 Python2.x与Python3.x的区别 Python的装饰
阅读全文