随笔分类 -  爬虫

摘要:from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">se 阅读全文
posted @ 2019-04-13 11:42 慕沁
摘要:''' 任务添加函数、任务执行函数;进程、线程切换函数;进、线程开启函数; ''' import requests from urllib import request import ssl ssl._create_default_https_context = ssl._create_unverified_context from datetime import datetime from m... 阅读全文
posted @ 2019-04-07 13:07 慕沁
摘要:1、乱码问题 在获取到response, response.encoding='utf8' 如果上边还是乱码的话,看一下response.encoding是什么格式; 然后再对乱码解码再编码(img_name.encode('ISO-8859-1').decode('gbk') 2、HTTPConn 阅读全文
posted @ 2019-04-07 10:26 慕沁
摘要:from urllib import request import requests import base64 from lxml import etree import os headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck... 阅读全文
posted @ 2019-04-07 10:03 慕沁
摘要:提升scrapy爬取数据的效率 增加并发 CONCURRENT_REQUESTS = 32 降低日志等级 LOG_LEVEL = 'INFO' 禁止cookie COOKIES_ENABLED = False 延迟下载秒数 DOWNLOAD_DELAY = 10 禁止重试 RETRY_ENABLED 阅读全文
posted @ 2019-04-03 08:41 慕沁
摘要:- scrapy genspider -t crawl xxx xxx.com - 连接提取器 LinkExtactor(allow='正则') - 规则提取器 Rule(link,callback,follow=True) # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors ... 阅读全文
posted @ 2019-04-03 08:27 慕沁
摘要:# 1、输入账号、密码,然后点击登陆 # 2、点击按钮,弹出没有缺口的图 # 3、针对没有缺口的图片进行截图 # 4、点击滑动按钮,弹出有缺口的图 # 5、针对有缺口的图片进行截图 # 6、对比两张图片,找出缺口,即滑动的位移 # 7、按照人的行为行为习惯,把总位移切成一段段小的位移 # 8、按照位移移动 # 9、完成登录 import time import os from selenium.... 阅读全文
posted @ 2018-12-14 11:53 慕沁
摘要:云打码 阅读全文
posted @ 2018-11-24 16:25 慕沁
摘要:selenium : 三方库,可以实现让浏览器完成自动化的操作 谷歌无头浏览器 阅读全文
posted @ 2018-11-24 16:22 慕沁
摘要:engine_started = object() engine_stopped = object() spider_opened = object() spider_idle = object() spider_closed = object() spider_error = object() request_scheduled = object() request_dropped = obj... 阅读全文
posted @ 2018-10-10 13:37 慕沁
摘要:Memcached安装: 启动Memcached memcached -d -m 10 -u root -l 192.168.187.129 -p 12000 -c 256 -P /tmp/memcached.pid Memcached命令 Python操作Memcached 安装API 在memc 阅读全文
posted @ 2018-09-11 18:11 慕沁
摘要:Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 基于 阅读全文
posted @ 2018-09-11 17:46 慕沁
摘要:Scrapy框架 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下 >HtmlXPathSelector提供了类似beautifulsoup解析html的功能 具体使用方法: scrapy 爬虫 ***.py 在spider文件夹下的具体爬虫.py 我们声明当下载完一个 阅读全文
posted @ 2018-09-11 13:28 慕沁