爬虫 - 随笔分类 - 慕沁

Python模块 - lxml (xpath)

摘要：from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">se 阅读全文

posted @ 2019-04-13 11:42 慕沁

多线程爬虫

摘要：''' 任务添加函数、任务执行函数；进程、线程切换函数；进、线程开启函数； ''' import requests from urllib import request import ssl ssl._create_default_https_context = ssl._create_unverified_context from datetime import datetime from m... 阅读全文

posted @ 2019-04-07 13:07 慕沁

爬虫遇到的问题

摘要：1、乱码问题在获取到response, response.encoding='utf8' 如果上边还是乱码的话，看一下response.encoding是什么格式；然后再对乱码解码再编码（img_name.encode('ISO-8859-1').decode('gbk'） 2、HTTPConn 阅读全文

posted @ 2019-04-07 10:26 慕沁

爬取加密数据

摘要：from urllib import request import requests import base64 from lxml import etree import os headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck... 阅读全文

posted @ 2019-04-07 10:03 慕沁

爬虫效率_反扒

摘要：提升scrapy爬取数据的效率增加并发 CONCURRENT_REQUESTS = 32 降低日志等级 LOG_LEVEL = 'INFO' 禁止cookie COOKIES_ENABLED = False 延迟下载秒数 DOWNLOAD_DELAY = 10 禁止重试 RETRY_ENABLED 阅读全文

posted @ 2019-04-03 08:41 慕沁

crawlspider

摘要：- scrapy genspider -t crawl xxx xxx.com - 连接提取器 LinkExtactor(allow='正则'） - 规则提取器 Rule(link,callback,follow=True) # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors ... 阅读全文

posted @ 2019-04-03 08:27 慕沁

破解滑动验证

摘要：# 1、输入账号、密码，然后点击登陆 # 2、点击按钮，弹出没有缺口的图 # 3、针对没有缺口的图片进行截图 # 4、点击滑动按钮，弹出有缺口的图 # 5、针对有缺口的图片进行截图 # 6、对比两张图片，找出缺口，即滑动的位移 # 7、按照人的行为行为习惯，把总位移切成一段段小的位移 # 8、按照位移移动 # 9、完成登录 import time import os from selenium.... 阅读全文

posted @ 2018-12-14 11:53 慕沁

验证码识别

摘要：云打码阅读全文

posted @ 2018-11-24 16:25 慕沁

爬取动态加载的数据

摘要：selenium ：三方库，可以实现让浏览器完成自动化的操作谷歌无头浏览器阅读全文

posted @ 2018-11-24 16:22 慕沁

scrapy - 信号

摘要：engine_started = object() engine_stopped = object() spider_opened = object() spider_idle = object() spider_closed = object() spider_error = object() request_scheduled = object() request_dropped = obj... 阅读全文

posted @ 2018-10-10 13:37 慕沁

memcache

摘要：Memcached安装：启动Memcached memcached -d -m 10 -u root -l 192.168.187.129 -p 12000 -c 256 -P /tmp/memcached.pid Memcached命令 Python操作Memcached 安装API 在memc 阅读全文

posted @ 2018-09-11 18:11 慕沁

requests

摘要：Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的基于阅读全文

posted @ 2018-09-11 17:46 慕沁

scrapy

摘要：Scrapy框架 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下 >HtmlXPathSelector提供了类似beautifulsoup解析html的功能具体使用方法： scrapy 爬虫 ***.py 在spider文件夹下的具体爬虫.py 我们声明当下载完一个阅读全文

posted @ 2018-09-11 13:28 慕沁

慕沁

随笔分类 - 爬虫

公告