摘要: 彼岸网 图片下载 img.py items.py piplines.py settings.py 注意更改 开启的管道类 设置文件路径 IMG_STORE 阅读全文
posted @ 2019-08-09 17:09 我的IT007 阅读(340) 评论(0) 推荐(0)
摘要: scrapy 先记下吧 案例 BOSS 直聘 爬取 (深度爬取)+持久化存储 boos.py items.py pipelines.py settings.py # -*- coding: utf-8 -*- # Scrapy settings for bossPro project # # For 阅读全文
posted @ 2019-08-08 21:48 我的IT007 阅读(353) 评论(0) 推荐(0)
摘要: 调用了超级鹰(两个文件 ,从超级鹰导入文件) 注意电脑分辨率调为100%(这样图片位置才能正好 )(或者里面的x,y 对应等比例缩放) 阅读全文
posted @ 2019-08-07 21:16 我的IT007 阅读(629) 评论(0) 推荐(0)
摘要: 无头浏览器 - phantomJs:无可视化界面的浏览器 - 谷歌无头浏览器: from selenium.webdriver.chrome.options import Options。 chrome_options = Options() chrome_options.add_argument( 阅读全文
posted @ 2019-08-07 18:47 我的IT007 阅读(2969) 评论(0) 推荐(0)
摘要: 图片懒加载 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的 阅读全文
posted @ 2019-08-07 17:44 我的IT007 阅读(218) 评论(0) 推荐(0)
摘要: 移动的数据的爬取 使用举例 import requests # headers = { # # 'User-Agent':'qu tou tiao/3.6.1 (iPhone; iOS 12.3.1; Scale/3.00)/qukan_ios' # # } # # url = 'https://a 阅读全文
posted @ 2019-08-07 14:45 我的IT007 阅读(730) 评论(0) 推荐(0)
摘要: 协程 多任务异步爬虫测试 aiohttp import aiohttp import asyncio import time import requests from lxml import etree headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 阅读全文
posted @ 2019-08-06 18:27 我的IT007 阅读(561) 评论(0) 推荐(0)
摘要: 代理 cookie 验证码 实例展示 线程池 异步爬取 对比: 阅读全文
posted @ 2019-08-05 19:52 我的IT007 阅读(434) 评论(0) 推荐(0)
摘要: 编码的流程 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析的作用 用于获取页面中局部的页面源码数据 如何实现数据解析 正则 bs4(独有) xpath(最为通用) pyquery 数据解析的通用原理是什么? 标签定位 将标签中间存储的文本数据或者其属性值进行捕获 指定url 发起 阅读全文
posted @ 2019-08-04 10:40 我的IT007 阅读(692) 评论(0) 推荐(0)
摘要: 写入excl表中! request 添加一个cell:a b 删除cell:x 双击:进入可编辑模式 切换cell的模式: y:markdown->code m:code->markdown tab: 执行cell:shift+enter 打开帮助文档: shift+tab y:markdown-> 阅读全文
posted @ 2019-08-01 16:44 我的IT007 阅读(294) 评论(0) 推荐(0)