随笔分类 -  爬虫

上一页 1 ··· 6 7 8 9 10 11 12 下一页
摘要:一.中间件中主要有3个函数方法 process_request:处理请求,默认返回值是None process_response:处理响应,默认返回值是response对象 process_exception:处理错误信息,默认返回值是None 二.中间件三个方法的返回值返回的结果 1.proce 阅读全文
posted @ 2019-10-22 21:33 小小咸鱼YwY 阅读(608) 评论(0) 推荐(0)
摘要:`我是对于xxxx小说网进行爬取只讲思路不展示代码`请见谅 一.涉及到的反爬 js加密 css加密 请求头中的 以及 cookie 二.思路 1.对于js加密 对于有js加密信息,我们一般就是找到他加密的 使用 模块来执行js代码即可 怎么找可以参考我之前对于 "链接点我" 2.对于css加密 常见 阅读全文
posted @ 2019-10-22 17:09 小小咸鱼YwY 阅读(2281) 评论(0) 推荐(0)
摘要:一.安装依赖 二.命令 运行爬虫程序如果不打印日志 三.文件说明 scrapy.cfg 项目的主配置信息,用来部署scrapy时使用,爬虫相关的配置信息在settings.py文件中。 items.py 设置数据存储模板,用于结构化数据,如:Django的Model pipelines 数据处理行为 阅读全文
posted @ 2019-10-22 14:52 小小咸鱼YwY 阅读(857) 评论(0) 推荐(0)
摘要:一.异常信息(...gbk.....) 解决办法 因为是 相关报错 就搜索 ,为什么搜这个就是代码写多了 我们会发现这样一段 解决啦~~ 二.异常信息(没有window对象) 解决办法 我们execjs除了 我们还需要 ,我们浏览器上还需要 以及 对象所有呢我们要安装环境 执行 然后呢我们在 开头添 阅读全文
posted @ 2019-10-21 21:24 小小咸鱼YwY 阅读(2854) 评论(0) 推荐(0)
摘要:一.安装模块 二.简单的使用 三.js字符串中模拟浏览器环境 即导入 与`window`对象 一.安装依赖 二.导入包 三.js字符串中添加抬头 python const jsdom = require("jsdom"); const { JSDOM } = jsdom; const dom = n 阅读全文
posted @ 2019-10-21 20:40 小小咸鱼YwY 阅读(2770) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-10-21 16:35 小小咸鱼YwY 阅读(335) 评论(0) 推荐(0)
摘要:只需再fiddler界面GO往右第二个Decode点击一下,让他出现蓝色边框即可 注意:抓取前的他不会进行自动解码,要再重新刷新页面才能获取界面后的内容 阅读全文
posted @ 2019-10-19 18:56 小小咸鱼YwY 阅读(6737) 评论(2) 推荐(0)
摘要:一.介绍 中间人代理可以理解成和中间件差不多 mitmproxy工程工具包,主要包含了3个组件 mitmproxy:拦截的http(s)记录控制台显示 【window不支持】 mitmdump:命令行接口,可以对接python脚本,通过脚本实现监听后的处理,可定制个人需求 mitmweb:web形式 阅读全文
posted @ 2019-10-19 18:46 小小咸鱼YwY 阅读(3410) 评论(0) 推荐(0)
摘要:一.设置步骤 打开Fiddler Tools options https 以及 打钩 Tools options Connections 打钩,并关闭options窗口 Tools Hosts 点击Import Windows hosts files 勾选 点击 重启 二.安装安全证书 运行 获取本 阅读全文
posted @ 2019-10-19 18:34 小小咸鱼YwY 阅读(4295) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2019-10-18 15:59 小小咸鱼YwY 阅读(18) 评论(0) 推荐(0)
摘要:一.m3u8视频格式 一般m3u8文件和 视频流ts文件放在同一目录 而m3u8文件格式存放的一般都是ts 文件的一个列表 二.根据m3u8视频存放以及写法的规律 思路 我们一般网站上能找到的m3u8的url 将m3u8格式的文件下载下来 然后打开m3u8找到里面所有的ts的路径可以用正则匹配 然后 阅读全文
posted @ 2019-10-18 10:20 小小咸鱼YwY 阅读(4745) 评论(0) 推荐(2)
摘要:url编码本质 其实url本质就是将中文字符串进行utf8编码,然后得到编码后的对象转换字符串去掉开头的b'以及末尾的',然后再将\x转换成%,再将里面内容x变成e最后将字符串小写变成大写 举例 #拿我举例 #第一步进行编码 a= '我' a= a.encode('utf8') #第二步进行转字符串 阅读全文
posted @ 2019-10-18 09:45 小小咸鱼YwY 阅读(976) 评论(5) 推荐(0)
摘要:下载:https://www.mongodb.com/ 安装:略 注意: 使用前修改bin目录下配置文件mongodb.cfg,删除最后一行的'mp'字段 1. 启动服务与终止服务 2.创建管理员用户 3.使用账户密码连接mongodb 4.数据库 查看数据库 切换数据库 增加数据库 删除数据库 5 阅读全文
posted @ 2019-10-17 21:26 小小咸鱼YwY 阅读(877) 评论(0) 推荐(0)
摘要:一.render的使用 进行js注入 模拟人操作浏览器 二.render的参数 1.script(str) 执行的js代码 语法: 2.scrolldown(int) 滑动滑块 和sleep联用为多久滑动一次 语法: 3.retries(int) 加载页面失败的次数 4.wait(float) 加载 阅读全文
posted @ 2019-10-17 20:47 小小咸鱼YwY 阅读(6570) 评论(0) 推荐(0)
摘要:`requests html是比较新的爬虫库,作者和requests是同一个作者` 一.安装依赖 我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在他里面 二. 发起请求 :发默认发送的的是 ,且他如果用render 1.解决无头浏览器(针 阅读全文
posted @ 2019-10-17 16:58 小小咸鱼YwY 阅读(1803) 评论(0) 推荐(0)
摘要:一.用requests模块自动保存(保存缓存中) 构建一个session对象session = requests.session() 用构建的session代替requests进行访问他就会自动存啦 只存响应的cookie 不存发送请求时候带的cookie 不同url没有影响 cookie名字一样会 阅读全文
posted @ 2019-10-16 20:26 小小咸鱼YwY 阅读(1093) 评论(0) 推荐(1)
摘要:下面的属性方法都是基于response对象` import requests response = requests.get('url') 一.url 返回值的url 二. text 获得响应体文本信息 三.encoding 返回值的解码格式 四.apparent_encoding reuqests 阅读全文
posted @ 2019-10-16 16:33 小小咸鱼YwY 阅读(976) 评论(0) 推荐(0)
摘要:主要是针对写法 一.requests.get requests.get是调用了requests.request('get', url, params=params, **kwargs) 1.url 协议://域名?参数 如:https://www.baidu,com/s?kw=11111 2.par 阅读全文
posted @ 2019-10-16 15:55 小小咸鱼YwY 阅读(1516) 评论(0) 推荐(0)
摘要:一.用requests库自带的自动检测 二.用pycharm编辑器 第一步:将爬取数据保存txt中 第二步:用pycharm打开txt 然后pycharm会提示你什么编码 三.用网页终端console(个人比较推荐) 浏览器F12 点击console 执行js命令`document.charset` 阅读全文
posted @ 2019-10-16 09:31 小小咸鱼YwY 阅读(635) 评论(0) 推荐(0)
摘要:HTTP中get和post的区别 GET 从指定的资源请求数据。 POST 向指定的资源提交要被处理的数据 | | GET | POST | | | | | | 后退/刷新 | 无害的 | 数据会被重新提交 | | 书签 | 可收藏为书签 | 不可收藏为书签 | | 缓存 | 能被缓存 | 不能缓存 阅读全文
posted @ 2019-09-02 21:07 小小咸鱼YwY 阅读(770) 评论(0) 推荐(1)

上一页 1 ··· 6 7 8 9 10 11 12 下一页