随笔分类 - 商业爬虫笔记
摘要:一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据。其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一
阅读全文
摘要:一. 正则解析数据 解析百度新闻中每个新闻的title,url,检查每个新闻的源码可知道,其title和url都位于<a></a>标签中,因为里面参数的具体形式不一样,同一个正则并不能匹配并提取所有新闻的标题和url,如下图 target为确定值,在正则中可以写死,class也为确定值,在正则中也可
阅读全文
摘要:一. 发送post请求 二. 内网认证 三. 代理 四. 第三方CA证书 由day1中https与http的区别知道,https是有第三方CA证书认证的,但有些网站虽然是https,但是它不是CA证书(可以是自己颁布的证书,如以前的12306),这样的话就访问不了该网站,报如下错 解决方法:告诉we
阅读全文
摘要:一.获取登录后页面信息的两种方法 1.第一种方法: 人为把有效cookies加到请求头中,代码如下 2. 第二种方法 (1)代码登录(post请求),登录成功后得到有效cookie (2)自动带着cookie去请求 注 cookiejar能自动保存这个cookie 若不用此包的话则每次获取cooki
阅读全文
摘要:一. 付费代理发送请求的两种方式 第一种方式: (1)代理ip,形式如下: money_proxy = {"http":"username:pwd@192.168.12.11:8080"} (2)代理的处理器 proxy_handler = urllib.request.ProxyHandler(m
阅读全文
摘要:1. get传参 (1)url中包含中文报错解决方法 urllib.request.quote("包含中文的url", safe = "string.printtable") (2)字典传参 最终url由url和参数拼接而成,而参数(params)的类型为字典,所以拼接要将字典参数转化为字符串类型,
阅读全文
摘要:day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.net/guyuealian/article/details/52535294 2.当用户输入网址(如w
阅读全文

浙公网安备 33010602011771号