随笔分类 -  商业爬虫笔记

摘要:一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据。其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一 阅读全文
posted @ 2019-07-23 22:18 一y样 阅读(873) 评论(0) 推荐(0)
摘要:一. 正则解析数据 解析百度新闻中每个新闻的title,url,检查每个新闻的源码可知道,其title和url都位于<a></a>标签中,因为里面参数的具体形式不一样,同一个正则并不能匹配并提取所有新闻的标题和url,如下图 target为确定值,在正则中可以写死,class也为确定值,在正则中也可 阅读全文
posted @ 2019-07-22 22:12 一y样 阅读(278) 评论(0) 推荐(0)
摘要:一. 发送post请求 二. 内网认证 三. 代理 四. 第三方CA证书 由day1中https与http的区别知道,https是有第三方CA证书认证的,但有些网站虽然是https,但是它不是CA证书(可以是自己颁布的证书,如以前的12306),这样的话就访问不了该网站,报如下错 解决方法:告诉we 阅读全文
posted @ 2019-07-21 22:14 一y样 阅读(556) 评论(0) 推荐(0)
摘要:一.获取登录后页面信息的两种方法 1.第一种方法: 人为把有效cookies加到请求头中,代码如下 2. 第二种方法 (1)代码登录(post请求),登录成功后得到有效cookie (2)自动带着cookie去请求 注 cookiejar能自动保存这个cookie 若不用此包的话则每次获取cooki 阅读全文
posted @ 2019-07-19 15:45 一y样 阅读(441) 评论(0) 推荐(0)
摘要:一. 付费代理发送请求的两种方式 第一种方式: (1)代理ip,形式如下: money_proxy = {"http":"username:pwd@192.168.12.11:8080"} (2)代理的处理器 proxy_handler = urllib.request.ProxyHandler(m 阅读全文
posted @ 2019-07-19 10:12 一y样 阅读(165) 评论(0) 推荐(0)
摘要:1. get传参 (1)url中包含中文报错解决方法 urllib.request.quote("包含中文的url", safe = "string.printtable") (2)字典传参 最终url由url和参数拼接而成,而参数(params)的类型为字典,所以拼接要将字典参数转化为字符串类型, 阅读全文
posted @ 2019-07-18 22:18 一y样 阅读(214) 评论(0) 推荐(0)
摘要:day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.net/guyuealian/article/details/52535294 2.当用户输入网址(如w 阅读全文
posted @ 2019-07-17 23:47 一y样 阅读(338) 评论(0) 推荐(0)