商业爬虫笔记 - 随笔分类 - 一y样

商业爬虫学习笔记day7-------解析方法之bs4

摘要：一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库，最主要的功能是从网页抓取数据。其特点如下（这三个特点正是bs强大的原因，来自官方手册） a. Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一阅读全文

posted @ 2019-07-23 22:18 一y样阅读(873) 评论(0) 推荐(0)

商业爬虫学习笔记day6

摘要：一. 正则解析数据解析百度新闻中每个新闻的title，url，检查每个新闻的源码可知道，其title和url都位于<a></a>标签中，因为里面参数的具体形式不一样，同一个正则并不能匹配并提取所有新闻的标题和url，如下图 target为确定值，在正则中可以写死，class也为确定值，在正则中也可阅读全文

posted @ 2019-07-22 22:12 一y样阅读(278) 评论(0) 推荐(0)

商业爬虫学习笔记day5

摘要：一. 发送post请求二. 内网认证三. 代理四. 第三方CA证书由day1中https与http的区别知道，https是有第三方CA证书认证的，但有些网站虽然是https，但是它不是CA证书（可以是自己颁布的证书，如以前的12306），这样的话就访问不了该网站，报如下错解决方法：告诉we 阅读全文

posted @ 2019-07-21 22:14 一y样阅读(556) 评论(0) 推荐(0)

商业爬虫学习笔记day4

摘要：一.获取登录后页面信息的两种方法 1.第一种方法：人为把有效cookies加到请求头中，代码如下 2. 第二种方法（1）代码登录（post请求），登录成功后得到有效cookie （2）自动带着cookie去请求注 cookiejar能自动保存这个cookie 若不用此包的话则每次获取cooki 阅读全文

posted @ 2019-07-19 15:45 一y样阅读(441) 评论(0) 推荐(0)

商业爬虫学习笔记day3

摘要：一. 付费代理发送请求的两种方式第一种方式：（1）代理ip，形式如下： money_proxy = {"http":"username:pwd@192.168.12.11:8080"} （2）代理的处理器 proxy_handler = urllib.request.ProxyHandler(m 阅读全文

posted @ 2019-07-19 10:12 一y样阅读(165) 评论(0) 推荐(0)

商业爬虫学习笔记day2

摘要：1. get传参（1）url中包含中文报错解决方法 urllib.request.quote("包含中文的url", safe = "string.printtable") （2）字典传参最终url由url和参数拼接而成，而参数（params）的类型为字典，所以拼接要将字典参数转化为字符串类型，阅读全文

posted @ 2019-07-18 22:18 一y样阅读(214) 评论(0) 推荐(0)

商业爬虫学习笔记day1

摘要：day1 一. HTTP 1.介绍： https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.net/guyuealian/article/details/52535294 2.当用户输入网址（如w 阅读全文

posted @ 2019-07-17 23:47 一y样阅读(338) 评论(0) 推荐(0)

一y样

随笔分类 - 商业爬虫笔记

公告