随笔分类 -  爬虫的实战——从低阶到高阶

该文被密码保护。
posted @ 2018-12-11 09:28 陈桑啊丶 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-12-10 21:25 陈桑啊丶 阅读(2) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-12-10 21:06 陈桑啊丶 阅读(2) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-12-10 21:01 陈桑啊丶 阅读(4) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-12-10 17:46 陈桑啊丶 阅读(0) 评论(0) 推荐(0)
摘要:# 要做模拟登陆需要知道表单数据的提交地址,和提交的参数。经观察发现点击登陆发起的是一个post请求,请求的地址是:https://github.com/session。提交的参数中commit,utf-8这个参数是不会变化的。login这个参数是自己填写的账户名,password这个参数是自己添加的密码,剩下的就是这个authenticity_token这个参数它是一个加密参数。经过分析aut... 阅读全文
posted @ 2018-12-10 16:58 陈桑啊丶 阅读(474) 评论(0) 推荐(1)
摘要:import requests class ChouTiSpider(object): def __init__(self): self.headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0", ... 阅读全文
posted @ 2018-12-10 16:56 陈桑啊丶 阅读(292) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-12-10 16:55 陈桑啊丶 阅读(4) 评论(0) 推荐(0)
摘要:#BeautfiulSoup是Python支持的一个第三方库,它的主要作用是可以非常方便的从HTML网页中提取所需要的数据 #lxml是第三方的解析库,默认情况下BS4会使用Python自带的解析器取解析html页面,但是lxml解析速度更快,功能上更为强大,因为它的底层是通过c语言实现的。 from bs4 import BeautifulSoup import re #创建一个Beautif... 阅读全文
posted @ 2018-12-10 16:53 陈桑啊丶 阅读(361) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-12-10 16:49 陈桑啊丶 阅读(3) 评论(0) 推荐(0)
摘要:import requests #使用requests发起一个get请求 # response=requests.get('http://www.baidu.com') # print(response) # print(type(response)) # #打印此次请求的地址 # print(response.url) # #打印此次请求的请求头 # print(response.header... 阅读全文
posted @ 2018-12-10 15:30 陈桑啊丶 阅读(248) 评论(0) 推荐(0)