摘要:
import requests import re url='https://www.qiushibaike.com/text/' header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50 阅读全文
posted @ 2020-07-09 17:07
kuanleung
阅读(7)
评论(0)
推荐(0)
摘要:
1. 提取数据 在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字 阅读全文
posted @ 2020-07-09 13:47
kuanleung
阅读(7)
评论(0)
推荐(0)
摘要:
import requests session=requests.Session() header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Versio 阅读全文
posted @ 2020-07-09 12:40
kuanleung
阅读(7)
评论(0)
推荐(0)
摘要:
import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } url = 阅读全文
posted @ 2020-07-09 12:30
kuanleung
阅读(8)
评论(0)
推荐(0)
摘要:
import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } url = 阅读全文
posted @ 2020-07-09 12:29
kuanleung
阅读(4)
评论(0)
推荐(0)
摘要:
import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } login 阅读全文
posted @ 2020-07-09 12:16
kuanleung
阅读(11)
评论(0)
推荐(0)
摘要:
import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } url = 阅读全文
posted @ 2020-07-09 11:50
kuanleung
阅读(7)
评论(0)
推荐(0)
摘要:
1. 介绍 对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 2. 安装 利用 pip 安装 pip install requests 3. 基本请求 req = requ 阅读全文
posted @ 2020-07-09 11:36
kuanleung
阅读(9)
评论(0)
推荐(0)
摘要:
1. Cookie 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cooki 阅读全文
posted @ 2020-07-09 11:28
kuanleung
阅读(24)
评论(0)
推荐(0)
摘要:
1. 伪装自己 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作 1.1 设置请求头 其中User-Agent代表用的哪个请求的浏览器 代码如下: from urllib.request import urlopen from urll 阅读全文
posted @ 2020-07-09 11:26
kuanleung
阅读(17)
评论(0)
推荐(0)

浙公网安备 33010602011771号