随笔分类 -  Python网络爬虫

06-循环爬取网页内容的标题
摘要:爬取要求: 循环爬取每个网页的标题内容 将爬取的网页内容保存到本地 方法: 前期准备 1.复制粘贴第1页,第2页,第3页的网址; 2.观察网址,总结规律; 后期实施 1.urllib.request爬取网页. 2.正则表达式结合bs4从爬取的网页中获取标题. 3.将获取的标题保存到本地. 阅读全文

posted @ 2019-07-23 15:20 Summer儿 阅读(580) 评论(0) 推荐(0)

03_多协程爬取糗事百科热图
摘要:今天在使用正则表达式时未能解决实际问题,于是使用bs4库完成匹配,通过反复测试,最终解决了实际的问题,加深了对bs4.BeautifulSoup模块的理解。 爬取流程 前奏: 分析糗事百科热图板块的网址,因为要进行翻页爬取内容,所以分析不同页码的网址信息是必要的 具体步骤: 1,获取网页内容(url 阅读全文

posted @ 2019-02-18 23:57 Summer儿 阅读(451) 评论(0) 推荐(0)

05_多协程爬取斗鱼高颜值美女图片-2.0版本
摘要:1 import requests 2 import re 3 # from bs4 import BeautifulSoup 4 from urllib import request 5 # import threading 6 import gevent 7 from gevent import monkey 8 9 monkey.patch_all() 10 11 d... 阅读全文

posted @ 2019-02-16 17:28 Summer儿 阅读(312) 评论(0) 推荐(0)

01_爬虫伪装成浏览器的四种方法
摘要:好多网站对于爬虫中没有进行浏览器伪装的会进行反爬, 以糗事百科网站为例 下面提供了三种方法添加headers,使爬虫能够伪装成浏览器访问。 备注: 方法二和方法三中省略了 方法一:通过opener添加header 方法二:通过opener批量添加header 方法三:通过Request添加heade 阅读全文

posted @ 2019-02-15 23:16 Summer儿 阅读(8139) 评论(0) 推荐(0)

02_输入检索词自动爬取百度搜索页标题信息
摘要:背景:在百度每次输入关键词检索后,会出现很多的检索页,不利于有效阅读,为更方便收集检索信息,编写了一个可以收集每个检索页与检索词相关的十条检索信息(百度在每个检索页放置十条检索标题信息)。可以根据需要选择爬取多少检索页,通过修改main()函数的depth变量 1 import urllib.request 2 import re 3 4 def get_html_text(url,da... 阅读全文

posted @ 2019-02-14 12:30 Summer儿 阅读(2696) 评论(1) 推荐(0)

04_多协程爬取斗鱼高颜值美女图片
摘要:斗鱼已将网页的源代码修改,若想爬取图片请转至https://www.cnblogs.com/summer1019/p/10388348.html 1 import requests 2 from bs4 import BeautifulSoup 3 from urllib import request 4 # import threading 5 import gevent 6 fro... 阅读全文

posted @ 2019-02-12 11:33 Summer儿 阅读(345) 评论(0) 推荐(0)

导航