Python网络爬虫 - 随笔分类 - Summer儿

06-循环爬取网页内容的标题

摘要：爬取要求: 循环爬取每个网页的标题内容将爬取的网页内容保存到本地方法: 前期准备 1.复制粘贴第1页,第2页,第3页的网址; 2.观察网址,总结规律; 后期实施 1.urllib.request爬取网页. 2.正则表达式结合bs4从爬取的网页中获取标题. 3.将获取的标题保存到本地. 阅读全文

posted @ 2019-07-23 15:20 Summer儿阅读(580) 评论(0) 推荐(0)

03_多协程爬取糗事百科热图

摘要：今天在使用正则表达式时未能解决实际问题，于是使用bs4库完成匹配，通过反复测试，最终解决了实际的问题，加深了对bs4.BeautifulSoup模块的理解。爬取流程前奏：分析糗事百科热图板块的网址，因为要进行翻页爬取内容，所以分析不同页码的网址信息是必要的具体步骤：１，获取网页内容（url 阅读全文

posted @ 2019-02-18 23:57 Summer儿阅读(451) 评论(0) 推荐(0)

05_多协程爬取斗鱼高颜值美女图片-2.0版本

摘要：1 import requests 2 import re 3 # from bs4 import BeautifulSoup 4 from urllib import request 5 # import threading 6 import gevent 7 from gevent import monkey 8 9 monkey.patch_all() 10 11 d... 阅读全文

posted @ 2019-02-16 17:28 Summer儿阅读(312) 评论(0) 推荐(0)

01_爬虫伪装成浏览器的四种方法

摘要：好多网站对于爬虫中没有进行浏览器伪装的会进行反爬，以糗事百科网站为例下面提供了三种方法添加headers，使爬虫能够伪装成浏览器访问。备注：方法二和方法三中省略了方法一：通过opener添加header 方法二：通过opener批量添加header 方法三：通过Request添加heade 阅读全文

posted @ 2019-02-15 23:16 Summer儿阅读(8139) 评论(0) 推荐(0)

摘要：背景：在百度每次输入关键词检索后，会出现很多的检索页，不利于有效阅读，为更方便收集检索信息，编写了一个可以收集每个检索页与检索词相关的十条检索信息（百度在每个检索页放置十条检索标题信息）。可以根据需要选择爬取多少检索页，通过修改main()函数的depth变量 1 import urllib.request 2 import re 3 4 def get_html_text(url,da... 阅读全文

posted @ 2019-02-14 12:30 Summer儿阅读(2696) 评论(1) 推荐(0)

04_多协程爬取斗鱼高颜值美女图片

摘要：斗鱼已将网页的源代码修改，若想爬取图片请转至https://www.cnblogs.com/summer1019/p/10388348.html 1 import requests 2 from bs4 import BeautifulSoup 3 from urllib import request 4 # import threading 5 import gevent 6 fro... 阅读全文

posted @ 2019-02-12 11:33 Summer儿阅读(345) 评论(0) 推荐(0)

Summer儿

随笔分类 - Python网络爬虫

06-循环爬取网页内容的标题

03_多协程爬取糗事百科热图

05_多协程爬取斗鱼高颜值美女图片-2.0版本

01_爬虫伪装成浏览器的四种方法

02_输入检索词自动爬取百度搜索页标题信息

04_多协程爬取斗鱼高颜值美女图片

导航

公告