吴裕雄--天生自然网络爬虫技术学习笔记 - 随笔分类(第2页) - 吴裕雄

吴裕雄--天生自然python学习笔记：抓取网络公开数据

摘要：当前，有许多政府或企事业单位会在网上为公众提供相关的公开数据。以 http://api.help.bj.cn/api/均 .cn/api ／网站为例，打开这个链接，大家可以看到多种可供调用的数据。进入 http://api.help.bj.cn/api/网站，单击“空气质量 API ” 。我们阅读全文

posted @ 2019-12-11 20:03 吴裕雄阅读(395) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python实现自动网页测试

摘要：Python 可实现的网页测试的功能十分强大，甚至能通过编程来实现让绝大多数的测试过程自动化。这对很多开发者来说，绝对是不可多得的神器。 hash lib 纽件可以判别文件是否有过更改，只需要用 md5 方法对指定的文件进行编码，即可进行比对。 Selenium 是相当著名的网页自动化测试纽件阅读全文

posted @ 2019-12-11 19:34 吴裕雄阅读(419) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片

摘要：我们经常会在网上搜索井下载图片，然而一张一张地下载就太麻烦了，本案例就是通过网络爬虫技术，一次性下载该网站所有的图片并保存。网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片全部下载井保存在自己本地新建的 images 文件夹中。 import requests,os from bs4 import BeautifulSoup from ur... 阅读全文

posted @ 2019-12-11 12:18 吴裕雄阅读(368) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取北京市PM2.5 实时数据

摘要：掌握了前面所讲的正则表达式、网页解析以及 BeautifulSoup 抓取基本内容后，就可以编写网络爬虫代码获取数据了。从 http://www.pm25x.com/ 网站抓取北京的 PM2.5 实时数据。抓取北京市 PM2.5 实时数据现在我们的目的很明确，就是取回北京市 PM2.5 当时的实时数值。因为这个结果会实时改变，所以你们实际取得的数值会和此时我在案例中抓取到的数据有所不同，阅读全文

posted @ 2019-12-11 11:50 吴裕雄阅读(591) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：网页解析

摘要：抓取万水书苑网页中所有＜a>标签中的超链接井显示。 import requests from bs4 import BeautifulSoup url = 'http://www.wsbookshow.com/' html = requests.get(url) html.encoding="gbk" sp=BeautifulSoup(html.text,"html.parser") links= 阅读全文

posted @ 2019-12-11 11:17 吴裕雄阅读(170) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python爬虫与网页分析

摘要：我们所抓取的网页源代码一般都是 HTML 格式的文件，只要研究明白 HTML 中的标签（ Tag ）结构，就很容易进行解析并取得所需数据。 HTML 网页结构 HTML 网页是由许多标签（ Tag ）构成，标签需用。字符括起来。大部分标签成对出现，与开始标签对应的结束标签前多一个“／ ” 字符，例如＜ html＞＜斤itml＞。少数标签非成对出现，如＜i mg src=’ 阅读全文

posted @ 2019-12-11 10:59 吴裕雄阅读(291) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：案例：用正则表达式查找邮件账号

摘要：抓取万水书苑“ ht甲：／／www.w sbookshow.com/ ”网站中的所有 E-mai l 账号。 import requests,re regex = re.compile('[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+') url = 'http://www.wsbookshow.com/' html = requests.ge... 阅读全文

posted @ 2019-12-11 09:56 吴裕雄阅读(233) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析

摘要：常见的正则表达式功能介绍直接调用 re.match （）方法上例若用 match 方法搜索，得到的结果将会是 None 。阅读全文

posted @ 2019-12-11 00:04 吴裕雄阅读(441) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：beautifulsoup库的使用

摘要：Beautiful Soup 库简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换阅读全文

posted @ 2019-12-02 21:26 吴裕雄阅读(265) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块

摘要：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 快速开始下面的一阅读全文

posted @ 2019-12-02 19:14 吴裕雄阅读(341) 评论(0) 推荐(0)

吴裕雄--python学习笔记：BeautifulSoup模块

摘要：import re import requests from bs4 import BeautifulSoup req_obj = requests.get('https://www.baidu.com') soup = BeautifulSoup(req_obj.text,'lxml') '''标签查找''' print(soup.title) #只是查找出第一个 print(soup.find 阅读全文

posted @ 2019-12-01 00:20 吴裕雄阅读(263) 评论(0) 推荐(0)

吴裕雄--python学习笔记：爬虫基础

摘要：一、什么是爬虫爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。二、Python爬虫架构 Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。调度器：相当于一台电脑的CPU，主要负责调度URL管理器、阅读全文

posted @ 2019-11-29 20:45 吴裕雄阅读(194) 评论(0) 推荐(0)

吴裕雄--python学习笔记：爬虫包的更换

摘要：python 3.x报错：No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module named 'cookielib' Python3中，import cookielib改成 import http.cookiejar,然后方法里cookielib也改成 http.... 阅读全文

posted @ 2019-11-29 20:04 吴裕雄阅读(305) 评论(0) 推荐(0)

吴裕雄--python学习笔记：爬虫

摘要：import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网页 htmlCode = page.read() #获取网页源代码 print(chardet.detect(htmlCode)) #打印返回网页的编码方式 {'encoding': 'utf... 阅读全文

posted @ 2019-11-28 23:59 吴裕雄阅读(350) 评论(0) 推荐(0)

随笔分类 - 吴裕雄--天生自然网络爬虫技术学习笔记