爬虫 - 随笔分类 - 久吾贰柒

第11课、真实世界中的网页解析

摘要：目标：爬取真实世界中的网页信息熟悉： Request库：是Python中的一个HTTP网络请求库，用来简化网络请求！能够让你的Python程序向服务器发送HTTP请求，获得网页数据的库。 time库：与时间相关的库，因为在向网站服务器请求的时候，如果你的request请求太过频繁的时候，服务器阅读全文

posted @ 2018-11-04 18:19 久吾贰柒阅读(146) 评论(0) 推荐(0)

第10课、练习项目：爬取商品信息

摘要：目标：爬取本地网页中的商品信息，并打印星级评分大于3的文章准备：1. find_all()方法 find_all()方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。2. len()方法len() 方法返回对象（字符、列表、元组等）长度或项目个数。例如：思路：代码：问题：1. 阅读全文

posted @ 2018-10-28 20:11 久吾贰柒阅读(137) 评论(0) 推荐(0)

第9课、解析网页中的元素

摘要：目标：爬取本地网页中，评分大于3的文章，并打印出来准备： BeautifulSoup：是一个可以从HTML和XML中读取数据的库。库也叫模块，在笨办法学Python中叫做特征，是其他程序员开发好的一些代码，可以拿来导入（import），然后调用。开发之前最好先学习一下Python的基本知识，《笨办阅读全文

posted @ 2018-10-28 16:51 久吾贰柒阅读(248) 评论(0) 推荐(0)

开发者笔记

随笔分类 - 爬虫

公告