随笔分类 -  爬虫

摘要:目标:爬取真实世界中的网页信息 熟悉: Request库: 是Python中的一个HTTP网络请求库,用来简化网络请求!能够让你的Python程序向服务器发送HTTP请求,获得网页数据的库。 time库: 与时间相关的库,因为在向网站服务器请求的时候,如果你的request请求太过频繁的时候,服务器 阅读全文
posted @ 2018-11-04 18:19 久吾贰柒 阅读(141) 评论(0) 推荐(0)
摘要:目标:爬取本地网页中的商品信息,并打印星级评分大于3的文章准备:1. find_all()方法 find_all()方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。2. len()方法len() 方法返回对象(字符、列表、元组等)长度或项目个数。 例如: 思路: 代码: 问题:1. 阅读全文
posted @ 2018-10-28 20:11 久吾贰柒 阅读(136) 评论(0) 推荐(0)
摘要:目标:爬取本地网页中,评分大于3的文章,并打印出来 准备: BeautifulSoup:是一个可以从HTML和XML中读取数据的库。库也叫模块,在笨办法学Python中叫做特征,是其他程序员开发好的一些代码,可以拿来导入(import),然后调用。开发之前最好先学习一下Python的基本知识,《笨办 阅读全文
posted @ 2018-10-28 16:51 久吾贰柒 阅读(245) 评论(0) 推荐(0)