随笔分类 -  网络爬虫与信息提取

暑假期间学习记录 课程来源于中国大学MOOC from 嵩天老师 北京理工大学
摘要:实例1:京东商品页面的爬取 1.锁定网址 在京东页面找到一款手机复制网址 2. 进行爬取 2.1) 爬取代码 2.2) 返回信息 3. 全代码 实例2:亚马逊商品页面的爬取 1.锁定网址 在亚马逊页面找到一本书复制网址 2.进行爬取 2.1) 爬取代码 2.2) 状态码反思 状态码返回值是503,不 阅读全文
posted @ 2019-08-12 12:32 小白的个人总结 阅读(1792) 评论(0) 推荐(0)
摘要:一、网络爬虫的尺寸 1.爬取网页 玩转网页 小规模,数据量小 爬取速度不敏感 Requests库 使用比例:>90% 2.爬取网站 爬取系列网站 中规模,数据规模较大 爬取速度敏感 Scrapy库 3.爬取全网 大规模,搜索引擎 爬取速度关键 定制开发 二、网络爬虫引发的问题 1.网络爬虫的性能骚扰 阅读全文
posted @ 2019-08-12 10:59 小白的个人总结 阅读(603) 评论(0) 推荐(0)
摘要:一、Beautiful Soup库的基本元素 1.Beautiful Soup库的理解 2.Beautiful Soup库的引用 4.Beautiful Soup库解析器 分类 5.Beautiful Soup类基本元素 分类 6.具体使用代码 1. 回顾demo.html 2. Tag 标签 Ta 阅读全文
posted @ 2019-07-23 09:45 小白的个人总结 阅读(404) 评论(0) 推荐(0)
摘要:一、Requests库的安装 1.Requests库的安装与测试(简洁版): 2.Requests库的更多介绍: 3.Requests库的7个主要方法(简单介绍): 二、Requests库的get()方法 1. 获取网页的代码: 2.获取网页的完整代码: 3.Requests库的2个重要对象: 4. 阅读全文
posted @ 2019-07-16 10:45 小白的个人总结 阅读(484) 评论(0) 推荐(0)