摘要: 准备 查看淘宝的页面是不是静态页面,结果是静态页面。 想要抓取的是淘宝搜索某个商品的信息,所以要找到淘宝的搜索接口,经过观察可以看到接口可以这样解决: 其实抓取淘宝主要是想加强自己对正则表达式的理解与运用的,于是决定用requests+re来完成此次练习。 调试 抓取网页 调试的第一步获取网页的源代 阅读全文
posted @ 2018-01-03 22:49 耳锅 阅读(1250) 评论(2) 推荐(0) 编辑
摘要: 概述 既然决定把视频上老师讲的实战都自己动手实现一遍,那么就先把最好大学排名这个实例自己写一遍。看视频的时候挺轻松的,但是到自己动手的时候才知道不容易,写这个程序遇到两个比较棘手的问题,一个是如何从网页中提取出自己想要的信息,另一个是信息以什么样的形式保存并展示出来。其实几乎所有的爬虫都会遇到这两个 阅读全文
posted @ 2017-12-30 21:19 耳锅 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 概述 代码编写完成时间:2017.12.28 写文章时间:2017.12.29 看完中国大学MOOC上的爬虫教程后,觉得自己之前的学习完全是野蛮生长,决定把之前学的东西再梳理一遍,主要是觉得自己写的程序和老师写的差别太大,有很多学习的地方,决定用老师所教的和自己已有的知识融合,形成新的知识。 爬虫的 阅读全文
posted @ 2017-12-29 16:26 耳锅 阅读(962) 评论(0) 推荐(0) 编辑