耳锅 - 博客园

2018年1月3日

摘要：准备查看淘宝的页面是不是静态页面，结果是静态页面。想要抓取的是淘宝搜索某个商品的信息，所以要找到淘宝的搜索接口，经过观察可以看到接口可以这样解决：其实抓取淘宝主要是想加强自己对正则表达式的理解与运用的，于是决定用requests+re来完成此次练习。调试抓取网页调试的第一步获取网页的源代阅读全文

posted @ 2018-01-03 22:49 耳锅阅读(1313) 评论(2) 推荐(0)

2017年12月30日

关于最好大学排名的爬虫

摘要：概述既然决定把视频上老师讲的实战都自己动手实现一遍，那么就先把最好大学排名这个实例自己写一遍。看视频的时候挺轻松的，但是到自己动手的时候才知道不容易，写这个程序遇到两个比较棘手的问题，一个是如何从网页中提取出自己想要的信息，另一个是信息以什么样的形式保存并展示出来。其实几乎所有的爬虫都会遇到这两个阅读全文

posted @ 2017-12-30 21:19 耳锅阅读(476) 评论(0) 推荐(0)

2017年12月29日

requests爬取网页的通用框架

摘要：概述代码编写完成时间：2017.12.28 写文章时间：2017.12.29 看完中国大学MOOC上的爬虫教程后，觉得自己之前的学习完全是野蛮生长，决定把之前学的东西再梳理一遍，主要是觉得自己写的程序和老师写的差别太大，有很多学习的地方，决定用老师所教的和自己已有的知识融合，形成新的知识。爬虫的阅读全文

posted @ 2017-12-29 16:26 耳锅阅读(975) 评论(0) 推荐(0)

耳锅

公告