随笔分类 -  python爬虫

摘要:上一期博客,我本来想爬取美团美食的,但是由于请求头太复杂,没有破解开其中的几个参数,所以放弃,这次我们来用selenium来模式浏览器抓取数据,我们先来简单看一下流程: 1,利用selenium驱动浏览器,得到美食列表 2,分析网页,并给予翻页后续的美食列表 3,分析提取数据(pyQuery) 项目 阅读全文
posted @ 2019-06-02 20:07 小菜技术 阅读(1255) 评论(0) 推荐(0)
摘要:这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。 代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。 关于的爬虫的博客已经 阅读全文
posted @ 2019-06-02 15:09 小菜技术 阅读(381) 评论(0) 推荐(0)
摘要:这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Requests,结果用到mongodb来存储(需要提前安装pymongo库),开启多线程爬。 分析:有很多网页 阅读全文
posted @ 2019-06-02 11:34 小菜技术 阅读(1419) 评论(0) 推荐(0)
摘要:上面的博客把基本的HTML解析库已经说完了,这次我们来给予几个实战的项目。 这次主要用Requests库+正则表达式来解析HTML。 项目一:爬取猫眼电影TOP100信息 代码地址:https://gitee.com/dwyui/maoyan-Requests.git 项目二:美食爬取(包含多层爬取 阅读全文
posted @ 2019-05-31 01:05 小菜技术 阅读(1325) 评论(0) 推荐(0)
摘要:什么是Selenium库: 自动化测试工具,支持多种浏览器。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。 爬虫中主要用来解决JavaScript渲染的问题。用于驱动浏览器,并且给予浏览器动作。 安装S 阅读全文
posted @ 2019-05-30 01:32 小菜技术 阅读(471) 评论(0) 推荐(0)
摘要:什么是pyQuery: 强大又灵活的网页解析库。如果你觉得正则写起来太麻烦(我不会写正则),如果你觉得BeautifulSoup的语法太难记,如果你熟悉JQuery的语法,那么PyQuery就是你最佳的选择。 pyQuery的安装pip3 install pyquery即可安装啦。 pyQuery的 阅读全文
posted @ 2019-05-28 22:02 小菜技术 阅读(284) 评论(0) 推荐(0)
摘要:BeautifulSoup是什么? BeautifulSoup是一个网页解析库,相比urllib、Requests要更加灵活和方便,处理高校,支持多种解析器。 利用它不用编写正则表达式即可方便地实现网页信息的提取。 BeautifulSoup的安装:直接输入pip3 install beautifu 阅读全文
posted @ 2019-05-28 00:52 小菜技术 阅读(315) 评论(0) 推荐(0)
摘要:1,什么是Requests库 Requests是用python语言编写,基于urllib,采用Apache2 Licensed 开源协议的HTTP库。 它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求,用一句话来说,Requests是 python实现的简单易用的HTTP库 阅读全文
posted @ 2019-05-26 23:04 小菜技术 阅读(378) 评论(0) 推荐(0)
摘要:urllib库的使用方法 阅读全文
posted @ 2019-05-26 02:49 小菜技术 阅读(381) 评论(0) 推荐(0)
摘要:初识爬虫 阅读全文
posted @ 2019-05-24 13:14 小菜技术 阅读(778) 评论(0) 推荐(0)