摘要:
上一期博客,我本来想爬取美团美食的,但是由于请求头太复杂,没有破解开其中的几个参数,所以放弃,这次我们来用selenium来模式浏览器抓取数据,我们先来简单看一下流程: 1,利用selenium驱动浏览器,得到美食列表 2,分析网页,并给予翻页后续的美食列表 3,分析提取数据(pyQuery) 项目 阅读全文
posted @ 2019-06-02 20:07
小菜技术
阅读(1256)
评论(0)
推荐(0)
摘要:
这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。 代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。 关于的爬虫的博客已经 阅读全文
posted @ 2019-06-02 15:09
小菜技术
阅读(382)
评论(0)
推荐(0)
摘要:
这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Requests,结果用到mongodb来存储(需要提前安装pymongo库),开启多线程爬。 分析:有很多网页 阅读全文
posted @ 2019-06-02 11:34
小菜技术
阅读(1421)
评论(0)
推荐(0)

浙公网安备 33010602011771号