随笔分类 - Python网络爬虫
摘要:目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。 网址为:https://beijing.anjuke.com/sale/ BeautifulSoup官网:https://www.crummy.com/software/Bea
        阅读全文
                
摘要:区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎。直接用浏览器在显示网页时解析 HTML、应用 CSS 样式并执行 JavaScript 的语句。 这个方法在爬虫过程中会打开一个浏览器加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来。用一句简单而通俗的话说,就是使用浏览器渲染
        阅读全文
                
摘要:由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScript代码,最后呈现出来的数据是通过JavaScript提取服务器返回的数据加载到源代码中进行呈现。因此
        阅读全文
                
摘要:所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中。 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/top250 1)确定目标网站的请求头: 打开目标网站,在网页空白处点击鼠标右键,选择“检查”。(小编
        阅读全文
                
摘要:爬虫简介 爬虫:一段自动抓取互联网信息的程序。 什么意思呢? 互联网是由各种各样的网页组成。每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL。这种URL之间相互的指向关系就形成了一个网络,这就是互联网。 正常情况下就是我们采用人工点击的方式,去获取互联网上指定的信息,这种方式的
        阅读全文
                

 浙公网安备 33010602011771号
浙公网安备 33010602011771号