Python网络爬虫 - 随笔分类 - 小杜同学的嘚啵嘚

Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据

摘要：目标：爬取安居客网站上前10页北京二手房的数据，包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。网址为：https://beijing.anjuke.com/sale/ BeautifulSoup官网：https://www.crummy.com/software/Bea 阅读全文

posted @ 2018-04-16 09:27 小杜同学的嘚啵嘚阅读(2825) 评论(0) 推荐(0)

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取

摘要：区别于上篇动态网页抓取，这里介绍另一种方法，即使用浏览器渲染引擎。直接用浏览器在显示网页时解析 HTML、应用 CSS 样式并执行 JavaScript 的语句。这个方法在爬虫过程中会打开一个浏览器加载该网页，自动操作浏览器浏览各个网页，顺便把数据抓下来。用一句简单而通俗的话说，就是使用浏览器渲染阅读全文

posted @ 2018-04-14 21:57 小杜同学的嘚啵嘚阅读(2292) 评论(0) 推荐(0)

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过浏览器审查元素解析真实网页地址

摘要：由于主流网站都使用JavaScript展示网页内容，和前面简单抓取静态网页不同的是，在使用JavaScript时，很多内容并不会出现在HTML源代码中，而是在HTML源码位置放上一段JavaScript代码，最后呈现出来的数据是通过JavaScript提取服务器返回的数据加载到源代码中进行呈现。因此阅读全文

posted @ 2018-04-14 15:36 小杜同学的嘚啵嘚阅读(7557) 评论(1) 推荐(0)

Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据

摘要：所谓静态页面是指纯粹的HTML格式的页面，这样的页面在浏览器中展示的内容都在HTML源码中。目标：爬取豆瓣电影TOP250的所有电影名称，网址为：https://movie.douban.com/top250 1）确定目标网站的请求头：打开目标网站，在网页空白处点击鼠标右键，选择“检查”。（小编阅读全文

posted @ 2018-04-13 20:57 小杜同学的嘚啵嘚阅读(3715) 评论(0) 推荐(0)

Python开发爬虫之理论篇

摘要：爬虫简介爬虫：一段自动抓取互联网信息的程序。什么意思呢？互联网是由各种各样的网页组成。每一个网页对应一个URL，而URL的页面上又有很多指向其他页面的URL。这种URL之间相互的指向关系就形成了一个网络，这就是互联网。正常情况下就是我们采用人工点击的方式，去获取互联网上指定的信息，这种方式的阅读全文

posted @ 2018-04-10 16:49 小杜同学的嘚啵嘚阅读(701) 评论(0) 推荐(0)

小杜同学的嘚啵嘚

希望能够帮助每一位一脸懵b的同学，希望大家能够对刚入行的同学多些宽容

随笔分类 - Python网络爬虫

公告