随笔档案「2016年11月」 - 云端翱翔

python3实现网络爬虫（5）--模拟浏览器抓取网页

摘要：本来准备继续分析BeautifulSoup的，但是好多网页都是反爬虫的，想分析没法分析了，那么就跳一节吧，我们先看看如何模拟浏览器进行访问网页，然后再折回去继续说BeautifulSoup。由于前面我已经用python2写过这方面的内容了，那么这次偷个懒，我就在以前的博客上... 阅读全文

posted @ 2016-11-29 23:33 云端翱翔阅读(884) 评论(0) 推荐(0)

python中模拟浏览器抓取网页（-）

摘要：对于平时我们抓取网页的内容时，比较倾向于直接利用urllib进行抓取（这里我就基于python的2.7版本进行解说，对于python3之后的版本，是将python中的urllib和urllib2和并成了urllib），但有些网站设置了防采集的功能，会拒绝爬虫进行数据的采集，这时候便可以模... 阅读全文

posted @ 2016-11-25 19:22 云端翱翔阅读(911) 评论(0) 推荐(0)

python3实现网络爬虫（6）--正则表达式和BeautifulSoup配合使用

摘要：这一次介绍下正则表达式和BeautifulSoup结合使用。对于正则表达式，在python中是一种很好的工具，可以帮助我们匹配我们需要的数据，当然了这些数据肯定是符合某些共性的，才能被我们的正则表达式所捕获。我们可以先看看BeautifulSoup中的findAll函数，这个... 阅读全文

posted @ 2016-11-21 17:04 云端翱翔阅读(1162) 评论(0) 推荐(0)

python3实现网络爬虫（4）--BeautifulSoup使用（3）

摘要：这一次我们继续来讲一下BeautifulSoup的相关知识，说一下BeautifulSoup导航树的相关内容。在上一次的博客中我们了解到findAll函数通过标签的名称和属性来查找标签，但有的时候在进网页中的内容爬取时，我们会发现有些我们想要获取的元素并不是都可以通过名称来获得的，因为我们... 阅读全文

posted @ 2016-11-18 16:23 云端翱翔阅读(216) 评论(0) 推荐(0)

python3实现网络爬虫（3）--BeautifulSoup使用（2）

摘要：在这一次的内容中，我们继续讨论BeautifulSoup的一些操作，我们这次只讨论几个在实践中用处特别大的几个函数。这次我们将学习通过属性查找标签的方法，标签组的使用。我们一起回忆一下，基本上，我们见过的每个网站都会使用层叠样式表（css，不懂的可以补一下网页相关知识）。这个css由于其结构的规范化... 阅读全文

posted @ 2016-11-11 22:16 云端翱翔阅读(196) 评论(0) 推荐(0)

python3实现网络爬虫（2）--BeautifulSoup使用（1）

摘要：这一次我们来了解一下美味的汤--BeautifulSoup，这将是我们以后经常使用的一个库，并且非常的好用。BeautifuleSoup库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中，这首歌是素甲鱼唱的。就像它在仙境中的说法一样，BeautifulSoup尝试化平淡为神奇。它通... 阅读全文

posted @ 2016-11-07 17:10 云端翱翔阅读(158) 评论(0) 推荐(0)

云端翱翔

11 2016 档案