摘要: Python爬虫入门(8):Beautiful Soup的用法上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们... 阅读全文
posted @ 2015-07-21 23:41 MrMrCash 阅读(201) 评论(0) 推荐(0)
摘要: 正则表达式在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这... 阅读全文
posted @ 2015-07-21 22:50 MrMrCash 阅读(179) 评论(0) 推荐(0)
摘要: URLError异常处理大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常... 阅读全文
posted @ 2015-07-21 22:16 MrMrCash 阅读(300) 评论(0) 推荐(0)
摘要: Urllib库的基本使用那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个... 阅读全文
posted @ 2015-07-21 22:15 MrMrCash 阅读(298) 评论(0) 推荐(0)