2015 年 7月 21 日随笔档案 - MrMrCash

2015年7月21日

摘要： Python爬虫入门（8）：Beautiful Soup的用法上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们... 阅读全文

posted @ 2015-07-21 23:41 MrMrCash 阅读(205) 评论(0) 推荐(0)

Python_爬虫3

摘要：正则表达式在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这... 阅读全文

posted @ 2015-07-21 22:50 MrMrCash 阅读(182) 评论(0) 推荐(0)

Python_爬虫2

摘要： URLError异常处理大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常... 阅读全文

posted @ 2015-07-21 22:16 MrMrCash 阅读(306) 评论(0) 推荐(0)

Python_爬虫1

摘要： Urllib库的基本使用那么接下来，小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个... 阅读全文

posted @ 2015-07-21 22:15 MrMrCash 阅读(301) 评论(0) 推荐(0)

公告