摘要: 上一篇说到用BeautifulSoup解析源代码,下面我们就来实战一下: 其实用open的方式可以避免decode报错,可以的话还是用open比较好。运行结果: 噌~是不是快了许多,还有更快的: h1其实是一个标签,用BeautifulSoup解析过后可以直接引用,下面我们直接引用title标签(学 阅读全文
posted @ 2017-06-03 22:09 hahaxzy 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 如果要爬取的内容嵌在网页源代码中的话,直接下载网页源代码再利用正则表达式来寻找就ok了。下面是个简单的例子: 注意,decode方法有时候可能会报错,例如 具体原因不知道,可以用decode的一个参数,如下 replace表示遇到不能转码的字符就将其替换成问号还是什么的。。。这也算是一个折中的方法吧 阅读全文
posted @ 2017-06-03 21:03 hahaxzy 阅读(325) 评论(0) 推荐(0) 编辑