2017 年 6月 3 日随笔档案 - hahaxzy

2017年6月3日

摘要：上一篇说到用BeautifulSoup解析源代码，下面我们就来实战一下：其实用open的方式可以避免decode报错，可以的话还是用open比较好。运行结果：噌~是不是快了许多，还有更快的： h1其实是一个标签，用BeautifulSoup解析过后可以直接引用，下面我们直接引用title标签（学阅读全文

posted @ 2017-06-03 22:09 hahaxzy 阅读(356) 评论(0) 推荐(0)

python：网络爬虫的学习笔记

摘要：如果要爬取的内容嵌在网页源代码中的话，直接下载网页源代码再利用正则表达式来寻找就ok了。下面是个简单的例子：注意，decode方法有时候可能会报错，例如具体原因不知道，可以用decode的一个参数，如下 replace表示遇到不能转码的字符就将其替换成问号还是什么的。。。这也算是一个折中的方法吧阅读全文

posted @ 2017-06-03 21:03 hahaxzy 阅读(344) 评论(0) 推荐(0)

hahaxzy

欢迎各位指教，共同进步

公告