摘要:
打印出 b'<!doctype html>\r\n<html>\r\n<head>\r\n<title>\xbe\xab\xc6\xb7\xd0\xa1\xcb\xb5_……………… 这样的内容,这个是编码格式的问题,在zipfile解压乱码的文章中已经说过了,所以需要先看下这个html网页的头部, 阅读全文
posted @ 2018-04-08 12:01
姚毛毛
阅读(440)
评论(0)
推荐(0)
摘要:
本次学习重点: 1、使用urllib的request进行网页请求,获取当前url整版网页内容 2、对于多级抓取,先想好抓取思路,再动手 3、BeautifulSoup获取html网页中的指定内容 4、使用多线程,加快抓取速度 本次抓取不涉及反爬虫知识。 本章学习内容: 1、最简单的request请求 阅读全文
posted @ 2018-04-08 11:26
姚毛毛
阅读(440)
评论(0)
推荐(0)