python爬虫 - 随笔分类(第3页) - Bob__Zhang

判断是否是正常浏览器访问

摘要：''' 作业2：判断user-agent,判断是否是正常浏览器访问 ''' from urllib import request base_url = "http://www.langlang2017.com" headers = { "connnction":"keep-alive", "USer_Agent":"mozilla/5.0 (Windows nt 6.1; ... 阅读全文

posted @ 2018-03-10 21:16 Bob__Zhang 阅读(613) 评论(0) 推荐(0)

urllib库爬取实例

摘要：from urllib import request import random def spider(url): user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.... 阅读全文

posted @ 2018-03-10 21:14 Bob__Zhang 阅读(142) 评论(0) 推荐(0)

带有headers的urllib库爬取

摘要：#请求头 #1、引入模块 from urllib import request #2、操作 #(1)定义目标url base_url = "http://www.langlang2017.com/index.html" #请求头部---request headers headers = { "Accept":"text/html,application/xhtml+xml,a... 阅读全文

posted @ 2018-03-10 21:12 Bob__Zhang 阅读(175) 评论(0) 推荐(0)

urllib库的使用

摘要：#使用urllib库，将langlang2017全站网页请求并保存 #1、引入模块 from urllib import request from urllib import error #2、操作 #（1）创建url base_url = "http://www.langlang2017.com/route.html" try: # （2）请求url reponse =... 阅读全文

posted @ 2018-03-10 21:10 Bob__Zhang 阅读(158) 评论(0) 推荐(0)

urllib库的基本使用

摘要：#urllib库的基本使用 ''' 1、网页抓取就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。 python2:urllib2 python3:urllib.request ''' #1、引入模块 from urllib import request #2、操作 #(1)定义目标url base_url = "http://www.langlang2017.com/in... 阅读全文

posted @ 2018-03-10 21:07 Bob__Zhang 阅读(167) 评论(0) 推荐(0)

白桦林

随笔分类 - python爬虫

公告