• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






张家欢。。

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

2016年11月18日

添加headers头文件反爬虫
摘要: ip代理 import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}) null_proxy_handler = urllib2.Pro 阅读全文
posted @ 2016-11-18 16:41 张家欢。。 阅读(529) 评论(0) 推荐(0)
 
爬百思不得姐的视频(爬多页时for的循环)
摘要: # -*- coding:utf -8 -*-import urllibimport refor x in range(1,10): print '正在打印第%s页'%x def getvedio(): html=urllib.urlopen("http://www.budejie.com/vide 阅读全文
posted @ 2016-11-18 16:29 张家欢。。 阅读(156) 评论(0) 推荐(0)
 
图片爬取百思不得姐(正则的取法,下载的方法,%s的用法)
摘要: # _*_coding:utf-8_*_import urllibimport redef geturl(page=1): #加了page参数 html=urllib.urlopen("http://www.budejie.com/pic/%s"%page).read() #%s对应后边的%page 阅读全文
posted @ 2016-11-18 15:47 张家欢。。 阅读(664) 评论(0) 推荐(0)