• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
百里丶落云
Gee,gee,baby,baby
            管理     
2019年1月9日
爬虫 处理封禁的常用方法
摘要: 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文假定 阅读全文
posted @ 2019-01-09 22:49 百里丶落云 阅读(1624) 评论(0) 推荐(0)
python 爬虫 黑科技
摘要: 1.最基本的抓站 2.使用代理服务器 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。 1 2 3 4 5 import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XX 阅读全文
posted @ 2019-01-09 22:40 百里丶落云 阅读(304) 评论(0) 推荐(0)
collections 模块常用方法学习
摘要: 前情提要: 1:模块介绍 个人认为就是 python自带的骚操作模块.如果基础能力够给力的话,完全用不到 个人认为解析式才是装逼神奇,用模块的都是伪娘 2:deque 双向列表 3:defaultdict 定义key的字典 4:Couter 以字典的形式返回,一个可迭代对象的重复内容的数量 阅读全文
posted @ 2019-01-09 22:08 百里丶落云 阅读(171) 评论(0) 推荐(0)
os模块常用方法学习
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2019-01-09 21:56 百里丶落云 阅读(8) 评论(0) 推荐(0)
hashlib md5 模块使用
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2019-01-09 21:48 百里丶落云 阅读(7) 评论(0) 推荐(0)
pickle 模块学习 常用方法
摘要: 常用模块 阅读全文
posted @ 2019-01-09 21:31 百里丶落云 阅读(353) 评论(0) 推荐(1)
json 模块的基本使用学习
摘要: 内容大纲 1: 为什么要学习json模块 >1:因为网络之间的通信,还有不同语言之间的相互内容沟通,需要用到json 模式进行沟通 >2:写入部分文件用json文件保存, 2:json的序列化 json.dumps(iterable) 3:将json 转化成字典 json.loads(json模式的 阅读全文
posted @ 2019-01-09 21:13 百里丶落云 阅读(345) 评论(0) 推荐(0)
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3