学丁

博客园 首页 联系 订阅 管理

随笔分类 -  爬虫自学之路

先爬个校花网呗
摘要:数据提取方法 一、基础知识 数据提取 从响应中获取我们想要的数据的过程 数据分类 结构化数据 类型:json、xml等 处理方法:转化为python数据类型 非机构化数据 类型:html等 处理方法:正则表达式、xpath 二、Json知识点 JSON JSON(JavaScript Object 阅读全文
posted @ 2018-12-13 10:28 学丁 阅读(136) 评论(0) 推荐(0)

摘要:一、请求百度翻译(post方式) 问题来源 百度翻译电脑网页版所带请求中包含js生成的sign,所以改用手机版网页访问,可以简单构造 构造请求 requests.post(post_url,post_data,headers=headers) 实现构造 headers={'User-Agent':' 阅读全文
posted @ 2018-12-05 10:54 学丁 阅读(205) 评论(0) 推荐(0)

摘要:准备知识: 一、HTTP和HTTPS HTTP 超文本传输协议 默认端口号:80 HTTPS HTTP+SSL(安全套接层) 默认端口号:443 HTTPS比HTTP更安全、但是性能更低 二、python中Bytes类型和str类型 bytes:二进制 互联网上数据都是以二进制的方式传输的 str: 阅读全文
posted @ 2018-12-05 10:23 学丁 阅读(132) 评论(0) 推荐(0)