摘要: 目的:复习常用的response对象的属性 import requests url = "http://www.baidu.com" r = requests.get(url) print(r.status_code) #状态码 print(r.content) #响应内容为二进制形式 print( 阅读全文
posted @ 2019-10-11 14:47 smallpotato001 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 首先,非常感谢大神的文章 https://www.cnblogs.com/LexMoon/p/pyspider03.html#4361286 阅读全文
posted @ 2019-09-23 22:21 smallpotato001 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 首先,要能够查询到照片地址,查询的照片必须要开GPS拍,且上传时用原图…… 查询图片的exif信息,使用exifread包 这里建议,可以找一个exif查看器上传一个图片看一看,对GPS GPSLongitude等信息有一个直观印象 到这里,我花费时间最长才发现的一个坑。现象是我写完后,读取结果总是 阅读全文
posted @ 2019-09-22 22:07 smallpotato001 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 1. 我想要安装一个包,在terminal中pip install xx是最方便的,但是pip还没安装,怎么办? 输入sudo easy_install pip即可。 阅读全文
posted @ 2019-09-22 18:52 smallpotato001 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 提取HTML数据 在我爬取链家,携程网站时候遇到问题,明明response 200,但select返回是空值。 目前猜测原因是:存放我想获取数据的网址不是在一开始写入的网址,我resp.text没有看见相关数据。这个以后学习如何处理。 提取Json数据 暂时不会,大致看了下,像字典存储 阅读全文
posted @ 2019-09-22 17:39 smallpotato001 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 为什么要设置请求头? 第一课中提到request.get(url),但是对一些网站, 爬取时会发现返回<Response [403]>。403是网站的反爬机制造成的,如果仅仅是发送web服务器一个页面请求,web服务器连你一些基本信息都不知道,这时候会被视为非正常的访问,无法爬取成功。因此需要加入h 阅读全文
posted @ 2019-09-22 14:58 smallpotato001 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 学习爬虫的目的是什么? 我目前的理解是爬虫是为了批量访问并获取数据,比如我希望分析各地房价的变化,那我就需要定期爬取房地产相关网站最新房价数据。 先看下面的代码 如果是小白,可能会有以下几个问题 1. url是什么? 2. requests.get(url)这一步发生了什么? 3. 返回<Respo 阅读全文
posted @ 2019-09-22 12:07 smallpotato001 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 序言: 最近遇到的困难是将我们业务接入一个大用户体量的App,而我们目标用户一定是在该App的使用用户范围内。但接入一个月,成交量极低。我们都想知道为什么成交量这么低。 数据分析 核心思维:找两组变量之间的关系 分析步骤: 1. 感知问题 第一种是最终结果有问题(对比法)。 这个最终结果对目前业务而 阅读全文
posted @ 2019-09-22 10:06 smallpotato001 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 新的派单排序策略上线了——更换了服务资源的选择顺序,为了验证其效率需要进行数据分析。 这里,我采用的分析思路是假设,分析,验证的方式 假设:新策略会带来更短的移动距离和时间,和更快的做单时间 分析:对比方式。即用以往的订单数据进行分析,但根据具体业务场景需要特别注意几点:城市维度(每个城市的资源排布 阅读全文
posted @ 2019-09-19 17:17 smallpotato001 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 1. 切片 range等的左闭右开原因: 迭代器一般不支持比大小,但支持比较是否相等,while循环是否终止用i != n判断 2.遍历 满足条件就停止,全部遍历完还没找到就告知没有 需要一个flag=0,满足条件置为1.当flag最终没有变为1,就表示没有找到 3.a.append(b) 是没有结 阅读全文
posted @ 2019-09-08 16:52 smallpotato001 阅读(110) 评论(0) 推荐(0) 编辑