博客园 - Masako
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=99579
2021-05-24T09:41:57Z
Masako
https://www.cnblogs.com/masako/
feed.cnblogs.com
https://www.cnblogs.com/masako/p/14790802.html
docker使用小记 - Masako
最近在做一些接口,需要使用docker打包发布。 接口的内容不多,文件结构也不复杂,使用的是Flask框架开发的。 一、Docker file docker打包需要一个Dockerfile,指挥怎么打包怎么运行。 使用了一个简单的Dockerfile模板 FROM python:3.7.5 RUN
2021-05-24T09:42:00Z
2021-05-24T09:42:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】最近在做一些接口,需要使用docker打包发布。 接口的内容不多,文件结构也不复杂,使用的是Flask框架开发的。 一、Docker file docker打包需要一个Dockerfile,指挥怎么打包怎么运行。 使用了一个简单的Dockerfile模板 FROM python:3.7.5 RUN <a href="https://www.cnblogs.com/masako/p/14790802.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/11459496.html
使用tinyproxy进行ip代理 - Masako
爬虫经常用到ip代理。解决方案无非几种: 1.网络上寻找一些免费代理,优点:免费不限量;缺点:可用性较低,验证费时间费资源。一些有免费代理的网站,西刺代理,站大爷,89免费代理等等,网上可以搜出一大堆。 2.购买代理ip,和找免费的差不多,一般有免费代理ip的网站基本都有收费的api。优点:可用性较
2019-09-05T09:15:00Z
2019-09-05T09:15:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】爬虫经常用到ip代理。解决方案无非几种: 1.网络上寻找一些免费代理,优点:免费不限量;缺点:可用性较低,验证费时间费资源。一些有免费代理的网站,西刺代理,站大爷,89免费代理等等,网上可以搜出一大堆。 2.购买代理ip,和找免费的差不多,一般有免费代理ip的网站基本都有收费的api。优点:可用性较 <a href="https://www.cnblogs.com/masako/p/11459496.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/10725149.html
微信公众号文章信息采集 - Masako
尝试一下抓取微信公众号历史文章。 采集的主要信息有:标题、描述、作者、评论数、阅读数、在看数、发布时间、文章链接 主要有这几个步骤: 需要准备工具: fiddler 微信PC客户端 使用python3,相应环境自己搭建。 分析流程: 首先,打开fiddler,操作一下自己的微信,访问一些公众号,然后
2019-05-17T08:36:00Z
2019-05-17T08:36:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】尝试一下抓取微信公众号历史文章。 采集的主要信息有:标题、描述、作者、评论数、阅读数、在看数、发布时间、文章链接 主要有这几个步骤: 需要准备工具: fiddler 微信PC客户端 使用python3,相应环境自己搭建。 分析流程: 首先,打开fiddler,操作一下自己的微信,访问一些公众号,然后 <a href="https://www.cnblogs.com/masako/p/10725149.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/10647973.html
造一个轮子然后安装到pypi上 - Masako
之前写了一个爬虫的包,主要是根据自己写爬虫的情况总结一下。 因为每次都要重复写一些代码,所以提炼出来,类似一个框架的样子吧。 开始是放在自己的项目里引用,但如果换了一个项目,就得重新拷一遍,很麻烦。 后面又学到了,放在site-package里面可以在自己的环境引用,但换一个环境也是不行的,于是想到
2019-04-03T15:06:00Z
2019-04-03T15:06:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】之前写了一个爬虫的包,主要是根据自己写爬虫的情况总结一下。 因为每次都要重复写一些代码,所以提炼出来,类似一个框架的样子吧。 开始是放在自己的项目里引用,但如果换了一个项目,就得重新拷一遍,很麻烦。 后面又学到了,放在site-package里面可以在自己的环境引用,但换一个环境也是不行的,于是想到 <a href="https://www.cnblogs.com/masako/p/10647973.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/10649212.html
Python SSLError - Masako
最近老是遇到这个问题。 SSLError(SSLError(1, '[SSL: CERTIFIC ATE_VERIFY_FAILED] certificate verify failed (_ssl.c:841)')) 错误代码841,结果是Fiddler没关,好吧。 搜半天,真的浪费时间。 写一些
2019-04-03T07:33:00Z
2019-04-03T07:33:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】最近老是遇到这个问题。 SSLError(SSLError(1, '[SSL: CERTIFIC ATE_VERIFY_FAILED] certificate verify failed (_ssl.c:841)')) 错误代码841,结果是Fiddler没关,好吧。 搜半天,真的浪费时间。 写一些 <a href="https://www.cnblogs.com/masako/p/10649212.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/9876375.html
部署一个flask服务记录 - Masako
最近使用flask写了一些简单的服务。 服务部署到服务器上进行使用,这个过程会有一些问题,需要进行记录一下。 说明运行的环境情况。使用的是python3.6的虚拟环境,系统是centos7,其他的有uwsgi,supervisor,ngnix。 首先准备一个简单的flask服务。 代码ipapp.p
2019-03-06T17:13:00Z
2019-03-06T17:13:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】最近使用flask写了一些简单的服务。 服务部署到服务器上进行使用,这个过程会有一些问题,需要进行记录一下。 说明运行的环境情况。使用的是python3.6的虚拟环境,系统是centos7,其他的有uwsgi,supervisor,ngnix。 首先准备一个简单的flask服务。 代码ipapp.p <a href="https://www.cnblogs.com/masako/p/9876375.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/10045538.html
Python爬虫之XML - Masako
一、请求参数形式为xml 举例说明。 现在有这样一个网址:https://www.runff.com/html/live/s1484.html;想要查询图片列表,打开F12,观察到请求如下: 这里的请求参数形式为xml,使用python模仿请求的代码这样写 这里主要使用了post方法,将xml的参数
2018-11-30T09:35:00Z
2018-11-30T09:35:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】一、请求参数形式为xml 举例说明。 现在有这样一个网址:https://www.runff.com/html/live/s1484.html;想要查询图片列表,打开F12,观察到请求如下: 这里的请求参数形式为xml,使用python模仿请求的代码这样写 这里主要使用了post方法,将xml的参数 <a href="https://www.cnblogs.com/masako/p/10045538.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/9647080.html
Python使用浏览器模拟访问页面之使用ip代理 - Masako
最近需要使用浏览器模拟访问页面,同时需要使用不同的ip访问,这个时候就考虑到在使用浏览器的同时加上ip代理。 本篇工作环境为win10,python3.6. Chorme 使用Chrome浏览器模拟访问,代码如下 “D:/tools/wedriver/chromedriver.exe” 是下载的谷歌
2018-09-14T07:51:00Z
2018-09-14T07:51:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】最近需要使用浏览器模拟访问页面,同时需要使用不同的ip访问,这个时候就考虑到在使用浏览器的同时加上ip代理。 本篇工作环境为win10,python3.6. Chorme 使用Chrome浏览器模拟访问,代码如下 “D:/tools/wedriver/chromedriver.exe” 是下载的谷歌 <a href="https://www.cnblogs.com/masako/p/9647080.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/9319109.html
一次简单粗暴的验证码识别经历 - Masako
最近爬取一个网站时,遇到了验证码的情况。验证码形式是计算题,10以内的数字(可能有少量十以上),加减乘计算。 开始懒得搞,第一批需要的数据量并不大,想着直接平台打码。 原因是以前登录新浪微博的时候也是直接打码的,比较熟练,也简便。但打码成本比较高,后续需求量大,所以最好自己能识别。 看了几篇识别验证
2018-08-24T04:21:00Z
2018-08-24T04:21:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】最近爬取一个网站时,遇到了验证码的情况。验证码形式是计算题,10以内的数字(可能有少量十以上),加减乘计算。 开始懒得搞,第一批需要的数据量并不大,想着直接平台打码。 原因是以前登录新浪微博的时候也是直接打码的,比较熟练,也简便。但打码成本比较高,后续需求量大,所以最好自己能识别。 看了几篇识别验证 <a href="https://www.cnblogs.com/masako/p/9319109.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/9289285.html
在windows上添加cygwin右键 - Masako
来了一台新机器,装环境的时候,突然想直接在右键使用cygwin。 查了一些教程,基本大同小异,也算是有用,先贴一个链接: https://blog.csdn.net/yang_hong_/article/details/52490266 总结原理是: 1.在系统的注册表添加cygwin的路径 2.修
2018-07-10T07:23:00Z
2018-07-10T07:23:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】来了一台新机器,装环境的时候,突然想直接在右键使用cygwin。 查了一些教程,基本大同小异,也算是有用,先贴一个链接: https://blog.csdn.net/yang_hong_/article/details/52490266 总结原理是: 1.在系统的注册表添加cygwin的路径 2.修 <a href="https://www.cnblogs.com/masako/p/9289285.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/8629445.html
python爬虫常用之Scrapy 中间件 - Masako
一、概述 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 http
2018-03-23T06:46:00Z
2018-03-23T06:46:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】一、概述 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 http <a href="https://www.cnblogs.com/masako/p/8629445.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/8066683.html
python爬虫常用之Scrapy 简述 - Masako
一、安装 pip install scrapy. 如果提示需要什么包就装什么包 有的包pip安装不起,需要自己下载whl文件进行安装. 二、基本的爬虫流程 通用爬虫有如下几步: 构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->> 保存结果 三、scrapy的爬虫流程
2018-03-23T03:08:00Z
2018-03-23T03:08:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】一、安装 pip install scrapy. 如果提示需要什么包就装什么包 有的包pip安装不起,需要自己下载whl文件进行安装. 二、基本的爬虫流程 通用爬虫有如下几步: 构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->> 保存结果 三、scrapy的爬虫流程 <a href="https://www.cnblogs.com/masako/p/8066683.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/8508156.html
mongoengine在python中的使用 - Masako
搞明白了比较困惑的一点,就是数据的联系在哪里.若使用pymongo,会有一个connect对象,用以操作数据库. 在mongo engine中,Document对象就是connect链接到的数据库,只需要继承它,就可以进行相应操作.而在使用时,若已创建了要使用的数据库,则类名和属性名都要一一对应来使
2018-03-05T03:36:00Z
2018-03-05T03:36:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】搞明白了比较困惑的一点,就是数据的联系在哪里.若使用pymongo,会有一个connect对象,用以操作数据库. 在mongo engine中,Document对象就是connect链接到的数据库,只需要继承它,就可以进行相应操作.而在使用时,若已创建了要使用的数据库,则类名和属性名都要一一对应来使 <a href="https://www.cnblogs.com/masako/p/8508156.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/7660418.html
rsa字符串格式公钥转换python rsa库可识别的公钥形式 - Masako
在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥: 对于rsa算法的公钥,我们了解到,主要有两个信息:模数(modulus)和指数(exponent) 只有有这两个信息,我们便可以用以下代码段生成公钥,然后使用rsa库对数据进行加密 现在我们需要做的就是从这段字符串中提出模数和指数. 在研究的
2017-10-13T03:47:00Z
2017-10-13T03:47:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥: 对于rsa算法的公钥,我们了解到,主要有两个信息:模数(modulus)和指数(exponent) 只有有这两个信息,我们便可以用以下代码段生成公钥,然后使用rsa库对数据进行加密 现在我们需要做的就是从这段字符串中提出模数和指数. 在研究的 <a href="https://www.cnblogs.com/masako/p/7660418.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/7403726.html
Python爬虫常用之登录(三) 使用http请求登录 - Masako
前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主. 开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录->登录成功 一、分析网页 从网页着手,打开博客园的登录页面,F12调出网页调试,选择network的tab,然后登录,登录成功后
2017-08-21T09:03:00Z
2017-08-21T09:03:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主. 开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录->登录成功 一、分析网页 从网页着手,打开博客园的登录页面,F12调出网页调试,选择network的tab,然后登录,登录成功后 <a href="https://www.cnblogs.com/masako/p/7403726.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/7403293.html
Python爬虫常用之登录(二) 浏览器模拟登录 - Masako
浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些 一、使用selenium打开网页 以上几句执行便可以打开博客园的登录界面,开启浏览器可能较慢,耐心等一下. 以前的se
2017-08-21T04:27:00Z
2017-08-21T04:27:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些 一、使用selenium打开网页 以上几句执行便可以打开博客园的登录界面,开启浏览器可能较慢,耐心等一下. 以前的se <a href="https://www.cnblogs.com/masako/p/7403293.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/7285628.html
Python爬虫常用之登录(一) 思想 - Masako
爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可. 一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取. 一般获取数据需要的是登录后的cookie作为身份验证,如果一个可用cookie就能满足你的爬虫需要,可以不用模拟登录, 直接在网页上登录,拷
2017-08-21T04:25:00Z
2017-08-21T04:25:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可. 一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取. 一般获取数据需要的是登录后的cookie作为身份验证,如果一个可用cookie就能满足你的爬虫需要,可以不用模拟登录, 直接在网页上登录,拷 <a href="https://www.cnblogs.com/masako/p/7285628.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/7217670.html
python发送邮件 - Masako
首先是使用ubuntu作为服务器发送 这个操作可能失败,收邮件也需要到垃圾箱查看。 第一步,安装发送邮件需要的服务 使用命令: 第一句是安装,第二句是开启 第二步,写一个发邮件的python文件 随便上网找一段就可以了... 以下是我找的例子: 第三步,将程序跑起来 将第二步的程序保存下来,命名为e
2017-07-21T06:56:00Z
2017-07-21T06:56:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】首先是使用ubuntu作为服务器发送 这个操作可能失败,收邮件也需要到垃圾箱查看。 第一步,安装发送邮件需要的服务 使用命令: 第一句是安装,第二句是开启 第二步,写一个发邮件的python文件 随便上网找一段就可以了... 以下是我找的例子: 第三步,将程序跑起来 将第二步的程序保存下来,命名为e <a href="https://www.cnblogs.com/masako/p/7217670.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/7095665.html
amqp模块在python2.7.6版本上报错的问题 - Masako
机器的环境是python2.7.6; 使用pip install安装了amqp.正常安装,未报错. amqp安装的版本是2.1.4. 在python中,使用import amqp,报错如下: 百度和google了一些Struct() argument 1 must be string, not un
2017-06-29T09:46:00Z
2017-06-29T09:46:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】机器的环境是python2.7.6; 使用pip install安装了amqp.正常安装,未报错. amqp安装的版本是2.1.4. 在python中,使用import amqp,报错如下: 百度和google了一些Struct() argument 1 must be string, not un <a href="https://www.cnblogs.com/masako/p/7095665.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/masako/p/6929367.html
supervisor使用小记 - Masako
最近使用supervisor部署爬虫,百度了很多,磕磕绊绊自己也算是用起来了,以下是整理的使用情况. 第一步: 下载安装supervisor 使用的ubuntu16.04,直接 sudo apt-get install supervisor 由于权限老是不够,习惯加sudo~ 也可以 pip ins
2017-06-02T01:43:00Z
2017-06-02T01:43:00Z
Masako
https://www.cnblogs.com/masako/
【摘要】最近使用supervisor部署爬虫,百度了很多,磕磕绊绊自己也算是用起来了,以下是整理的使用情况. 第一步: 下载安装supervisor 使用的ubuntu16.04,直接 sudo apt-get install supervisor 由于权限老是不够,习惯加sudo~ 也可以 pip ins <a href="https://www.cnblogs.com/masako/p/6929367.html" target="_blank">阅读全文</a>