花名k

2019年6月20日

摘要：一般的设置在网上就能找到(端口,ip啥的) 但是难点是关于安卓手机证书在网上找到的几种方法,一种是在app源码中添加设置让手机app同意你下载安装的证书,另一种则是root_adb 安装证书但是太过繁琐,不适合没有基础的人 https://www.cnblogs.com/Entr0py/p/96 阅读全文

posted @ 2019-06-20 22:46 花名k 阅读(468) 评论(0) 推荐(0)

2019年6月19日

关于adsl vps 拨号ip服务器

摘要：我这几天写了一遍在xp上的文章,但是因为xp上貌似只能使用squid2.6版本的,tinyproxy也不能用,而且怎么弄不出去vps端的端口出来 https://www.cnblogs.com/zengxm/articles/11043058.html 该文章进入半作废,如果有时间再弄一下能不能搞一阅读全文

posted @ 2019-06-19 02:08 花名k 阅读(678) 评论(0) 推荐(0)

2019年6月18日

nohub 将程序永久运行下去

摘要：今天看了一遍文章,一直以为将程序制成sh脚本,通过crontab来间隔执行以为是真的不断执行,后来才发现是错误的,每隔一段时间都会执行一次,都会占用一个进程,难怪一看进程几十来个同样名字的进程在运行正在的将程序以忽略挂起信号的方式运行起来是通过nphup 来执行的来源 https://www 阅读全文

posted @ 2019-06-18 02:36 花名k 阅读(196) 评论(0) 推荐(0)

flask 部署外部访问

摘要：在 app.run(host='0.0.0.0',port=5000) 可以让外部客户端进行访问,访问地址是flask服务器的ip地址和你设置的端口(端口注意不要占用其他端口,如果是阿里云有可能要设置端口开放) 阅读全文

posted @ 2019-06-18 00:00 花名k 阅读(3007) 评论(0) 推荐(1)

2019年6月15日

redis 出现(error) MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data set are disabled. Please check Redis logs for details

摘要：如果在ubuntu安装的redis含端口使用,但是某些时候常常出现 (error) MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands th 阅读全文

posted @ 2019-06-15 21:08 花名k 阅读(335) 评论(0) 推荐(0)

京东全站爬取,简单笔记,不涉及代码

摘要：单机(不是分布式) 执行时间为晚上1点40多,运行到第二天1点48,大概12个小时,爬取了48037个网页不过在运行过程中能看到有时候并没有进行爬取,而是卡住了还有时候回出现一些错误,提取id和re的时候出现问题,没有发现该元素,预计是某些页面的格式不同,提取规则也不同,特别是hk页面(全球购) 阅读全文

posted @ 2019-06-15 13:57 花名k 阅读(335) 评论(0) 推荐(0)

2019年6月9日

scrapy中间件中使用selenium切换ip

摘要： scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用selenium的ip不会跟着你在中间件中切换的ip变化,还是使用本机的ip在访问网站, 这里通过确定网阅读全文

posted @ 2019-06-09 21:55 花名k 阅读(1276) 评论(0) 推荐(0)

2019年6月8日

scrapy 在爬取过程中抓取下载图片

摘要：先说前提,我不推荐在sarapy爬取过程中使用scrapy自带的 ImagesPipeline 进行下载,是在是太耗时间了最好是保存,在使用其他方法下载我这个是在 https://blog.csdn.net/qq_41781877/article/details/80631942 看到的,可以稍阅读全文

posted @ 2019-06-08 21:50 花名k 阅读(6630) 评论(0) 推荐(0)

2019年6月4日

python 关于函数递归调用自己

摘要：爬取b站博人传每页短评20个,页数超过1000页, 代码如下在爬取过程中发现,每当递归到999会发生异常这个函数在递归自身是发生的异常只需要在程序开头添加防止内存爆炸阅读全文

posted @ 2019-06-04 11:29 花名k 阅读(3395) 评论(0) 推荐(0)

关于爬虫个人认为难度很高的两点

摘要：第一点是 js 进行了加密, 通常是需要进行一些参数传递,比如有道翻译,那种加密很简单,只需要在进行推演就可以知道加密的数值是什么样子的, 百度翻译sign的数值进行了js函数加密,如果是不懂js,那么很难进行反加密解决方法有通过selenium 其他途径,app,web 第二种则是动态字体文件阅读全文

posted @ 2019-06-04 05:01 花名k 阅读(955) 评论(0) 推荐(0)

公告