会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
花名k
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
下一页
2019年6月20日
爬虫使用中间代理人 fiddl...,charles,mitmproxy 设置
摘要: 一般的设置在网上就能找到(端口,ip啥的) 但是难点是关于安卓手机证书 在网上找到的几种方法,一种是在app源码中添加设置让手机app同意你下载安装的证书,另一种则是root_adb 安装证书 但是太过繁琐,不适合没有基础的人 https://www.cnblogs.com/Entr0py/p/96
阅读全文
posted @ 2019-06-20 22:46 花名k
阅读(468)
评论(0)
推荐(0)
2019年6月19日
关于adsl vps 拨号ip服务器
摘要: 我这几天写了一遍在xp上的文章,但是因为xp上貌似只能使用squid2.6版本的,tinyproxy也不能用,而且怎么弄不出去vps端的端口出来 https://www.cnblogs.com/zengxm/articles/11043058.html 该文章进入半作废,如果有时间再弄一下能不能搞一
阅读全文
posted @ 2019-06-19 02:08 花名k
阅读(676)
评论(0)
推荐(0)
2019年6月18日
nohub 将程序永久运行下去
摘要: 今天看了一遍文章,一直以为将程序制成sh脚本,通过crontab来间隔执行以为是真的不断执行,后来才发现是错误的,每隔一段时间都会执行一次,都会占用一个进程,难怪一看进程几十来个同样名字的进程在运行 正在的 将程序以忽略挂起信号的方式运行起来 是通过nphup 来执行的 来源 https://www
阅读全文
posted @ 2019-06-18 02:36 花名k
阅读(196)
评论(0)
推荐(0)
flask 部署外部访问
摘要: 在 app.run(host='0.0.0.0',port=5000) 可以让外部客户端进行访问,访问地址是flask服务器的ip地址和你设置的端口(端口注意不要占用其他端口,如果是阿里云有可能要设置端口开放)
阅读全文
posted @ 2019-06-18 00:00 花名k
阅读(3006)
评论(0)
推荐(1)
2019年6月15日
redis 出现(error) MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data set are disabled. Please check Redis logs for details
摘要: 如果在ubuntu安装的redis含端口使用,但是某些时候常常出现 (error) MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands th
阅读全文
posted @ 2019-06-15 21:08 花名k
阅读(334)
评论(0)
推荐(0)
京东全站爬取,简单笔记,不涉及代码
摘要: 单机(不是分布式) 执行时间为晚上1点40多,运行到第二天1点48,大概12个小时,爬取了48037个网页 不过在运行过程中能看到有时候并没有进行爬取,而是卡住了 还有时候回出现一些错误,提取id和re的时候出现问题,没有发现该元素,预计是某些页面的格式不同,提取规则也不同,特别是hk页面(全球购)
阅读全文
posted @ 2019-06-15 13:57 花名k
阅读(334)
评论(0)
推荐(0)
2019年6月9日
scrapy中间件中使用selenium切换ip
摘要: scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面 但是有个问题,容易给反爬,因为在scrapy中间件mid中使用selenium的ip不会跟着你在中间件中切换的ip变化,还是使用本机的ip在访问网站, 这里通过 确定网
阅读全文
posted @ 2019-06-09 21:55 花名k
阅读(1272)
评论(0)
推荐(0)
2019年6月8日
scrapy 在爬取过程中抓取下载图片
摘要: 先说前提,我不推荐在sarapy爬取过程中使用scrapy自带的 ImagesPipeline 进行下载,是在是太耗时间了 最好是保存,在使用其他方法下载 我这个是在 https://blog.csdn.net/qq_41781877/article/details/80631942 看到的,可以稍
阅读全文
posted @ 2019-06-08 21:50 花名k
阅读(6629)
评论(0)
推荐(0)
2019年6月4日
python 关于函数递归调用自己
摘要: 爬取b站博人传 每页短评20个,页数超过1000页, 代码如下 在爬取过程中发现,每当递归到999会发生异常 这个函数在递归自身是发生的异常 只需要在程序开头添加 防止内存爆炸
阅读全文
posted @ 2019-06-04 11:29 花名k
阅读(3395)
评论(0)
推荐(0)
关于爬虫个人认为难度很高的两点
摘要: 第一点是 js 进行了加密, 通常是需要进行一些参数传递,比如有道翻译,那种加密很简单,只需要在进行推演就可以知道加密的数值是什么样子的, 百度翻译sign的数值进行了js函数加密,如果是不懂js,那么很难进行反加密 解决方法有 通过selenium 其他途径,app,web 第二种则是动态字体文件
阅读全文
posted @ 2019-06-04 05:01 花名k
阅读(955)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
下一页
公告