会员
T恤
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
叫我大表哥
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
18
下一页
2020年1月20日
APK的反编译(获取代码和资源文件)
摘要: 一、反编译工具: 1、APKTool: APKTool是由GOOGLE提供的APK编译工具,能够完成反编译及回编译apk的工作。同时,它也有着安装反编译系统apk所需要的framework-res框架,以及清理以前反编译文件夹等功能。 APKTool的使用需要java支持。 2、dex2jar: d
阅读全文
posted @ 2020-01-20 11:14 叫我大表哥
阅读(7491)
评论(0)
推荐(0)
2019年12月12日
Smali语法基础
摘要: Smali是什么 Smali是Android虚拟机的反汇编语言。 我们都知道,Android代码一般是用java编写的,执行java程序一般需要用到java虚拟机,在Android平台上也不例外,但是出于性能上的考虑,并没有使用标准的JVM,而是使用专门的Android虚拟机(5.0以下为Dalvi
阅读全文
posted @ 2019-12-12 10:43 叫我大表哥
阅读(4722)
评论(1)
推荐(0)
2019年11月27日
Scrapy不同的item指定不同的Pipeline
摘要: scrapy不同的item指定不同的Pipeline from items import AspiderItem, BspiderItem, CspiderItem class myspiderPipeline(object): def __init__(self): pass def proces
阅读全文
posted @ 2019-11-27 11:18 叫我大表哥
阅读(989)
评论(0)
推荐(0)
liunx系统下crontab定时启动Scrapy爬虫程序
摘要: 定时启动爬虫 # 查看命令得绝对路径 # which scrapy # cd到爬虫得项目目录下 + scrapy命令得绝对路径 + 启动命令 */5 * * * * cd /opt/mafengwo/mafengwo/spiders && /usr/bin/scrapy crawl mfw_spid
阅读全文
posted @ 2019-11-27 11:17 叫我大表哥
阅读(669)
评论(0)
推荐(0)
2019年10月20日
链家网爬虫同步VS异步执行时间对比
摘要: 异步执行时间 同步执行时间
阅读全文
posted @ 2019-10-20 09:38 叫我大表哥
阅读(288)
评论(0)
推荐(0)
2019年10月19日
异步协程asyncio+aiohttp
摘要: aiohttp中文文档 1. 前言 在执行一些 IO 密集型任务的时候,程序常常会因为等待 IO 而阻塞。比如在网络爬虫中,如果我们使用 requests 库来进行请求的话,如果网站响应速度过慢,程序一直在等待网站响应,最后导致其爬取效率是非常非常低的。 为了解决这类问题,本文就来探讨一下 Pyth
阅读全文
posted @ 2019-10-19 22:56 叫我大表哥
阅读(3611)
评论(1)
推荐(0)
2019年10月12日
启动Django项目报错
摘要: 今天一时手欠将电脑名字改成了中文,在启动Django或Flask项目的时候一直报下面的错误 问题描述: 环境配置成功,Django成功pip,运行项目报错,浏览器输入127.0.0.1:8000报错 问题截图: 问题所在:计算机名为中文 解决方法:更改计算机名为英文,重启电脑 重命名这台计算机 重新
阅读全文
posted @ 2019-10-12 23:28 叫我大表哥
阅读(377)
评论(0)
推荐(0)
2019年9月30日
爬虫之获取猫眼电影10W评论
摘要: 第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步 切换
阅读全文
posted @ 2019-09-30 20:19 叫我大表哥
阅读(2706)
评论(0)
推荐(0)
如何提高scrapy的爬取效率
摘要: 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 禁止cookie:
阅读全文
posted @ 2019-09-30 20:18 叫我大表哥
阅读(373)
评论(0)
推荐(1)
Scrapy爬虫的暂停和启动
摘要: scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 方法二: 在settings.py文件里加入下面的代码: 使用命令scrapy crawl 爬虫名,就会自动生成一个sharejs.com的目录,然
阅读全文
posted @ 2019-09-30 20:17 叫我大表哥
阅读(3505)
评论(2)
推荐(0)
上一页
1
2
3
4
5
6
···
18
下一页
公告