叫我大表哥

2020年1月20日

摘要：一、反编译工具： 1、APKTool： APKTool是由GOOGLE提供的APK编译工具，能够完成反编译及回编译apk的工作。同时，它也有着安装反编译系统apk所需要的framework-res框架，以及清理以前反编译文件夹等功能。 APKTool的使用需要java支持。 2、dex2jar： d 阅读全文

posted @ 2020-01-20 11:14 叫我大表哥阅读(9172) 评论(0) 推荐(1)

2019年12月12日

Smali语法基础

摘要： Smali是什么 Smali是Android虚拟机的反汇编语言。我们都知道，Android代码一般是用java编写的，执行java程序一般需要用到java虚拟机，在Android平台上也不例外，但是出于性能上的考虑，并没有使用标准的JVM，而是使用专门的Android虚拟机（5.0以下为Dalvi 阅读全文

posted @ 2019-12-12 10:43 叫我大表哥阅读(5199) 评论(1) 推荐(0)

2019年11月27日

Scrapy不同的item指定不同的Pipeline

摘要： scrapy不同的item指定不同的Pipeline from items import AspiderItem, BspiderItem, CspiderItem class myspiderPipeline(object): def __init__(self): pass def proces 阅读全文

posted @ 2019-11-27 11:18 叫我大表哥阅读(992) 评论(0) 推荐(0)

liunx系统下crontab定时启动Scrapy爬虫程序

摘要：定时启动爬虫 # 查看命令得绝对路径 # which scrapy # cd到爬虫得项目目录下 + scrapy命令得绝对路径 + 启动命令 */5 * * * * cd /opt/mafengwo/mafengwo/spiders && /usr/bin/scrapy crawl mfw_spid 阅读全文

posted @ 2019-11-27 11:17 叫我大表哥阅读(684) 评论(0) 推荐(0)

2019年10月20日

链家网爬虫同步VS异步执行时间对比

摘要：异步执行时间同步执行时间阅读全文

posted @ 2019-10-20 09:38 叫我大表哥阅读(295) 评论(0) 推荐(0)

2019年10月19日

异步协程asyncio+aiohttp

摘要： aiohttp中文文档 1. 前言在执行一些 IO 密集型任务的时候，程序常常会因为等待 IO 而阻塞。比如在网络爬虫中，如果我们使用 requests 库来进行请求的话，如果网站响应速度过慢，程序一直在等待网站响应，最后导致其爬取效率是非常非常低的。为了解决这类问题，本文就来探讨一下 Pyth 阅读全文

posted @ 2019-10-19 22:56 叫我大表哥阅读(3832) 评论(1) 推荐(0)

2019年10月12日

启动Django项目报错

摘要：今天一时手欠将电脑名字改成了中文，在启动Django或Flask项目的时候一直报下面的错误问题描述：环境配置成功，Django成功pip，运行项目报错，浏览器输入127.0.0.1:8000报错问题截图：问题所在：计算机名为中文解决方法：更改计算机名为英文，重启电脑重命名这台计算机重新阅读全文

posted @ 2019-10-12 23:28 叫我大表哥阅读(384) 评论(0) 推荐(0)

2019年9月30日

爬虫之获取猫眼电影10W评论

摘要：第一步打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃！！！！于是又上网查，终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步切换阅读全文

posted @ 2019-09-30 20:19 叫我大表哥阅读(2878) 评论(0) 推荐(0)

如何提高scrapy的爬取效率

摘要：增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’ 禁止cookie：阅读全文

posted @ 2019-09-30 20:18 叫我大表哥阅读(384) 评论(0) 推荐(1)

Scrapy爬虫的暂停和启动

摘要： scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一：方法二：在settings.py文件里加入下面的代码：使用命令scrapy crawl 爬虫名，就会自动生成一个sharejs.com的目录，然阅读全文

posted @ 2019-09-30 20:17 叫我大表哥阅读(3525) 评论(2) 推荐(0)

公告