随笔分类 -  数据分析

摘要:爬取企查查需要考虑到其验证码问题 验证码有两种(滑动验证码和图片验证码) 一、滑动验证码 解决办法:使用selenium技术 1 先获取到需滑动的块状 2 进行滑动、点击按钮 具体代码如下: def get_track(distance): track = [] current = 0 mid = 阅读全文
posted @ 2019-05-31 18:49 菜鸟SSS 阅读(7175) 评论(0) 推荐(0)
摘要:一 简介 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 安装scrapy 使用pip进行安装 运行cmd命令进入终端 执行命令:pip install Scrapy 阅读全文
posted @ 2019-05-27 18:54 菜鸟SSS 阅读(334) 评论(0) 推荐(0)
摘要:一、 程序,进程,线程 一个程序至少拥有一个进程,一个进程至少拥有一个线程。进程负责资源的调度和分配,线程才是程序真正的执行单元,负责代码的执行。 二、单线程 原理: 每个正在运行的程序(即进程),至少包含一个线程,这个线程叫做主线程, 主线程在程序启动时被创建,用于执行main函数,只有一个主线程 阅读全文
posted @ 2019-03-01 14:31 菜鸟SSS 阅读(1221) 评论(0) 推荐(0)
摘要:1、Redis环境配置 下载安装地址: https://github.com/MicrosoftArchive/redis/releases 解压文件到指定的目录,D:\ChromeCoreDownloads\Redis-x64-3.2.100 将该目录加入到环境变量中,再打开cmd输入redis- 阅读全文
posted @ 2019-02-28 10:44 菜鸟SSS 阅读(169) 评论(0) 推荐(0)
摘要:在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。 如果你一直用同一个代理ip爬取这个网页,很有可能ip会被禁止访问网页,所以基本上做爬虫的都躲不过去ip的问题。 通常情况下,爬虫用户自己是没有能力去自己维护服务器或 阅读全文
posted @ 2019-02-22 21:44 菜鸟SSS 阅读(2511) 评论(0) 推荐(0)
摘要:一、Cookie和Session基础知识 Cookie:客户端本地存储的键值对 Http访问是不记录状态的,所以要借助session和cookie来保存访问状态 具体来说cookie机制采用的是在客户端保持状态的方案,而session机制采用的是在服务器端保 持状态的方案。 cookie 和sess 阅读全文
posted @ 2019-02-22 21:02 菜鸟SSS 阅读(1375) 评论(0) 推荐(0)
摘要:一 为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据: 百度指数:http://index.baidu.com/ 阿里指数:https://alizs.taobao.com/ TBI腾讯浏览指数:http://tbi.tencent.com/ 新浪微博指数: 阅读全文
posted @ 2019-02-22 16:11 菜鸟SSS 阅读(528) 评论(0) 推荐(0)