数据分析 - 随笔分类 - 菜鸟SSS

爬取企查查

摘要：爬取企查查需要考虑到其验证码问题验证码有两种（滑动验证码和图片验证码）一、滑动验证码解决办法：使用selenium技术 1 先获取到需滑动的块状 2 进行滑动、点击按钮具体代码如下： def get_track(distance): track = [] current = 0 mid = 阅读全文

posted @ 2019-05-31 18:49 菜鸟SSS 阅读(7175) 评论(0) 推荐(0)

Scrapy框架

摘要：一简介 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试安装scrapy 使用pip进行安装运行cmd命令进入终端执行命令：pip install Scrapy 阅读全文

posted @ 2019-05-27 18:54 菜鸟SSS 阅读(334) 评论(0) 推荐(0)

多线程爬虫

摘要：一、程序，进程，线程一个程序至少拥有一个进程，一个进程至少拥有一个线程。进程负责资源的调度和分配，线程才是程序真正的执行单元，负责代码的执行。二、单线程原理：每个正在运行的程序（即进程），至少包含一个线程，这个线程叫做主线程，主线程在程序启动时被创建，用于执行main函数，只有一个主线程阅读全文

posted @ 2019-03-01 14:31 菜鸟SSS 阅读(1221) 评论(0) 推荐(0)

reids非关系性数据库

摘要：1、Redis环境配置下载安装地址: https://github.com/MicrosoftArchive/redis/releases 解压文件到指定的目录，D:\ChromeCoreDownloads\Redis-x64-3.2.100 将该目录加入到环境变量中，再打开cmd输入redis- 阅读全文

posted @ 2019-02-28 10:44 菜鸟SSS 阅读(169) 评论(0) 推荐(0)

IP代理（proxies参数）

摘要：在爬虫的过程中，我们经常会遇见很多网站采取了防爬取技术，或者说因为自己采集网站信息的强度和采集速度太大，给对方服务器带去了太多的压力。如果你一直用同一个代理ip爬取这个网页，很有可能ip会被禁止访问网页，所以基本上做爬虫的都躲不过去ip的问题。通常情况下，爬虫用户自己是没有能力去自己维护服务器或阅读全文

posted @ 2019-02-22 21:44 菜鸟SSS 阅读(2511) 评论(0) 推荐(0)

Cookie，Session，正则表达式

摘要：一、Cookie和Session基础知识 Cookie：客户端本地存储的键值对 Http访问是不记录状态的，所以要借助session和cookie来保存访问状态具体来说cookie机制采用的是在客户端保持状态的方案，而session机制采用的是在服务器端保持状态的方案。 cookie 和sess 阅读全文

posted @ 2019-02-22 21:02 菜鸟SSS 阅读(1375) 评论(0) 推荐(0)

爬虫和数据

摘要：一为什么要做爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据: 百度指数：http://index.baidu.com/ 阿里指数：https://alizs.taobao.com/ TBI腾讯浏览指数：http://tbi.tencent.com/ 新浪微博指数：阅读全文

posted @ 2019-02-22 16:11 菜鸟SSS 阅读(528) 评论(0) 推荐(0)

菜鸟SSS

随笔分类 - 数据分析

公告