2019 年 1月随笔档案 - ...绿茵

matplotlib

摘要：主要内容: 数据分析第一天内容: 画图阅读全文

posted @ 2019-01-24 17:20 ...绿茵阅读(87) 评论(0) 推荐(0)

pandas

摘要：主要内容: 1 Series是一种类似与一维数组的对象,由下面两个部分组成:values:一种数据类型;index:相应的数据索引标签.Series的创建 a :两种创建方式 1) 由列表和numpy数组组建,默认索引为0. 2) 由字典创建: 不能再使用index, 但是依然存在默认索引. 注意阅读全文

posted @ 2019-01-24 17:19 ...绿茵阅读(172) 评论(0) 推荐(0)

数据分析 numpy

摘要：主要内容: 1 数据分析 a 概念: 是把隐藏在一些看似杂乱无章的数据背后信息提炼出来,总结出所研究对象的内在规律. b 三剑客: Numpy Pandas Matplotlib 2 Numpy 是Python语言的一个扩展程序库, 支持大量的纬度数组与矩阵运算,此外也针对数组运算提供大量的数字函数阅读全文

posted @ 2019-01-24 10:45 ...绿茵阅读(193) 评论(0) 推荐(0)

爬虫scrapy框架之crawlspider

摘要：爬虫scrapy框架之CrawlSpider 爬虫scrapy框架之CrawlSpider 引入提问：如果想要通过爬虫程序去爬取全站数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpi 阅读全文

posted @ 2019-01-16 21:58 ...绿茵阅读(203) 评论(0) 推荐(0)

redis 分布式

摘要：主要内容:https://segmentfault.com/a/1190000014333162?utm_source=channel-hottest 1 分布式爬虫的概念: day08 scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框阅读全文

posted @ 2019-01-16 21:56 ...绿茵阅读(161) 评论(0) 推荐(0)

135 scrapy框架使用selenium爬取动态网页的数据, crawlspider

摘要：主要内容: 爬虫第七天 1 使用scrapy+selenium爬取动态网页的数据: 2 crawlspider: 比较适用于对网站爬取批量网页, 相比于Spider类，CrawlSpider主要使用规则(rules)来提取链接. import scrapy from scrapy.linkextra 阅读全文

posted @ 2019-01-15 21:39 ...绿茵阅读(1011) 评论(0) 推荐(0)

134 scrapy框架详解, 配置文件的设置, 请求传参, 代理池, 中间件的设置

摘要：主要内容: 1 scrapy框架的详解:https://blog.csdn.net/qq_37143745/article/details/80996707 a : 各部分的功能: Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的阅读全文

posted @ 2019-01-14 21:23 ...绿茵阅读(285) 评论(0) 推荐(0)

133 scrapy框架

摘要：主要内容: 1 在scrapy框架中获取需要的字符串的方法: img_url = 'http://pic.netbian.com'+li.xpath("./a/span/img/@src").extract_first() img_url = 'http://pic.netbian.com'+li. 阅读全文

posted @ 2019-01-14 21:12 ...绿茵阅读(112) 评论(0) 推荐(0)

同步和异步的区别

摘要：主要内容: 同步.异步 https://www.cnblogs.com/weiyi1314/p/6723913.html 阻塞非阻塞 https://www.cnblogs.com/orez88/articles/2513460.html 阅读全文

posted @ 2019-01-10 21:48 ...绿茵阅读(124) 评论(0) 推荐(0)

132 scrapy框架的认识, 移动端数据爬取, 多线程

摘要：主要内容: spider: 写的特别好https://www.cnblogs.com/x-pyue/p/7795315.html 1 多线程数据爬取 import requests from lxml import etree import random import re from multipr 阅读全文

posted @ 2019-01-10 21:41 ...绿茵阅读(385) 评论(0) 推荐(0)

131 乱码处理验证码, session

摘要：1 乱码处理: 2 验证码问题 3 云打码 : 'http://api.yundama.com/api.php' 使用流程: 4 代理: proxies: https://jingyan.baidu.com/article/4f7d5712101fdd1a2119276c.html a : 代理的阅读全文

posted @ 2019-01-09 18:08 ...绿茵阅读(337) 评论(0) 推荐(0)

129 爬虫 requests request 爬图片

摘要：主要内容: 1 爬虫理论: a 爬虫的概念: 编写程序模拟浏览器上网, 然后让其去网上爬取数据的过程 b 爬虫的分类: 通用爬虫: 搜索引擎“抓取系统（爬虫程序）”的重要组成部分。聚焦爬虫: 根据指定的需求抓取页面中指定的内容。 c 反爬机制:门户网站给通过相关的技术手段或者策略来阻止爬虫进行数据阅读全文

posted @ 2019-01-07 21:55 ...绿茵阅读(1165) 评论(0) 推荐(0)

sm_tulip

01 2019 档案

公告