上一页 1 ··· 3 4 5 6 7 8 9 10 11 下一页
摘要: 匿名函数: 一句话函数,比较简单的函数 # 普通函数 def func(a,b): return a+b ret = func(1,2) print (ret) # 3 # 匿名函数: 一句话函数,比较简单的函数 fn = lambda a,b:a + b #lambda 匿名函数 ret = fn 阅读全文
posted @ 2020-09-06 00:41 gemoumou 阅读(83) 评论(0) 推荐(0)
摘要: python 提供了68个内置函数 作用域 locals :函数会以字典的类型返回当前位置的全部局部变量。 globals:函数以字典的类型返回全部全局变量。 a = 1 b = 2 print(locals()) print(globals()) # 这两个一样,因为是在全局执行的。 def fu 阅读全文
posted @ 2020-09-06 00:26 gemoumou 阅读(138) 评论(0) 推荐(0)
摘要: 列表推导式:用一行代码构建一个比较复杂有规律的列表 lst = [] for i in range(0,10,2): # 循环0-10里面所有数字 每次递增2个数字 lst.append(i) # 把 i 追加进 lst空列表 print (lst) # [0, 2, 4, 6, 8] # 生成一个 阅读全文
posted @ 2020-09-05 23:40 gemoumou 阅读(196) 评论(0) 推荐(0)
摘要: 生成器:生成器与迭代器可以看成一种,生成器的本质就是迭代器。 唯一区别,生成器是我们自己用python代码构建的数据结构,迭代器是系统提供的或者转化得来的。 获取生成器的三种方式: 生成器函数 生成器表达式 python内部提供的一些 生成器函数获得生成器 def func(): # 普通函数 pr 阅读全文
posted @ 2020-09-05 23:34 gemoumou 阅读(154) 评论(0) 推荐(0)
摘要: 增量式 概念:监测网站数据更新的情况,以便于爬取到最新更新出来的数据 实现核心:去重 实战中去重的方式:记录表 记录表需要记录的是爬取过的相关数据 爬取过的相关信息:url,标题,等唯一标识(我们使用每一部电影详情页的url作为标识) 只需要使用某一组数据,改组数据如果可以作为网站唯一标识信息即可, 阅读全文
posted @ 2020-09-05 03:32 gemoumou 阅读(611) 评论(0) 推荐(0)
摘要: 分布式 实现分布式的方式:scrapy+redis(scrapy结合着scrapy-redis组件) 原生的scrapy框架是无法实现分布式的 什么是分布式 需要搭建一个分布式机群,然后让机群中的每一台电脑执行同一组程序,让其对同一组资源进行联合且分布的数据爬取。 因调度器,管道无法被分布式机群共享 阅读全文
posted @ 2020-09-03 23:40 gemoumou 阅读(121) 评论(0) 推荐(0)
摘要: selenium在scrapy中的使用 案例:爬取网易新闻中,国内,国际,军事,航空,无人机这五个板块下的所有新闻数据(标题+内容) 基本使用 创建一个爬虫工程:scrapy startproject proName 进入工程创建一个基于CrawlSpider的爬虫文件 scrapy genspid 阅读全文
posted @ 2020-09-02 01:48 gemoumou 阅读(186) 评论(0) 推荐(0)
摘要: CrawlSpider 是Spider的一个子类,Spider是爬虫文件中的爬虫父类 - 之类的功能一定是对于父类 作用:被作用于专业实现全站数据爬取 将一个页面下的所有页码对应的数据进行爬取 基本使用 创建一个爬虫工程:scrapy startproject proName 进入工程创建一个基于C 阅读全文
posted @ 2020-09-01 22:34 gemoumou 阅读(173) 评论(0) 推荐(0)
摘要: 大文件下载 创建一个爬虫工程:scrapy startproject proName 进入工程目录创建爬虫源文件:scrapy genspider spiderName www.xxx.com 执行工程:scrapy crawl spiderName 大文件数据是在管道中请求到的 下载管道类是scr 阅读全文
posted @ 2020-09-01 02:17 gemoumou 阅读(237) 评论(0) 推荐(0)
摘要: 请求传参实现的深度爬取 深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据) 在scrapy中如果没有请求传参我们是无法进行持久化存储数据的 实现方式: scrapy.Request(url,callback,meta) meta是一个字典,可以将meta传递给callback callb 阅读全文
posted @ 2020-08-31 00:25 gemoumou 阅读(594) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 下一页