09 2020 档案

摘要:归一化 from sklearn.preprocessing import MinMaxScalerdef mm(): # ... 阅读全文
posted @ 2020-09-30 00:41 gemoumou 阅读(238) 评论(0) 推荐(0)
摘要:特征抽取是对文本等数据进行值化,特征值化是为了让计算机能够更好的去理解数据。 sklearn特征抽取api sklearn.feat... 阅读全文
posted @ 2020-09-27 23:43 gemoumou 阅读(97) 评论(0) 推荐(0)
摘要:机器学习的概述 什么是机器学习 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。 为什么需要机器... 阅读全文
posted @ 2020-09-26 01:46 gemoumou 阅读(74) 评论(0) 推荐(0)
摘要:简介 Pandas 是 Python 的外部模块,它非常像 Excel,提供了分析数据的功能。它提供了两个数据类型 Series 和... 阅读全文
posted @ 2020-09-18 00:21 gemoumou 阅读(128) 评论(0) 推荐(0)
摘要:简介 NumPy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用... 阅读全文
posted @ 2020-09-11 03:01 gemoumou 阅读(113) 评论(0) 推荐(0)
摘要:移动端数据爬取 安装fiddler 真机安装fiddler证书 修改手机代理(改成电脑ip,端口设置为fiddler的端口) 上述设置完成后我们就可以使用fiddler抓取手机端的数据了 夜神手机模拟器 移动端数据采集-案例一 找到数据接口 # -*- coding: utf-8 -*- impor 阅读全文
posted @ 2020-09-09 23:51 gemoumou 阅读(727) 评论(0) 推荐(0)
摘要:移动端数据爬取 安装fiddler 真机安装fiddler证书 修改手机代理(改成电脑ip,端口设置为fiddler的端口)... 阅读全文
posted @ 2020-09-09 23:49 gemoumou 阅读(121) 评论(0) 推荐(0)
摘要:闭包: 只能存在嵌套的函数中 封闭的东西:保证数据安全 内层函数对外层函数非全局变量的引用(使用),就会形成闭包 被引用的全局变量被称作自由变量,这个自由变量会与内层函数产生一个绑定关系 自由变量不会再内存中消失 def outer(): def inner(): #被执行的时机是不确定的 prin 阅读全文
posted @ 2020-09-06 01:14 gemoumou 阅读(158) 评论(0) 推荐(0)
摘要:匿名函数: 一句话函数,比较简单的函数 # 普通函数 def func(a,b): return a+b ret = func(1,2) print (ret) # 3 # 匿名函数: 一句话函数,比较简单的函数 fn = lambda a,b:a + b #lambda 匿名函数 ret = fn 阅读全文
posted @ 2020-09-06 00:41 gemoumou 阅读(85) 评论(0) 推荐(0)
摘要:python 提供了68个内置函数 作用域 locals :函数会以字典的类型返回当前位置的全部局部变量。 globals:函数以字典的类型返回全部全局变量。 a = 1 b = 2 print(locals()) print(globals()) # 这两个一样,因为是在全局执行的。 def fu 阅读全文
posted @ 2020-09-06 00:26 gemoumou 阅读(145) 评论(0) 推荐(0)
摘要:列表推导式:用一行代码构建一个比较复杂有规律的列表 lst = [] for i in range(0,10,2): # 循环0-10里面所有数字 每次递增2个数字 lst.append(i) # 把 i 追加进 lst空列表 print (lst) # [0, 2, 4, 6, 8] # 生成一个 阅读全文
posted @ 2020-09-05 23:40 gemoumou 阅读(218) 评论(0) 推荐(0)
摘要:生成器:生成器与迭代器可以看成一种,生成器的本质就是迭代器。 唯一区别,生成器是我们自己用python代码构建的数据结构,迭代器是系统提供的或者转化得来的。 获取生成器的三种方式: 生成器函数 生成器表达式 python内部提供的一些 生成器函数获得生成器 def func(): # 普通函数 pr 阅读全文
posted @ 2020-09-05 23:34 gemoumou 阅读(171) 评论(0) 推荐(0)
摘要:增量式 概念:监测网站数据更新的情况,以便于爬取到最新更新出来的数据 实现核心:去重 实战中去重的方式:记录表 记录表需要记录的是爬取过的相关数据 爬取过的相关信息:url,标题,等唯一标识(我们使用每一部电影详情页的url作为标识) 只需要使用某一组数据,改组数据如果可以作为网站唯一标识信息即可, 阅读全文
posted @ 2020-09-05 03:32 gemoumou 阅读(641) 评论(0) 推荐(0)
摘要:分布式 实现分布式的方式:scrapy+redis(scrapy结合着scrapy-redis组件) 原生的scrapy框架是无法实现分布式的 什么是分布式 需要搭建一个分布式机群,然后让机群中的每一台电脑执行同一组程序,让其对同一组资源进行联合且分布的数据爬取。 因调度器,管道无法被分布式机群共享 阅读全文
posted @ 2020-09-03 23:40 gemoumou 阅读(124) 评论(0) 推荐(0)
摘要:selenium在scrapy中的使用 案例:爬取网易新闻中,国内,国际,军事,航空,无人机这五个板块下的所有新闻数据(标题+内容) 基本使用 创建一个爬虫工程:scrapy startproject proName 进入工程创建一个基于CrawlSpider的爬虫文件 scrapy genspid 阅读全文
posted @ 2020-09-02 01:48 gemoumou 阅读(199) 评论(0) 推荐(0)
摘要:CrawlSpider 是Spider的一个子类,Spider是爬虫文件中的爬虫父类 - 之类的功能一定是对于父类 作用:被作用于专业实现全站数据爬取 将一个页面下的所有页码对应的数据进行爬取 基本使用 创建一个爬虫工程:scrapy startproject proName 进入工程创建一个基于C 阅读全文
posted @ 2020-09-01 22:34 gemoumou 阅读(177) 评论(0) 推荐(0)
摘要:大文件下载 创建一个爬虫工程:scrapy startproject proName 进入工程目录创建爬虫源文件:scrapy genspider spiderName www.xxx.com 执行工程:scrapy crawl spiderName 大文件数据是在管道中请求到的 下载管道类是scr 阅读全文
posted @ 2020-09-01 02:17 gemoumou 阅读(242) 评论(0) 推荐(0)