随笔档案「2020年9月」 - gemoumou

机器学习-特征处理/归一化/标准化/降维03

摘要：归一化 from sklearn.preprocessing import MinMaxScalerdef mm(): # ... 阅读全文

posted @ 2020-09-30 00:41 gemoumou 阅读(238) 评论(0) 推荐(0)

机器学习-特征抽取02

摘要：特征抽取是对文本等数据进行值化，特征值化是为了让计算机能够更好的去理解数据。 sklearn特征抽取api sklearn.feat... 阅读全文

posted @ 2020-09-27 23:43 gemoumou 阅读(97) 评论(0) 推荐(0)

机器学习-概述01

摘要：机器学习的概述什么是机器学习机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测。为什么需要机器... 阅读全文

posted @ 2020-09-26 01:46 gemoumou 阅读(74) 评论(0) 推荐(0)

数据分析学习03-pandas

摘要：简介 Pandas 是 Python 的外部模块，它非常像 Excel，提供了分析数据的功能。它提供了两个数据类型 Series 和... 阅读全文

posted @ 2020-09-18 00:21 gemoumou 阅读(128) 评论(0) 推荐(0)

数据分析学习02-numpy

摘要：简介 NumPy是Python中科学计算的基础包。它是一个Python库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用... 阅读全文

posted @ 2020-09-11 03:01 gemoumou 阅读(113) 评论(0) 推荐(0)

24-移动端app数据爬取

摘要：移动端数据爬取安装fiddler 真机安装fiddler证书修改手机代理（改成电脑ip，端口设置为fiddler的端口）上述设置完成后我们就可以使用fiddler抓取手机端的数据了夜神手机模拟器移动端数据采集-案例一找到数据接口 # -*- coding: utf-8 -*- impor 阅读全文

posted @ 2020-09-09 23:51 gemoumou 阅读(727) 评论(0) 推荐(0)

24-移动端app数据爬取

摘要：移动端数据爬取安装fiddler 真机安装fiddler证书修改手机代理（改成电脑ip，端口设置为fiddler的端口）... 阅读全文

posted @ 2020-09-09 23:49 gemoumou 阅读(121) 评论(0) 推荐(0)

18闭包

摘要：闭包：只能存在嵌套的函数中封闭的东西：保证数据安全内层函数对外层函数非全局变量的引用（使用），就会形成闭包被引用的全局变量被称作自由变量，这个自由变量会与内层函数产生一个绑定关系自由变量不会再内存中消失 def outer(): def inner(): #被执行的时机是不确定的 prin 阅读全文

posted @ 2020-09-06 01:14 gemoumou 阅读(158) 评论(0) 推荐(0)

17匿名函数

摘要：匿名函数：一句话函数，比较简单的函数 # 普通函数 def func(a,b): return a+b ret = func(1,2) print (ret) # 3 # 匿名函数：一句话函数，比较简单的函数 fn = lambda a,b:a + b #lambda 匿名函数 ret = fn 阅读全文

posted @ 2020-09-06 00:41 gemoumou 阅读(85) 评论(0) 推荐(0)

16内置函数

摘要：python 提供了68个内置函数作用域 locals ：函数会以字典的类型返回当前位置的全部局部变量。 globals：函数以字典的类型返回全部全局变量。 a = 1 b = 2 print(locals()) print(globals()) # 这两个一样，因为是在全局执行的。 def fu 阅读全文

posted @ 2020-09-06 00:26 gemoumou 阅读(145) 评论(0) 推荐(0)

15列表推导式

摘要：列表推导式：用一行代码构建一个比较复杂有规律的列表 lst = [] for i in range(0,10,2): # 循环0-10里面所有数字每次递增2个数字 lst.append(i) # 把 i 追加进 lst空列表 print (lst) # [0, 2, 4, 6, 8] # 生成一个阅读全文

posted @ 2020-09-05 23:40 gemoumou 阅读(218) 评论(0) 推荐(0)

14生成器

摘要：生成器:生成器与迭代器可以看成一种，生成器的本质就是迭代器。唯一区别，生成器是我们自己用python代码构建的数据结构，迭代器是系统提供的或者转化得来的。获取生成器的三种方式：生成器函数生成器表达式 python内部提供的一些生成器函数获得生成器 def func(): # 普通函数 pr 阅读全文

posted @ 2020-09-05 23:34 gemoumou 阅读(171) 评论(0) 推荐(0)

23-爬虫之scrapy框架增量式实时监测数据爬取10

摘要：增量式概念：监测网站数据更新的情况，以便于爬取到最新更新出来的数据实现核心：去重实战中去重的方式：记录表记录表需要记录的是爬取过的相关数据爬取过的相关信息：url，标题，等唯一标识（我们使用每一部电影详情页的url作为标识）只需要使用某一组数据，改组数据如果可以作为网站唯一标识信息即可，阅读全文

posted @ 2020-09-05 03:32 gemoumou 阅读(641) 评论(0) 推荐(0)

22-爬虫之scrapy框架分布式09

摘要：分布式实现分布式的方式：scrapy+redis（scrapy结合着scrapy-redis组件）原生的scrapy框架是无法实现分布式的什么是分布式需要搭建一个分布式机群，然后让机群中的每一台电脑执行同一组程序，让其对同一组资源进行联合且分布的数据爬取。因调度器，管道无法被分布式机群共享阅读全文

posted @ 2020-09-03 23:40 gemoumou 阅读(124) 评论(0) 推荐(0)

21-爬虫之scrapy框架selenium的使用08

摘要：selenium在scrapy中的使用案例：爬取网易新闻中，国内，国际，军事，航空，无人机这五个板块下的所有新闻数据（标题+内容）基本使用创建一个爬虫工程：scrapy startproject proName 进入工程创建一个基于CrawlSpider的爬虫文件 scrapy genspid 阅读全文

posted @ 2020-09-02 01:48 gemoumou 阅读(199) 评论(0) 推荐(0)

20-爬虫之scrapy框架CrawlSpider07

摘要：CrawlSpider 是Spider的一个子类，Spider是爬虫文件中的爬虫父类 - 之类的功能一定是对于父类作用：被作用于专业实现全站数据爬取将一个页面下的所有页码对应的数据进行爬取基本使用创建一个爬虫工程：scrapy startproject proName 进入工程创建一个基于C 阅读全文

posted @ 2020-09-01 22:34 gemoumou 阅读(177) 评论(0) 推荐(0)

19-爬虫之scrapy框架大文件下载06

摘要：大文件下载创建一个爬虫工程：scrapy startproject proName 进入工程目录创建爬虫源文件：scrapy genspider spiderName www.xxx.com 执行工程：scrapy crawl spiderName 大文件数据是在管道中请求到的下载管道类是scr 阅读全文

posted @ 2020-09-01 02:17 gemoumou 阅读(242) 评论(0) 推荐(0)

gemoumou

09 2020 档案

公告