07 2020 档案

摘要:总结 支持向量机SVM(支持向量网络,用于分类和预测):很牛逼,最接近深度学习的机器学习算法 支持向量机的原理 超平面:超平面是当前空间的子空间,它是维度比所在空间小一维的空间 决策边界:如果以一个超平面为界可以将一组数据集分成不同类别,那么这个超平面就是数据的决策边界(有很多条) 决策边界的边际( 阅读全文
posted @ 2020-07-30 16:19 电竞杰森斯坦森 阅读(433) 评论(0) 推荐(0)
摘要:总结 聚类:把没有类别的一组数据(原始数据没有分类),根据样本与样本之间的相关性,分到已有的类别中(无监督学习) 簇:KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇(相当于是一个组)(簇的个数与质心相同 质心:簇中所有数据的均值u通常被称为这个簇的“质心”(x求均值,y求均值,得到的 阅读全文
posted @ 2020-07-29 23:35 电竞杰森斯坦森 阅读(1089) 评论(0) 推荐(0)
摘要:导入数据 import pandas as pd import matplotlib.pyplot as plt import numpy as np from pandas import DataFrame,Series %matplotlib inline states={'SeriousDlq 阅读全文
posted @ 2020-07-29 17:40 电竞杰森斯坦森 阅读(571) 评论(0) 推荐(0)
摘要:一:python是一门编程语言 1. 什么是编程语言?什么语言?为什么要有编程语言? 编程语言的本质就是一门语言 语言就是一种事物与另外一种事物沟通的表达方式/工具 人 人类的语言 >奴隶 人 编程语言 >计算机 2. 什么编程?为什么要编程? 编程就是人把自己想计算机做的事,也就是自己的思维逻辑, 阅读全文
posted @ 2020-07-28 23:13 电竞杰森斯坦森 阅读(159) 评论(0) 推荐(0)
摘要:总结 混淆矩阵 先看正反,再看真伪 准确率:Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的比例 模型.score()方法返回的就是模型的准确率 召回率:Recal = TP/(TP+FN) 就是TPR,真实正例被找到的概率 API:from sklearn.metric 阅读全文
posted @ 2020-07-28 18:43 电竞杰森斯坦森 阅读(487) 评论(0) 推荐(0)
摘要:总结 逻辑回归 (对数几率回归),是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法 (常用于二分类,但也可以用于多分类)。 API:from sklearn.linear_model import LogisticRegression Sigmoi 阅读全文
posted @ 2020-07-27 20:23 电竞杰森斯坦森 阅读(602) 评论(0) 推荐(0)
摘要:总结 样本类别分布不均衡处理(处理过拟合和欠拟合问题) 过抽样(上采样):通过增加分类中少数类样本的数量来实现样本均衡 from imblearn.over_sampling import SMOTE 欠抽样(下采样):通过减少分类中多数类样本的数量来实现样本均衡 (可能造成样本数据大量丢失) fr 阅读全文
posted @ 2020-07-27 18:19 电竞杰森斯坦森 阅读(1106) 评论(0) 推荐(0)
摘要:总结 IV (信息价值,或者信息量) 作用:可以用来衡量自变量(特征)的预测能力 公式: 对每组的IV值求和就可以求出一个特征的IV值 系数(py-pn):这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对特征整体预测能力的贡献越低 WOE (证据权重) 公式: 由公式可以看出 阅读全文
posted @ 2020-07-26 15:05 电竞杰森斯坦森 阅读(1887) 评论(0) 推荐(0)
摘要:总结 贝叶斯算法 我们希望模型在分类的时候不是直接返回分类,而是返回属于某个分类的概率 特征与特征之间条件独立(特征之间无任何关联),就可以使用贝叶斯算法,朴素指的就是条件独立 朴素贝叶斯模型常用于文本分类 在sk-learn中提供了三种不同类型的贝叶斯模型算法 高斯模型(基于高斯分布实现分类概率的 阅读全文
posted @ 2020-07-23 18:10 电竞杰森斯坦森 阅读(1201) 评论(0) 推荐(0)
摘要:总结 欠拟合:(对训练集的数据和测试集的数据拟合的都不是很好) 原因:模型学习到样本的特征太少 解决:增加样本的特征数量(多项式回归) 多项式回归:from sklearn.preprocessing import PolynomialFeatures 在原有特征的基础上增加高次方特征 过拟合:(对 阅读全文
posted @ 2020-07-23 17:12 电竞杰森斯坦森 阅读(2050) 评论(0) 推荐(0)
摘要:总结 线性回归 线性回归原理:每个特征需要有一个权重系数,这个权重系数明确后,就可以通过计算预测最终结果,权重越大这个特征就越重要 权重系数的个数一定是和特征维度保持一致。 线性回归模型是否要带截距:如果带截距能够很好拟合就带上,这样的线性回归模型更具有通用性 回归算法就是在不断的自身迭代的减少误差 阅读全文
posted @ 2020-07-22 15:25 电竞杰森斯坦森 阅读(3938) 评论(0) 推荐(0)
摘要:使用knn实现手写数字图片的识别 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklear 阅读全文
posted @ 2020-07-21 20:58 电竞杰森斯坦森 阅读(520) 评论(0) 推荐(0)
摘要:总结 K近邻法的工作原理:某个未知类型点的特征数据距离K个已有类型近邻点特征数据的距离,根据这个距离对未知类型的数据进行分类 KNN模型超参数K值:K值不同会导致分类结果的不同 距离:采用欧几里得公式求得距离 适用范围:KNN适用于样本量级不够大得项目,因为它得运算成本比较高,数据量级越大,建模会耗 阅读全文
posted @ 2020-07-21 15:10 电竞杰森斯坦森 阅读(1307) 评论(0) 推荐(0)
摘要:总结 数据集的划分:from sklearn.model_selection import train_test_split train_test_split(x,y,test_size,random_state)参数:x:特征数据,y:标签数据,test_size:测试集的比例,random_st 阅读全文
posted @ 2020-07-20 21:35 电竞杰森斯坦森 阅读(273) 评论(0) 推荐(0)
摘要:总结 特征工程:对样本数据的特征进行处理除去对样本数据影响很大缺失值,重复值,异常值等等的垃圾数据,提高样本数据在模型中对未知数据预测的准确性 特征抽取 特征化:将非数值的数据转化为数值型的数据 字典数据特征化:from sklearn.feature_extraction import DictV 阅读全文
posted @ 2020-07-20 15:51 电竞杰森斯坦森 阅读(367) 评论(0) 推荐(0)
摘要:总结 人工智能和机器学习的区别:机器学习可以实现人工智能 机器学习概念:机器学习就是利用样本数据进行一系列分析得到一个数据模型。这个模型可以对未知数据进行预测或分类 模型:对数据进行一系列分析后得到的产物,模型,模型存在的意义就是对未知数据进行预测 训练模型:将样本数据进行分析,训练他们,得到训练后 阅读全文
posted @ 2020-07-20 15:25 电竞杰森斯坦森 阅读(374) 评论(0) 推荐(0)
摘要:第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 在源数据中添 阅读全文
posted @ 2020-07-17 19:54 电竞杰森斯坦森 阅读(763) 评论(0) 推荐(0)
摘要:加载数据 数据来源阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649 数据信息: 数据量级达到一亿,考虑到电脑性能问题,故随机抽样其中的100万左右数据作为本次分析的原始数据. import numpy as np import 阅读全文
posted @ 2020-07-17 19:53 电竞杰森斯坦森 阅读(1126) 评论(0) 推荐(0)
摘要:加载购买商品表的数据 数据来源阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45 购买商品表字段信息: 用户ID 商品ID 商品二级分类 商品一级分类 商品属性 购买数量 购买日期 import pandas as pd impo 阅读全文
posted @ 2020-07-16 18:07 电竞杰森斯坦森 阅读(760) 评论(0) 推荐(0)
摘要:线性图:plt.plot() 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格(自 阅读全文
posted @ 2020-07-15 23:01 电竞杰森斯坦森 阅读(310) 评论(0) 推荐(0)
摘要:需求 加载数据 查看数据的基本信息 指定数据截取,将如下字段的数据进行提取,其他数据舍弃 cand_nm :候选人姓名 contbr_nm : 捐赠人姓名 contbr_st :捐赠人所在州 contbr_employer : 捐赠人所在公司 contbr_occupation : 捐赠人职业 co 阅读全文
posted @ 2020-07-15 22:18 电竞杰森斯坦森 阅读(385) 评论(0) 推荐(0)
摘要:替换操作 replace 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to_re 阅读全文
posted @ 2020-07-15 17:09 电竞杰森斯坦森 阅读(755) 评论(0) 推荐(0)
摘要:需求 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉stat 阅读全文
posted @ 2020-07-15 16:46 电竞杰森斯坦森 阅读(478) 评论(0) 推荐(0)
摘要:基于pandas的数据清洗 处理丢失数据 有两种丢失数据: None np.nan(NaN) 两种丢失数据的区别 None 是对象类型 np.nan 是浮点类型 type(None) # NoneType 对象类型 type(np.nan) # float 浮点类型 为什么在数据分析中需要用到的是浮 阅读全文
posted @ 2020-07-14 18:33 电竞杰森斯坦森 阅读(652) 评论(0) 推荐(0)
摘要:tushare财经数据接口包 pip install tushare 作用:提供相关指定的财经数据 相关文档:http://tushare.org/ 需求:股票分析 使用tushare包获取某股票的历史行情数据。 输出该股票所有收盘比开盘上涨3%以上的日期。 输出该股票所有开盘比前日收盘跌幅超过2% 阅读全文
posted @ 2020-07-13 22:53 电竞杰森斯坦森 阅读(1088) 评论(0) 推荐(0)
摘要:为什么学习pandas numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好的处理非数值型数据! 什么是pandas? 阅读全文
posted @ 2020-07-13 18:50 电竞杰森斯坦森 阅读(375) 评论(0) 推荐(0)
摘要:什么是数据分析 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 使得数据的价值最大化 分析用户的消费行为 制定促销活动的方案 制定促销时间和粒度 计算用户的活跃度 分析产品的回购力度 分析广告点击率 决定投放时间 制定广告定向人群方案 决定相关平台的投放 ...... 阅读全文
posted @ 2020-07-13 14:31 电竞杰森斯坦森 阅读(446) 评论(0) 推荐(0)
摘要:crawlSpider 是Spider的一个子类。自己派生出独有的方法和属性。功能:作用全站数据爬取场景使用: - 创建工程 - cd 工程 - 创建爬虫文件: - 创建一个基于CrawlSpider的爬虫文件 - 指令:scrapy genspider -t crawl spiderName ww 阅读全文
posted @ 2020-07-10 16:24 电竞杰森斯坦森 阅读(365) 评论(0) 推荐(0)
摘要:scrapy图片数据(二进制数据)爬取 1、在爬虫文件中解析出图片地址+图片名称封装到item对象提交给管道2、在管道文件中: - from scrapy.pipelines.images import ImagesPipeline - 封装一个管道类,继承与ImagesPipeline - 重写父 阅读全文
posted @ 2020-07-09 15:29 电竞杰森斯坦森 阅读(1387) 评论(0) 推荐(0)
摘要:scrapy基本介绍 基本介绍:基于异步爬虫的框架。高性能的数据解析,高性能的持久化存储,全站数据爬取,增量式爬虫,分布式爬虫...... scrapy环境的安装 - Linux: pip install scrapy - Windows: a. pip install wheel b. 下载twi 阅读全文
posted @ 2020-07-08 15:50 电竞杰森斯坦森 阅读(278) 评论(0) 推荐(0)
摘要:案例介绍 url : https://www.aqistudy.cn/html/city_detail.html 案例涉及的反爬: 动态加载数据 加密响应数据 js混淆 js加密 js逆向 分析: 在页面中修改了查询条件后,点击查询按钮,会发起一个ajax请求,请求到页面中指定的数据。 在ajax请 阅读全文
posted @ 2020-07-07 21:47 电竞杰森斯坦森
摘要:selenium介绍 基于浏览器自动化的一个模块 selenium和爬虫之间的关联 1.便捷去捕获动态加载的数据 页面的可见即可得 2.便捷的实现模拟登录 selenium的缺点: 效率太慢 优点: 可见即可得 selenium的基本使用 下载:pip install selenium 事先准备好一 阅读全文
posted @ 2020-07-07 21:08 电竞杰森斯坦森 阅读(235) 评论(0) 推荐(0)
摘要:今日内容 模拟登录 异步爬虫 - 线程池 - 单线程+多任务异步协程 - 生产者消费者模式 模拟登录 验证码的识别 线上的打码平台 超级鹰 url:https://www.chaojiying.com/about.html 使用流程: 注册:注册一个用户中心的账号 登录:用户中心的身份 创建一个软件 阅读全文
posted @ 2020-07-06 15:29 电竞杰森斯坦森 阅读(408) 评论(0) 推荐(0)
摘要:前端框架Bootstrap 该框架已经帮你写好了很多页面样式,你如果需要使用,只需要下载它对应文件,之后直接cv拷贝即可 在使用Bootstrap的时候所有的页面样式都只需要你通过class来调节即可 版本选择建议使用v3版本 Bootstrap中文网:https://www.bootcss.com 阅读全文
posted @ 2020-07-05 23:54 电竞杰森斯坦森 阅读(188) 评论(0) 推荐(0)
摘要:jQuery jQuery下载链接:https://jquery.com/ 中文文档:https://jquery.cuishifeng.cn/ jQuery免费CDN网站:https://www.bootcdn.cn/ """ jQuery内部封装了原生的js代码(还额外添加了很多的功能) 能够让 阅读全文
posted @ 2020-07-05 23:49 电竞杰森斯坦森 阅读(172) 评论(0) 推荐(0)
摘要:今日内容概要 JS结束 BOM与DOM jQuery框架 选择器 操作样式 今日内容详细 BOM与DOM操作 # 截至目前为止 我们虽然已经学会了js语法 但是你会发现跟浏览器和html文件还是一点关系没有 """ BOM 浏览器对象模型 Browser Object Model js代码操作浏览器 阅读全文
posted @ 2020-07-05 23:20 电竞杰森斯坦森 阅读(191) 评论(0) 推荐(0)
摘要:Js简介 1.js也是一门编程语言 它也是可以写后端代码的 用js一统天下 前后端都可以写 nodejs 支持js代码跑在后端服务器上 然而并不能 想的太天真了!!! 2.js跟java一毛钱关系都没有,纯粹是为了蹭当时java的热度 ECMAScript和JavaScript的关系 因此ECMAS 阅读全文
posted @ 2020-07-05 23:03 电竞杰森斯坦森 阅读(209) 评论(0) 推荐(0)
摘要:层贴样式表:就是给HTML标签添加样式的,让它变的更加的好看 # 注释 /*单行注释*/ /* 多行注释1 多行注释2 多行注释3 */ 通常我们在写css样式的时候也会用注释来划定样式区域(因为HTML代码多所以对应的css代码也会很多) /*这是博客园首页的css样式文件*/ /*顶部导航条样式 阅读全文
posted @ 2020-07-05 22:21 电竞杰森斯坦森 阅读(196) 评论(0) 推荐(0)
摘要:前端学习历程 HTML:网页的骨架 没有任何的样式 CSS:给骨架添加各种样式 变得好看 JS:控制网页的动态效果 前端框架:BOOTSTRAP、JQuery、Vue 提前给你封装好了很多操作 你只需要按照固定的语法调用即可 软件开发架构 cs 客户端 服务端 bs 浏览器 服务端 ps:bs本质也 阅读全文
posted @ 2020-07-05 22:05 电竞杰森斯坦森
摘要:今日内容概要 今日内容基本都是了解知识点,作为一名开发人员你在工作中基本用不到 视图(了解) 触发器(了解) 事务(需要掌握) 存储过程(了解) 内置函数(了解) 流程控制(了解) 索引理论(了解 日后再去扩展) 今日内容详细 上篇内容补充 import pymysql conn = pymysql 阅读全文
posted @ 2020-07-05 20:44 电竞杰森斯坦森 阅读(209) 评论(0) 推荐(0)
摘要:今日内容概要 navicat可视化界面操作数据库 数据库查询题目讲解(多表操作) python如何操作MySQL(pymysql模块) sql注入问题 pymysql模块增删改查数据操作 今日内容详细 知识点补充 # 查询平均年龄在25岁以上的部门名称 """只要是多表查询 就有两种思路 联表 子查 阅读全文
posted @ 2020-07-05 20:35 电竞杰森斯坦森 阅读(258) 评论(0) 推荐(0)
摘要:今日内容概要 如何查询表 select where group by having distinct order by limit regexp like ... 连表操作理论 今日内容详细 前期表准备 create table emp( id int not null unique auto_in 阅读全文
posted @ 2020-07-05 14:05 电竞杰森斯坦森 阅读(364) 评论(0) 推荐(0)
摘要:今日内容概要 约束条件 表与表之间建关系(约束)(重点) 修改表的完整语法大全 复制表 作业布置(如何判断表关系及如何建立表关系) 今日内容详细 约束条件 default默认值 # 补充知识点 插入数据的时候可以指定字段 create table t1( id int, name char(16) 阅读全文
posted @ 2020-07-05 13:43 电竞杰森斯坦森
摘要:今日内容概要 存储引擎 数据类型 整型 浮点型 字符类型 日期类型 枚举与集合类型 约束条件 今日内容详细 存储引擎 日常生活中文件格式有很多中,并且针对不同的文件格式会有对应不同存储方式和处理机制(txt,pdf,word,mp4...) 针对不同的数据应该有对应的不同的处理机制来存储 存储引擎就 阅读全文
posted @ 2020-07-05 13:37 电竞杰森斯坦森
摘要:数据解析 正则(几乎不用) bs4 xpath(***) pyquery(自学) 在爬虫中为什么需要使用数据解析? 数据解析作用:帮助我们可以实现聚焦爬虫(爬取局部数据) 聚焦爬虫实现流程: 1.指定url 2.发起请求 3.获取响应数据 4.数据解析 5.持久化存储 数据解析通用原理 1.html 阅读全文
posted @ 2020-07-04 13:43 电竞杰森斯坦森
摘要:爬虫介绍 Anaconda python中基于数据分析+机器学习的一个集成环境 jupyter Anaconda提供的一款基于浏览器的可视化编码工具 什么爬虫 就是通过编写程序让其模拟浏览器上网,然后再互联网中抓取数据的过程 爬虫的分类 通用爬虫:抓取一整张页面源码数据 聚焦爬虫:抓取一整张页面中的 阅读全文
posted @ 2020-07-02 21:50 电竞杰森斯坦森 阅读(249) 评论(0) 推荐(0)