摘要: 直接上代码 在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢. 阅读全文
posted @ 2019-11-05 22:48 致于数据科学家的小陈 阅读(842) 评论(0) 推荐(0)
摘要: 认识 Python 的itertools模块提供了很多 节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致 内存溢出(outofmemory) 的场景. 我们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个 阅读全文
posted @ 2019-11-05 01:14 致于数据科学家的小陈 阅读(253) 评论(0) 推荐(0)
摘要: 认识 多表连接查询 ,我感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. 我觉得数据库的作用, 归纳起来无非就是 存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件 阅读全文
posted @ 2019-11-03 21:43 致于数据科学家的小陈 阅读(1758) 评论(0) 推荐(0)
摘要: skleran 处理流程 获取数据 以用sklearn的内置数据集, 先导入datasets模块. 最经典的iris数据集作为例子. 手写数字数据集 (load_digits) 包含1797个0 9的手写数字数据, 每个数据由8 x 8大小的矩阵构成, 矩阵中值的范围是0 16, 代表颜色的深度. 阅读全文
posted @ 2019-10-26 21:20 致于数据科学家的小陈 阅读(572) 评论(0) 推荐(0)
摘要: 认识 sklearn 官网地址: https://scikit learn.gor/stable/ 从2007年发布以来, scikit learn已成为重要的Python机器学习库, 简称sklearn, 支持包括 分类, 回归, 降维和聚类 等机器学习算法, 还包括了 特征提取, 数据处理, 模 阅读全文
posted @ 2019-10-25 23:40 致于数据科学家的小陈 阅读(453) 评论(0) 推荐(0)
摘要: 手动实现KNN算法 计算距离 取k个邻近排序 距离(欧氏) 预习 实现欧式距离 KNN 计算输入样本点,到每个样本的距离 距离值向量 将距离值向量降序取前k个值 投票 预习 Counter类(计数器) Counter (计数器): 用于追踪值出现的次数 Counter 类继承dict类, 能顺颂di 阅读全文
posted @ 2019-10-20 15:29 致于数据科学家的小陈 阅读(831) 评论(0) 推荐(0)
摘要: 认识 什么是KNN KNN 即 K nearest neighbors, 是一个hello world级别, 但被广泛使用的 机器学习算法 , 中文叫 K近邻算法 , 是一种基本的分类和回归方法. KNN既可用来分类, 也可用于回归, 不过我还是觉得分类好一些哦 KNN的核心思想是, 如果一个样本, 阅读全文
posted @ 2019-10-19 01:12 致于数据科学家的小陈 阅读(1111) 评论(0) 推荐(0)
摘要: 认识 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模), 我感觉, 其实就是 偏导数向量方向呗 , 沿着这个 向量方向可以找到局部的极值 . Python from random impor 阅读全文
posted @ 2019-10-13 19:38 致于数据科学家的小陈 阅读(341) 评论(0) 推荐(0)
摘要: Pandas 数据筛选,去重结合group by 需求 今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下: 姓名 , 工号, 日期 , 打卡方式, 时间 , 详细位置, IP地址.... 脱敏数据: | 姓名 | 工号 | 日期 | 方式 | 时间 | ... | | : 阅读全文
posted @ 2019-10-11 21:31 致于数据科学家的小陈 阅读(3836) 评论(0) 推荐(0)
摘要: Mysql 单表查询 排序 分页 group by初识 对于select 来说, 分组聚合(((group by; aggregation), 排序 ( order by ), 分页查询 ( limit ), 等这些操作, 都是结合 where 过滤(算术表达式, 逻辑表达式, 判空, 范围过滤, 阅读全文
posted @ 2019-10-10 01:41 致于数据科学家的小陈 阅读(1526) 评论(0) 推荐(0)
摘要: Mysql 单表查询where初识 准备数据 数据基本测试 where 条件过滤 比较运算符 , 逻辑运算符, 范围判断, 空判断, 模糊查询 逻辑运算符: and, or, not Null 判断 is null; is not null 范围查询 in; between...and in 用于离 阅读全文
posted @ 2019-10-07 15:42 致于数据科学家的小陈 阅读(432) 评论(0) 推荐(0)
摘要: Mysql 库表操作初识 终端登录mysql 这里只演示win下, cmd 终端. 至于怎么在win下, linux, mac安装, 感觉这是一个入门级的百度搜索问题, 安装都搞不定, 确实有点尴尬, 好尴尬呀. 数据库操作 增删改查, 注意这里讲的数据库指的是schema哈. mysql 前提是已 阅读全文
posted @ 2019-10-07 01:24 致于数据科学家的小陈 阅读(345) 评论(0) 推荐(0)
摘要: Mysql 常见数据类型及约束 最近在跟几个不太懂技术的同事(哈哈, 其实我也不懂), 要整一个数据库项目, 然后前端, 后端, 都没有像样的, 数据输出还不是由我们控制.... 这可难受了, 然后总数被围绕着, 怎么导入数据, 导出EXCEL .... 之类的, 或者是说导入数据不方便, 怎么字段 阅读全文
posted @ 2019-10-05 22:32 致于数据科学家的小陈 阅读(636) 评论(0) 推荐(1)
摘要: 数据库 初识 认识 通俗讲, 数据库就是 以一定格式进行组织数据的集合 , 直观来看, 数据库就是电脑上一些具有特殊格式的 数据文件 的集合. 通常谈到数据库会涉及4个基本概念, 即 数据, 数据库, 数据管理系统, 数据库系统 . 数据 描述世界或者事物的 符号 记录称为数据. 数字, 文本, 声 阅读全文
posted @ 2019-10-05 15:39 致于数据科学家的小陈 阅读(202) 评论(0) 推荐(0)
摘要: MySql 游标初识 认识 游标(cursor), 按字面意思可理解为, 游动的标识, 或者叫做 "光标" , 这样更容易理解. 就好比现有一张表存储了n行记录, 然后我想每次取出一行, 进行为所欲为, 这时候就用到了游标cursor, 数据的搬运工, 搬运完当前数据(游标指向当前), 然后又移动到 阅读全文
posted @ 2019-10-04 20:36 致于数据科学家的小陈 阅读(652) 评论(0) 推荐(1)