摘要: 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: · 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 · 特征与目标的相关性:这点比较显见,与目标相关性 阅读全文
posted @ 2018-09-11 14:08 eo_will 阅读(5130) 评论(0) 推荐(1)
摘要: 特征工程(Feature Engineering)目的是最大限度地从原始数据中提取特征以供算法和模型使用,是数据挖掘模型开发中最耗时、最重要的一步。内容包括:特征处理(Feature Processing)、特征选择(Feature Selection)。 本部分系统的总结特征工作的一些基本概念,以 阅读全文
posted @ 2018-09-11 14:07 eo_will 阅读(685) 评论(0) 推荐(0)
摘要: 本文将以iris数据集为例,梳理数据挖掘和机器学习过程中数据预处理的流程。在前期阶段,已完成了数据采集、数据格式化、数据清洗和采样等阶段。通过特征提取,能得到未经处理的特征,但特征可能会有如下问题: - 不属于同一量纲 通常采用无量纲化进行处理; - 信息冗余 - 定性特征不能直接使用 通常使用哑编 阅读全文
posted @ 2018-09-11 14:07 eo_will 阅读(3945) 评论(0) 推荐(1)
摘要: psycopg2是Python语言的PostgreSQL数据库接口,是对Psycopg 1.1.x版本进行的几乎完全的改写。它的主要优势在于完全支持Python DB API 2.0,以及安全的多线程支持。它适用于随时创建、销毁大量游标的、和产生大量并发INSERT、UPDATE操作的多线程数据库应 阅读全文
posted @ 2018-08-25 21:36 eo_will 阅读(4463) 评论(0) 推荐(0)
摘要: PostgreSQL 是世界上功能最强大的开源关系型数据库,除了标准的 SQL 的支持外,还有丰富的特性,可以通过扩展来增强数据库的能力,如uuid-ossp,pgcrypto,hstore,PostGIS等扩展。支持如 hstore、range、GIS、json 等更多的数据类型。此外,Green 阅读全文
posted @ 2018-08-25 21:28 eo_will 阅读(1663) 评论(0) 推荐(0)
摘要: 1- csv导入postgreSQL · 问题描述: 需要将csv导入到本地数据库,但columns很多,不想通过新建表格,并设置每个字段名称、类型,再用copy from复制 · 解决方案: 通过python pandas包可以轻松将csv里的名字和数据导入数据库 from sqlalchemy 阅读全文
posted @ 2018-08-25 21:26 eo_will 阅读(551) 评论(0) 推荐(0)
摘要: 1. 忽略本地指定文件、目录 在git下载到本地的目录中修改.git/info/exclude文件 例如git status时忽略所有的.pyc文件 2. 撤销对文件的修改 场景:当文件修改了,但没有add,还原最后一次提交的内容 注:使用之前需要确认确实要放弃之前的修改,否则会使内容彻底丢失。 3 阅读全文
posted @ 2018-08-25 18:29 eo_will 阅读(245) 评论(0) 推荐(0)
摘要: 一、安装 1)homebrew安装 brew install mysql 或者dmg安装 Download MySQL Community Server #后续个人通过Nawicat客户端连接进行操作 二、配置路径 用文本编辑器打开.bash_profile,加入PATH=$PATH:/usr/lo 阅读全文
posted @ 2018-08-25 16:13 eo_will 阅读(1064) 评论(0) 推荐(0)
摘要: 0 基础 · 关系型数据库管理系统(RDBMS)来存储和管理的大数据量 · 术语 主键:主键是唯一的。一个数据表中只能包含一个主键。你可以使用主键来查询数据。 外键:外键用于关联两个表。 复合键:复合键(组合键)将多个列作为一个索引键,一般用于复合索引。 索引:使用索引可快速访问数据库表中的特定信息 阅读全文
posted @ 2018-08-25 16:11 eo_will 阅读(327) 评论(0) 推荐(0)
摘要: 一、情况描述: 本机环境 macOS 10.13.6 MySQL版本 8.0.12 MySQL安装成功,并且命令行成功运行 尝试连接Nawicat时报错, 2059 - Authentication plugin 'caching_sha2_password' cannot be loaded: d 阅读全文
posted @ 2018-08-22 14:53 eo_will 阅读(408) 评论(0) 推荐(0)