摘要: 移动光标的方法 查找 替换 删除、复制与粘贴 多文件编辑 多窗口功能 环境设置与记录 阅读全文
posted @ 2018-11-26 15:10 Gssol 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 碰到样本数据类别不均衡怎么办? 如果有 10000个样例, 做二分类,9990条数据 都属于 正类1, 如果不处理的话 预测全部结果为 1, 准确率也为 99%,但这显然不是想要的结果。 碰到这样样本很不平衡的样例,应该怎样做。 前期数据准备 1. 欠采样 2. 过采样 对样本量偏少的数据,采用重复 阅读全文
posted @ 2018-09-19 20:36 Gssol 阅读(4693) 评论(0) 推荐(1) 编辑
摘要: 1. 统计国家每个省份出现次数最高的5个城市的名称 直观思维来考虑: 把 数据组织成: 国家 省份 出现次数(倒序) 城市 row_number() 根据partition by 生成次序 ,rank_code, 然后用rank_code 做限制 2. sql 程序 3. 参考文章链接 https: 阅读全文
posted @ 2018-09-15 12:38 Gssol 阅读(1578) 评论(0) 推荐(0) 编辑
摘要: 1. 引入所有需要的包 2. 读入数据源 3. 分析数据 总结:所有的数据中一共包括12个变量,其中7个是数值变量,5个是属性变量 PassengerId(忽略):这是乘客的编号,显然对乘客是否幸存完全没有任何作用,仅做区分作用,所以我们就不考虑它了。 Survived(目标值):乘客最后的生存情况 阅读全文
posted @ 2018-03-01 13:02 Gssol 阅读(2093) 评论(0) 推荐(1) 编辑
摘要: 1. ipython 打印所有的输出变量 2. hive删除表的分区 3. hive查看表的分区 4. 忽略掉所有的警告信息 5. lambda 函数的使用方法 阅读全文
posted @ 2018-02-09 18:53 Gssol 阅读(194) 评论(0) 推荐(0) 编辑
摘要: conda install cmake conda install gcc git clone recursive https://github.com/Microsoft/LightGBM ; cd LightGBM mkdir build ; cd build cmake .. make j 返 阅读全文
posted @ 2018-01-03 19:46 Gssol 阅读(582) 评论(0) 推荐(0) 编辑
摘要: DataFrame使用总结1(超实用): 1. 合并两个表 合并表的操作(Merge, join, and concatenate) http://pandas.pydata.org/pandas docs/stable/merging.html 2. split() 和 strip() 函数 st 阅读全文
posted @ 2017-11-07 20:24 Gssol 阅读(4756) 评论(0) 推荐(0) 编辑
摘要: vi的使用 基本上vi可以分为三种状态,分别是一般模式、编辑模式和命令行模式,各模式的功能区分如下: 一般模式: 以vi打开一个文件就直接进入一般模式了,如果是空文件可以进行增加删除操作,如果是已有的文件,只能查看,不能编辑。 编辑模式: 在一般模式中可以进行删除、复制、粘贴等的操作,但是却无法编辑 阅读全文
posted @ 2017-10-30 12:59 Gssol 阅读(222) 评论(0) 推荐(0) 编辑
摘要: tensorflow数据集一直加载错误的解决办法: 引入minst数据集会报各种各样的错误,经过一番折腾,找到解决办法 1. 首先在当前项目下新建 MNIST_data 2. https://gitee.com/Gssol/tensorflow_mnist_Data/attach_files 从该目 阅读全文
posted @ 2017-10-26 13:13 Gssol 阅读(6462) 评论(2) 推荐(1) 编辑
摘要: 1. 问题描述 The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations 阅读全文
posted @ 2017-10-19 19:53 Gssol 阅读(5501) 评论(0) 推荐(1) 编辑