数据分析 - 随笔分类(第2页) - 静悟生慧

hive partition 分区使用

摘要：一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表，需要在create表的时候调用可阅读全文

posted @ 2018-09-14 12:46 静悟生慧阅读(3505) 评论(0) 推荐(0)

hive 分位数函数 percentile(col, p)

摘要：注意在偶数情况下，中位数会存在小数，特别注意！ hive里面倒是有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)p∈(0,1) 其中percentile要求输入的阅读全文

posted @ 2018-09-14 12:16 静悟生慧阅读(57756) 评论(0) 推荐(0)

大规模商品挖掘计算

摘要：Docker：作者：刘允鹏链接：https://www.zhihu.com/question/28300645/answer/67707287来源：知乎 Docker的思想来自于集装箱，集装箱解决了什么问题？在一艘大船上，可以把货物规整的摆放起来。并且各种各样的货物被集装箱标准化了，集装箱和集装箱阅读全文

posted @ 2018-09-14 10:09 静悟生慧阅读(215) 评论(0) 推荐(0)

python 2/3 joblib.dump() 和 joblib.load()

摘要：经过查阅资料：跨python版本的 joblib.dump() 和 joblib.load() Compatibility across python versions Compatibility of joblib pickles across python versions is not fu 阅读全文

posted @ 2018-09-11 16:19 静悟生慧阅读(15704) 评论(0) 推荐(0)

PySpark的DataFrame处理方法

摘要：转：https://blog.csdn.net/weimingyu945/article/details/77981884 感谢！基本操作：运行时获取spark版本号（以spark 2.0.0为例）： sparksn = SparkSession.builder.appName("PythonS 阅读全文

posted @ 2018-09-11 11:11 静悟生慧阅读(17612) 评论(0) 推荐(0)

python pivot() 函数

摘要：以下为python pandas 库的dataframe pivot()函数的官方文档： Reshape data (produce a “pivot” table) based on column values. Uses unique values from index / columns to 阅读全文

posted @ 2018-09-10 11:17 静悟生慧阅读(7964) 评论(0) 推荐(0)

python 中 numpy array 中的维度

摘要：简介 numpy 创建的数组都有一个shape属性，它是一个元组，返回各个维度的维数。有时候我们可能需要知道某一维的特定维数。二维情况可以看到y是一个两行三列的二维数组，y.shape[0]代表行数，y.shape[1]代表列数。三维情况可以看到x是一个包含了3个两行三列的二维数组的三维数组阅读全文

posted @ 2018-09-05 15:55 静悟生慧阅读(29041) 评论(0) 推荐(3)

sklearn 随机森林方法

摘要：Methods Predict class for X. The predicted class of an input sample is a vote by the trees in the forest, weighted by their probability estimates. Tha 阅读全文

posted @ 2018-09-03 12:26 静悟生慧阅读(1290) 评论(0) 推荐(0)

pandas drop_duplicates

摘要：函数： DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数：这个drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。补充： Panda 阅读全文

posted @ 2018-08-30 11:10 静悟生慧阅读(4272) 评论(0) 推荐(0)

所谓 A/B test

摘要：A/B测试就是上两个方案，部署后看效果。根据效果和一些结果参数决定采用哪个方案。灰度发布是切一部分业务使用新方案，看效果如何，是否有bug，会遇到什么问题。如果一切OK，就把全部业务切到新的方案上执行。 A/B 测试，顾名思义就是方案A和方案B的比较。为同一个目标设计两个方案，一部分用户使用A方案，阅读全文

posted @ 2018-08-29 22:01 静悟生慧阅读(596) 评论(0) 推荐(0)

sklearn 中模型保存的两种方法

摘要：一、 sklearn中提供了高效的模型持久化模块joblib，将模型保存至硬盘。 from sklearn.externals import joblib #lr是一个LogisticRegression模型 joblib.dump(lr, 'lr.model') lr = joblib.load( 阅读全文

posted @ 2018-08-28 15:31 静悟生慧阅读(28900) 评论(1) 推荐(1)

Python sklearn 分类效果评估

摘要：https://blog.csdn.net/sinat_26917383/article/details/75199996 阅读全文

posted @ 2018-08-28 11:11 静悟生慧阅读(598) 评论(0) 推荐(0)

xgboost 自定义目标函数和评估函数

摘要：https://zhpmatrix.github.io/2017/06/29/custom-xgboost/ https://www.cnblogs.com/silence-gtx/p/5812012.html https://blog.csdn.net/hfzd24/article/details 阅读全文

posted @ 2018-08-27 15:14 静悟生慧阅读(3870) 评论(0) 推荐(0)

特征组合&特征交叉

摘要：https://segmentfault.com/a/1190000014799038 https://www.jianshu.com/p/fc96675b6f8e https://blog.csdn.net/gaoyueace/article/details/78689737 结合sklearn进阅读全文

posted @ 2018-08-23 16:50 静悟生慧阅读(1833) 评论(0) 推荐(0)

博客

摘要：博客推荐： https://hankin2015.github.io/2222/11/10/22221110DataProcess_HJ/ http://wepon.me/ 阅读全文

posted @ 2018-08-22 12:42 静悟生慧阅读(165) 评论(0) 推荐(0)

python list插入、拼接

摘要：1可以使用"+"号完成操作输出为： [1, 2, 3, 8, 'google', 'com'] 2.使用extend方法、输入相同 3使用切片输出相同 PS：len（l1）代表要将l2插入l1中的位置例如输出为：又如：输出为：总结：第一种方方法思路比较清晰，就是运算符的重载；第阅读全文

posted @ 2018-08-20 16:55 静悟生慧阅读(25378) 评论(0) 推荐(0)

windows和linux中换行符的转换

摘要：数据开发平台使用上传脚本报错：保存失败，文件编码格式不正确，请修改文件换行符为Unix终束符！修改方式:DOS系统下，使用文本编译器另存为，然后选择换行符为unix终束符。解释： windows 文件的换行符为：[CR][LF] Linux和Unix文件的换行符为：[LF] 有些需要转换使用，如阅读全文

posted @ 2018-08-17 12:05 静悟生慧阅读(4371) 评论(0) 推荐(0)

使用 scikit-learn 实现多类别及多标签分类算法

摘要：多标签分类格式对于多标签分类问题而言，一个样本可能同时属于多个类别。如一个新闻属于多个话题。这种情况下，因变量yy需要使用一个矩阵表达出来。而多类别分类指的是y的可能取值大于2，但是y所属类别是唯一的。它与多标签分类问题是有严格区别的。所有的scikit-learn分类器都是默认支持多类别分类的阅读全文

posted @ 2018-08-17 11:14 静悟生慧阅读(9051) 评论(2) 推荐(1)

python 特征缺失值填充

摘要：python数据预处理之缺失值简单处理：https://blog.csdn.net/Amy_mm/article/details/79799629 该博客总结比较详细，感谢博主。我们在进行模型训练时，不可避免的会遇到某些特征出现空值的情况，下面整理了几种填充空值的方法 1. 用固定值填充对于特征阅读全文

posted @ 2018-08-16 16:43 静悟生慧阅读(17248) 评论(0) 推荐(0)

多输出回归问题

摘要：Scikit-Learn also has a general class, MultiOutputRegressor, which can be used to use a single-output regression model and fit one regressor separatel 阅读全文

posted @ 2018-08-16 10:34 静悟生慧阅读(8100) 评论(0) 推荐(0)

静悟生慧

随笔分类 - 数据分析

公告