随笔分类 - 数据分析
摘要:一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可
阅读全文
摘要:注意在偶数情况下,中位数会存在小数,特别注意! hive里面倒是有个percentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1)p∈(0,1) 其中percentile要求输入的
阅读全文
摘要:Docker: 作者:刘允鹏链接:https://www.zhihu.com/question/28300645/answer/67707287来源:知乎 Docker的思想来自于集装箱,集装箱解决了什么问题?在一艘大船上,可以把货物规整的摆放起来。并且各种各样的货物被集装箱标准化了,集装箱和集装箱
阅读全文
摘要:经过查阅资料: 跨python版本的 joblib.dump() 和 joblib.load() Compatibility across python versions Compatibility of joblib pickles across python versions is not fu
阅读全文
摘要:转:https://blog.csdn.net/weimingyu945/article/details/77981884 感谢! 基本操作: 运行时获取spark版本号(以spark 2.0.0为例): sparksn = SparkSession.builder.appName("PythonS
阅读全文
摘要:以下为python pandas 库的dataframe pivot()函数的官方文档: Reshape data (produce a “pivot” table) based on column values. Uses unique values from index / columns to
阅读全文
摘要:简介 numpy 创建的数组都有一个shape属性,它是一个元组,返回各个维度的维数。有时候我们可能需要知道某一维的特定维数。 二维情况 可以看到y是一个两行三列的二维数组,y.shape[0]代表行数,y.shape[1]代表列数。 三维情况 可以看到x是一个包含了3个两行三列的二维数组的三维数组
阅读全文
摘要:Methods Predict class for X. The predicted class of an input sample is a vote by the trees in the forest, weighted by their probability estimates. Tha
阅读全文
摘要:函数 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数:这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。 补充: Panda
阅读全文
摘要:A/B测试就是上两个方案,部署后看效果。根据效果和一些结果参数决定采用哪个方案。灰度发布是切一部分业务使用新方案,看效果如何,是否有bug,会遇到什么问题。如果一切OK,就把全部业务切到新的方案上执行。 A/B 测试,顾名思义就是方案A和方案B的比较。为同一个目标设计两个方案,一部分用户使用A方案,
阅读全文
摘要:一、 sklearn中提供了高效的模型持久化模块joblib,将模型保存至硬盘。 from sklearn.externals import joblib #lr是一个LogisticRegression模型 joblib.dump(lr, 'lr.model') lr = joblib.load(
阅读全文
摘要:https://blog.csdn.net/sinat_26917383/article/details/75199996
阅读全文
摘要:https://zhpmatrix.github.io/2017/06/29/custom-xgboost/ https://www.cnblogs.com/silence-gtx/p/5812012.html https://blog.csdn.net/hfzd24/article/details
阅读全文
摘要:https://segmentfault.com/a/1190000014799038 https://www.jianshu.com/p/fc96675b6f8e https://blog.csdn.net/gaoyueace/article/details/78689737 结合sklearn进
阅读全文
摘要:博客推荐: https://hankin2015.github.io/2222/11/10/22221110DataProcess_HJ/ http://wepon.me/
阅读全文
摘要:1可以使用"+"号完成操作 输出为: [1, 2, 3, 8, 'google', 'com'] 2.使用extend方法 、 输入相同 3使用切片 输出相同 PS:len(l1)代表要将l2插入l1中的位置 例如 输出为: 又如: 输出为: 总结: 第一种方方法思路比较清晰,就是运算符的重载; 第
阅读全文
摘要:数据开发平台使用上传脚本报错:保存失败,文件编码格式不正确,请修改文件换行符为Unix终束符! 修改方式:DOS系统下,使用文本编译器另存为,然后选择换行符为unix终束符。 解释: windows 文件的换行符为:[CR][LF] Linux和Unix文件的换行符为:[LF] 有些需要转换使用,如
阅读全文
摘要:多标签分类格式 对于多标签分类问题而言,一个样本可能同时属于多个类别。如一个新闻属于多个话题。这种情况下,因变量yy需要使用一个矩阵表达出来。 而多类别分类指的是y的可能取值大于2,但是y所属类别是唯一的。它与多标签分类问题是有严格区别的。所有的scikit-learn分类器都是默认支持多类别分类的
阅读全文
摘要:python数据预处理之缺失值简单处理:https://blog.csdn.net/Amy_mm/article/details/79799629 该博客总结比较详细,感谢博主。 我们在进行模型训练时,不可避免的会遇到某些特征出现空值的情况,下面整理了几种填充空值的方法 1. 用固定值填充 对于特征
阅读全文
摘要:Scikit-Learn also has a general class, MultiOutputRegressor, which can be used to use a single-output regression model and fit one regressor separatel
阅读全文

浙公网安备 33010602011771号