随笔分类 - 机器学习
机器学习基础和基于Python的sklearn实践
摘要:推荐算法相关 [TOC] 推荐系统介绍 What:分类目录、搜索引擎、推荐系统 Why:需要在信息过载、用户需求不明确的背景下,留住用户和内容生产者,实现商业目标 评估指标 准确性 学界:RMSE、MAE、Recall、Precision 业界 头条:阅读 阅读时长 分享/评论 关注/付费 快手:播
阅读全文
摘要:基于Spark的GBDT + LR模型实现 [TOC] 测试数据来源http://archive.ics.uci.edu/ml/machine learning databases/adult/ 该模型利用Spark mllib的GradientBoostedTrees作为GBDT部分,因为ml模块
阅读全文
摘要:实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据比较大,且只在一个txt文件,处理前用 对数据进行切分。 连续型数据利用log进行变换,因为从实时训练的角度上来
阅读全文
摘要:神经网络 [TOC] perceptron(了解) perceptron:最简单的ANN结构,它是一个linear threshold unit(LTU),接收wx,经过step func f,转为输出。step func通常是heaviside(返回0或1)或者sign(返回 1、0或1) 训练实
阅读全文
摘要:本项目主要关注实现,数据分析、特征工程涉及较少,而且数据量较大,并没有进行多次调参。 另外,由于数据的分类极其不平衡,本项目尝试使用SMOTE增加偏少类的样本数量。 RangeIndex: 328553 entries, 0 to 328552 Data columns (total 21 colu
阅读全文
摘要:机器学习理论 [TOC] 概念 Discriminative and Generative Learning 前者:寻找分类面,拟合条件概率,即x = y,然后减少损失函数。例如线性回归、决策树、SVM、KNN 后者:例如HMM、Naive贝叶斯、GMM、LDA 学习过程:寻找数据分布,拟合联合概率
阅读全文
摘要:A complete ML Project Get data Create a Training/ Test Set If the training set is very large, you may want to sample an exploration set to make manipu
阅读全文
摘要:[TOC] C1 Introduction to Statistical Learning 1.1Statistical Learning介绍: 1.Statistical learning a vast set of tools ( supervised or unsupervised ) for
阅读全文
摘要:下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测。 scala 2.11.12 spark 2.2.2
阅读全文

浙公网安备 33010602011771号