随笔分类 -  机器学习

机器学习基础和基于Python的sklearn实践
摘要:推荐算法相关 [TOC] 推荐系统介绍 What:分类目录、搜索引擎、推荐系统 Why:需要在信息过载、用户需求不明确的背景下,留住用户和内容生产者,实现商业目标 评估指标 准确性 学界:RMSE、MAE、Recall、Precision 业界 头条:阅读 阅读时长 分享/评论 关注/付费 快手:播 阅读全文
posted @ 2019-02-12 17:57 justcodeit 阅读(4685) 评论(0) 推荐(1)
摘要:基于Spark的GBDT + LR模型实现 [TOC] 测试数据来源http://archive.ics.uci.edu/ml/machine learning databases/adult/ 该模型利用Spark mllib的GradientBoostedTrees作为GBDT部分,因为ml模块 阅读全文
posted @ 2019-02-12 17:43 justcodeit 阅读(7693) 评论(0) 推荐(0)
摘要:实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据比较大,且只在一个txt文件,处理前用 对数据进行切分。 连续型数据利用log进行变换,因为从实时训练的角度上来 阅读全文
posted @ 2019-01-31 18:24 justcodeit 阅读(2129) 评论(1) 推荐(0)
摘要:神经网络 [TOC] perceptron(了解) perceptron:最简单的ANN结构,它是一个linear threshold unit(LTU),接收wx,经过step func f,转为输出。step func通常是heaviside(返回0或1)或者sign(返回 1、0或1) 训练实 阅读全文
posted @ 2019-01-31 18:21 justcodeit 阅读(653) 评论(0) 推荐(0)
摘要:本项目主要关注实现,数据分析、特征工程涉及较少,而且数据量较大,并没有进行多次调参。 另外,由于数据的分类极其不平衡,本项目尝试使用SMOTE增加偏少类的样本数量。 RangeIndex: 328553 entries, 0 to 328552 Data columns (total 21 colu 阅读全文
posted @ 2019-01-19 22:50 justcodeit 阅读(894) 评论(0) 推荐(0)
摘要:机器学习理论 [TOC] 概念 Discriminative and Generative Learning 前者:寻找分类面,拟合条件概率,即x = y,然后减少损失函数。例如线性回归、决策树、SVM、KNN 后者:例如HMM、Naive贝叶斯、GMM、LDA 学习过程:寻找数据分布,拟合联合概率 阅读全文
posted @ 2019-01-19 22:50 justcodeit 阅读(866) 评论(0) 推荐(0)
摘要:A complete ML Project Get data Create a Training/ Test Set If the training set is very large, you may want to sample an exploration set to make manipu 阅读全文
posted @ 2018-10-29 22:02 justcodeit 阅读(526) 评论(0) 推荐(0)
摘要:[TOC] C1 Introduction to Statistical Learning 1.1Statistical Learning介绍: 1.Statistical learning a vast set of tools ( supervised or unsupervised ) for 阅读全文
posted @ 2018-10-29 21:05 justcodeit 阅读(4727) 评论(0) 推荐(0)
摘要:下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测。 scala 2.11.12 spark 2.2.2 阅读全文
posted @ 2018-10-29 19:07 justcodeit 阅读(418) 评论(0) 推荐(0)