01 2019 档案
摘要:实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据比较大,且只在一个txt文件,处理前用 对数据进行切分。 连续型数据利用log进行变换,因为从实时训练的角度上来
阅读全文
摘要:神经网络 [TOC] perceptron(了解) perceptron:最简单的ANN结构,它是一个linear threshold unit(LTU),接收wx,经过step func f,转为输出。step func通常是heaviside(返回0或1)或者sign(返回 1、0或1) 训练实
阅读全文
摘要:机器学习理论 [TOC] 概念 Discriminative and Generative Learning 前者:寻找分类面,拟合条件概率,即x = y,然后减少损失函数。例如线性回归、决策树、SVM、KNN 后者:例如HMM、Naive贝叶斯、GMM、LDA 学习过程:寻找数据分布,拟合联合概率
阅读全文
摘要:本项目主要关注实现,数据分析、特征工程涉及较少,而且数据量较大,并没有进行多次调参。 另外,由于数据的分类极其不平衡,本项目尝试使用SMOTE增加偏少类的样本数量。 RangeIndex: 328553 entries, 0 to 328552 Data columns (total 21 colu
阅读全文
摘要:[TOC] 基本语法 基本语法只列举与Java不一样的。 运算符 and, or而非 &&, ||,另外还有not /相当于java的double除法, 相当于java的Math.pow(a, b) 0、空字符串、列表、元组等都可以返回False 位运算符:~相当于java的 输出格式 数据类型 s
阅读全文

浙公网安备 33010602011771号