随笔分类 - 机器学习
摘要:https://blog.csdn.net/weixin_42451919/article/details/81381294
阅读全文
摘要:环境Python3.7.5,tensorflow、tensorboard均为1.14.0 首先,读取meta文件,ckpt文件夹内含有以下文件: 读取代码如下:(ckpt路径需要对应,本例中meta文件分为model.ckpt-0.meta及model.ckpt-7425.meta两组文件,ckpt
阅读全文
摘要:DeepFM就是FM模型结合DNN的产物,模型结构及原理详见:https://mp.weixin.qq.com/s/Hb6tKk1sw9pZ7qysO765nw,代码逻辑:Hive取数➡️生成onehot编码字典➡️转换数据➡️输入以训练模型 模型代码见github:https://github.c
阅读全文
摘要:https://www.cnblogs.com/cxchanpin/p/7359672.html https://www.cnblogs.com/yangzsnews/p/7496639.html
阅读全文
摘要:5.1 需要注意的是,神经网络中必须要有非线性的激活函数,无论是在隐层,还是输出层,或者全部都是。如果用$f(x)=\omega ^{T}x$做激活函数,无论多少层神经网络都退化成了线性回归。 5.2 两者都是希望将连续值映射到{0,1}上,但由于阶跃函数不光滑,不连续的性质,所以才选择了sigmo
阅读全文
摘要:https://www.cnblogs.com/willnote/p/6801496.html
阅读全文
摘要:BERT模型地址 BERT预训练模型有以下几个: BERT-Large, Uncased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters BERT-Large, Cased (Whole Word Mask
阅读全文
摘要:import pandas as pd #显示所有行(参数设置为None代表显示所有行,也可以自行设置数字) pd.set_option('display.max_columns',None) #显示所有列 pd.set_option('display.max_rows',None) #设置数据的显
阅读全文
摘要:make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。 n_samples是待生成的样本数量,n_features是每个样本的特征数,centers是簇数量,也可以直接指定每个簇的中心点centers=[[-1,1],[1,2],[3,3]
阅读全文
摘要:https://www.cnblogs.com/zy230530/p/7029025.html k-means算法中的k表示聚类为k个簇,means代表取每一个聚类中数据的均值作为该簇的中心(质心)即用每一个类的质心对该簇进行描述。k-means算法的原理比较简单,但它有缺陷,即其可能收敛到局部最优
阅读全文
摘要:监督学习:训练集的每一个数据已经有特征和标签,即有输入数据和输出数据,通过学习训练集中输入数据和输出数据的关系,生成合适的函数将输入映射到输出。比如分类、回归。 无监督学习:训练集的每一个数据都只有特征,即只有输入数据,算法需要学习训练集中的特征关系,进行建模,试图使类内差距最小、类间差距最大。比如
阅读全文
摘要:4.1 不含有特征向量相同但标记不同的冲突数据 and 决策树按照属性特征来划分,相同属性特征的样本最终会进入同一个叶子节点 >- 如果含有特征向量相同但标记不同的冲突数据 >- 必然至少存在一对样本,属性相同而分类不同,即产生了训练误差 >- 不含有特征向量相同但标记不同的冲突数据 4.2 简单的
阅读全文
摘要:http://archive.ics.uci.edu/ml/index.php
阅读全文
摘要:3.1 式3.2 $f(x)=\omega ^{T}x+b$ 中,$\omega ^{T}$ 和b有各自的意义,简单来说,$\omega ^{T}$ 决定学习得到模型(直线、平面)的方向,而b则决定截距,当学习得到的模型恰好经过原点时,可以不考虑偏置项b。偏置项b实质上就是体现拟合模型整体上的浮动,
阅读全文
摘要:梯度下降法 https://www.jianshu.com/p/c7e642877b0e 牛顿法 https://blog.csdn.net/sigai_csdn/article/details/80678812 https://blog.csdn.net/ccnt_2012/article/det
阅读全文
摘要:2.1 数据集包含500正例和500反例,按照70%的比例划分训练集和验证集,则验证集需要有150个正例、150个反例, 则共有$ \left ( C_{500}^{150} \right )^{2}$ 种划分方式。 2.2 数据集包含100个样本,10折交叉验证时,每个训练集应该有45正例、45反
阅读全文
摘要:1.1 若表中只包含编号1和4两个样例,则训练数据集为 色泽 根蒂 敲声 是否好瓜 青绿 蜷缩 浊响 是 乌黑 稍蜷 沉闷 否 上表有三个属性,每个属性有两种取值,所以上述数据集的假设空间大小为3*3*3+1=28 编号 色泽 根蒂 敲声 与训练集正例是否一致 1 青绿 蜷缩 浊响 是 2 青绿 蜷
阅读全文

浙公网安备 33010602011771号