Fork me on GitHub

03 2018 档案

摘要:一、前述 鲁棒性调优就是让模型有更好的泛化能力和推广力。 二、具体原理 1、背景 第一个更好,因为当把测试集带入到这个模型里去。如果测试集本来是100,带入的时候变成101,则第二个模型结果偏差很大,而第一个模型偏差不是很大。 2、目的 鲁棒性就是为了让w参数也就是模型变小,但不是很小。所以引出了  阅读全文
posted @ 2018-03-31 20:24 L先生AI课堂 阅读(791) 评论(0) 推荐(0)
摘要:一、前述 回归问题求解时梯度下降由于样本数据的多样性,往往对模型有很大的影响,所以需要对样本数据做一些优化 二、归一化 1、背景 各个维度的输入如果在数值上差异很大,那么会引起正确的w在各个维度上数值差异很大。这样找寻w的时候,对各个维度的调整基本上是按照同一个数量级来进行调整的。因此需要归一化。 阅读全文
posted @ 2018-03-31 18:15 L先生AI课堂 阅读(362) 评论(0) 推荐(0)
摘要:一、前述 VGG16是由16层神经网络构成的经典模型,包括多层卷积,多层全连接层,一般我们改写的时候卷积层基本不动,全连接层从后面几层依次向前改写,因为先改参数较小的。 二、具体 1、因为本文中代码需要依赖OpenCV,所以第一步先安装OpenCV 因为VGG要求输入244*244,而数据集是28* 阅读全文
posted @ 2018-03-30 16:42 L先生AI课堂 阅读(9316) 评论(0) 推荐(0)
摘要:一、前述 Keras 适合快速体验 ,keras的设计是把大量内部运算都隐藏了,用户始终可以用theano或tensorflow的语句来写扩展功能并和keras结合使用。 二、安装 Pip install --upgrade keras 三、Keras模型之序列模型 序列模型属于通用模型的一种,因为 阅读全文
posted @ 2018-03-30 14:44 L先生AI课堂 阅读(3264) 评论(0) 推荐(0)
摘要:一、前述 本文分享一篇基于数据集cifa10的经典模型架构和代码。 二、代码 三、总结 最终,在cifar-10数据集上,通过一个短时间小迭代的训练,可以达到大致73%的准确率,持续增加max_steps,可以期望准确率逐渐增加如果max_steps比较大,则推荐使用学习速率衰减decay的SGD进 阅读全文
posted @ 2018-03-30 12:36 L先生AI课堂 阅读(2390) 评论(1) 推荐(1)
摘要:一、前述 TensorBoard是tensorFlow中的可视化界面,可以清楚的看到数据的流向以及各种参数的变化,本文基于一个案例讲解TensorBoard的用法。 二、代码 三、TensorBoard的使用 1、找到代码中tf.summary.FileWriter文件记录器存储训练和测试的日志数据 阅读全文
posted @ 2018-03-29 21:09 L先生AI课堂 阅读(1922) 评论(0) 推荐(0)
摘要:一、前述 本文讲述池化层和经典神经网络中的架构模型。 二、池化Pooling 1、目标 降采样subsample,shrink(浓缩),减少计算负荷,减少内存使用,参数数量减少(也可防止过拟合)减少输入图片大小(降低了图片的质量)也使得神经网络可以经受一点图片平移,不受位置的影响(池化后相当于把图片 阅读全文
posted @ 2018-03-28 20:29 L先生AI课堂 阅读(3072) 评论(0) 推荐(0)
摘要:一、前述 Convolutional neural networks 视觉皮层、感受野,一些神经元看线,一些神经元看线的方向,一些神经元有更大的感受野,组合底层的图案1998年Yann LeCun等人推出了LeNet-5架构,广泛用于手写体数字识别,包含全连接层和sigmoid激活函数,还有卷积层和 阅读全文
posted @ 2018-03-28 18:25 L先生AI课堂 阅读(978) 评论(0) 推荐(0)
摘要:一、前述 在梯度下降中,随着算法反向反馈到前面几层,梯度会越来越小,最终,没有变化,这时或许还没有收敛到比较好的解,这就是梯度消失问题,深度学习遭受不稳定的梯度,不同层学习在不同的速度上 二、解决梯度弥散和消失方法一,初始化权重使用he_initialization 1、举例 如果我们看逻辑激活函数 阅读全文
posted @ 2018-03-28 16:42 L先生AI课堂 阅读(2904) 评论(0) 推荐(0)
摘要:一、前述 上一篇讲述了神经网络中的调优实现,本文继续讲解。 二、L1,L2正则防止过拟合 使用L1和L2正则去限制神经网络连接的weights权重,限制更小 1、对于一层时可以定义如下: 一种方式去使用TensorFlow做正则是加合适的正则项到损失函数,当一层的时候,可以如下定义: 2、对于多层时 阅读全文
posted @ 2018-03-28 14:45 L先生AI课堂 阅读(508) 评论(0) 推荐(0)
摘要:一、前述 调优对于模型训练速度,准确率方面至关重要,所以本文对神经网络中的调优做一个总结。 二、神经网络超参数调优 1、适当调整隐藏层数对于许多问题,你可以开始只用一个隐藏层,就可以获得不错的结果,比如对于复杂的问题我们可以在隐藏层上使用足够多的神经元就行了, 很长一段时间人们满足了就没有去探索深度 阅读全文
posted @ 2018-03-28 11:46 L先生AI课堂 阅读(1937) 评论(2) 推荐(0)
摘要:一、前述 ANN人工神经网络有两个或两个以上隐藏层,称为DNN 只有一个隐藏层是多层感知机 没有隐藏层是感知机 二、反向传播应用举例 举例: 正向传播,反向传播是一次迭代, 正向传播:在开始的每一层上都有一个参数值w,初始的时候是随机的,前向带入的是每一个样本值。 反向传播:然后反过来求所有的梯度值 阅读全文
posted @ 2018-03-28 01:13 L先生AI课堂 阅读(3022) 评论(0) 推荐(0)
摘要:一、前述 本文讲述用Tensorflow框架实现SoftMax模型识别手写数字集,来实现多分类。 同时对模型的保存和恢复做下示例。 二、具体原理 代码一:实现代码 代码二:保存模型 代码三:恢复模型 阅读全文
posted @ 2018-03-28 01:08 L先生AI课堂 阅读(324) 评论(0) 推荐(0)
摘要:一、前述 反向自动求导是 TensorFlow 实现的方案,首先,它执行图的前向阶段,从输入到输出,去计算节点值,然后是反向阶段,从输出到输入去计算所有的偏导。 二、具体 1、举例 图是第二个阶段,在第一个阶段中,从 x =3和 y =4开始去计算所有的节点值f ( x / y )=x 2 * y 阅读全文
posted @ 2018-03-27 20:43 L先生AI课堂 阅读(469) 评论(0) 推荐(0)
摘要:一、前述 TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输 阅读全文
posted @ 2018-03-27 18:44 L先生AI课堂 阅读(2940) 评论(0) 推荐(0)
摘要:一、前述 决策树是一种非线性有监督分类模型,随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归,可能会存在不可分问题,但是非线性分类就不存在。二、具体原理 ID3算法 1、相关术语 根节点:最顶层的分类条件叶节点:代表每一个类别号中间节点:中间分类条件分枝:代表每一个条件的输出二叉树:每 阅读全文
posted @ 2018-03-27 15:12 L先生AI课堂 阅读(10086) 评论(0) 推荐(0)
摘要:一、前述 怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结。 二、具体 1、混淆矩阵 混淆矩阵如图: 第一个参数true,false是指预测的正确性。 第二个参数true,postitives是指预测的结果。 相关公式: 检测正列的效果: 检测负列的效果: 公式解释: fp_r 阅读全文
posted @ 2018-03-27 11:17 L先生AI课堂 阅读(3390) 评论(0) 推荐(0)
摘要:一、前述 线上模型部分根据用户的行为数据进行推荐,相当于测试数据 二、具体代码 阅读全文
posted @ 2018-03-27 00:23 L先生AI课堂 阅读(1009) 评论(0) 推荐(0)
摘要:一、前述 Dubbo是一种提供高性能,透明化的RPC框架.是阿里开源的一个框架。 官网地址:http://dubbo.io/ 二、架构 组件解释: Provider: 提供者.发布服务的项目.Registry: 注册中心.所有提供者必须去注册中心注册自己所有能发布的服务.Consumer: 消费者. 阅读全文
posted @ 2018-03-26 21:19 L先生AI课堂 阅读(478) 评论(0) 推荐(0)
摘要:一、前述 经过之前的训练数据的构建可以得到所有特征值为1的模型文件,本文将继续构建训练数据特征并构建模型。 二、详细流程 将处理完成后的训练数据导出用做线下训练的源数据(可以用Spark_Sql对数据进行处理)insert overwrite local directory '/opt/data/t 阅读全文
posted @ 2018-03-26 21:08 L先生AI课堂 阅读(2042) 评论(0) 推荐(0)
摘要:一、前述 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,在企业中全文搜索时,特别常用。 二、常用概念 cluster 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节 阅读全文
posted @ 2018-03-26 18:08 L先生AI课堂 阅读(924) 评论(0) 推荐(0)
摘要:一、前述 根据前文中架构,本文我们讨论线下部分构建训练集部分。因为我们离线部分模型的选择是逻辑回归,所以我们数据必须有x和y. 二、具体流程 1.从数据库中分离出我们需要的数据。 用户行为表(日志) 用户历史下载表 商品词表(商品的基本特征) 2.构建训练集中的关联特征 流程: 2.构建训练集中的基 阅读全文
posted @ 2018-03-26 18:06 L先生AI课堂 阅读(1652) 评论(1) 推荐(0)
摘要:一、前述 推荐系统是企业中常用的技术,所以系统的掌握推荐系统的知识是很有必要的。本专栏主要讲述手机APP下载的项目。 常用的推荐方法有两个,分别是基于物品的推荐和基于用户的推荐。 基于用户的推荐原理是:跟你喜好相似的人喜欢的东西你也很有可能喜欢(userBaseCF)。基于物品的推荐原理是:跟你喜欢 阅读全文
posted @ 2018-03-26 11:19 L先生AI课堂 阅读(839) 评论(0) 推荐(0)
摘要:一、前述 Python3在公司用的还是比较多的,但一般Centoos默认是python2的环境。所以本文就python3的安装做个总结。 二、具体 1、查看python版本python 命令即可 2、安装Python 的依赖包 yum install zlib-devel bzip2-devel o 阅读全文
posted @ 2018-03-07 21:05 L先生AI课堂 阅读(283) 评论(0) 推荐(0)
摘要:一、前述 Spark中Shuffle文件的寻址是一个文件底层的管理机制,所以还是有必要了解一下的。 二、架构图 三、基本概念: 1) MapOutputTracker MapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。 MapOutputTracke 阅读全文
posted @ 2018-03-07 19:55 L先生AI课堂 阅读(425) 评论(0) 推荐(0)
摘要:一、前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二、UDF函数 UDF:用户自定义函数,user defined function * 根据UDF函数参数的个数来决定是实现哪一个UDF UDF1,UDF2。。。。UDF1xxx * 阅读全文
posted @ 2018-03-07 19:32 L先生AI课堂 阅读(5264) 评论(0) 推荐(0)
摘要:一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、 阅读全文
posted @ 2018-03-07 19:07 L先生AI课堂 阅读(49474) 评论(1) 推荐(5)
摘要:一、前述 SparkStreaming中的算子分为两类,一类是Transformation类算子,一类是OutPutOperator类算子。 Transformation类算子updateStateByKey,reduceByKeyAndWindow,transform OutPutOperator 阅读全文
posted @ 2018-03-07 12:04 L先生AI课堂 阅读(427) 评论(0) 推荐(0)
摘要:一、前述 企业中linux搭建ftp服务器还是很实用的,所以本文针对centoos7和centoos6搭建服务器教程做个总结。 二、具体 1、显示如下图则表示已安装 vsftp软件。如果未显示则需要安装vsftpd软件。 如果没有则通过yarm源进行安装 yum install -y vsftpd 阅读全文
posted @ 2018-03-06 21:19 L先生AI课堂 阅读(66657) 评论(2) 推荐(1)
摘要:一、前述 SparkStreamin是流式问题的解决的代表,一般结合kafka使用,所以本文着重讲解sparkStreaming+kafka两种模式。 二、具体 1、Receiver模式 原理图: receiver模式理解: 在SparkStreaming程序运行起来后,Executor中会有rec 阅读全文
posted @ 2018-03-06 20:43 L先生AI课堂 阅读(805) 评论(0) 推荐(0)
摘要:一、前述 本文总结了常用的Spark的troubleshooting。 二、具体 1、shuffle file cannot find:磁盘小文件找不到。 1) connection timeout shuffle file cannot find 提高建立连接的超时时间,或者降低gc,降低gc了那 阅读全文
posted @ 2018-03-04 21:11 L先生AI课堂 阅读(562) 评论(0) 推荐(0)
摘要:一、前述 数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。 二。具体方法 1、使用Hive ETL预处理数据 方案适用场景: 如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100万数据,其他key才对应了 阅读全文
posted @ 2018-03-04 21:06 L先生AI课堂 阅读(7909) 评论(0) 推荐(1)
摘要:一、前述 Spark中调优大致分为以下几种 ,代码调优,数据本地化,内存调优,SparkShuffle调优,调节Executor的堆外内存。 二、具体 1、代码调优 1、避免创建重复的RDD,尽量使用同一个RDD 2、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 默认情况下,性能最 阅读全文
posted @ 2018-03-01 20:46 L先生AI课堂 阅读(5443) 评论(0) 推荐(1)