随笔档案「2018年3月」 - L先生AI课堂

【机器学习】--鲁棒性调优之L1正则，L2正则

摘要：一、前述鲁棒性调优就是让模型有更好的泛化能力和推广力。二、具体原理 1、背景第一个更好，因为当把测试集带入到这个模型里去。如果测试集本来是100，带入的时候变成101，则第二个模型结果偏差很大，而第一个模型偏差不是很大。 2、目的鲁棒性就是为了让w参数也就是模型变小，但不是很小。所以引出了阅读全文

posted @ 2018-03-31 20:24 L先生AI课堂阅读(791) 评论(0) 推荐(0)

【机器学习】--回归问题的数值优化

摘要：一、前述回归问题求解时梯度下降由于样本数据的多样性，往往对模型有很大的影响，所以需要对样本数据做一些优化二、归一化 1、背景各个维度的输入如果在数值上差异很大，那么会引起正确的w在各个维度上数值差异很大。这样找寻w的时候，对各个维度的调整基本上是按照同一个数量级来进行调整的。因此需要归一化。阅读全文

posted @ 2018-03-31 18:15 L先生AI课堂阅读(362) 评论(0) 推荐(0)

【Keras篇】---利用keras改写VGG16经典模型在手写数字识别体中的应用

摘要：一、前述 VGG16是由16层神经网络构成的经典模型，包括多层卷积，多层全连接层，一般我们改写的时候卷积层基本不动，全连接层从后面几层依次向前改写，因为先改参数较小的。二、具体 1、因为本文中代码需要依赖OpenCV,所以第一步先安装OpenCV 因为VGG要求输入244*244，而数据集是28* 阅读全文

posted @ 2018-03-30 16:42 L先生AI课堂阅读(9316) 评论(0) 推荐(0)

【Keras篇】---Keras初始，两种模型构造方法，利用keras实现手写数字体识别

摘要：一、前述 Keras 适合快速体验，keras的设计是把大量内部运算都隐藏了，用户始终可以用theano或tensorflow的语句来写扩展功能并和keras结合使用。二、安装 Pip install --upgrade keras 三、Keras模型之序列模型序列模型属于通用模型的一种，因为阅读全文

posted @ 2018-03-30 14:44 L先生AI课堂阅读(3264) 评论(0) 推荐(0)

【神经网络篇】--基于数据集cifa10的经典模型实例

摘要：一、前述本文分享一篇基于数据集cifa10的经典模型架构和代码。二、代码三、总结最终，在cifar-10数据集上，通过一个短时间小迭代的训练，可以达到大致73%的准确率，持续增加max_steps，可以期望准确率逐渐增加如果max_steps比较大，则推荐使用学习速率衰减decay的SGD进阅读全文

posted @ 2018-03-30 12:36 L先生AI课堂阅读(2390) 评论(1) 推荐(1)

【TensorFlow篇】--Tensorflow框架可视化之Tensorboard

摘要：一、前述 TensorBoard是tensorFlow中的可视化界面，可以清楚的看到数据的流向以及各种参数的变化，本文基于一个案例讲解TensorBoard的用法。二、代码三、TensorBoard的使用 1、找到代码中tf.summary.FileWriter文件记录器存储训练和测试的日志数据阅读全文

posted @ 2018-03-29 21:09 L先生AI课堂阅读(1922) 评论(0) 推荐(0)

【深度学习篇】--神经网络中的池化层和CNN架构模型

摘要：一、前述本文讲述池化层和经典神经网络中的架构模型。二、池化Pooling 1、目标降采样subsample，shrink（浓缩），减少计算负荷，减少内存使用，参数数量减少（也可防止过拟合）减少输入图片大小（降低了图片的质量）也使得神经网络可以经受一点图片平移，不受位置的影响（池化后相当于把图片阅读全文

posted @ 2018-03-28 20:29 L先生AI课堂阅读(3072) 评论(0) 推荐(0)

【深度学习篇】--神经网络中的卷积神经网络

摘要：一、前述 Convolutional neural networks 视觉皮层、感受野，一些神经元看线，一些神经元看线的方向，一些神经元有更大的感受野，组合底层的图案1998年Yann LeCun等人推出了LeNet-5架构，广泛用于手写体数字识别，包含全连接层和sigmoid激活函数，还有卷积层和阅读全文

posted @ 2018-03-28 18:25 L先生AI课堂阅读(978) 评论(0) 推荐(0)

【深度学习篇】--神经网络中解决梯度弥散问题

摘要：一、前述在梯度下降中，随着算法反向反馈到前面几层，梯度会越来越小，最终，没有变化，这时或许还没有收敛到比较好的解，这就是梯度消失问题，深度学习遭受不稳定的梯度，不同层学习在不同的速度上二、解决梯度弥散和消失方法一，初始化权重使用he_initialization 1、举例如果我们看逻辑激活函数阅读全文

posted @ 2018-03-28 16:42 L先生AI课堂阅读(2904) 评论(0) 推荐(0)

【深度学习篇】--神经网络中的调优二，防止过拟合

摘要：一、前述上一篇讲述了神经网络中的调优实现，本文继续讲解。二、L1，L2正则防止过拟合使用L1和L2正则去限制神经网络连接的weights权重，限制更小 1、对于一层时可以定义如下：一种方式去使用TensorFlow做正则是加合适的正则项到损失函数，当一层的时候，可以如下定义： 2、对于多层时阅读全文

posted @ 2018-03-28 14:45 L先生AI课堂阅读(508) 评论(0) 推荐(0)

【深度学习篇】--神经网络中的调优一，超参数调优和Early_Stopping

摘要：一、前述调优对于模型训练速度，准确率方面至关重要，所以本文对神经网络中的调优做一个总结。二、神经网络超参数调优 1、适当调整隐藏层数对于许多问题，你可以开始只用一个隐藏层，就可以获得不错的结果，比如对于复杂的问题我们可以在隐藏层上使用足够多的神经元就行了，很长一段时间人们满足了就没有去探索深度阅读全文

posted @ 2018-03-28 11:46 L先生AI课堂阅读(1937) 评论(2) 推荐(0)

【TensorFlow篇】--DNN初始和应用

摘要：一、前述 ANN人工神经网络有两个或两个以上隐藏层，称为DNN 只有一个隐藏层是多层感知机没有隐藏层是感知机二、反向传播应用举例举例：正向传播，反向传播是一次迭代，正向传播：在开始的每一层上都有一个参数值w，初始的时候是随机的,前向带入的是每一个样本值。反向传播：然后反过来求所有的梯度值阅读全文

posted @ 2018-03-28 01:13 L先生AI课堂阅读(3022) 评论(0) 推荐(0)

【TensorFlow篇】--Tensorflow框架实现SoftMax模型识别手写数字集

摘要：一、前述本文讲述用Tensorflow框架实现SoftMax模型识别手写数字集，来实现多分类。同时对模型的保存和恢复做下示例。二、具体原理代码一：实现代码代码二：保存模型代码三：恢复模型阅读全文

posted @ 2018-03-28 01:08 L先生AI课堂阅读(324) 评论(0) 推荐(0)

【TensorFlow篇】--反向传播

摘要：一、前述反向自动求导是 TensorFlow 实现的方案，首先，它执行图的前向阶段，从输入到输出，去计算节点值，然后是反向阶段，从输出到输入去计算所有的偏导。二、具体 1、举例图是第二个阶段，在第一个阶段中，从 x =3和 y =4开始去计算所有的节点值f ( x / y )=x 2 * y 阅读全文

posted @ 2018-03-27 20:43 L先生AI课堂阅读(469) 评论(0) 推荐(0)

【TensorFlow篇】--Tensorflow框架初始，实现机器学习中多元线性回归

摘要：一、前述 TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输阅读全文

posted @ 2018-03-27 18:44 L先生AI课堂阅读(2940) 评论(0) 推荐(0)

【机器学习】--决策树和随机森林

摘要：一、前述决策树是一种非线性有监督分类模型，随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归，可能会存在不可分问题，但是非线性分类就不存在。二、具体原理 ID3算法 1、相关术语根节点：最顶层的分类条件叶节点：代表每一个类别号中间节点：中间分类条件分枝：代表每一个条件的输出二叉树：每阅读全文

posted @ 2018-03-27 15:12 L先生AI课堂阅读(10086) 评论(0) 推荐(0)

【机器学习】--模型评估指标之混淆矩阵，ROC曲线和AUC面积

摘要：一、前述怎么样对训练出来的模型进行评估是有一定指标的，本文就相关指标做一个总结。二、具体 1、混淆矩阵混淆矩阵如图：第一个参数true，false是指预测的正确性。第二个参数true,postitives是指预测的结果。相关公式：检测正列的效果：检测负列的效果：公式解释： fp_r 阅读全文

posted @ 2018-03-27 11:17 L先生AI课堂阅读(3390) 评论(0) 推荐(0)

【推荐系统篇】--推荐系统之测试数据

摘要：一、前述线上模型部分根据用户的行为数据进行推荐，相当于测试数据二、具体代码阅读全文

posted @ 2018-03-27 00:23 L先生AI课堂阅读(1009) 评论(0) 推荐(0)

【Dubbo篇】--Dubbo框架的使用

摘要：一、前述 Dubbo是一种提供高性能,透明化的RPC框架.是阿里开源的一个框架。官网地址：http://dubbo.io/ 二、架构组件解释： Provider: 提供者.发布服务的项目.Registry: 注册中心.所有提供者必须去注册中心注册自己所有能发布的服务.Consumer: 消费者. 阅读全文

posted @ 2018-03-26 21:19 L先生AI课堂阅读(478) 评论(0) 推荐(0)

【推荐系统篇】--推荐系统之训练模型

摘要：一、前述经过之前的训练数据的构建可以得到所有特征值为1的模型文件，本文将继续构建训练数据特征并构建模型。二、详细流程将处理完成后的训练数据导出用做线下训练的源数据（可以用Spark_Sql对数据进行处理）insert overwrite local directory '/opt/data/t 阅读全文

posted @ 2018-03-26 21:08 L先生AI课堂阅读(2042) 评论(0) 推荐(0)

【ElasticSearch篇】--ElasticSearch从初识到安装和应用

摘要：一、前述 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口，在企业中全文搜索时，特别常用。二、常用概念 cluster 代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节阅读全文

posted @ 2018-03-26 18:08 L先生AI课堂阅读(924) 评论(0) 推荐(0)

【推荐系统篇】--推荐系统之之特征工程部分---构建训练集流程

摘要：一、前述根据前文中架构，本文我们讨论线下部分构建训练集部分。因为我们离线部分模型的选择是逻辑回归，所以我们数据必须有x和y. 二、具体流程 1.从数据库中分离出我们需要的数据。用户行为表（日志）用户历史下载表商品词表（商品的基本特征） 2.构建训练集中的关联特征流程： 2.构建训练集中的基阅读全文

posted @ 2018-03-26 18:06 L先生AI课堂阅读(1652) 评论(1) 推荐(0)

【推荐系统篇】--推荐系统介绍和基本架构流程

摘要：一、前述推荐系统是企业中常用的技术，所以系统的掌握推荐系统的知识是很有必要的。本专栏主要讲述手机APP下载的项目。常用的推荐方法有两个，分别是基于物品的推荐和基于用户的推荐。基于用户的推荐原理是：跟你喜好相似的人喜欢的东西你也很有可能喜欢（userBaseCF）。基于物品的推荐原理是：跟你喜欢阅读全文

posted @ 2018-03-26 11:19 L先生AI课堂阅读(839) 评论(0) 推荐(0)

【Python篇】---Python3.5在Centoos的安装教程--超实用

摘要：一、前述 Python3在公司用的还是比较多的，但一般Centoos默认是python2的环境。所以本文就python3的安装做个总结。二、具体 1、查看python版本python 命令即可 2、安装Python 的依赖包 yum install zlib-devel bzip2-devel o 阅读全文

posted @ 2018-03-07 21:05 L先生AI课堂阅读(283) 评论(0) 推荐(0)

【Spark篇】---Spark中Shuffle文件的寻址

摘要：一、前述 Spark中Shuffle文件的寻址是一个文件底层的管理机制，所以还是有必要了解一下的。二、架构图三、基本概念： 1) MapOutputTracker MapOutputTracker是Spark架构中的一个模块，是一个主从架构。管理磁盘小文件的地址。 MapOutputTracke 阅读全文

posted @ 2018-03-07 19:55 L先生AI课堂阅读(425) 评论(0) 推荐(0)

【Spark篇】---SparkSql之UDF函数和UDAF函数

摘要：一、前述 SparkSql中自定义函数包括UDF和UDAF UDF：一进一出 UDAF:多进一出（联想Sum函数）二、UDF函数 UDF:用户自定义函数，user defined function * 根据UDF函数参数的个数来决定是实现哪一个UDF UDF1，UDF2。。。。UDF1xxx * 阅读全文

posted @ 2018-03-07 19:32 L先生AI课堂阅读(5264) 评论(0) 推荐(0)

【Hadoop篇】--Hadoop常用命令总结

摘要：一、前述分享一篇hadoop的常用命令的总结，将常用的Hadoop命令总结如下。二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、阅读全文

posted @ 2018-03-07 19:07 L先生AI课堂阅读(49474) 评论(1) 推荐(5)

【Spark篇】---SparkStreaming中算子中OutPutOperator类算子

摘要：一、前述 SparkStreaming中的算子分为两类，一类是Transformation类算子，一类是OutPutOperator类算子。 Transformation类算子updateStateByKey，reduceByKeyAndWindow，transform OutPutOperator 阅读全文

posted @ 2018-03-07 12:04 L先生AI课堂阅读(427) 评论(0) 推荐(0)

Linux篇---ftp服务器的搭建

摘要：一、前述企业中linux搭建ftp服务器还是很实用的，所以本文针对centoos7和centoos6搭建服务器教程做个总结。二、具体 1、显示如下图则表示已安装 vsftp软件。如果未显示则需要安装vsftpd软件。如果没有则通过yarm源进行安装 yum install -y vsftpd 阅读全文

posted @ 2018-03-06 21:19 L先生AI课堂阅读(66657) 评论(2) 推荐(1)

【Spark篇】---SparkStreaming+Kafka的两种模式receiver模式和Direct模式

摘要：一、前述 SparkStreamin是流式问题的解决的代表，一般结合kafka使用，所以本文着重讲解sparkStreaming+kafka两种模式。二、具体 1、Receiver模式原理图： receiver模式理解：在SparkStreaming程序运行起来后，Executor中会有rec 阅读全文

posted @ 2018-03-06 20:43 L先生AI课堂阅读(805) 评论(0) 推荐(0)

【Spark篇】---Spark故障解决（troubleshooting）

摘要：一、前述本文总结了常用的Spark的troubleshooting。二、具体 1、shuffle file cannot find：磁盘小文件找不到。 1) connection timeout shuffle file cannot find 提高建立连接的超时时间，或者降低gc，降低gc了那阅读全文

posted @ 2018-03-04 21:11 L先生AI课堂阅读(562) 评论(0) 推荐(0)

【Spark篇】---Spark解决数据倾斜问题

摘要：一、前述数据倾斜问题是大数据中的头号问题，所以解决数据清洗尤为重要，本文只针对几个常见的应用场景做些分析。二。具体方法 1、使用Hive ETL预处理数据方案适用场景：如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个key对应了100万数据，其他key才对应了阅读全文

posted @ 2018-03-04 21:06 L先生AI课堂阅读(7909) 评论(0) 推荐(1)

【Spark篇】---Spark调优之代码调优，数据本地化调优，内存调优，SparkShuffle调优，Executor的堆外内存调优

摘要：一、前述 Spark中调优大致分为以下几种，代码调优，数据本地化，内存调优，SparkShuffle调优，调节Executor的堆外内存。二、具体 1、代码调优 1、避免创建重复的RDD，尽量使用同一个RDD 2、对多次使用的RDD进行持久化如何选择一种最合适的持久化策略？默认情况下，性能最阅读全文

posted @ 2018-03-01 20:46 L先生AI课堂阅读(5443) 评论(0) 推荐(1)

L先生AI课堂

联想集团算法工程师一枚！ Get busy living, or get busy dying!!

03 2018 档案

公告