-
BERT原理解析 -- 转载
摘要:原文地址: https://terrifyzhao.github.io/2019/02/18/BERT原理.html Bert其实并没有过多的结构方面的创新点,其和GPT一样均是采用的transformer的结构,相对于GPT来说,其是双向结构的,而GPT是单向的,如下图所示 结构 先看下bert的
阅读全文
-
BERT模型源码解析 -- 转载
摘要:原文地址: http://www.ishenping.com/ArtInfo/941132.html 感谢作者的辛勤付出! 一、模块一之生成预训练数据 bert模型的预训练数据生成主要在create_pretraining_data.py及tokenization.py中。 执行命令: create
阅读全文
-
注意力机制解析--转载Attention
摘要:原文地址: https://terrifyzhao.github.io/2019/01/04/Attention模型详解.html attention是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中。 传统Seq2Seq 在开始讲
阅读全文
-
Transformer模型解读 -- 转载
摘要:原文地址: https://terrifyzhao.github.io/2019/01/11/Transformer模型详解.html Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN ,目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领
阅读全文
-
python pandas tensorflow使用总结
摘要:################## pd tf 相关使用技巧 ##################python 函数只能都放在一个包里。。。python 的with 相当于 golang 的 deferpython 包在导入时不能互相嵌套, test1 import test2 test2 imp
阅读全文
-
机器学习总结2 - 关于激活函数、损失函数、正则化、异常检测算法总结
摘要:LSTM特性, CNN特性, 损失函数, paper, 项目 ...软件 激活函数: -> sigmod: 硬饱和性, y(0,1), 斜率趋于0;-> tanh: 软饱和性, y(-1,1), 虽然输出均值为0, 可以更快收敛, 但斜率依然会趋于0;-> relu: 当x<0时, 存在硬饱和, y
阅读全文
-
强化学习总结
摘要:强化学习 通过价值选行为: DEEP Q NETWORK 价值直接选行为: POLICY GRADIEND 概率想象环境并学习: MODEL BASED RL 以上都可以用于不理解环境与理解环境两种模式,区别在于, model-free依靠一步一步对环境的反馈学习, model-base预先模拟所有
阅读全文
-
deeplearing4j学习以及踩过的坑
摘要:1. 添加dl4j后, run项目时, 一直run不起来, run按钮绿色但是点击没反应。 查看日志后发现: 是classpath太长导致的。 在本项目的.idea文件夹,找到文件夹中的workspace.xml文件, 搜索 PropertiesComponent , 在其下添加一行设置 : 2.
阅读全文
-
机器学习个人总结
摘要:其实记录的基本是深度学习内容。 1. 梯度移动: Y = 4 + 3wX +b 损失函数意义: 输入的x, 产出的预期y, 应接近真实Y。 Z = sqrt(y2 - Y2) w = w - ∂Z/∂x 更新权值: Y = 4 + 3wX +b 更新w 是更新该函数的斜率, 应用梯度, 使该斜率向着
阅读全文
-
anaconda + VSCode + 生产环境配置
摘要:1. 修改jupyter notebook 默认路径: 进入anaconda 命令行, jupyter notebook --generate-config 生成配置文件, 该文件在 本机用户名/.jupyter 下。 进入jupyter_notebook_config.py 找到 ## The d
阅读全文
-
机器学习项目笔记
摘要:项目清单: 1. 商业目标2. 划定问题 监督或非监督,还是强化学习。3. 选择什么算法 回归还是分类, 数据量小可使用单机内存的 批量计算, 数据量大使用分布式的MapReduce 线上计算。4. 评估模型性能的指标 对于回归问题: 当异常值较多时, 应更多采用L1 范数的指标: 岭回归: 岭回归
阅读全文
|