光彩照人

2020年4月23日

摘要：一、概述 Albert是谷歌在Bert基础上设计的一个精简模型，主要为了解决Bert参数过大、训练过慢的问题。Albert主要通过两个参数削减技术克服预训练模型扩展的障碍： 1、Factorized embedding parameterization(embedding参数因式分解)，将大的词嵌入阅读全文

posted @ 2020-04-23 16:54 光彩照人阅读(2746) 评论(0) 推荐(0)

2020年3月25日

推荐系统技术演进之路

摘要：一、概述推荐系统推荐系统的目标是给用户推荐喜欢或者需要的内容，做好推荐系统从宏观上看就是要做好如下三点：深入理解用户，包括用户的基本属性，社会属性、行为属性等，从而知道用户喜欢什么，需要什么对资源的刻画，将资源的信息充分挖掘提炼出来选择适合业务场景的策略与模型，将用户和资源实现最佳匹配，这部阅读全文

posted @ 2020-03-25 10:58 光彩照人阅读(3082) 评论(0) 推荐(0)

2020年3月9日

基于keras4bert的seq2seq机制的文章标题生成

摘要：一、任务背景介绍本次训练实战参照的是该篇博客文章：https://kexue.fm/archives/6933 本次训练任务采用的是THUCNews的数据集，THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档，由多个类别的新闻标题和内容组阅读全文

posted @ 2020-03-09 15:04 光彩照人阅读(2318) 评论(0) 推荐(0)

2020年3月5日

keras函数式模型举例

摘要：一、多输入和多输出模型考虑这样一个模型。我们希望预测Twitter上一条新闻会被转发和点赞多少次。模型的主要输入是新闻本身，也就是一个词语的序列。但我们还可以拥有额外的输入，如新闻发布的日期等。这个模型的损失函数将由两部分组成，辅助的损失函数评估仅仅基于新闻本身做出预测的情况，主损失函数评估基于新阅读全文

posted @ 2020-03-05 09:23 光彩照人阅读(639) 评论(0) 推荐(0)

2020年3月2日

Bert源码解读(四)之绘制流程图

摘要：一、Bert Model流程图二、Bert所用Transformer内部结构图三、Masked LM预训练示意图四、Next Sentence Prediction预训练示意图可视化一步步讲用bert进行情感分析：https://blog.csdn.net/jclian91/article/ 阅读全文

posted @ 2020-03-02 18:02 光彩照人阅读(3015) 评论(0) 推荐(0)

Bert源码解读(三)之预训练部分

摘要：一、Masked LM get_masked_lm_output函数用于计算「任务#1」的训练 loss。输入为 BertModel 的最后一层 sequence_output 输出（[batch_size, seq_length, hidden_size]）,先找出输出结果中masked掉的词，然阅读全文

posted @ 2020-03-02 17:48 光彩照人阅读(3028) 评论(0) 推荐(0)

2020年3月1日

Bert源码解读(二)之Transformer 代码实现

摘要：一、注意力层（attention layer）重要：本层主要就是根据论文公式计算token之间的attention_scores(QKT),并且做softmax之后变成attention_probs，最后再与V相乘。值得注意的是，中间利用了attention_mask的技巧，返回多头注意力值。 d 阅读全文

posted @ 2020-03-01 11:41 光彩照人阅读(2591) 评论(0) 推荐(1)

2020年2月29日

Bert源码解读(一)之主框架

摘要：一、BertModel主入口 class BertModel(object): """BERT model ("Bidirectional Encoder Representations from Transformers"). Example usage: ```python # Already 阅读全文

posted @ 2020-02-29 12:13 光彩照人阅读(4614) 评论(1) 推荐(2)

2020年2月7日

Reformer: The Efficient Transformer

摘要：一、背景与算法介绍 Transformer结构被广泛应用与自然语言处理中，并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果，研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中，每层参数的数量超过了5亿(0.5B)，而层的数量增加到了64层。Transformer 阅读全文

posted @ 2020-02-07 23:03 光彩照人阅读(3164) 评论(0) 推荐(2)

2020年2月1日

Locality Sensitive Hashing(局部敏感哈希)之cross-polytope LSH

摘要：一、概述近邻搜索在计算机科学中是一个非常基础的问题，在信息检索、模式识别、机器学习、聚类等领域有着广泛的应用。如果在d维空间中，我们有n个数据点，采用暴力搜索寻找最近邻的时间复杂度为O(dn)。当前我们的数据量越来越大，因此我们需要一些新的数据结构来查找最近邻，使得任意给定一个数据就能快速找到近邻阅读全文

posted @ 2020-02-01 18:28 光彩照人阅读(2490) 评论(0) 推荐(0)

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

公告