AI_Engineer - 博客园

2025年2月5日

摘要： LLM常见归一化方法 LayerNorm 在早期的研究中，批次归一化(Batch Normalization, BN)是一种广泛采用的归一化方法。然而，该方法难以处理可变长度的序列数据和小批次数据。因此，相关研究提出了层归一化这一技术，针对数据进行逐层归一化。具体而言，层归一化会计算每一层中所有阅读全文

posted @ 2025-02-05 17:45 AI_Engineer 阅读(355) 评论(0) 推荐(0)

2025年1月22日

inbatch softmax loss 代码实现

摘要： def inbatch_softmax_loss(user_pred_vector, item_pred_vector, item_id, labels): labels = tf.linalg.diag(tf.reshape(tf.ones_like(labels),[-1])) diff = t 阅读全文

posted @ 2025-01-22 18:13 AI_Engineer 阅读(174) 评论(0) 推荐(0)

快手HoME多任务论文

摘要：论文链接：HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou 背景论文指出现在的MMOE/PLE等multitask模型存在以下几个问题：专家崩溃：专家的输出分布存在显著差异，并且一些专家使用 ReL 阅读全文

posted @ 2025-01-22 12:04 AI_Engineer 阅读(554) 评论(0) 推荐(0)

2025年1月21日

transform

摘要：模型结构 transform模型结构由以下几个部分组成：左边的解码部分：由多个encoder结构堆叠而成，输入src emb 和 position emb的和，输出编码后结果memory 右边的编码部分：由多个decoder结构堆叠而成，输入tgt emb 和 position emb的和以及编码阅读全文

posted @ 2025-01-21 10:46 AI_Engineer 阅读(51) 评论(0) 推荐(0)

2025年1月20日

用c++实现如下代码：编写一个变长数组，要实现复制构造、移动构造和拷贝构造

摘要： #include <iostream> #include <vector> class DynamicArray { private: std::vector<int> arr; public: // 默认构造函数 DynamicArray() {} // 析构函数 ~DynamicArray() 阅读全文

posted @ 2025-01-20 11:03 AI_Engineer 阅读(24) 评论(0) 推荐(0)

2025年1月15日

如何解决正负样本不平衡问题

摘要： 1. 样本加权 2. 使用Focal Loss or GHM Loss 3. 样本采样参考资料广告行业中那些趣事系列24：从理论到实践解决文本分类中的样本不均衡问题阅读全文

posted @ 2025-01-15 11:53 AI_Engineer 阅读(41) 评论(0) 推荐(0)

2024年12月24日

RecSys'24 | 腾讯广告NISE:使用非点击样本做CVR预估

摘要： RecSys'24 | 腾讯广告NISE:使用非点击样本做CVR预估阅读全文

posted @ 2024-12-24 12:03 AI_Engineer 阅读(71) 评论(0) 推荐(0)

淘宝搜索召回论文《Embedding-based Product Retrieval in Taobao Search》

摘要： KDD'21 | 淘宝搜索中语义向量检索技术阅读全文

posted @ 2024-12-24 11:12 AI_Engineer 阅读(60) 评论(0) 推荐(0)