mengrennwpu

2024年4月28日

LLM优化：开源星火13B显卡及内存占用优化

摘要：

本文主要是针对开源星火13B的显存及内存占用过大的一个代码优化。核心思想是使用CPU预加载模型，再转换至GPU。阅读全文

posted @ 2024-04-28 16:46 mengrennwpu 阅读(210) 评论(1) 推荐(0) 编辑

2024年4月25日

LLM应用实战：当KBQA集成LLM(二)

摘要：

本文主要是针对KBQA方案基于LLM实现存在的问题进行优化，主要涉及到图谱存储至Es，且支持Es的向量检索，还有解决了一部分基于属性值倒查实体的场景，且效果相对提升。阅读全文

posted @ 2024-04-25 21:17 mengrennwpu 阅读(109) 评论(1) 推荐(0) 编辑

2024年4月11日

LLM应用实战：当KBQA集成LLM

摘要：

将传统KBQA中的部分模块，如NLU、指代消解、实体对齐等任务，完全由LLM实现阅读全文

posted @ 2024-04-11 10:56 mengrennwpu 阅读(171) 评论(0) 推荐(2) 编辑

2024年4月2日

LLM面面观之MoE

摘要：

此文是本qiang~针对大语言模型的MoE的整理，包括原理、流程及部分源码阅读全文

posted @ 2024-04-02 09:29 mengrennwpu 阅读(225) 评论(0) 推荐(0) 编辑

2024年1月31日

LLM面面观之RLHF平替算法DPO

摘要：

此文是本qiang~针对大语言模型的DPO算法的整理，包括原理、流程及部分源码。阅读全文

posted @ 2024-01-31 12:37 mengrennwpu 阅读(647) 评论(0) 推荐(0) 编辑

2024年1月22日

LLM面面观之LLM上下文扩展方案

摘要：

1. 背景本qiang~这段时间调研了LLM上下文扩展的问题，并且实打实的运行了几个开源的项目，所谓实践与理论相结合嘛！此文是本qiang~针对上下文扩展问题的总结，包括解决方案的整理概括，文中参考了多篇有意义的文章，他山之石可以攻玉。大语言模型的扩展有诸多意义，如进行更长的会话、总结更长的文阅读全文

posted @ 2024-01-22 13:48 mengrennwpu 阅读(324) 评论(0) 推荐(1) 编辑

2023年12月14日

LLM面面观之LLM复读机问题及解决方案

摘要：

LLM复读机产生的原因以及对应的解决方案阅读全文

posted @ 2023-12-14 15:42 mengrennwpu 阅读(825) 评论(0) 推荐(0) 编辑

2023年11月29日

LLM面面观之Prefix LM vs Causal LM

摘要：

1. 背景关于Prefix LM和Causal LM的区别，本qiang在网上逛了一翻，发现多数客官只给出了结论，但对于懵懵的本qiang，结果仍是懵懵... 因此，消遣了多半天，从原理及出处，交出了Prefix LM和Causal LM两者区别的更为清楚的说明。 2. Prefix LM Pre 阅读全文

posted @ 2023-11-29 14:36 mengrennwpu 阅读(1193) 评论(0) 推荐(0) 编辑

2023年2月7日

当ChatGPT遇上了CoT

摘要：最近在看CoT(Chain-of-Thought，思维链)方面的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》，主要解决大模型(100B+参数)在算术计算、常识推理、以及符号操作等涉及推理的场景。但阅读全文

posted @ 2023-02-07 17:30 mengrennwpu 阅读(650) 评论(0) 推荐(0) 编辑

2022年5月5日

Meta AI新发布的超大规模语言模型-OPT-175B

摘要： Meta AI在2022年5月3日新发布的OPT-175B模型，该模型是现阶段第一个模型参数超过千亿级别的开放模型，其次该模型与GPT-3相比，更加开放及便于访问。具体开放性表现在如下几个方面： 1. 论文: 提供了某些能力是可能的存在证明，并揭示可以建立在此基础上的一般思想 2. API访问阅读全文

posted @ 2022-05-05 08:29 mengrennwpu 阅读(1246) 评论(0) 推荐(0) 编辑

好学求知，稳健中流

公告