2024年7月25日
摘要:
预训练数据 我们从各种包含知识的数据源创建语言模型预训练数据集,直到2023年底。我们对每个数据源应用多种重复数据消除方法和数据清理机制,以获得高质量的令牌。我们删除了包含大量个人身份信息(PII)的域名,以及包含已知成人内容的域名。 3.1.1网络数据管理 我们使用的大部分数据都是从网上获得的,我
阅读全文
posted @ 2024-07-25 23:49
风生水起
阅读(585)
推荐(0)
2024年7月20日
摘要:
How Do Large Language Models Acquire Factual Knowledge During Pretraining? 通常认为,LLM在预训练中学习知识。但是LLM对长尾知识的习得很差。有观点认为,Attention的qkv结构是对知识进行抽取(q*k计算attn_s
阅读全文
posted @ 2024-07-20 20:10
风生水起
阅读(322)
推荐(0)
posted @ 2024-07-20 09:58
风生水起
阅读(367)
推荐(0)
2024年7月16日
摘要:
核心思路:构造出system2系统,生产更好的数据;然后微调system1,达到更好的效果。 system2系统: 1. Rephrase and Respond 蒸馏 RaR 是一种 System 2 方法,它首先提示语言模型以进一步阐述的方式来复述原始问题,然后基于复述的问题生成响应,目的是提供
阅读全文
posted @ 2024-07-16 14:12
风生水起
阅读(80)
推荐(0)
2024年7月13日
posted @ 2024-07-13 09:24
风生水起
阅读(27)
推荐(0)
2024年6月24日
posted @ 2024-06-24 11:33
风生水起
阅读(474)
推荐(0)
2024年5月2日
posted @ 2024-05-02 16:45
风生水起
阅读(150)
推荐(0)
posted @ 2024-05-02 16:40
风生水起
阅读(219)
推荐(0)
2024年3月26日
摘要:
平衡二叉树的查找效率是非常高的,并可以通过降低树的深度来提高查找的效率。但是当数据量非常大,树的存储的元素数量是有限的,这样会导致二叉查找树结构由于树的深度过大而造成磁盘 I/O 读写过于频繁,进而导致查询效率低下。 而 B 树的出现是为了解决这个问题,其可以一次性读入许多数据。一个节点不再只是存储
阅读全文
posted @ 2024-03-26 14:34
风生水起
阅读(196)
推荐(0)
摘要:
前面说到二叉树在极端情况下会退化成链表,那如何解决这个问题呢? 答案是:树的平衡。我们通过树的平衡,使得左右子树的深度保持在较小范围内,从而保证二叉树的查询效率。 这就是平衡二叉树的核心思想。 这种能平衡左右子树的二叉树,我们称之为平衡二叉树。 官方对于平衡树的定义是:任意节点的子树的高度差都小于等
阅读全文
posted @ 2024-03-26 11:00
风生水起
阅读(113)
推荐(0)