摘要: 该错误消息表示您正在尝试索引其中只有一项的数组。例如, In [10]: aten = torch.tensor(2) In [11]: aten Out[11]: tensor(2) In [12]: aten[0] IndexError Traceback (most recent call l 阅读全文
posted @ 2023-08-31 10:22 海_纳百川 阅读(246) 评论(0) 推荐(0)
摘要: 大语言模型(Large Language Model,LLM)的网络结构通常基于深度神经网络,其中最常见的是基于变换器(Transformer)架构的模型。以下是一般情况下大语言模型(如GPT系列)的网络结构概述: 多层变换器(Multi-layer Transformers):大语言模型通常由多个 阅读全文
posted @ 2023-08-31 09:05 海_纳百川 阅读(1195) 评论(0) 推荐(0)
摘要: Transformer是一种基于注意力机制的深度学习架构,专门用于处理序列数据,尤其在自然语言处理领域取得了重大突破。它由Google于2017年首次提出,并在各种NLP任务中表现出色,如机器翻译、文本生成和情感分析。 主要特点包括: 自注意力机制:Transformer的核心是自注意力(Self- 阅读全文
posted @ 2023-08-31 08:58 海_纳百川 阅读(69) 评论(0) 推荐(0)
本站总访问量