摘要:        
LangChain是一个开源的大模型应用开发框架,为什么称之为框架呢?原因就是它将我们构建大模型应用的通用步骤进行了封装,使其模板化,通用化,这就使我们在构建大模型应用时没必要对那些通用的东西重复造轮子,减少了工作量,同时也可以使各家厂商可以快速的对接互通,该框架主要包含以下四个部分,它们构成了La    阅读全文
posted @ 2025-10-26 13:28
疾风大块头
阅读(8)
评论(0)
推荐(0)
        
            
        
        
摘要:        
什么是token? 大模型中token是指一段文本被分词后的处理单元,以汉字为例,分词后有可能是一个汉字,也可能是两个汉字,例如:我们是中国人,就会被分为“我们”“是”“中国”“人”,不同的模型token的长度是不一样的,但这里的token指的是模型单次输入输出的总和。 tiktoken是opena    阅读全文
posted @ 2025-10-26 13:27
疾风大块头
阅读(3)
评论(0)
推荐(0)
        
            
        
        
摘要:        
基础LLM:经过大规模文本数据训练,具备推测下一个词能力的模型指令微调LLM:在基础的LLM,根据自身准备的数据进一步微调的模型,这种模型更符合自身的业务需求 提示词:按业务要求做出响应的指示性话语,最好与文本有明确的分割界限,以便模型可以识别哪是指示,哪是具体的文本内容,同时要求提示词语义表达清晰    阅读全文
posted @ 2025-10-26 13:26
疾风大块头
阅读(14)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Transformer架构是自然语言处理领域一种非常重要的深度学习架构,主要有编码器和解码器两部分组成,核心特点是通过注意力机制来处理输入和输出之间的映射。 每个编码器由多个相同的编码层构成编码层主要包含多头注意力机制,层归一化,残差连接,全连接网络,位置编码这几部分注意力机制会计算输入序列每个元素    阅读全文
posted @ 2025-10-26 13:25
疾风大块头
阅读(9)
评论(0)
推荐(0)
        
            
        
        
摘要:        
大语言模型有四个基本能力:1、语言理解能力,能理解人类所描述的问题2、语言生成能力,能对人类提出的问题提供一个符合人类正常阅读习惯答案3、多轮对话管理能力,面对正常连续发问的情况下,给出的答案不会前言不搭后语4、一定的逻辑推理能力,在训练时数据编织了知识,具备了一定的推理能力大语言模型本质上就是对下    阅读全文
posted @ 2025-10-26 13:24
疾风大块头
阅读(5)
评论(0)
推荐(0)
        
            
        
        
摘要:        
相比TF1版本实现,这个利用了keras 接口,简便了很多    阅读全文
posted @ 2025-10-26 13:23
疾风大块头
阅读(1)
评论(0)
推荐(0)
        
            
        
        
摘要:        
卷积神经网络(CNN) 相比全连接而言,参数更少,原因在于CNN是一种局部连接,权值共享的模式 卷积核其实就是一个权值矩阵,例如咱们在全连接网络时,权值是一个列向量,在卷积的时候,我们把这个列向量二维化了 卷积核遍历图像矩阵的过程就称之为卷积 池化实质上是在语义上把相似的特征合并起来,可以达到降维,    阅读全文
posted @ 2025-10-26 13:22
疾风大块头
阅读(4)
评论(0)
推荐(0)
        
            
        
        
摘要:        
清洗数据,建模,训练过程 模型恢复评估过程:    阅读全文
posted @ 2025-10-26 12:34
疾风大块头
阅读(2)
评论(0)
推荐(0)
        
            
        
        
摘要:        
TF2版本的是用TF的高级API kears写的(也可以直接自己写方法构建多层模型,方法与TF1类似,不再重写)    阅读全文
posted @ 2025-10-26 12:31
疾风大块头
阅读(4)
评论(0)
推荐(0)
        
            
        
        
摘要:        
one_hot独热编码,是一个稀疏向量,实质是先把分类进行编码,然后按照分类编码对应的索引进行编码,这样做其实是把离散的点扩展到了欧氏空间,有利于计算 foward = tf.matmul(x,W) + b #矩阵shape一直才可以相加,但b的shape和叉乘出来的值的shape明显不一样,但还可    阅读全文
posted @ 2025-10-26 12:29
疾风大块头
阅读(1)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号