摘要: LangChain是一个开源的大模型应用开发框架,为什么称之为框架呢?原因就是它将我们构建大模型应用的通用步骤进行了封装,使其模板化,通用化,这就使我们在构建大模型应用时没必要对那些通用的东西重复造轮子,减少了工作量,同时也可以使各家厂商可以快速的对接互通,该框架主要包含以下四个部分,它们构成了La 阅读全文
posted @ 2025-10-26 13:28 疾风大块头 阅读(23) 评论(0) 推荐(0)
摘要: 什么是token? 大模型中token是指一段文本被分词后的处理单元,以汉字为例,分词后有可能是一个汉字,也可能是两个汉字,例如:我们是中国人,就会被分为“我们”“是”“中国”“人”,不同的模型token的长度是不一样的,但这里的token指的是模型单次输入输出的总和。 tiktoken是opena 阅读全文
posted @ 2025-10-26 13:27 疾风大块头 阅读(9) 评论(0) 推荐(0)
摘要: 基础LLM:经过大规模文本数据训练,具备推测下一个词能力的模型指令微调LLM:在基础的LLM,根据自身准备的数据进一步微调的模型,这种模型更符合自身的业务需求 提示词:按业务要求做出响应的指示性话语,最好与文本有明确的分割界限,以便模型可以识别哪是指示,哪是具体的文本内容,同时要求提示词语义表达清晰 阅读全文
posted @ 2025-10-26 13:26 疾风大块头 阅读(39) 评论(0) 推荐(0)
摘要: Transformer架构是自然语言处理领域一种非常重要的深度学习架构,主要有编码器和解码器两部分组成,核心特点是通过注意力机制来处理输入和输出之间的映射。 每个编码器由多个相同的编码层构成编码层主要包含多头注意力机制,层归一化,残差连接,全连接网络,位置编码这几部分注意力机制会计算输入序列每个元素 阅读全文
posted @ 2025-10-26 13:25 疾风大块头 阅读(13) 评论(0) 推荐(0)
摘要: 大语言模型有四个基本能力:1、语言理解能力,能理解人类所描述的问题2、语言生成能力,能对人类提出的问题提供一个符合人类正常阅读习惯答案3、多轮对话管理能力,面对正常连续发问的情况下,给出的答案不会前言不搭后语4、一定的逻辑推理能力,在训练时数据编织了知识,具备了一定的推理能力大语言模型本质上就是对下 阅读全文
posted @ 2025-10-26 13:24 疾风大块头 阅读(18) 评论(0) 推荐(0)
摘要: 相比TF1版本实现,这个利用了keras 接口,简便了很多 阅读全文
posted @ 2025-10-26 13:23 疾风大块头 阅读(2) 评论(0) 推荐(0)
摘要: 卷积神经网络(CNN) 相比全连接而言,参数更少,原因在于CNN是一种局部连接,权值共享的模式 卷积核其实就是一个权值矩阵,例如咱们在全连接网络时,权值是一个列向量,在卷积的时候,我们把这个列向量二维化了 卷积核遍历图像矩阵的过程就称之为卷积 池化实质上是在语义上把相似的特征合并起来,可以达到降维, 阅读全文
posted @ 2025-10-26 13:22 疾风大块头 阅读(7) 评论(0) 推荐(0)
摘要: 清洗数据,建模,训练过程 模型恢复评估过程: 阅读全文
posted @ 2025-10-26 12:34 疾风大块头 阅读(2) 评论(0) 推荐(0)
摘要: TF2版本的是用TF的高级API kears写的(也可以直接自己写方法构建多层模型,方法与TF1类似,不再重写) 阅读全文
posted @ 2025-10-26 12:31 疾风大块头 阅读(5) 评论(0) 推荐(0)
摘要: one_hot独热编码,是一个稀疏向量,实质是先把分类进行编码,然后按照分类编码对应的索引进行编码,这样做其实是把离散的点扩展到了欧氏空间,有利于计算 foward = tf.matmul(x,W) + b #矩阵shape一直才可以相加,但b的shape和叉乘出来的值的shape明显不一样,但还可 阅读全文
posted @ 2025-10-26 12:29 疾风大块头 阅读(3) 评论(0) 推荐(0)
摘要: TensorFlow1: import tensorflow as tf print(tf.__version__) import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.utils i 阅读全文
posted @ 2025-10-26 12:25 疾风大块头 阅读(4) 评论(0) 推荐(0)
摘要: TensorFlow1: %matplotlib inline import matplotlib.pyplot as plt import numpy as np import tensorflow as tf np.random.seed(5) x_data = np.linspace(-1,1 阅读全文
posted @ 2025-10-26 12:24 疾风大块头 阅读(4) 评论(0) 推荐(0)
摘要: TensorFlow2默认采用Eager执行模式即动态图模式,TensorFlow默认采用Graph执行模式即静态图模式,动态图模式相比静态图模式而言,在开发过程中更易于调试,可以像debug python代码一样,去debug TensorFlow计算图的执行步骤并可即时看到执行结果,而在部署过程 阅读全文
posted @ 2025-10-26 12:23 疾风大块头 阅读(7) 评论(0) 推荐(0)
摘要: 人工智能、机器学习与深度学习基本概念: 人工智能:一系列促使机器模仿或实现人的智能的方法、技术、理论,包括计算智能、感知智能和认知智能等层次,目前人工智能还处于前两者之间,处于弱人工智能阶段,当机器完全具有自主意识时就进入了强人工智能阶段。 机器学习是实现人工智能的一种技术手段,可分为监督学习,无监 阅读全文
posted @ 2025-10-26 12:22 疾风大块头 阅读(38) 评论(0) 推荐(0)
摘要: Spark是一个基于MapReduce思想的分布式通用计算框架,相对于MapReduce,它的升华主要体现在处理结果驻留在了内存中(RDD,即分布式内存的概念,也是将数据进行切片,计算的中间结果驻留在内存中,可以设置切片数,也可以采用默认值),可以直接与客户端交互,而不是像mapReduce那样,将 阅读全文
posted @ 2025-10-26 12:18 疾风大块头 阅读(5) 评论(0) 推荐(0)
摘要: MapReduce是一种编程模型,采用主从集群结构,与Hdfs类似,也是由主节点(JobTracker,在hadoop2.0中,由Yarn代替JobTracker的工作)进行任务的调度与分配,从节点(TaskTracker,在hadoop2.0中,由ApplicationMaster代替TaskTr 阅读全文
posted @ 2025-10-26 12:18 疾风大块头 阅读(7) 评论(0) 推荐(0)
摘要: Hive是建立在hadoop之上的,本质上是将SQL转换为MapReduce的任务进行运算,底层由Hdfs来提供数据的存储,开发这个工具的目的是降低开发MapReduce程序的难度,让业务统计人员可以直接通过类似sql的语言进行数据的统计和展现。 Hive具有可扩展性,容错性与低约束性的特点,这是因 阅读全文
posted @ 2025-10-26 12:17 疾风大块头 阅读(6) 评论(0) 推荐(0)
摘要: Hbase是谷歌对BigTable的开源实现,它是一个分布式数据库,具有容量大,数据结构不固定,列式存储,数据类型单一化,高性能的特点. Hbase能具备以上特点主要基于其表结构设计及底层的hdfs的支持,我们先说一下它的表结构: 行键:每行数据的索引 列族:多个列的组合,比如姓名,年龄,这两个列可 阅读全文
posted @ 2025-10-26 12:16 疾风大块头 阅读(5) 评论(0) 推荐(0)
摘要: HDFS文件系统是hadoop生态系统的核心,主要用于分布式文件存储,它具备高可用,流式读取,文件结构简单,跨平台的特点,它的集群采用的是主从结构,分为命名节点和数据节点,命名节点主要用于元数据管理(例如对目录,文件的创建,数据块与数据节点的关系维护管理)及数据节点管理(例如数据节点之间数据的复制, 阅读全文
posted @ 2025-10-26 12:15 疾风大块头 阅读(13) 评论(0) 推荐(0)
摘要: 大数据一般是指那些产生速度快,而且是海量,类型多样,非结构化,价值密度低的数据 常见的大数据,比如消费大数据,医疗大数据,车流大数据,通过大数据的分析我们可以根据个体情况给出更合适的解决方案,比如通过对车流分析,那么我们可以优化交通灯的在不同时间段的响应时间,这样可以有效的提高通行效率,医疗大数据更 阅读全文
posted @ 2025-10-26 12:14 疾风大块头 阅读(8) 评论(0) 推荐(0)
摘要: Virtural Machine 简称VM,也就是我们常说的虚拟机,分为系统虚拟机和软件虚拟机,虚拟机实质上是一个软件,是对物理计算机整个系统的模拟或某一个软件运行环境的模拟,例如VMWare就是系统虚拟机,JVM就是软件虚拟机 Java Virtural Machine 简称JVM,是Java程序 阅读全文
posted @ 2025-10-26 12:13 疾风大块头 阅读(10) 评论(0) 推荐(0)
摘要: Java的类加载器分为四级: 启动类加载器:这个是最基础的,加载的是系统类,例如java.lang.Object类 扩展类加载器:加载的是jre或者lib中的类 应用类加载器:加载的是类路径下的类,就是自己写的那些类 自定义的加载器:用户自定义的 类加载器采用双亲委托机制,是一种单向的委托机制,首先 阅读全文
posted @ 2025-10-26 12:13 疾风大块头 阅读(13) 评论(0) 推荐(0)
摘要: Java Stream流说白了就是一组能进行聚合操作的数据。 下边是它的具体定义: 从数据源(可以是文件,数组,不过常见的还是各种集合,例如list,Hashset)转换而来的能够支持聚合操作 (例如filter,map) 的元素序列 (该元素序列是Stream类型的,例如Stream(String 阅读全文
posted @ 2025-10-26 12:12 疾风大块头 阅读(4) 评论(0) 推荐(0)
摘要: Java Lambda表达式:实质上是将方法作为参数进行传递,一般是在你需要将一个单独的行为作为参数传递给另一个方法时用到 具体语法:t -> t.toString();其中 t 代表入参,如果是有多个,就用()括住,参数之间用逗号隔开,如果一个也没有,直接用()就行,像这种仅仅是一个的,直接写参数 阅读全文
posted @ 2025-10-26 12:11 疾风大块头 阅读(7) 评论(0) 推荐(0)
摘要: 注解(Annotation):JDK5引入的,用于修饰程序元素,不会对被修饰的程序元素产生直接影响,注解分为普通注解(修饰程序元素的注解)和元注解(修饰注解的注解),JDK自带了很多注解,例如:@SuppressWarnings 忽略警告信息,我们也可以自定义注解,注解既可以用在类上,也可以用在方法 阅读全文
posted @ 2025-10-26 12:10 疾风大块头 阅读(6) 评论(0) 推荐(0)
摘要: 代理模式:为目标对象(被调用方)提供一个包装类即代理对象,调用方通过调用代理对象来达到调用目标对象的目的,这样就实现调用方与目标对象之间的解耦。 java中的代理模式分为静态代理和动态代理两种。 静态代理编码简单,只要持有目标对象的句柄,实现同样的接口,然后在方法中通过目标对象的句柄调用相应的方法就 阅读全文
posted @ 2025-10-26 12:09 疾风大块头 阅读(6) 评论(0) 推荐(0)
摘要: Java的反射功能,可以帮我们在程序“运行期间““自由的”创建对象,那为什么强调运行期间呢?那是因为我们创建对象一般是在编译期间就创建好了,例如:我们在代码中new了一个对象,这个时候java源码文件转换成字节码文件后,对象就创建好了,只不过是在JVM上跑的时候,加载进来而已 那自由体现在哪里呢?自 阅读全文
posted @ 2025-10-26 12:08 疾风大块头 阅读(3) 评论(0) 推荐(0)
摘要: for-each:语法简便,可避免数组越界,无法更新(更新是指把集合内的某一个对象替换成另一个,不是对象内部值的修改)和删除集合内对象,无法知道当前元素的位置索引 枚举:JDK5提出的,用enum进行声明,表示一组限定值的集合,有几个值,该枚举就会有几个实例对象,打点调用,不能new出来,内部也可以 阅读全文
posted @ 2025-10-26 12:07 疾风大块头 阅读(3) 评论(0) 推荐(0)
摘要: Java内置了脚本语言引擎,支持直接对JavaScript语言的调用(直接调用是指直接在java源码中编写相应的脚本语言,然后通过引擎加载,直接使用),也支持Groovy和R语言,可通过 ScriptEngineManager manager = new ScriptEngineManager(); 阅读全文
posted @ 2025-10-26 12:06 疾风大块头 阅读(3) 评论(0) 推荐(0)
摘要: RMI:远程方法调用,不同机器上的java进程通讯的时候,可以采用这种方法,基本流程,服务端到RMI上进行注册,客户端请求RMI,获取RMI上注册的服务,并存储到本地,客户端通过存储在本地地址,对服务端进行访问 与网络编程的不同点:网络编程客户端和服务端是平行的,它们之间只是消息的传递,通过RMI调 阅读全文
posted @ 2025-10-26 12:05 疾风大块头 阅读(4) 评论(0) 推荐(0)
摘要: 传统的TCP和UDP通讯都是同步阻塞式IO(BIO),I指输入流,O指输出流,阻塞体现在通信的双方接收和发送信息的速率不一样,从而导致快的一方一直在等待慢的一方,不能进行下一步动作,同步体现在一直在等待对方响应 NIO即同步非阻塞式IO,JDK4提出来的,主要有三大组件:Buffer(这个BIO也有 阅读全文
posted @ 2025-10-26 12:04 疾风大块头 阅读(3) 评论(0) 推荐(0)
摘要: 进程:现代的操作系统都是多任务操作系统,一个任务就是一个进程,进程是程序的运行状态,在单核CPU的情况下,OS会通过切分CPU时间片的形式来保证多任务的执行(实际上还是串行,只不过每个任务分配的时间极少,轮换执行,导致在人们感觉上好像是同时执行的),多核的情况下,任务就真的是并行执行了 线程:程序最 阅读全文
posted @ 2025-10-26 12:02 疾风大块头 阅读(5) 评论(0) 推荐(0)
摘要: ASCII 美国信息交换标准代码 包含英语和西欧语言 GB2312 1980年提出,GBK 1995年提出 GB18030 2000年和2005年各有一个版本,主要表述汉字,包含的汉字越来越多 Unicode 字符集 ,目标包含所有的文字 实现方式主要是UTF-8,UTF-16,UTF-32,程序内 阅读全文
posted @ 2025-10-26 12:01 疾风大块头 阅读(7) 评论(0) 推荐(0)