随笔分类 - 大数据
大数据
摘要:在朴素RAG中通常会对文档、文本进行分块后进行文档嵌入,对所有文件、文本都没有经过采用Chunk方法可能有时候效果不是和好,尽管有着各种分块策略有针对大文件的、针对小文件的策略,但都难免可能会造成上下文语义丢失。 分块通常有两个非常重要的参数chunk_size、chunk_overlap,分别代表
阅读全文
摘要:在开发基于LLM的RAG应用并准备将其上线应用时,都会比较关注RAG的性能、质量、可靠性其回答的结果准确性到底如何,甚至可以说RAG的质量可靠性其重要性要大于性能,RAG“调好了”看上去效果不错,有没有什么方法去量化度量RAG应用的质量也至关重要,下图为RAG应用度量质量指标分布图。 何为RAG 由
阅读全文
摘要:Ray一个开源的通用分布式计算框架,支持传统的并行任务并支持AI模型的分布式训练,分布式任务包括有状态与无状态任务,Ray能够快速的构建分布式系统,支持按需申请CPU或GPU;Ray提供了统一的接口提供了基于任务的并行计算与基于行动器的计算,前者通常用于无状态的任务后者用于有状态的任务;Ray为一个
阅读全文
摘要:Antlr(Another Tool for Language Recognition)为开源的语法分析器,可以将输入的内容自动生成语法树;开发者可以使用它自定义自己的领域语言,只需创建语法规则文件,使用Antlr根据该规则文件生成相对应的类,再这些类的基础上我们可以用于实现自己的功能;Antlr4
阅读全文
摘要:上篇文章简单的填了一个坑基于LSM数据库的实现了WAL,在该版本中如数据写入到内存表的同时将未持久化的数据写入到WAL文件,在未将数据持久化时程序崩溃,可通过WAL文件将数据还原恢复从而避免了数据的丢失。 目前此基于LSM的数据库还有三大坑: 1、索引问题 2、SSTable合并问题 3、单机版本问
阅读全文
摘要:上篇文章简单的实现了基于LSM数据库的初步版本,在该版本中如数据写入到内存表后但还未持久化到SSTable排序字符串表,此时正好程序崩溃,内存表中暂未持久化的数据将会丢失。 引入WAL 为了解决上述问题,将引入数据库中常用于解决类似问题的方法:WAL(Write Ahead Log)预写式日志——在
阅读全文
摘要:LSM Tree(log-structured merge-tree)是一种文件组织结构的数据结构,目前在不少数据库中都有使用到,如SQLite、LevelDB、HBase在Mongodb中也有一个LSM引擎; 在传统的关系型数据库中使用的是B-/B+ tree作为索引的数据结构,B tree的查询
阅读全文
摘要:CEP(Complex Event Processing)复杂事件处理,这里的复杂事件指的是业务规则的复杂, 随着互联网、物联网技术的发展现在传感器装得越来越多,目前实时流数据业务处理越来越广,业务规则也越来越复杂。 可以说CEP就是一种基于事件的数据流分析技术,它通过过滤、聚合、关联、状态、时序等
阅读全文
摘要:在使用Java编写apache-flink程序的时候相信很多新手都遇到下面这样的异常; org.apache.flink.api.common.functions.InvalidTypesException: The return type of function 'main(DemoApp.jav
阅读全文
摘要:前两天文章说了海南IT互联网相关数据提到公司数量很多,但招聘的岗位很少的问题,但由于只是简单截图了相关招聘数据做就吐槽招聘数据少。可能数据维度太少、没做横向对比,导致看上去不太不太科学、客观。但该篇文章的结论是否有问题呢? 公司增、税收增、人员不增的说法是否站得住脚,这篇文章将主流招聘网站的数据全部
阅读全文
摘要: Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理; 流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;
阅读全文
摘要:红黑树与AVL树一样同为二分搜索树,红黑树又称为是保持“黑平衡”的二叉树,红黑树最大高度为:2logn,红黑树由这么几个独特的特征: 1、每个节点或黑或红 2、根节点为黑色 3、每个叶子节点(最后的空节点)都为黑色 4、如果一个节点为红色,则他孩子节点全为黑色 5、从任意节点到叶子节点,经过的黑色节
阅读全文
摘要:前面主要介绍了AVL的基本概念与结构,下面开始详细介绍AVL的实现细节; AVL树实现的关键点 AVL树与二叉搜索树结构类似,但又有些细微的区别,从上面AVL树的介绍我们知道它需要维护其左右节点平衡,实现AVL树关键在于标注节点高度、计算平衡因子、维护左右子树平衡这三点,下面分别介绍; 标注节点高度
阅读全文
摘要:前面所讲的二叉搜索树有个比较严重致命的问题就是极端情况下当数据以排序好的顺序创建搜索树此时二叉搜索树将退化为链表结构因此性能也大幅度下降,因此为了解决此问题我们下面要介绍的与二叉搜索树非常类似的结构就诞生了; AVL(Adelson Velskii and Landis)树 ,名字取自其发明者 G.
阅读全文
摘要:当前 skaffold 版本为v0.4,还未发布正式版本,不建议在生产环境中使用; skaffold用于开发人员快速部署程序到Kubernetes中; skaffold提供了dev、run两种模式 ;使用skaffold需先编写skaffold配置文件,该文件为定义skaffold的工作流; Ska
阅读全文
摘要:1、线性方程组概述 线性方程组: 包含未知数x1,x2,x3....xn的线性方程 其中b与系数a1,a2,a3...an是实数或复数,通常是已知的;下标n可以为任意数;线程方程组为由一个或几个包含相同变量x1,x2,x3....xn的线性方程组组成; 线性方程组的解分为相容、与不相容两种情况; 相
阅读全文
摘要:似然函数 似然函数 与概率非常类似但又有根本的区别,概率为在某种条件(参数)下预测某事件发生的可能性;而似然函数与之相反为已知该事件的情况下 推测出该事件发生时的条件(参数) ;所以似然估计也称为参数估计,为参数估计中的一种算法; 下面先求抛硬币的似然函数,然后再使用似然函数算出线性回归的参数; 假
阅读全文
摘要:上篇文章介绍了梯度下降法在线性回归中的相关理论与证明,这里使用程序实例代码方式看梯度下降法是怎样一步一步下降求出最优解的; X = [1 4;2 5;5 1;4 2]; y = [19;26;19;20]; m = length(y); alpha = 0.002; %步长 num_iters =
阅读全文
摘要:前面的文章讲了使用 最小二乘法 来求线性回归损失函数的 最优解 ,最小二乘法为直接对梯度求导找出极值,为非迭代法;而本篇文章了使用一个新的方法来求损失函数的极值: 梯度下降法(Gradient Descendent, GD) ,梯度下降法为最优化算法通常用于求解函数的极值,梯度下降法为迭代法,给定一
阅读全文
摘要:上篇文章介绍了最小二乘法矩阵形式的理论与证明、计算过程,这里使用程序代码的方式计算出矩阵形式的解,并给出线性拟合; Octave代码 clear all;close all; % 拟合的数据集 x = [1,2;1,6;1,9;1,13]; y = [4;8;12;21]; % 根据公式 w = (
阅读全文
浙公网安备 33010602011771号