JadePeng - 博客园

2024年3月14日

In-batch negatives Embedding模型介绍与实践

摘要：语义索引（可通俗理解为向量索引）技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。本文介绍In-batch negatives方法训练embedding模型，以及通过mteb测试模型recall效果。阅读全文

posted @ 2024-03-14 12:57 JadePeng 阅读(2454) 评论(0) 推荐(0)

2024年3月13日

ReACT介绍与llama_index ReActAgent实践

摘要： Agent是大模型的重要应用方向，而ReACT是学术界提出的重要方法，本文介绍ReACT论文，然后通过llama_index ReActAgent来分析ReACT的执行过程阅读全文

posted @ 2024-03-13 14:09 JadePeng 阅读(2610) 评论(0) 推荐(0)

2024年3月12日

LLM 推理和应用开源框架梳理

摘要：我们从模型量化，模型推理，以及开发平台等三个层面来梳理分析LLM的推理和应用阅读全文

posted @ 2024-03-12 10:55 JadePeng 阅读(5488) 评论(0) 推荐(1)

2024年3月8日

RAPTOR 一种基于树的RAG方法，RAG的准确率提高 20%

摘要： RAG 是当前使用LLM的标准方法，大多数现有方法仅从检索语料库中检索短的连续块，限制了对整个文档上下文的整体理解。最近，一种名为 RAPTOR （Recursive Abstractive Processing for Tree-Organized Retrieval）方法提出来，可以让RAG的准确率提高 20% 阅读全文

posted @ 2024-03-08 09:09 JadePeng 阅读(2032) 评论(0) 推荐(1)

2024年2月29日

Langchain 介绍与入门

摘要： LangChain 是一个利用LLM开发应用程序的框架, 文本介绍LangChain的入门使用阅读全文

posted @ 2024-02-29 21:41 JadePeng 阅读(1966) 评论(0) 推荐(2)

2024年2月26日

搜索引擎RAG召回效果评测MTEB介绍与使用入门

摘要： MTEB 是一个包含广泛文本嵌入（Text Embedding）的基准测试，它提供了多种语言的数十个数据集，用于各种 NLP 任务，例如文本分类、聚类、检索和文本相似性。本文介绍MTEB，以及如何自定义模型和评测任务。阅读全文

posted @ 2024-02-26 15:31 JadePeng 阅读(4602) 评论(0) 推荐(0)

2024年2月6日

索引构建磁盘IO太高，巧用tmpfs让内存来帮忙

摘要：在文本索引构建这种需要大量占用磁盘IO的任务，如果正巧你的内存还有点余粮，是否可以先索引存储到内存，然后再顺序写入到磁盘呢？，需要大量占用磁盘IO，如果正巧你的内存还有点余粮，是否可以先索引存储到内存，然后再顺序写入到磁盘呢？阅读全文

posted @ 2024-02-06 12:17 JadePeng 阅读(943) 评论(0) 推荐(3)

2024年2月2日

从TF-IDF 到BM25, BM25+，一文彻底理解文本相关度

摘要：我们从搜索引擎召回时，肯定希望召回相关性高的数据，那么如何来量化相关度呢。本文从TF-IDF开始，介绍BM25，BM25+，以及使用bert模型训练term weighting模型阅读全文

posted @ 2024-02-02 15:30 JadePeng 阅读(8137) 评论(0) 推荐(1)

2024年1月18日

跨语言调用神器SWIG介绍与使用入门

摘要：假设，你有一个C/C++库，需要提供给python和golang、java等调用，你或许会想，是不是要先学习下python扩展如何写？NO! 你只需要SWIG就行阅读全文

posted @ 2024-01-18 20:09 JadePeng 阅读(5342) 评论(0) 推荐(1)

xapian 搜索引擎介绍与使用入门

摘要： [Xapian](https://xapian.org/) 是一个开源搜索引擎库，使用 C++ 编写，并提供绑定([bindings](https://xapian.org/docs/bindings/) )以允许从多种编程语言使用。它是一个高度适应性的工具包，允许开发人员轻松地将高级索引和搜索功能添加到自己的应用程序中。Xapian 支持多种加权模型和丰富的布尔查询运算符。最新稳定版本是 1.4.24，发布于 2023 年 11 月 6 日。 Xapian是20年前就开源的搜索引擎，整体比较稳定，功能层面较lucene有差距，但是足够成熟可用。唯一的缺憾是GPL V2协议。阅读全文

posted @ 2024-01-18 13:25 JadePeng 阅读(1320) 评论(0) 推荐(0)

加琪的技术记事本

新的一年，虎虎生威，

公告