上一页 1 2 3 4 5 6 ··· 23 下一页
摘要: LangChain 是一个利用LLM开发应用程序的框架, 文本介绍LangChain的入门使用 阅读全文
posted @ 2024-02-29 21:41 JadePeng 阅读(495) 评论(0) 推荐(2) 编辑
摘要: MTEB 是一个包含广泛文本嵌入(Text Embedding)的基准测试,它提供了多种语言的数十个数据集,用于各种 NLP 任务,例如文本分类、聚类、检索和文本相似性。本文介绍MTEB,以及如何自定义模型和评测任务。 阅读全文
posted @ 2024-02-26 15:32 JadePeng 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 在文本索引构建这种需要大量占用磁盘IO的任务,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢?,需要大量占用磁盘IO,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢? 阅读全文
posted @ 2024-02-06 12:18 JadePeng 阅读(271) 评论(0) 推荐(3) 编辑
摘要: 我们从搜索引擎召回时,肯定希望召回相关性高的数据,那么如何来量化相关度呢。本文从TF-IDF开始,介绍BM25,BM25+,以及使用bert模型训练term weighting模型 阅读全文
posted @ 2024-02-02 15:30 JadePeng 阅读(563) 评论(0) 推荐(1) 编辑
摘要: 假设,你有一个C/C++库,需要提供给python和golang、java等调用,你或许会想,是不是要先学习下python扩展如何写 ?NO! 你只需要SWIG就行 阅读全文
posted @ 2024-01-18 20:09 JadePeng 阅读(143) 评论(0) 推荐(1) 编辑
摘要: [Xapian](https://xapian.org/) 是一个开源搜索引擎库,使用 C++ 编写,并提供绑定([bindings](https://xapian.org/docs/bindings/) )以允许从多种编程语言使用。它是一个高度适应性的工具包,允许开发人员轻松地将高级索引和搜索功能添加到自己的应用程序中。Xapian 支持多种加权模型和丰富的布尔查询运算符。最新稳定版本是 1.4.24,发布于 2023 年 11 月 6 日。 Xapian是20年前就开源的搜索引擎,整体比较稳定,功能层面较lucene有差距,但是足够成熟可用。唯一的缺憾是GPL V2协议。 阅读全文
posted @ 2024-01-18 13:25 JadePeng 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 本文从从Bitcask存储模型讲起,谈轻量级KV系统设计与实现。从来没有最好的K-V系统,只有最适合应用业务实际场景的系统,做任何的方案选择,要结合业务当前的实际情况综合权衡,有所取有所舍。 阅读全文
posted @ 2024-01-13 16:44 JadePeng 阅读(147) 评论(0) 推荐(1) 编辑
摘要: 本文介绍如何离线生成sst并在线加载,提供一种用rocksdb建立分布式kv系统替换mongodb的思路 阅读全文
posted @ 2024-01-06 16:39 JadePeng 阅读(97) 评论(0) 推荐(0) 编辑
摘要: `Hnswlib`是一个强大的近邻搜索(ANN)库, 官方介绍 `Header-only C++ HNSW implementation with python bindings, insertions and updates`. 热门的向量数据库Milvus底层的ANN库之一就是`Hnswlib`, 为milvus提供HNSW检索。 阅读全文
posted @ 2023-12-13 13:00 JadePeng 阅读(832) 评论(0) 推荐(0) 编辑
摘要: Trafilatura是一个Python包和命令行工具,用于收集网络上的文本。其主要应用场景包括网络爬虫下载和网页解析等。 今天我们不讨论爬虫和抓取,主要看他的数据解析是如何做的。 阅读全文
posted @ 2023-10-31 21:38 JadePeng 阅读(613) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 ··· 23 下一页