摘要: 最近项目中需要用到js库来渲染pdf文件,调研后发现无论是reach-pdf.js或者是svelte-pdf.js都是在pdf.js基础上做了些许精简,反而功能还不如原始的pdf.js来得全面。但是原始的库几乎没有像样的代码示例,而能搜索到的大多数代码不少都是十几年前的了,在这个过程中踩了不少坑,做 阅读全文
posted @ 2024-05-15 21:38 深度学习机器 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 前言 本文搜集了一些开源的基于LLM的RAG(Retrieval-Augmented Generation)框架,旨在吸纳业界最新的RAG应用方法与思路。如有错误或者意见可以提出,同时也欢迎大家把自己常用而这里未列出的框架贡献出来,感谢~ RAG应用框架 RAGFlow 项目地址:https://g 阅读全文
posted @ 2024-05-10 23:59 深度学习机器 阅读(971) 评论(0) 推荐(0) 编辑
摘要: 一 传统方法 之前的文章已经介绍过向量数据库在RAG(Retrieval Augmented Generative)中的应用,本文将会讨论另一个重要的工具-Embedding模型。 一般来说,构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示,并且从已经构 阅读全文
posted @ 2024-04-26 15:25 深度学习机器 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 前言 文档分割是一项具有挑战性的任务,它是任何知识库问答系统的基础。高质量的文档分割结果对于显著提升问答效果至关重要,但是目前大多数开源库的处理能力有限。 这些开源的库或者方法缺点大致可以罗列如下: 只能处理文本,无法提取表格中的内容 缺乏有效的分割策略,要么是一整个文档全部提取,要么是词粒度的获取 阅读全文
posted @ 2024-04-18 21:35 深度学习机器 阅读(799) 评论(0) 推荐(0) 编辑
摘要: 简介 Lancedb是一个用于人工智能的开源矢量数据库,旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的,并构建在Lance之上,专为高性能 ML 工作负载和快速随机访问而设计。 快速开始 安装 pip install lancedb 目前0.6.8需要pya 阅读全文
posted @ 2024-04-15 19:26 深度学习机器 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 一 简介 Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。 二 基本用法 1 安装 安装方式非常简单,只需要一行命令 pip instak 阅读全文
posted @ 2024-04-13 10:57 深度学习机器 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 背景 传统的图像生成模型有GAN,VAE等,但是存在模式坍缩,即生成图片缺乏多样性,这是因为模型本身结构导致的。而扩散模型拥有训练稳定,保持图像多样性等特点,逐渐成为现在AIGC领域的主流。 扩散模型 正如其名,该方法是从自然界的扩散现象(热力学第二定律、熵增)得到启发,认为任意我们想要的图片可以由 阅读全文
posted @ 2024-03-24 13:25 深度学习机器 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 什么是Ollama Ollama是一款免费开源的工具,拥有开箱即用的大模型,省去安装环境和下载模型的步骤,让零基础的人也能用起大模型。 项目地址 下载方法 通过下载链接可以找到对应的操作系统的下载版本,而且访问该网站不受限制,不需要神秘力量。 对于Mac和Win,可以直接通过点击下载桌面客户端,非常 阅读全文
posted @ 2024-03-12 09:20 深度学习机器 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 为什么要用LLM构建数据标注工具 在LLM出现之前,传统的深度学习模型(包括CV和NLP)就已经需要大量的数据进行训练和微调。没有足够的数据,或者数据需要进行二次加工(比如标签标注),这些问题都成为限制深度学习模型泛化的关键。对于第一个问题,一般就是从网络上爬虫或者花大价钱从数据供应商购买数据;对于 阅读全文
posted @ 2024-03-10 09:53 深度学习机器 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 整理 本文整理了一些简单的文本切分方式,适用于大语言模型经典应用RAG或相似场景。 一般切分 如果不借助任何包,很容易想到如下切分方案: text = "我是一个名为 ChatGLM3-6B 的人工智能助手,是基于清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同训练的语言模型开发的。我 阅读全文
posted @ 2024-03-06 23:05 深度学习机器 阅读(159) 评论(0) 推荐(0) 编辑