LangChain 的 DocumentLoader

在 Node.js 中使用 LangChain 的 DocumentLoader 可以帮助你加载和处理文档数据,以便进一步用于语言模型或其他 NLP 任务。

LangChain 是一个用于构建基于语言模型的应用程序的框架,支持 Python 和 JavaScript(Node.js)

https://js.langchain.com/docs/introduction

npm install langchain

加载文本文件

test.js

import { TextLoader } from "langchain/document_loaders/fs/text";
 
// 创建一个TextLoader实例,指定文件路径
const loader = new TextLoader("./说明.txt");
 
// 加载文档
loader.load().then((docs) => {
  console.log(docs); // 输出加载的文档对象
});

 node test.js

[
    Document {
        pageContent: '要下载降水……以通过填写经纬度来定义子区域。\r\n',
        metadata: { source: './说明.txt' },
        id: undefined
    }
]
CSV文件
import { CSVLoader } from "@langchain/community/document_loaders/fs/csv";

const loader = new CSVLoader("2024623.csv");

// 加载文档
loader.load().then((docs) => {
  console.log(docs); // 输出加载的文档对象
});

Docx

import { DocxLoader } from  "@langchain/community/document_loaders/fs/docx";

const loader = new DocxLoader("NCEPGDAS0P25.docx");

// 加载文档
loader.load().then((docs) => {
  console.log(docs); // 输出加载的文档对象
});

需要安装

npm install mammoth

mammoth 是一个用于将 Microsoft Word 文档(.docx 文件) 转换为 HTML 或 Markdown 的 JavaScript 库。它专注于提取文档中的内容(如文本、标题、列表等),并生成简洁的 HTML 或 Markdown 格式,同时忽略复杂的样式和布局

PDF

import { PDFLoader } from "@langchain/community/document_loaders/fs/pdf";

const loader = new PDFLoader("CALPUFF_v7Roadway.pdf");

// 加载文档
loader.load().then((docs) => {
  console.log(docs); // 输出加载的文档对象
});

需要安装

npm install pdf-parse

 

posted @ 2025-03-05 14:29  慕尘  阅读(111)  评论(0)    收藏  举报