LangChain 的 DocumentLoader
在 Node.js 中使用 LangChain 的 DocumentLoader
可以帮助你加载和处理文档数据,以便进一步用于语言模型或其他 NLP 任务。
LangChain 是一个用于构建基于语言模型的应用程序的框架,支持 Python 和 JavaScript(Node.js)
https://js.langchain.com/docs/introduction
npm install langchain
加载文本文件
test.js
import { TextLoader } from "langchain/document_loaders/fs/text"; // 创建一个TextLoader实例,指定文件路径 const loader = new TextLoader("./说明.txt"); // 加载文档 loader.load().then((docs) => { console.log(docs); // 输出加载的文档对象 });
node test.js
[
Document {
pageContent: '要下载降水……以通过填写经纬度来定义子区域。\r\n',
metadata: { source: './说明.txt' },
id: undefined
}
]
CSV文件
import { CSVLoader } from "@langchain/community/document_loaders/fs/csv"; const loader = new CSVLoader("2024623.csv"); // 加载文档 loader.load().then((docs) => { console.log(docs); // 输出加载的文档对象 });
Docx
import { DocxLoader } from "@langchain/community/document_loaders/fs/docx"; const loader = new DocxLoader("NCEPGDAS0P25.docx"); // 加载文档 loader.load().then((docs) => { console.log(docs); // 输出加载的文档对象 });
需要安装
npm install mammoth
mammoth
是一个用于将 Microsoft Word 文档(.docx 文件) 转换为 HTML 或 Markdown 的 JavaScript 库。它专注于提取文档中的内容(如文本、标题、列表等),并生成简洁的 HTML 或 Markdown 格式,同时忽略复杂的样式和布局
import { PDFLoader } from "@langchain/community/document_loaders/fs/pdf"; const loader = new PDFLoader("CALPUFF_v7Roadway.pdf"); // 加载文档 loader.load().then((docs) => { console.log(docs); // 输出加载的文档对象 });
需要安装
npm install pdf-parse