摘要: LangExtract是一个 Python 库,利用大型语言模型(LLMs)从非结构化文本中提取结构化信息 安装 pip install langextract import langextract as lx import textwrap # 1. 定义提示词 prompt = textwrap 阅读全文
posted @ 2025-08-13 11:59 慕尘 阅读(214) 评论(0) 推荐(0)
摘要: pgvector是一个开源的 PostgreSQL 扩展,用于高效地存储、查询和处理向量数据 通过在 PostgreSQL 数据库中引入向量数据类型、运算符和索引方法,让用户能够直接在数据库中进行向量相似性搜索和相关操作 https://github.com/pgvector/pgvector do 阅读全文
posted @ 2025-04-18 15:22 慕尘 阅读(647) 评论(0) 推荐(0)
摘要: Faiss(Facebook AI Similarity Search)是由 Facebook AI Research (FAIR) 开发的高效向量相似性搜索库 npm install faiss-node 使用 import pkg from 'faiss-node'; const { Index 阅读全文
posted @ 2025-03-24 10:26 慕尘 阅读(253) 评论(0) 推荐(0)
摘要: 今天试用了几个提取网页内容的,为了避免以后忘记,先记下来 Goose 是一个开源的网页内容提取库,主要用于从网页中提取文章的主要文本内容 适用于那些结构化较好、主要由文章组成的网页 在新闻网站、博客平台以及其他以发布长篇文章为主的网站上表现尤为出色 安装 pip install goose3 使用 阅读全文
posted @ 2025-03-19 23:23 慕尘 阅读(28) 评论(0) 推荐(0)
摘要: trafilatura是一个专为从网页中提取核心内容设计的Python库 特别适用于那些需要从HTML页面中提取主要文本信息的应用场景,比如文章正文、标题等,同时排除掉导航栏、广告、侧边栏和其他非主要内容 安装 pip install trafilatura 示例 import trafilatur 阅读全文
posted @ 2025-03-19 23:01 慕尘 阅读(123) 评论(0) 推荐(0)
摘要: unstructured 是一个开源的 Python 库,专门用于处理非结构化数据,如从 PDF、Word 文档、HTML 文件等中提取文本内容,并将其转换为结构化格式 (1)安装依赖库 pip install unstructured 使用text from unstructured.partit 阅读全文
posted @ 2025-03-19 22:47 慕尘 阅读(968) 评论(0) 推荐(0)
摘要: Playwright 是由微软开发的一款开源的 Web 自动化测试框架,主要用于自动化测试和浏览器操作 它是一个跨浏览器的自动化工具,支持 Python、JavaScript 等多种语言 安装 pip install playwright 安装 Playwright 支持的浏览器 playwrigh 阅读全文
posted @ 2025-03-14 15:48 慕尘 阅读(133) 评论(0) 推荐(0)
摘要: jieba 是一个广泛使用的 Python 中文分词库,主要用于将中文文本切分成独立的词语。 https://github.com/fxsjy/jieba 安装 pip install jieba 使用 (1)分词 import jieba # 分词 text = "我爱自然语言处理" words 阅读全文
posted @ 2025-03-14 15:37 慕尘 阅读(214) 评论(0) 推荐(0)
摘要: 上次安装,这次又忘了,还是记一下吧 MinGW(Minimalist GNU for Windows)是一个面向Windows操作系统的开发环境,包含了GNU编译器套装(GCC)和其他一些自由软件开发及应用工具。 使用MinGW,开发者可以在Windows平台上编译、构建和运行用C、C++等多种语言 阅读全文
posted @ 2025-03-13 09:58 慕尘 阅读(179) 评论(0) 推荐(0)
摘要: nomic-embed-text 是一个用于生成高质量文本嵌入(embeddings)的工具或模型 将文本转换为固定长度的向量表示,这些向量可以用于语义搜索、文本分类、聚类等任务 使用本地 ollama 部署的 nomic-embed-text import { OllamaEmbeddings } 阅读全文
posted @ 2025-03-05 18:44 慕尘 阅读(2914) 评论(0) 推荐(0)
摘要: Unstructured 处理非结构化数据 非结构化数据包括电子邮件、文档、图片、视频等没有预定义的数据模型或结构的数据类型 https://js.langchain.com/docs/how_to/document_loader_html https://docs.unstructured.io/ 阅读全文
posted @ 2025-03-05 15:16 慕尘 阅读(112) 评论(0) 推荐(0)
摘要: 在 Node.js 中使用 LangChain 的 DocumentLoader 可以帮助你加载和处理文档数据,以便进一步用于语言模型或其他 NLP 任务。 LangChain 是一个用于构建基于语言模型的应用程序的框架,支持 Python 和 JavaScript(Node.js) https:/ 阅读全文
posted @ 2025-03-05 14:29 慕尘 阅读(115) 评论(0) 推荐(0)
摘要: 能够使用require但不能使用import,说明项目是基于CommonJS模块系统运行的。 为了能够在项目中使用import语法,需要确保项目支持ESM 解决方法: 在package.json中添加"type": "module"字段来实现 { "name": "project-name", "v 阅读全文
posted @ 2025-03-05 14:28 慕尘 阅读(15) 评论(0) 推荐(0)
摘要: ChromaDB是一个开源的嵌入式向量数据库,专为存储和查询高维向量数据而设计,特别适用于与大型语言模型(LLMs)和嵌入模型(Embeddings)相关的应用场景 安装 pip install chromadb 启动服务 chroma run --path ./chroma_data --host 阅读全文
posted @ 2025-03-04 22:51 慕尘 阅读(355) 评论(0) 推荐(0)
摘要: 部署nodejs项目,虽然跑起来了,但是在装插件的时候又出问题了,所以决定弄个版本管理 在 Windows 上管理 Node.js 版本 https://github.com/coreybutler/nvm-windows/releases 下载nvm-setup.zip 运行 nvm-setup. 阅读全文
posted @ 2025-03-04 10:28 慕尘 阅读(63) 评论(0) 推荐(0)