慕尘 - 博客园

2026年4月10日

摘要：好久没写了，今天遇到个好玩的，记下来 WebGPU + WebAssembly + 量化模型——浏览器端运行大语言模型（LLM）的主流方案组件作用关键特性 WebGPU GPU 加速计算提供底层 GPU 计算着色器访问，比 WebGL 更高效 WebAssembly (WASM) CPU 回退执阅读全文

posted @ 2026-04-10 13:33 慕尘阅读(30) 评论(0) 推荐(0)

2025年11月27日

使用 WSL 在 Windows 上安装 Linux

摘要： WSL（Windows Subsystem for Linux）是微软为 Windows 10/11 推出的“免虚拟机”兼容层，让你直接在 Windows 内核上原生运行 Linux ELF 二进制程序 Windows 11下在管理员模式下打开 PowerShell wsl --install 重阅读全文

posted @ 2025-11-27 14:36 慕尘阅读(32) 评论(0) 推荐(0)

2025年8月13日

LangExtract

摘要： LangExtract是一个 Python 库，利用大型语言模型（LLMs）从非结构化文本中提取结构化信息安装 pip install langextract import langextract as lx import textwrap # 1. 定义提示词 prompt = textwrap 阅读全文

posted @ 2025-08-13 11:59 慕尘阅读(300) 评论(0) 推荐(0)

2025年4月18日

pgvector

摘要： pgvector是一个开源的 PostgreSQL 扩展，用于高效地存储、查询和处理向量数据通过在 PostgreSQL 数据库中引入向量数据类型、运算符和索引方法，让用户能够直接在数据库中进行向量相似性搜索和相关操作 https://github.com/pgvector/pgvector do 阅读全文

posted @ 2025-04-18 15:22 慕尘阅读(949) 评论(0) 推荐(0)

2025年3月24日

向量数据库 Faiss

摘要： Faiss（Facebook AI Similarity Search）是由 Facebook AI Research (FAIR) 开发的高效向量相似性搜索库 npm install faiss-node 使用 import pkg from 'faiss-node'; const { Index 阅读全文

posted @ 2025-03-24 10:26 慕尘阅读(351) 评论(0) 推荐(0)

2025年3月19日

Goose

摘要：今天试用了几个提取网页内容的，为了避免以后忘记，先记下来 Goose 是一个开源的网页内容提取库，主要用于从网页中提取文章的主要文本内容适用于那些结构化较好、主要由文章组成的网页在新闻网站、博客平台以及其他以发布长篇文章为主的网站上表现尤为出色安装 pip install goose3 使用阅读全文

posted @ 2025-03-19 23:23 慕尘阅读(61) 评论(0) 推荐(0)

trafilatura

摘要： trafilatura是一个专为从网页中提取核心内容设计的Python库特别适用于那些需要从HTML页面中提取主要文本信息的应用场景，比如文章正文、标题等，同时排除掉导航栏、广告、侧边栏和其他非主要内容安装 pip install trafilatura 示例 import trafilatur 阅读全文

posted @ 2025-03-19 23:01 慕尘阅读(303) 评论(0) 推荐(0)

unstructured

摘要： unstructured 是一个开源的 Python 库，专门用于处理非结构化数据，如从 PDF、Word 文档、HTML 文件等中提取文本内容，并将其转换为结构化格式（1）安装依赖库 pip install unstructured 使用text from unstructured.partit 阅读全文

posted @ 2025-03-19 22:47 慕尘阅读(1599) 评论(0) 推荐(0)

2025年3月14日

python里使用Playwright

摘要： Playwright 是由微软开发的一款开源的 Web 自动化测试框架，主要用于自动化测试和浏览器操作它是一个跨浏览器的自动化工具，支持 Python、JavaScript 等多种语言安装 pip install playwright 安装 Playwright 支持的浏览器 playwrigh 阅读全文

posted @ 2025-03-14 15:48 慕尘阅读(257) 评论(0) 推荐(0)

python的jieba

摘要： jieba 是一个广泛使用的 Python 中文分词库，主要用于将中文文本切分成独立的词语。 https://github.com/fxsjy/jieba 安装 pip install jieba 使用（1）分词 import jieba # 分词 text = "我爱自然语言处理" words 阅读全文

posted @ 2025-03-14 15:37 慕尘阅读(285) 评论(0) 推荐(0)

2025年3月13日

MinGW

摘要：上次安装，这次又忘了，还是记一下吧 MinGW（Minimalist GNU for Windows）是一个面向Windows操作系统的开发环境，包含了GNU编译器套装（GCC）和其他一些自由软件开发及应用工具。使用MinGW，开发者可以在Windows平台上编译、构建和运行用C、C++等多种语言阅读全文

posted @ 2025-03-13 09:58 慕尘阅读(227) 评论(0) 推荐(0)

2025年3月5日

nomic-embed-text

摘要： nomic-embed-text 是一个用于生成高质量文本嵌入（embeddings）的工具或模型将文本转换为固定长度的向量表示，这些向量可以用于语义搜索、文本分类、聚类等任务使用本地 ollama 部署的 nomic-embed-text import { OllamaEmbeddings } 阅读全文

posted @ 2025-03-05 18:44 慕尘阅读(3798) 评论(0) 推荐(0)

解析非结构化数据

摘要： Unstructured 处理非结构化数据非结构化数据包括电子邮件、文档、图片、视频等没有预定义的数据模型或结构的数据类型 https://js.langchain.com/docs/how_to/document_loader_html https://docs.unstructured.io/ 阅读全文

posted @ 2025-03-05 15:16 慕尘阅读(169) 评论(0) 推荐(0)

LangChain 的 DocumentLoader

摘要：在 Node.js 中使用 LangChain 的 DocumentLoader 可以帮助你加载和处理文档数据，以便进一步用于语言模型或其他 NLP 任务。 LangChain 是一个用于构建基于语言模型的应用程序的框架，支持 Python 和 JavaScript（Node.js） https:/ 阅读全文

posted @ 2025-03-05 14:29 慕尘阅读(189) 评论(0) 推荐(0)

能够使用require但不能使用import

摘要：能够使用require但不能使用import，说明项目是基于CommonJS模块系统运行的。为了能够在项目中使用import语法，需要确保项目支持ESM 解决方法：在package.json中添加"type": "module"字段来实现 { "name": "project-name", "v 阅读全文

posted @ 2025-03-05 14:28 慕尘阅读(32) 评论(0) 推荐(0)

逆水行舟，不进则退

路漫漫其修远兮，吾将上下而求索

公告