上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 32 下一页
摘要: 基于文档自动生成 QA 对(文档 - 问题 - 答案三元组)是构建高质量测试集、知识库评估或模型微调数据的核心方法,其核心流程围绕 “文档采样→内容解析→LLM 生成→质量过滤→格式输出” 展开。 一、核心目标与前置准备 在启动前需明确目标,避免后续流程偏离需求: 核心目标:生成 “高质量” QA 阅读全文
posted @ 2025-09-24 11:01 wangssd 阅读(87) 评论(0) 推荐(0)
摘要: 1. 检索质量评估 通常在开发/验证集上进行。 命中率:对于一个问题,系统是否至少检索到了一个相关文档?这是一个二元指标(是/否)。它衡量了检索的召回能力。 平均精度@K:这是信息检索中的核心指标。它衡量在前K个检索结果中,相关文档的比例和排名位置。例如,MRR@5 表示前5个结果中,第一个相关文档 阅读全文
posted @ 2025-09-24 10:38 wangssd 阅读(53) 评论(0) 推荐(0)
摘要: BM25 BM25,全称是 Best Matching 25,是一种用于信息检索的排名函数。它用来计算一个查询(Query)与一组文档(Documents)的相关性得分,并按照得分从高到低对文档进行排序。 简单来说,它的核心任务是:给定一个用户搜索词(如“苹果手机”),从海量文档中找出最相关的文档, 阅读全文
posted @ 2025-09-24 10:25 wangssd 阅读(504) 评论(0) 推荐(0)
摘要: PaddleOCR 中,det、rec、cls 分别代表 OCR 流水线中的三个关键模块。 1. det - 文本检测(Text Detection) 功能 定位:在图像中找出文本所在的位置 边界框:为每个文本区域生成边界框 文本行检测:检测文本行或单词的位置 from paddleocr impo 阅读全文
posted @ 2025-09-23 17:00 wangssd 阅读(310) 评论(0) 推荐(0)
摘要: 搜索镜像:从 Docker Hub 查找镜像 docker search <镜像名称> # 例如:docker search nginx 拉取镜像:从仓库下载镜像到本地 docker pull <镜像名称:标签> # 例如:docker pull nginx:latest # 如果不写标签,默认拉取 阅读全文
posted @ 2025-09-22 17:39 wangssd 阅读(121) 评论(0) 推荐(0)
摘要: 运行 docker ps 后 CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES a1b2c3d4e5f6 nginx:latest "/docker-entrypoint.…" 2 hours ago Up 2 hours 0.0.0.0:8 阅读全文
posted @ 2025-09-19 17:01 wangssd 阅读(20) 评论(0) 推荐(0)
摘要: docker 是 引擎,是底层的基础工具。它用于管理单个容器(Container)的生命周期(构建、运行、停止、删除)。 docker-compose 是 编排工具,是上层的操作界面。它用于定义和运行由多个容器组成的、相互关联的整套应用(Multi-Container Applications)。 阅读全文
posted @ 2025-09-19 15:01 wangssd 阅读(471) 评论(0) 推荐(0)
摘要: Milvus (标准版):就像一个部署在专业机房、由多台服务器组成的大型数据中心。它性能强大、稳定可靠、支持高并发,是生产环境的不二之选。部署它,通常需要使用Docker或在Linux服务器上进行。Milvus Lite (轻量版):就像一台功能强大、开箱即用的个人开发笔记本。它把数据中心的核心功能 阅读全文
posted @ 2025-09-18 13:20 wangssd 阅读(132) 评论(0) 推荐(0)
摘要: FAISS (Facebook AI Similarity Search) 本质:一个库 (Library),而不是一个数据库。 定位:由 Meta (Facebook) AI 研发的、专注于高效相似性搜索的 C++/Python 库。它的核心使命只有一件事:在海量向量中快速找到最相似的 K 个向量 阅读全文
posted @ 2025-09-18 11:35 wangssd 阅读(216) 评论(0) 推荐(0)
摘要: 文件类型文件名示例用途 模型权重 pytorch_model.bin 或 model.safetensors 包含模型训练后的参数权重 配置文件 config.json 包含模型架构和超参数配置 词汇表文件 vocab.json, vocab.txt, tokenizer.json 分词器所需的词汇 阅读全文
posted @ 2025-09-18 10:55 wangssd 阅读(88) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 32 下一页