摘要: 大模型预训练过程中的 MinHash 学习笔记 背景:为什么要学这玩意儿? 之前在做大模型训练数据清洗的时候,遇到了一个很头疼的问题:10 亿条文本,怎么快速找出重复的? 一开始想得很简单,直接用 Python 的 set() 去重不就行了?结果发现: 内存直接炸了(10 亿个字符串放内存里,想想都 阅读全文
posted @ 2025-11-30 11:59 hsr0316 阅读(1) 评论(1) 推荐(0)
摘要: 大模型输出数学公式出现乱码的解决方案 在 LLM 应用开发中,Markdown渲染器(如 react-markdown)与 LaTeX 公式语法的冲突是典型的工程痛点。本文归纳了导致乱码的核心原因,并给出基于 Unified 生态(Remark/Rehype)的工业级解决方案。 1. Root Ca 阅读全文
posted @ 2025-11-30 09:40 hsr0316 阅读(4) 评论(0) 推荐(0)