2025 年 11月 30 日随笔档案 - hsr0316

2025年11月30日

摘要：大模型预训练过程中的 MinHash 学习笔记背景：为什么要学这玩意儿？之前在做大模型训练数据清洗的时候，遇到了一个很头疼的问题：10 亿条文本，怎么快速找出重复的？一开始想得很简单，直接用 Python 的 set() 去重不就行了？结果发现：内存直接炸了（10 亿个字符串放内存里，想想都阅读全文

posted @ 2025-11-30 11:59 hsr0316 阅读(1) 评论(1) 推荐(0)

大模型输出数学公式出现乱码的解决方案

摘要：大模型输出数学公式出现乱码的解决方案在 LLM 应用开发中，Markdown渲染器（如 react-markdown）与 LaTeX 公式语法的冲突是典型的工程痛点。本文归纳了导致乱码的核心原因，并给出基于 Unified 生态（Remark/Rehype）的工业级解决方案。 1. Root Ca 阅读全文

posted @ 2025-11-30 09:40 hsr0316 阅读(4) 评论(0) 推荐(0)

hsr0316

公告