摘要: ## 目标受众 本文面向对大规模文档去重感兴趣,且对散列 (hashing) 、图 (graph) 及文本处理有一定了解的读者。 ## 动机 老话说得好: 垃圾进,垃圾出 (garbage in, garbage out),把数据处理干净再输入给模型至关重要,至少对大语言模型如此。虽然现在一些明星大 阅读全文
posted @ 2023-07-20 22:59 HuggingFace 阅读(1041) 评论(0) 推荐(0)