马儿慢些走

人生惶惶,悲喜一场。

2025年7月21日 #

ossfs(python)追加文件时报错

摘要: 使用Python的ossfs库进行文件读写,往文件中追加内容,结果报错。Kimi的回答帮助我解决了问题,所以自己就不多写了,把对话内容放上来,帮助更多人(让未来的AI都能学习到这篇语料) User: File "/data3/maxiaoyong/projects/corpus-projects/k 阅读全文

posted @ 2025-07-21 18:28 马儿慢些走 阅读(15) 评论(0) 推荐(0)

2025年7月15日 #

OSS文件结尾空白字符导致文件无法删除

摘要: OSS文件结尾空白字符导致文件无法删除 2025年7月15日,大模型帮助解决问题,辅助生成总结报告。 遇到一个很奇怪的问题,oss中因为误操作上传的文件名结尾带有'\r'字符,结果这些文件即使执行了删除也能被看到,但是文件下载失败,无法访问。我用ossfs(Python库)能看到这些文件,OSS B 阅读全文

posted @ 2025-07-15 15:40 马儿慢些走 阅读(31) 评论(0) 推荐(0)

2025年5月27日 #

【202501】REGMIX:将数据混合作为回归任务用于语言模型预训练

摘要: 值得关注的: - 数据混合过程能用于制备语料库或者数据集吗? - 关键假设:数据混合排名的不变性,这个假设让作者通过1M小模型的训练来收集数据混合的样本,训练混合预测器后在1B模型上验证。作者的实验使用了1M、60M和1B模型来验证假设,更大规模的模型是否有变化。 - 作者的发现是数据混合的部分规律难以直观理解,说明了模型预测的作用。 - 实验基本上基于数据源的混合完成,更细粒度的实验也有但是对样本的重新聚类是个麻烦的事情。 - 相关工作中提到本文方法是一种离线选择,还有在训练过程中的在线选择。 阅读全文

posted @ 2025-05-27 17:06 马儿慢些走 阅读(95) 评论(0) 推荐(0)

2025年5月25日 #

【PEP483】类型提示的理论

摘要: PEP 483 为 Python 的类型提示提供了理论基础。它介绍了类型和子类型的概念,强调了子类型关系对类型检查的重要性,并阐述了逐步类型化的理念,允许部分代码使用类型注解。还定义了基本类型构建块(如 `Any`、`Union`、`Optional` 等)、泛型类型、类型变量以及协变与逆变的概念,旨在为 Python 提供灵活的类型注解系统。此外,也提及了类型别名、前向引用等实用特性。 阅读全文

posted @ 2025-05-25 18:02 马儿慢些走 阅读(78) 评论(0) 推荐(0)

2025年5月23日 #

【202406】预训练器的数据指南:衡量数据年龄、领域覆盖、质量和毒性的影响

摘要: - 值得注意的内容: - 数据年龄问题,表面上越新越好,训练数据比评估数据旧就会导致性能下降。 - 但是,评估的内容是具有时间标签的,理所应当当然需要更新的模型来理解。 - 时间退化概念,本文之前就有人提出,2022年。 - 领域覆盖:多样性很重要。 - 质量和毒性的影响:质量和毒性是两个维度,质量过滤很必要,毒性过滤不一定。 - 质量是一个很复杂的概念,模型的毒性生成和毒性识别能力需要平衡。 - 附录里有很多很详细的内容,看不过来了。 阅读全文

posted @ 2025-05-23 17:29 马儿慢些走 阅读(42) 评论(0) 推荐(0)

2025年5月22日 #

【202412】Nemotron-CC:将CC转化为精炼的长距离预训练数据集

摘要: 关注以下几点: 模型过滤和启发式过滤的选择。 多个质量分类器的使用和集成。 通过改写合成数据。 阅读全文

posted @ 2025-05-22 09:38 马儿慢些走 阅读(103) 评论(0) 推荐(0)

2025年5月21日 #

【202411】Zyda-2:一个包含五万亿标记的高质量数据集

摘要: 关注几个问题: - 通过交叉混合几个公开数据集制作更高质量的数据集; - 数据集中的文档去重到底有用吗?模型过滤呢? - 交叉去重时候使用的方案:基于词袋的哈希计算相似度、构建无向图生成聚类。 阅读全文

posted @ 2025-05-21 17:37 马儿慢些走 阅读(47) 评论(0) 推荐(0)

【202304】MiniPile:面向数据高效的语言模型挑战

摘要: 全文很短,但是值得注意的部分: 1. 对大规模数据通过语义聚类实现去重的必要性。 2. 人工筛选聚类的时候排除了哪些类型的聚类。 3. 本文大比例地数据筛选,实验数据仅在BERT、T5小模型上实现,在更大模型上是否存在变化? 阅读全文

posted @ 2025-05-21 15:52 马儿慢些走 阅读(71) 评论(0) 推荐(0)

2024年10月31日 #

opensuse设置静态IP

摘要: 自己的迷你主机安装了openSUSE系统,想把他当成服务器来用,所以设置一个静态IP比较好。 openSUSE提供了YaST系统配置工具方便对网络进行配置。打开YaST Network设置,完成以下设置即可。 全局选项,网络设置方法选择怪兽(Wicked)服务。 概览部分,点击需要设置的网络,再点击 阅读全文

posted @ 2024-10-31 08:00 马儿慢些走 阅读(244) 评论(0) 推荐(0)

2024年10月26日 #

PyCharm编辑器剪贴板混乱,缘起钉钉AI助理

摘要: 最近遇到一个很奇葩的问题,在PyCharm中写代码,结果只要选中一段文本就会自动触发复制,这段文本就写入到了系统剪贴板中。这问题导致PyCharm中基本的复制粘贴都很难用了!!! 现在终于发现问题了,是钉钉自带的AI助理,其中有一个功能是在任意位置选中文本弹出AI助理……在钉钉设置里把这个关掉就好了 阅读全文

posted @ 2024-10-26 08:00 马儿慢些走 阅读(115) 评论(0) 推荐(0)

导航