马儿慢些走

人生惶惶,悲喜一场。

2025年9月14日 #

iBus Shift连选现象(KIMI)

摘要: 2025年9月14日,这是和Kimi的对话内容,仅供参考。 User: 我在OpenSUSE上使用ibus输入法、Gnome桌面环境、火狐浏览器,为什么有时候会触发shift按钮的连选效果?鼠标好像提前在一个地方按住了,点其他地方就变成了选中这一段内容,或者选中几个标签页。我发现解除的方法就是按左侧 阅读全文

posted @ 2025-09-14 17:48 马儿慢些走 阅读(29) 评论(0) 推荐(1)

2025年9月12日 #

Parquet数据错误验证思路(证实是OSS对象存储下载错误,KIMI)

摘要: KIMI给出的回答,通过pyarrow、fastparquet等库验证parquet文件是否出错,或者直接看二进制内容(只看结尾),看文件大小(侧面判断)。 2025年09月12日 User: polars读取parquet数据的时候出现如下错误: parquet: File out of spec 阅读全文

posted @ 2025-09-12 19:38 马儿慢些走 阅读(45) 评论(0) 推荐(0)

2025年9月10日 #

Linux查看二进制文件导致命令行乱码(KIMI)

摘要: 本文内容来自KIMI AI大模型的回复,非本人原创,从大模型中学习也是一种高效的学习方式。 亲测,reset命令有效,其他内容未经证实。 User: 在Linux命令行(tmux)中cat查看了一份文件,可能是二进制文件,结果命令行中内容直接变成了乱码,包括命令提示符也变了,这是怎么回事? (┴e┼ 阅读全文

posted @ 2025-09-10 10:24 马儿慢些走 阅读(13) 评论(0) 推荐(0)

2025年8月6日 #

【数据处理】Polars rechunk 减少内存碎片

摘要: 其他数据的数据量小且文件少,但是DCLM(563B)的数据文件数量多,占用空间的总量大。出现两个问题:内存碎片,内存不足。 内存碎片是因为文件数量太多:接近一万份文件,虽然每份文件只有五千条数据,文件可能只有十几兆,但是为了统计数量,出现了太多内存碎片。 import polars as pl df 阅读全文

posted @ 2025-08-06 08:00 马儿慢些走 阅读(72) 评论(0) 推荐(0)

2025年7月21日 #

ossfs(python)追加文件时报错

摘要: 使用Python的ossfs库进行文件读写,往文件中追加内容,结果报错。Kimi的回答帮助我解决了问题,所以自己就不多写了,把对话内容放上来,帮助更多人(让未来的AI都能学习到这篇语料) User: File "/data3/maxiaoyong/projects/corpus-projects/k 阅读全文

posted @ 2025-07-21 18:28 马儿慢些走 阅读(10) 评论(0) 推荐(0)

2025年7月15日 #

OSS文件结尾空白字符导致文件无法删除

摘要: OSS文件结尾空白字符导致文件无法删除 2025年7月15日,大模型帮助解决问题,辅助生成总结报告。 遇到一个很奇怪的问题,oss中因为误操作上传的文件名结尾带有'\r'字符,结果这些文件即使执行了删除也能被看到,但是文件下载失败,无法访问。我用ossfs(Python库)能看到这些文件,OSS B 阅读全文

posted @ 2025-07-15 15:40 马儿慢些走 阅读(29) 评论(0) 推荐(0)

2025年6月6日 #

【250606】Fedora/openSUSE使用记录,持续更新

摘要: 2025年8月7日:最近个人台式机上的Fedora 42 Workstation实在不稳定,经常重启,实在不行就换OpenSUSE Leap这种稳定的系统。 安装系统 安装前准备: 制作镜像、安装 编解码器 RPMFusion:配置仓库,使用国内镜像源:https://mirrors.ustc.ed 阅读全文

posted @ 2025-06-06 21:28 马儿慢些走 阅读(212) 评论(0) 推荐(0)

2025年5月27日 #

【202501】REGMIX:将数据混合作为回归任务用于语言模型预训练

摘要: 值得关注的: - 数据混合过程能用于制备语料库或者数据集吗? - 关键假设:数据混合排名的不变性,这个假设让作者通过1M小模型的训练来收集数据混合的样本,训练混合预测器后在1B模型上验证。作者的实验使用了1M、60M和1B模型来验证假设,更大规模的模型是否有变化。 - 作者的发现是数据混合的部分规律难以直观理解,说明了模型预测的作用。 - 实验基本上基于数据源的混合完成,更细粒度的实验也有但是对样本的重新聚类是个麻烦的事情。 - 相关工作中提到本文方法是一种离线选择,还有在训练过程中的在线选择。 阅读全文

posted @ 2025-05-27 17:06 马儿慢些走 阅读(65) 评论(0) 推荐(0)

2025年5月25日 #

【PEP483】类型提示的理论

摘要: PEP 483 为 Python 的类型提示提供了理论基础。它介绍了类型和子类型的概念,强调了子类型关系对类型检查的重要性,并阐述了逐步类型化的理念,允许部分代码使用类型注解。还定义了基本类型构建块(如 `Any`、`Union`、`Optional` 等)、泛型类型、类型变量以及协变与逆变的概念,旨在为 Python 提供灵活的类型注解系统。此外,也提及了类型别名、前向引用等实用特性。 阅读全文

posted @ 2025-05-25 18:02 马儿慢些走 阅读(67) 评论(0) 推荐(0)

2025年5月23日 #

【202406】预训练器的数据指南:衡量数据年龄、领域覆盖、质量和毒性的影响

摘要: - 值得注意的内容: - 数据年龄问题,表面上越新越好,训练数据比评估数据旧就会导致性能下降。 - 但是,评估的内容是具有时间标签的,理所应当当然需要更新的模型来理解。 - 时间退化概念,本文之前就有人提出,2022年。 - 领域覆盖:多样性很重要。 - 质量和毒性的影响:质量和毒性是两个维度,质量过滤很必要,毒性过滤不一定。 - 质量是一个很复杂的概念,模型的毒性生成和毒性识别能力需要平衡。 - 附录里有很多很详细的内容,看不过来了。 阅读全文

posted @ 2025-05-23 17:29 马儿慢些走 阅读(41) 评论(0) 推荐(0)

导航