马儿慢些走

人生惶惶,悲喜一场。

2025年5月22日 #

【202412】Nemotron-CC:将CC转化为精炼的长距离预训练数据集

摘要: 关注以下几点: 模型过滤和启发式过滤的选择。 多个质量分类器的使用和集成。 通过改写合成数据。 阅读全文

posted @ 2025-05-22 09:38 马儿慢些走 阅读(77) 评论(0) 推荐(0)

2025年5月21日 #

【202411】Zyda-2:一个包含五万亿标记的高质量数据集

摘要: 关注几个问题: - 通过交叉混合几个公开数据集制作更高质量的数据集; - 数据集中的文档去重到底有用吗?模型过滤呢? - 交叉去重时候使用的方案:基于词袋的哈希计算相似度、构建无向图生成聚类。 阅读全文

posted @ 2025-05-21 17:37 马儿慢些走 阅读(42) 评论(0) 推荐(0)

【202304】MiniPile:面向数据高效的语言模型挑战

摘要: 全文很短,但是值得注意的部分: 1. 对大规模数据通过语义聚类实现去重的必要性。 2. 人工筛选聚类的时候排除了哪些类型的聚类。 3. 本文大比例地数据筛选,实验数据仅在BERT、T5小模型上实现,在更大模型上是否存在变化? 阅读全文

posted @ 2025-05-21 15:52 马儿慢些走 阅读(54) 评论(0) 推荐(0)

2024年10月31日 #

opensuse设置静态IP

摘要: 自己的迷你主机安装了openSUSE系统,想把他当成服务器来用,所以设置一个静态IP比较好。 openSUSE提供了YaST系统配置工具方便对网络进行配置。打开YaST Network设置,完成以下设置即可。 全局选项,网络设置方法选择怪兽(Wicked)服务。 概览部分,点击需要设置的网络,再点击 阅读全文

posted @ 2024-10-31 08:00 马儿慢些走 阅读(231) 评论(0) 推荐(0)

2024年10月26日 #

PyCharm编辑器剪贴板混乱,缘起钉钉AI助理

摘要: 最近遇到一个很奇葩的问题,在PyCharm中写代码,结果只要选中一段文本就会自动触发复制,这段文本就写入到了系统剪贴板中。这问题导致PyCharm中基本的复制粘贴都很难用了!!! 现在终于发现问题了,是钉钉自带的AI助理,其中有一个功能是在任意位置选中文本弹出AI助理……在钉钉设置里把这个关掉就好了 阅读全文

posted @ 2024-10-26 08:00 马儿慢些走 阅读(106) 评论(0) 推荐(0)

2024年10月11日 #

ossfs挂载OSS对象存储时出现libcrypto版本问题

摘要: 问题:在容器内使用ossfs挂载OSS对象存储,安装和配置都按照官方教程很顺利,但是挂载的时候出现了问题,libcrpyto1.0.0动态库缺失。 原来是下载错了安装包,官网有Ubuntu 22.04的安装包,所以该问题不存在,下述内容仅提供类似问题的思路。!!! 但是遇到了容器内挂载OSS的另一个 阅读全文

posted @ 2024-10-11 18:34 马儿慢些走 阅读(271) 评论(0) 推荐(0)

2024年9月28日 #

通过Docker容器部署NFS服务器,权限问题(NAS)

摘要: 工作中有一个需求,要在Linux服务器上部署一个NFS服务器,但是系统安装软件包有问题,所以希望通过Docker容器部署一个NFS服务器。 参考: https://linshenkx.cn/docker-nfs-server-v3-v4/ 服务器连接DockerHub官方镜像源有问题,所以在国内镜像 阅读全文

posted @ 2024-09-28 08:00 马儿慢些走 阅读(475) 评论(0) 推荐(0)

2024年8月1日 #

利用大模型翻译论文集的摘要列表

摘要: 利用大模型翻译论文集的摘要列表 看论文的时候发现可以把论文摘要的列表用大模型一次性翻译导出到Markdown,再导入笔记软件。 举例:Transactions of the Association for Computational Linguistics, Volume 12 - ACL Anth 阅读全文

posted @ 2024-08-01 08:00 马儿慢些走 阅读(93) 评论(0) 推荐(0)

2024年2月24日 #

【转载】docker save load export import区别详解

摘要: 【转载】docker save load export import区别详解 https://www.cnblogs.com/dingjiaoyang/p/16571840.html 1、docker save 用来将一个或多个image打包保存。如:将本地镜像库中的image1和image2打包到 阅读全文

posted @ 2024-02-24 08:00 马儿慢些走 阅读(391) 评论(0) 推荐(0)

2024年2月23日 #

Linux中在其他目录执行二进制文件

摘要: Linux命令行中执行命令一般通过:./xxxx的方式,但前提是必须先进入二进制文件所在的目录(或者更上一层级的目录),如果在其他不相关的目录就不能通过这种方式执行。 所以,最简单的方法是:查看当前的环境变量:echo $PATH,在列出的环境变量中选择一个目录,如:/home/xxx/bin,将文 阅读全文

posted @ 2024-02-23 08:00 马儿慢些走 阅读(393) 评论(0) 推荐(0)

导航