随笔分类 - 端侧大模型实践
摘要:为避免模型训练中出现内存异常,先临时增加交换内存: # 1. 先关闭旧的交换文件(如果之前创建过1GB的) swapoff /swapfile || true rm -rf /swapfile || true # 2. 创建4GB交换文件(bs=1M表示每个块1MB,count=4096表示4096
阅读全文
摘要:已经装好 Hadoop + Spark,接下来核心是跑通数据链路(把文本数据存入 HDFS → Spark 清洗 → 导出供模型训练),这是连接 Hadoop 和大模型的关键一步,我给你极简、可直接复制的操作步骤,10 分钟就能搞定。 第一步:准备测试数据(本地→HDFS) 先在 ECS 上创建一个
阅读全文
摘要:建议统一使用 Ubuntu 20.04(阿里云镜像市场可直接选择),兼容性最好。 Ubuntu 20.04 是搭建这类环境的优选系统,无论是伪分布式 Hadoop/Spark 还是 GPU 模型训练都能完美适配; 下面是hadoop + Spark配置方案。 1. 基础环境准备(核心适配 Ubunt
阅读全文
摘要:目标:Hadoop → Spark → 大模型轻量化 → 端侧部署 全流程Demo 实现上述目标 最简单、最易落地的场景是「文本分类轻量化部署」 —— 比如基于企业日志/客服文本,用 Hadoop 预处理数据、训练通用文本分类大模型,再轻量化压缩后部署到手机/嵌入式设备(端侧)做本地文本分类,这个场
阅读全文

浙公网安备 33010602011771号