上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 234 下一页

2025年2月17日

谷歌新一代大模型Gemini 2.0

摘要: 继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了! 就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。 新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。 好消息是 阅读全文

posted @ 2025-02-17 20:47 ExplorerMan 阅读(150) 评论(0) 推荐(0)

大模型在陌陌的推理与应用

摘要: 导读 本文将分享陌陌如何利用大模型技术革新其业务与研发流程。 主要内容包括以下几个部分: 1. AI 应用范式更新 2. 大模型高效推理 3. 大模型应用平台 4. 未来展望 5. 总结 6. Q&A 分享嘉宾|陈玉祥 挚文集团 算法工程专家 编辑整理|王文海 内容校对|李瑶 出品社区|DataFu 阅读全文

posted @ 2025-02-17 20:19 ExplorerMan 阅读(108) 评论(0) 推荐(0)

2024年大模型推理优化论文精选

摘要: OSDI (USENIX Symposium on Operating Systems Design and Implementation) 和SOSP (ACM Symposium on Operating Systems Principles) 是计算机操作系统领域最重要的两大国际会议,在国际上 阅读全文

posted @ 2025-02-17 20:17 ExplorerMan 阅读(464) 评论(0) 推荐(0)

2025年2月14日

DeepSeek-R 与 DeepSeek-V 区别

摘要: DeepSeek-R1和DeepSeek-V3是深度求索推出的两款大模型,它们在设计目标、架构、训练方法、性能表现和应用场景等方面存在显著差异,以下是具体对比: 1. 模型定位与核心能力 DeepSeek-V3:通用型自然语言处理模型,专注于多语言生成、知识问答、内容创作等任务,优势在于高效的多模态 阅读全文

posted @ 2025-02-14 16:48 ExplorerMan 阅读(2075) 评论(0) 推荐(0)

2025年2月13日

深度学习中常用的开源数据集

摘要: Kaggle(https://www.kaggle.com/datasets):Kaggle 是一个著名的数据科学竞赛平台,也提供了大量的开放数据集供用户下载和使用。UCI Machine Learning Repository(https://archive.ics.uci.edu/dataset 阅读全文

posted @ 2025-02-13 14:39 ExplorerMan 阅读(1062) 评论(0) 推荐(0)

LLM时代,数据为王,19个开源数据集下载网站汇总

摘要: 大模型时代,数据为王,在哪里寻找开源数据集,是一个比较头疼的问题。经过调研整理,下面列出了目前可以寻找开源大模型数据集的网站清单。 1、HuggingFace开源数据集 链接:https://huggingface.co/datasets 镜像:https://hf-mirror.com/datas 阅读全文

posted @ 2025-02-13 14:36 ExplorerMan 阅读(3029) 评论(0) 推荐(0)

模型训练学习率设置

摘要: 在大语言模型训练中,学习率的调整策略对模型的收敛速度和最终性能至关重要。以下是一些常用的学习率调整方法和建议: 1. 固定学习率(Constant Learning Rate) 固定学习率是最简单的方法,学习率在整个训练过程中保持不变。这种方法适用于简单的任务或小规模模型,但在大规模模型训练中可能不 阅读全文

posted @ 2025-02-13 11:45 ExplorerMan 阅读(450) 评论(0) 推荐(0)

大模型训练迭代轮次设置

摘要: 在大模型训练中,迭代轮次(通常指Epoch数量)的设置取决于多种因素,包括数据集大小、模型复杂度、硬件资源以及训练目标等。以下是一些常见的设置和建议: 1. 基础设置 小型数据集:如果数据集较小(如几千到几万个样本),通常可以设置较高的Epoch数量,例如10-50个Epoch。 大型数据集:对于大 阅读全文

posted @ 2025-02-13 11:37 ExplorerMan 阅读(865) 评论(0) 推荐(0)

大模型的token 和文字长度关系

摘要: 在大语言模型中,Token 是文本的基本单位,用于将文本分解为模型能够处理的最小单元。Token 的计算方法和文字长度的换算比例会因语言和模型的分词策略不同而有所差异。以下是具体介绍: Token 的计算方法 加载分词器:使用预训练的分词器,这些分词器已经学习了如何将文本转换为 Tokens。 文本 阅读全文

posted @ 2025-02-13 11:27 ExplorerMan 阅读(941) 评论(0) 推荐(0)

2025年2月12日

大模型推理框架

摘要: 以下是目前比较流行的大模型推理框架: 1. vLLM 特点:专注于高性能推理和服务的开源框架。核心创新在于PagedAttention技术,优化了注意力机制的内存使用效率,并通过连续批处理技术提升GPU利用率。 优势:支持多种量化方法,与OpenAI API兼容,与Hugging Face生态系统深 阅读全文

posted @ 2025-02-12 14:47 ExplorerMan 阅读(351) 评论(0) 推荐(0)

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 234 下一页

导航