摘要: 核心结论 本文针对消费级设备无法实时运行50∼100B大语言模型(LLM)的问题,提出设备-架构协同设计方案Lincoln,通过优化Flash存储性能和数据传输机制,在不损失模型精度的前提下实现该目标。 背景与痛点 现有LLM服务多依赖云端,存在隐私风险、延迟高、服务不稳定等问题,且厂商运维成本高昂 阅读全文
posted @ 2025-11-11 21:35 Xuzzzer 阅读(0) 评论(0) 推荐(0)
摘要: Annoy简介 Annoy是Erik Bernhardsson写的一个以树为数据结构的近似最近邻搜索库,并用在Spotify的推荐系统中。Annoy的核心是不断用选取的两个质心的法平面对空间进行分割,最终将每一个区分的子空间里面的样本数据限制在K以内。对于待插入的样本$x_i$,从根节点依次使用法向 阅读全文
posted @ 2025-09-26 17:23 Xuzzzer 阅读(16) 评论(0) 推荐(0)