摘要: 向量数据库与LLM的集成:实践指南 本文将了解到什么是向量数据库,以及如何与LLMs进行集成。通过LLMs和向量数据库的结合,可以节省微调带来的开销和时间。 通常,LLM会在各种各样的数据上进行训练,这使它们具有广泛的理解能力,但可能会导致在特定的知识领域存在差距。有时,它们甚至可能产生与目标无关或 阅读全文
posted @ 2024-03-15 17:46 charlieroro 阅读(151) 评论(0) 推荐(1) 编辑
摘要: 2024年大语言模型的微调 在上一篇博客中了解了LLM的由来以及基本流程,其中会涉及到几个概念:Prompt Engineering、model、dataset、 vector-database、training、fine-tune、 library等。鉴于本人是小白,后面将引用几篇典型的文章来熟悉 阅读全文
posted @ 2024-03-07 10:57 charlieroro 阅读(661) 评论(0) 推荐(2) 编辑
摘要: 理解LLMOps: Large Language Model Operations 对于像我一样的小白来说,本文是一篇非常不错的LLMs入门介绍文档。来自:Understanding LLMOps: Large Language Model Operations 本文首先解释了新术语"LLMOps" 阅读全文
posted @ 2024-03-05 17:51 charlieroro 阅读(225) 评论(0) 推荐(0) 编辑
摘要: Kubernetes 1.29版本中已经将nftables作为一个featureGates,本文简单整理了nftables的用法,便于后续理解kubernetes的nftables规则。文末给出了使用kubeadm部署启用nftables featureGates的配置文件。 如下内容来源nftab 阅读全文
posted @ 2024-01-30 09:38 charlieroro 阅读(274) 评论(0) 推荐(0) 编辑
摘要: Logstash 目录LogstashMonitoring APINode Info APIPlugins Info APINode Stats APIHot Threads APIlogstash exporter指标插件管理离线安装插件更新插件移除插件使用Gem私有库性能调优Troublesho 阅读全文
posted @ 2024-01-25 09:49 charlieroro 阅读(394) 评论(0) 推荐(4) 编辑
摘要: 限速器 限速器类型 Leaky Bucket:漏桶算法(和令牌桶(token bucket)非常相似)是一种非常简单,使用队列来进行限流的算法。当接收到一个请求时,会将其追加到队列的末尾,系统会按照先进先出的顺序处理请求,一旦队列满,则会丢弃额外的请求。队列中的请求数目受限于队列的大小。 这种方式可 阅读全文
posted @ 2023-12-27 23:36 charlieroro 阅读(253) 评论(0) 推荐(1) 编辑
摘要: Roaring bitmaps 最近看一篇文章,里面涉及到使用roaring bitmaps来推送用户广告并通过计算交集来降低用户广告推送次数。本文给出roaring bitmaps的原理和基本用法,后续给出原文的内容。 本文来自:A primer on Roaring bitmaps: what 阅读全文
posted @ 2023-12-25 19:42 charlieroro 阅读(168) 评论(0) 推荐(1) 编辑
摘要: 平稳扩展:可支持RevenueCat每日12亿次API请求的缓存 目录平稳扩展:可支持RevenueCat每日12亿次API请求的缓存低延迟建立连接池故障检测Up and warm对故障做出规划备用缓存池镜像池(mirrored pool)排水池(Gutter pool)专有缓存池Hot keys惊 阅读全文
posted @ 2023-11-28 14:35 charlieroro 阅读(330) 评论(0) 推荐(1) 编辑
摘要: Kubernetes 中使用consul-template渲染配置 当前公司使用consul来实现服务发现,如Prometheue配置中的target和alertmanager注册都采用了consul服务发现的方式,以此来灵活应对服务的变更。但对于其他服务,是否也有一个通用的方式来使用consul管 阅读全文
posted @ 2023-10-27 14:57 charlieroro 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 使用shuffle sharding增加容错性 最近在看kubernetes的API Priority and Fairness,它使用shuffle sharding来为请求选择处理队列,以此防止高吞吐量流挤占低吞吐量流,进而造成请求延迟的问题。 介绍 首先看下什么是shuffle shardin 阅读全文
posted @ 2023-09-20 09:31 charlieroro 阅读(307) 评论(4) 推荐(2) 编辑