摘要:
挑战 ① LLM 用于日志解析的专业能力不足 ② LLM 的输出不稳定,可能会为具有相同模板的日志消息输出不同的模板 ③ LLM 的巨大开销 框架 ICL 增强解析器 首先执行分层候选采样算法来采样一小组多样化且具有代表性的候选日志消息。在线解析过程中,对于每个查询的日志,LILAC 利用基于 KN 阅读全文
posted @ 2025-03-06 23:16
绵满
阅读(292)
评论(0)
推荐(0)
摘要:
背景 ① 现有模型无法理解日志中经常出现的特定领域的术语,尤其是缩写 ② 现有模型难以充分捕获完整的日志上下文信息,日志通常很简洁,无法提供足够的背景信息,这给模型充分理解日志带来了重大障碍。 ③ 现有模型难以获得风格不同的同一日志的通用表示 框架 预处理 基于 WordPiece 的方法进行分词, 阅读全文
posted @ 2025-03-06 23:10
绵满
阅读(288)
评论(0)
推荐(0)
摘要:
背景 [VLDB 2020] 随着云数据库市场的不断增长,仔细检测并消除慢查询对于服务稳定性至关重要。以前的研究重点是优化由于内部原因(例如,写得不好的 SQL)而导致的慢查询。在这项工作中,我们发现了一组不同的慢速查询,它们对数据库用户来说可能比其他慢速查询更危险。我们将此类查询命名为间歇性慢速查 阅读全文
posted @ 2025-03-06 22:31
绵满
阅读(274)
评论(0)
推荐(0)
摘要:
GPT 摘要 基于当时大量的文本任务、标好的数据少。提出先在一个没有标号的数据上训练一个预训练模型,再在有标号的子任务上训练微调模型 GPT做的是生成式预训练,下游任务还是判别任务,所以不是NLG而是NLU 引言 利用无标注文本中的word-level的信息是具有挑战性的,有如下两个原因:①尚不清楚 阅读全文
posted @ 2025-03-06 22:28
绵满
阅读(313)
评论(0)
推荐(0)
摘要:
主要框架 数据源:metric、log、cmdb 指标异常检测 因为流处理中的指标通常具有周期性,首先通过wavelet隔离周期,然后通过自相关函数的峰值来识别周期。 接下来需要将时间序列分解成周期、季节项和残差。由于传统STL时间序列分解表现不好,这里通过 RobustSTL来 对时间序列进行分解 阅读全文
posted @ 2025-03-06 22:13
绵满
阅读(298)
评论(0)
推荐(0)
摘要:
LAION-5B 提出 CLIP 得分来计算文本图像 embedding 之间的余弦相似度的筛选方法 使用 CLIP 筛选图像文本对,过滤相似度得分低于0.28的数据 DataComp 多模态数据集作为 MM-LLM 发展的关键组成部分,没有得到充分的研究关注。为了弥补这一不足,我们引入了 Data 阅读全文
posted @ 2025-03-06 21:52
绵满
阅读(303)
评论(0)
推荐(0)
摘要:
MAYBE ONLY 0.5% DATA IS NEEDED 更少的数据可以省掉训练时间和训练的成本,并且很容易保证数据的高质量,很简单很直觉的想法 Coreset Selection 目标是使用尽可能少的样本找到一个接近完整数据集分布的小集合 先通过 Bert 获取 Embedding,然后在高维 阅读全文
posted @ 2025-03-06 21:47
绵满
阅读(319)
评论(0)
推荐(0)
摘要:
Dataset Distillation 18年的论文,最早提出数据蒸馏的概念 理论 通常的梯度下降是小批量的 SGD,每次都需要从训练数据中选一个 minibatch 来更新。这篇文章的重点是学习到一个合成数据 \(\hat x=\{\hat x_i\}_{i=1}^M\) 和学习率 \(\hat 阅读全文
posted @ 2025-03-06 21:35
绵满
阅读(349)
评论(0)
推荐(0)
摘要:
激活函数 激活函数是用来加入非线性因素的,因为线性模型的表达能力不够。 Sigmoid (1) 公式:\(S(x)=\frac{1}{1+e^{-x}}\) (2) 函数图: (3) 缺点: ① 输出值落在(0,1)之间,期望均值为0.5,不符合均值为0的理想状态 ② 该函数存在一正一负两块“死区” 阅读全文
posted @ 2025-03-06 21:29
绵满
阅读(274)
评论(0)
推荐(0)
摘要:
梯度下降法 BGD 批量梯度下降法,每进行一次参数更新,需要计算整个数据样本集,因此导致批量梯度下降法的速度会比较慢,尤其是数据集非常大的情况下,收敛速度就会非常慢,但是由于每次的下降方向为总体平均梯度,它得到的会是一个全局最优解 SGD 随机梯度下降法,不像 BGD 每一次参数更新,需要计算整个数 阅读全文
posted @ 2025-03-06 19:24
绵满
阅读(33)
评论(0)
推荐(0)

浙公网安备 33010602011771号