绵满 - 博客园

2025年3月7日

"SoK: History is a Vast Early Warning System: Auditing the Provenance of System Intrusions" 论文笔记

摘要：简介审计能力就被认为是任何资源共享系统中检测违规和渗透尝试的关键。Lampson 将访问控制“黄金标准”的三大支柱确定为授权、身份验证和审计。当授权和身份验证等主动安全措施失败时，审计构成了所有形式的反应性安全的基础，使系统防御者能够在入侵升级之前识别并减轻入侵这是一篇系统审计的实证研究，总结了阅读全文

posted @ 2025-03-07 16:47 绵满阅读(53) 评论(0) 推荐(0)

"The Vendi Score: A Diversity Evaluation Metric for Machine Learning" 论文笔记

摘要：介绍我们基于生态学和量子统计力学的思想，提出了 Vendi 分数用来解决多样性评估问题 Vendi 分数不需要参考数据集或样本或标签的分布，因此它是通用的，适用于任何可以定义相似性的领域的生成模型、解码算法和数据集创新之前的多样性指标的适用性可能受到限制，因为它们需要参考数据集或预定义标签，或阅读全文

posted @ 2025-03-07 01:37 绵满阅读(301) 评论(0) 推荐(0)

"Root cause detection in a service-oriented architecture" 论文笔记

摘要：背景 MonitorRank 是最早使用随机游走的策略定位故障根因服务的方法，MonitorRank 把系统的服务分成三类：前端服务：负责接收用户的请求以及进一步调用下游请求以完成用户的请求。应用服务：负责真正处理用户请求的逻辑。数据服务：负责提供经过包装的数据。（应用服务和数据服务又统称为阅读全文

posted @ 2025-03-07 01:34 绵满阅读(270) 评论(0) 推荐(0)

"MM-LLMs: Recent Advances in MultiModal Large Language Models" 论文笔记

摘要：介绍这是一篇多模态大模型的综述 MM-LLM面临的核心挑战是如何有效地将LLM与其他模式的模型连接起来以实现协作推理建立了一个网站（https://mm-llms.github.io）来跟踪MM-LLM的最新进展并方便大家更新模型架构冻结部分不可训练，未冻结部分是可训练的 Modality 阅读全文

posted @ 2025-03-07 01:33 绵满阅读(416) 评论(0) 推荐(0)

"MicroRank: End-to-End Latency Issue Localization with Extended Spectrum Analysis in Microservice Environments" 论文笔记

摘要：任务异常检测->根因定位（服务实例级别）（针对延迟问题）贡献 MicroRank 是第一种通过正常和异常trace提取信息来对微服务应用程序进行根本原因定位的方法我们提出了一种基于扩展频谱分析的微服务环境中新颖的根本原因定位方法我们将 OpenTelemetry trace API 纳入 G 阅读全文

posted @ 2025-03-07 01:27 绵满阅读(350) 评论(0) 推荐(0)

"Log Parsing with Generalization Ability under New Log Types" 论文笔记

摘要：挑战 ① 基于可用日志先验知识设计的日志解析器性能有限，且不具有泛化性 ② 一些日志解析器在日志本身差异性大时无法正常工作 ③ 劳动密集型模型调整框架离线训练使用 WordPiece 进行 Tokenization（子词模型），然后输入到 Transformer 中进行上下文特征集成，然后输入阅读全文

posted @ 2025-03-07 01:18 绵满阅读(262) 评论(0) 推荐(0)

"Visual Instruction Tuning" 论文笔记

摘要：介绍提出了 visual instruction-tuning，这是将指令微调扩展到多模态的首次尝试相关工作多模态的指令微调 Agent、指令微调数据使用 ChatGPT/GPT-4 来将数据转化为 multimodel instrustion-following data 为每一个图像生阅读全文

posted @ 2025-03-07 00:46 绵满阅读(341) 评论(0) 推荐(0)

2025年3月6日

"LILAC: Log Parsing using LLMs with Adaptive Parsing Cache" 论文笔记

摘要：挑战 ① LLM 用于日志解析的专业能力不足 ② LLM 的输出不稳定，可能会为具有相同模板的日志消息输出不同的模板 ③ LLM 的巨大开销框架 ICL 增强解析器首先执行分层候选采样算法来采样一小组多样化且具有代表性的候选日志消息。在线解析过程中，对于每个查询的日志，LILAC 利用基于 KN 阅读全文

posted @ 2025-03-06 23:16 绵满阅读(302) 评论(0) 推荐(0)

"KnowLog: Knowledge Enhanced Pre-trained Language Model for Log Understanding" 论文笔记

摘要：背景 ① 现有模型无法理解日志中经常出现的特定领域的术语，尤其是缩写 ② 现有模型难以充分捕获完整的日志上下文信息，日志通常很简洁，无法提供足够的背景信息，这给模型充分理解日志带来了重大障碍。 ③ 现有模型难以获得风格不同的同一日志的通用表示框架预处理基于 WordPiece 的方法进行分词，阅读全文

posted @ 2025-03-06 23:10 绵满阅读(289) 评论(0) 推荐(0)

"Diagnosing root causes of intermittent slow queries in cloud databases" 论文笔记

摘要：背景 [VLDB 2020] 随着云数据库市场的不断增长，仔细检测并消除慢查询对于服务稳定性至关重要。以前的研究重点是优化由于内部原因（例如，写得不好的 SQL）而导致的慢查询。在这项工作中，我们发现了一组不同的慢速查询，它们对数据库用户来说可能比其他慢速查询更危险。我们将此类查询命名为间歇性慢速查阅读全文

posted @ 2025-03-06 22:31 绵满阅读(277) 评论(0) 推荐(0)

GPT 系列论文速读

摘要： GPT 摘要基于当时大量的文本任务、标好的数据少。提出先在一个没有标号的数据上训练一个预训练模型，再在有标号的子任务上训练微调模型 GPT做的是生成式预训练，下游任务还是判别任务，所以不是NLG而是NLU 引言利用无标注文本中的word-level的信息是具有挑战性的，有如下两个原因：①尚不清楚阅读全文

posted @ 2025-03-06 22:28 绵满阅读(342) 评论(0) 推荐(0)

"CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms" 论文笔记

摘要：主要框架数据源：metric、log、cmdb 指标异常检测因为流处理中的指标通常具有周期性，首先通过wavelet隔离周期，然后通过自相关函数的峰值来识别周期。接下来需要将时间序列分解成周期、季节项和残差。由于传统STL时间序列分解表现不好，这里通过 RobustSTL来对时间序列进行分解阅读全文

posted @ 2025-03-06 22:13 绵满阅读(301) 评论(0) 推荐(0)

MM-LLM 数据侧论文速读

摘要： LAION-5B 提出 CLIP 得分来计算文本图像 embedding 之间的余弦相似度的筛选方法使用 CLIP 筛选图像文本对，过滤相似度得分低于0.28的数据 DataComp 多模态数据集作为 MM-LLM 发展的关键组成部分，没有得到充分的研究关注。为了弥补这一不足，我们引入了 Data 阅读全文

posted @ 2025-03-06 21:52 绵满阅读(306) 评论(0) 推荐(0)

LLM 数据侧论文速读

摘要： MAYBE ONLY 0.5% DATA IS NEEDED 更少的数据可以省掉训练时间和训练的成本，并且很容易保证数据的高质量，很简单很直觉的想法 Coreset Selection 目标是使用尽可能少的样本找到一个接近完整数据集分布的小集合先通过 Bert 获取 Embedding，然后在高维阅读全文

posted @ 2025-03-06 21:47 绵满阅读(331) 评论(0) 推荐(0)

数据集蒸馏论文速读

摘要： Dataset Distillation 18年的论文，最早提出数据蒸馏的概念理论通常的梯度下降是小批量的 SGD，每次都需要从训练数据中选一个 minibatch 来更新。这篇文章的重点是学习到一个合成数据 \(\hat x=\{\hat x_i\}_{i=1}^M\) 和学习率 \(\hat 阅读全文

posted @ 2025-03-06 21:35 绵满阅读(382) 评论(0) 推荐(0)

绵满の博客

公告