随笔分类 -  aisystem

摘要:现有服务框架和静态压缩技术不能适配负载的波动。服务框架全精度时违反slo(请求变慢或被丢弃),静态压缩在部署前固定,所以长期精度下降,不能在请求下降时恢复高精度 基于形态自适应,实时监控系统负载, 并根据内存压力动态调整模型组件(transformer层和KVC模块) workload变大 : 将部 阅读全文
posted @ 2025-07-29 22:49 拾墨、 阅读(10) 评论(0) 推荐(0)
摘要:sample : 将脑子中的想法转变成真的语言 #examples/offline_inference/simple_profiling.py #LLM 类用于加载和执行模型,SamplingParams 用于设置采样参数 from vllm import LLM, SamplingParams # 阅读全文
posted @ 2025-05-16 23:33 拾墨、 阅读(190) 评论(0) 推荐(0)
摘要:举例 : MNIST 识别手写数字 1. Hypothesis Class(我们选择的模型结构) ŷ = softmax(W · x + b) x = [0.0, 0.1, 0.8, ..., 0.0] ← 共 784 个数(784个像素点,原始图像根据每个像素点的亮度给每个像素点一个0-255的 阅读全文
posted @ 2025-05-14 11:09 拾墨、 阅读(34) 评论(0) 推荐(0)
摘要:server 将请求传给pos,pos接收的函数是pos_process int POSWorkspace::pos_process( uint64_t api_id, //客户端调用的api pos_client_uuid_t uuid, //客户端的uuid std::vector<POSAPI 阅读全文
posted @ 2025-04-05 23:54 拾墨、 阅读(16) 评论(0) 推荐(0)
摘要:我们继续追踪 pos_cli --dump --dir /root/ckpt --pid [your program pid] 的checkpoint阶段 phos的checkpoint在handle_dump函数(pos/cli/src/dump.cpp)中实现 函数开始阶段定义各种变量和初始化 阅读全文
posted @ 2025-03-17 14:19 拾墨、 阅读(35) 评论(0) 推荐(0)
摘要:追踪pos_cli --dump --dir /root/ckpt --pid [your program pid] 是如何运行的 pos_cli是通过mason,由sources包括的这些文件构建而来 #pos/cli/meson.build project_name = 'phoenix_os_ 阅读全文
posted @ 2025-03-11 18:49 拾墨、 阅读(32) 评论(0) 推荐(0)
摘要:论文链接 : https://openreview.net/pdf?id=Rp8R9C0Sth 论文github repo : https://github.com/xuewuyinhe/AutoOS 我与chatgpt关于这篇论文的对话(自用) : https://chatgpt.com/c/67 阅读全文
posted @ 2024-12-08 23:50 拾墨、 阅读(45) 评论(0) 推荐(0)