随笔分类 - aisystem
摘要:现有服务框架和静态压缩技术不能适配负载的波动。服务框架全精度时违反slo(请求变慢或被丢弃),静态压缩在部署前固定,所以长期精度下降,不能在请求下降时恢复高精度 基于形态自适应,实时监控系统负载, 并根据内存压力动态调整模型组件(transformer层和KVC模块) workload变大 : 将部
阅读全文
摘要:sample : 将脑子中的想法转变成真的语言 #examples/offline_inference/simple_profiling.py #LLM 类用于加载和执行模型,SamplingParams 用于设置采样参数 from vllm import LLM, SamplingParams #
阅读全文
摘要:举例 : MNIST 识别手写数字 1. Hypothesis Class(我们选择的模型结构) ŷ = softmax(W · x + b) x = [0.0, 0.1, 0.8, ..., 0.0] ← 共 784 个数(784个像素点,原始图像根据每个像素点的亮度给每个像素点一个0-255的
阅读全文
摘要:server 将请求传给pos,pos接收的函数是pos_process int POSWorkspace::pos_process( uint64_t api_id, //客户端调用的api pos_client_uuid_t uuid, //客户端的uuid std::vector<POSAPI
阅读全文
摘要:我们继续追踪 pos_cli --dump --dir /root/ckpt --pid [your program pid] 的checkpoint阶段 phos的checkpoint在handle_dump函数(pos/cli/src/dump.cpp)中实现 函数开始阶段定义各种变量和初始化
阅读全文
摘要:追踪pos_cli --dump --dir /root/ckpt --pid [your program pid] 是如何运行的 pos_cli是通过mason,由sources包括的这些文件构建而来 #pos/cli/meson.build project_name = 'phoenix_os_
阅读全文
摘要:论文链接 : https://openreview.net/pdf?id=Rp8R9C0Sth 论文github repo : https://github.com/xuewuyinhe/AutoOS 我与chatgpt关于这篇论文的对话(自用) : https://chatgpt.com/c/67
阅读全文

浙公网安备 33010602011771号