aisystem - 随笔分类 - 拾墨、

morphserve

摘要：现有服务框架和静态压缩技术不能适配负载的波动。服务框架全精度时违反slo(请求变慢或被丢弃)，静态压缩在部署前固定，所以长期精度下降，不能在请求下降时恢复高精度基于形态自适应，实时监控系统负载，并根据内存压力动态调整模型组件(transformer层和KVC模块) workload变大：将部阅读全文

posted @ 2025-07-29 22:49 拾墨、阅读(18) 评论(0) 推荐(0)

vllm 整体架构

摘要：sample : 将脑子中的想法转变成真的语言 #examples/offline_inference/simple_profiling.py #LLM 类用于加载和执行模型，SamplingParams 用于设置采样参数 from vllm import LLM, SamplingParams # 阅读全文

posted @ 2025-05-16 23:33 拾墨、阅读(292) 评论(0) 推荐(0)

机器学习基本范式

摘要：举例 : MNIST 识别手写数字 1. Hypothesis Class(我们选择的模型结构) ŷ = softmax(W · x + b) x = [0.0, 0.1, 0.8, ..., 0.0] ← 共 784 个数(784个像素点，原始图像根据每个像素点的亮度给每个像素点一个0-255的阅读全文

posted @ 2025-05-14 11:09 拾墨、阅读(40) 评论(0) 推荐(0)

pos如何从xpu中接受请求

摘要：server 将请求传给pos，pos接收的函数是pos_process int POSWorkspace::pos_process( uint64_t api_id, //客户端调用的api pos_client_uuid_t uuid, //客户端的uuid std::vector<POSAPI 阅读全文

posted @ 2025-04-05 23:54 拾墨、阅读(36) 评论(0) 推荐(0)

phos 的 checkpoint

摘要：我们继续追踪 pos_cli --dump --dir /root/ckpt --pid [your program pid] 的checkpoint阶段 phos的checkpoint在handle_dump函数(pos/cli/src/dump.cpp)中实现函数开始阶段定义各种变量和初始化阅读全文

posted @ 2025-03-17 14:19 拾墨、阅读(61) 评论(0) 推荐(0)

pos_cli 命令是如何运行起来的

摘要：追踪pos_cli --dump --dir /root/ckpt --pid [your program pid] 是如何运行的 pos_cli是通过mason，由sources包括的这些文件构建而来 #pos/cli/meson.build project_name = 'phoenix_os_ 阅读全文

posted @ 2025-03-11 18:49 拾墨、阅读(53) 评论(0) 推荐(0)

Autoos

摘要：论文链接 : https://openreview.net/pdf?id=Rp8R9C0Sth 论文github repo : https://github.com/xuewuyinhe/AutoOS 我与chatgpt关于这篇论文的对话(自用) : https://chatgpt.com/c/67 阅读全文

posted @ 2024-12-08 23:50 拾墨、阅读(66) 评论(0) 推荐(0)

algoshimo

青青子衿，悠悠我心但为君故，沉吟至今

随笔分类 - aisystem

公告

algoshimo

青青子衿，悠悠我心 但为君故，沉吟至今

随笔分类 - aisystem

公告

青青子衿，悠悠我心但为君故，沉吟至今