监控和可观测
Monitoring & Observability
运行阶段
管控和告警
可观测
不同时代
传统-- 传统的微服务可观测性主要关注性能和可用性,代码是核心资产
AI时代--关注调用了哪个模型,调用了哪些工具,检索了哪些文档,消耗了多少令牌,以及上下文在每一步是如何演变的
运行时生成的数据--trajectory data 指导着agent 和LLM型的优化
协议和规范
—以 OTel 协议为核心的观测数据管道,正在成为继 TCP/IP 之后又一基础设施级技术规范
具体实现框架和项目
Loongsuite Python Agent
观测性存在多种收集工具——OpenTelemetry、OpenInference、Langfuse——一些框架如AgentScope和LangChain生成自己的可观测性数据
可观测性的通用语义规范该规范定义了在关键生成式人工智能交互中收集什么、如何命名以及以何种形式
主机级探针与进程级插桩
OpenTelemetry是CNCF Sandbox成员,由OpenTracing和OpenCensus项目合并而成。
它主要帮助我们提高服务的可观察性,可观察性是服务感知的三个主要方面:分布式跟踪、日志和指标
,OpenTelemetry作为云原生可观测性的行业标准,通过统一的语义约定和数据模型,
实现了Traces、Metrics、Logs三大可观测信号的标准化采集与关联
agent
agent智能体的核心能力体系,总结成四个关键构成维度:
感知层 需要集成多模态交互能力,包括自然语言处理、语音识别和视频流分析;
决策中枢 由大模型构成,通过 AI 网关实现模型调用的统一调度,同时也承担流量控制与安全防护的关键角色;
记忆机制 存储用户交互历史并具备上下文关联能力;
工具集成 随着 MCP 协议的出现,工具的使用逐渐标准化
监控栈
Metrics: Prometheus and Grafana
ELK栈——Elasticsearch、Logstash、Kibana
Loki 是由 Grafana Labs 开发的开源日志聚合系统
常与 Prometheus 和 Grafana 组成监控栈
Fluentd:功能丰富的日志收集
Fluent Bit:资源受限环境
Alertmanager 告警管理组件
告警去重、分组、路由至多种通知渠道(如邮件、Slack、钉钉等)
alertmanager 主要用于接收 Prometheus发送的告警信息
Prometheus — scraping metrics from all services and Kubernetes components
Grafana — dashboards for cluster health, pod performance, and logs
Alertmanager — firing alerts to Telegram on pod crashes, high memory, and disk usage
Loki — storing logs in Cloudflare R2
Fluent Bit — collecting and forwarding logs from every node
其他
Suno V5 是由 AI 音乐公司 Suno 推出的当前最先进、功能最全面的 AI 音乐生成模型
开发
pre-commit 是一个 Git 预提交钩子管理框架,用于在代码提交前自动执行代码检查、格式化、静态分析等任务,帮助团队确保代码质量符合规范
mypy 是 Python 的标准静态类型检查器
Semgrep 是一个开源静态分析工具,支持自定义规则
开发思路
1. 写select 语句 read_json 解析json文件
2. 使用 create table table_nm as select * from read_json ()
3. 使用Dbeaver的DDL语句,就可以生成创建表的语句,针对创建表的语句就行数据类型的修改
table_nm 的DDL语句,可以看出数据的取值特点
导入数据比较繁琐的情况
Doris 通过数据库访问的标准接口(ODBC)来访问外部表,
外部表省去了繁琐的数据导入工作,让 Doris 可以具有了访问各式数据库的能力,
并借助 Doris 本身的OLAP 的能力来解决外部表的数据分析问题:
## Table Value Function 功能
DESC FUNCTION s3 (
"URI" = "http://127.0.0.1:9312/test2/test.snappy.parquet",
"s3.access_key"= "ak",
"s3.secret_key" = "sk",
"s3.endpoint" = "https://test.com",
"s3.region" = "us-east-1",
"format" = "parquet",
"use_path_style"="true"
);
PROPERTIES 是建表语句中用于配置表级行为和存储特性的关键参数集合
// 2. 使用 S3 Table Value Function 创建表CREATE
CREATE TABLE
AS SELECT cast(id as INT) as id, name, cast (age as INT) as age
FROM s3(
"uri" = "http://127.0.0.1:9312/test2/test.snappy.parquet",
"s3.access_key"= "ak",
"s3.secret_key" = "sk",
"format" = "parquet",
"use_path_style" = "true");
// 3. 使用 S3 Table Value Function 插入数据
INSERT INTO test_table (id,name,age)
SELECT cast(id as INT) as id, name, cast (age as INT) as age
FROM s3(
说明
非AWS S3的自建存储,例如MinIO,强烈建议显式添加 s3.endpoint 和 s3.region 参数
use_path_style 参数设置为 true 是正确的。对于 MinIO 这类不支持 Virtual-hosted Style 的存储系统,这个参数至关重要。
数组本身为 NULL 和数组元素为 NULL
COALESCE(your_existing_column, [])
agent的评估
agent智能体的核心能力体系,总结成四个关键构成维度:
感知层 需要集成多模态交互能力,包括自然语言处理、语音识别和视频流分析;
决策中枢 由大模型构成,通过 AI 网关实现模型调用的统一调度,同时也承担流量控制与安全防护的关键角色;
记忆机制 存储用户交互历史并具备上下文关联能力;
工具集成 随着 MCP 协议的出现,工具的使用逐渐标准化
tools skills
memory
providers
gateway-channel
参考
https://github.com/alibaba/loongsuite-python-agent
Apache Doris S3外部表:对象存储数据访问 https://blog.csdn.net/gitblog_00659/article/details/153299189