SciTech-EECS-BigDataAIML-NN(神经网络): 模型约定 + MoE(医院)模型(1:Dispatcher(Softmax)+N:Transformers(ReLU)): 先由每条Xi选取"最合适矩阵Mj" + 后用"Mj(最合适矩阵)"变换(左乘)Xi

SciTech-EECS-BigDataAIML-NN(神经网络):

模型约定:

1:Dispatcher(Softmax)+N:Transformers(ReLU)):

注意:

此处的"Transformer"不是Google的"Attention is all your need"的"Transformer";
而是代指"变换矩阵"。
对于"每条输入列向量(病人)"\(X_i\):
1. 到"Dispatcher矩阵(挂号处)"根据\(X_i\)(列向量)选择最合适"变换矩阵(医生)"\(M_j\)；
  \[G(X) = Softmax(W \times X_i + B ) \]
  - W: 权重矩阵(变换矩阵\(M_j\) 一一对应 行向量\(W_j\), 即权重矩阵 W 的第 j 行)
  - 用“Softmax”激活, 是因为要选择“最合适(总分最高)”的。
  - 变换得到的"列向量"的"最大元素"的"行号"就是"最合适医生(\(M_j\))"的"编号(\(j\))"。
2. 用"\(j\)(编号)"找到的\(M_j\)(变换矩阵, 医生)"对\(X_i\)(列向量, 病人)作"变换(左乘\(M_j\))":
  \[MoE(X) = ReLU(M_j \times X_i) \]
  - 用“ReLU”激活, 是因为要得出“结果列向量(诊断列表)”。
  - 根据结果列向量，可以计算总体Cost(成本)，预测，或后续变换。
  - 此处只是为说明 MoE(医院🏥模型)的精华。
对于"每个变换矩阵(医生)"Mj:
不仅都有对应的 "变换矩阵"(诊疗处理矩阵, 将 \(X_i\) 左乘 M_j 即变换)，
也都要在"Dispatcher矩阵(挂号处)"有对应的"行向量\(W_j\)(注册向量)"。

posted @ 2025-02-20 23:28 abaelhe 阅读(26) 评论(0) 收藏举报

刷新页面返回顶部