SciTech-EECS-BigDataAIML-NN(神经网络): 模型约定 + MoE(医院)模型(1:Dispatcher(Softmax)+N:Transformers(ReLU)): 先由每条Xi选取"最合适矩阵Mj" + 后用"Mj(最合适矩阵)"变换(左乘)Xi

SciTech-EECS-BigDataAIML-NN(神经网络):

模型约定:

  • 输入矩阵(Model Input) \(X\) 都是 Columnwise("列向量\(X_i\)" 组成的 "行数组");
  • 变换矩阵\(W\) 都是" Rowwise"的("行向量\(W_j\)" 组成 的"列数组")
  • 变换"矩阵乘法" 实现(对\(X\)左乘\(W\)): 变换矩阵\(W\)在"左", 输入矩阵\(X\)在"右".

MoE(医院)模型

1:Dispatcher(Softmax)+N:Transformers(ReLU)):

注意:

  • 此处的"Transformer"不是Google的"Attention is all your need"的"Transformer";
    而是代指"变换矩阵"。

  • 对于"每条输入列向量(病人)"\(X_i\):

    1. 到"Dispatcher矩阵(挂号处)"根据\(X_i\)(列向量)选择最合适"变换矩阵(医生)"\(M_j\)

      \[G(X) = Softmax(W \times X_i + B ) \]

      • W: 权重矩阵(变换矩阵\(M_j\) 一一对应 行向量\(W_j\), 即权重矩阵 W 的第 j 行)
      • 用“Softmax”激活, 是因为要选择“最合适(总分最高)”的。
      • 变换得到的"列向量"的"最大元素"的"行号"就是"最合适医生(\(M_j\))"的"编号(\(j\))"。
    2. 用"\(j\)(编号)"找到的\(M_j\)(变换矩阵, 医生)"对\(X_i\)(列向量, 病人)作"变换(左乘\(M_j\))":

      \[MoE(X) = ReLU(M_j \times X_i) \]

      • 用“ReLU”激活, 是因为要得出“结果列向量(诊断列表)”。
      • 根据结果列向量,可以计算总体Cost(成本),预测,或后续变换。
      • 此处只是为说明 MoE(医院🏥模型)的精华。
  • 对于"每个变换矩阵(医生)"Mj:
    不仅都有 对应的 "变换矩阵"(诊疗处理矩阵, 将 \(X_i\) 左乘 M_j 即变换),
    也都要在"Dispatcher矩阵(挂号处)"有对应的"行向量\(W_j\)(注册向量)"。


posted @ 2025-02-20 23:28  abaelhe  阅读(19)  评论(0)    收藏  举报