SciTech-BigDataAIML-Methodology方法论-Whole+Part整体和局部-$\large Supervised\ Statistical\ Model$统计模型和大量训练数据+Transformer核心原理+ MI移动互联+IoT万物互联-Economics经济-Politics政策

词汇

MI(Mobile Internet): 移动互联网
IoT(Internet of Things): 万物互联网
WE(Word Embedding): 词嵌入
PE(Positional Encoding): 位置编码

整体和局部是统一的

例如人类历史,

  • 民族和国家的发展的规律 与 当时的人的特征是 统一的;
    *“整体的规律”与“局部人的生产生活规律”的统一性,得到强化 。
    特别是当今的MI(移动互联)、IOT(万物互联) 和BigData(大数据)、AI(人工智能)的时代.
    整体规律 与 局部规律 的统一被强化的根本原因,
    是整体和局部之间的, 政府作为。

AI(统计模型)与BigData的源头是"MI"和"IoT"

1 真正"改革生产生活习惯" 的是 "国家政策"与"政府"。

新经济的产生是以“改革生产生活习惯”为前提.
生产生活的习惯改变:
行政办公、经商、工作和生活 都必须用到智能设备、智能信息系统。

  • 国家教育和培训为整个行业提供充分的人力资源:
    开设新课程, 并且教育和培训出大量的AI人工智能、ML机器学习、DA数据分析、SW软件与HW硬件人才;
  • 国家政策的产业引导朝"智能化、信息化、自动化"升级换代
    即新经济的一个大方向.
  • 产业和民间资本的投融资促进自然经济的蓬勃发展。

2 人人都使用移动智能终端和智能信息系统

  • 大量的真实有效数据,是统计模型的必要条件。
    而大多数人的生活, 都在使用这些智能设备(智能手机、平板、电脑和其他设备).
  • 使得每个人都产生“大量的数据”, 为整个行业提供“实际数据";
    日夜产生源源不断的真实数据。

统计概率模型的预训练大量数据的本质:

  • 有“预训练”和“预测应用”两个阶段;
    预测应用的"规律、可信与可靠度" 由"预训练的大量数据" 与"模型本身"决定。
  • “预训练的'大量数据'”是“上确界”:
    统计概率模型(包括transformer), 预测时“用到的规律”,
    都是由“模型”总结“训练时大量数据”得到的统计规律
  • 模型本身的“选择设计(统计分析)”与“实现”也非常重要
    • 首先"模型本身"要有"够多参数与够高精度"(NN"深度神经网络"要有足够"深度")
      学习“大量数据的规律”才能保障“任何模型”的有效性。
    • 模型本身选取的“统计方法”和“实现”是研究人员决定
      例如, 常用的Linear Regression模型, CNN卷积模型于图像处理,LSTM/Transformer于NLP, ...

\(\large Supervised\ Statistical\ Model\):

\(\large Transformer+Self Attention\)

  • \(\large Supervised\ Model\): Supervised by \(\large Training\ Data\).

  • \(\large Statistical\ Model\): mainly using Probability+Statistics methods.

  • both \(\large Transformer\) and \(\large Self Attention\) are $ Supervised\ Statistical\ Model $

  • 分“训练(学习)阶段”和“预测(应用)阶段”:

    • 训练阶段: 在 "大量训练数据" 上 "学习总结事实规律"(确定模型参数),
      主流用统计概率分析方法.
      例如: \(\large Self Attention\) 训练确定最好的模型参数\(\large W^q,\ W^k, W^v\).

    • 预测阶段: 可重复使用应用"预先总结的(训练数据的)事实规律"进行快捷高效预测.
      例如: \(\large Self Attention\) 预测时,直接用训练好的 \(\large W^q,\ W^k, W^v\) 高效预测 .

  • \(\large Transformer\)\(\large Self Attention\) 都是 \(\large Supervised\ Statistical\ Model\)
    是对"大量预训练数据", 用"统计概率分析等方法", 学习总结"事实规律"(确定模型参数),
    以能可重复使用应用"预先总结的事实规律"进行快捷高效预测的模型.

  • \(\large Self Attention\)预测时的"乱序计算出稳定" \(\large Attention\ Score\ Vector\) "能力

    • \(\large Self Attention\)预测\(\large Parameter\) 是"稳定不变"预先训练好存在模型的.
      即: 计算Word Sequence任意两个"Word"的\(\large Attention\ Score\)时, 用的 \(\large W^q,\ W^k, W^v\) 是稳定不变的训练好的模型参数.
    • 任意乱序计算稳定的" \(\large Attention\ Score\ Vector\) " 能力:
      "Word Sequence"任意重排, 得到同一 \(\large Attention\ Score\ Vector\)(如果不嵌入 \(\large PE位置信息\)).
  • \(\large Transformer\)的核心原理:
    组合使用多种"数学驱动"的先进技术:

    • \(\large Self Attention\),
    • \(\large PE(Positional\ Encoding)\),
    • \(\large WE(Word\ Embedding)\).

    实现以下多种优点:

    • 解耦"Long Sequence"(长序列)的"强顺序依赖(Word的前后位置)",
    • 可并行计算 \(\large Attention\ Score\ Vector\),
    • 可伸缩性\(\large Scalability\).
posted @ 2024-08-15 15:42  abaelhe  阅读(23)  评论(0)    收藏  举报