SciTech-BigDataAIML-Methodology方法论-Whole+Part整体和局部-$\large Supervised\ Statistical\ Model$统计模型和大量训练数据+Transformer核心原理+ MI移动互联+IoT万物互联-Economics经济-Politics政策

词汇

MI(Mobile Internet): 移动互联网
IoT(Internet of Things): 万物互联网
WE(Word Embedding): 词嵌入
PE(Positional Encoding): 位置编码

整体和局部是统一的

例如人类历史,

民族和国家的发展的规律与当时的人的特征是统一的;
*“整体的规律”与“局部人的生产生活规律”的统一性，得到强化。
特别是当今的MI(移动互联)、IOT(万物互联) 和BigData(大数据)、AI(人工智能)的时代.
整体规律与局部规律的统一被强化的根本原因,
是整体和局部之间的, 政府作为。

AI(统计模型)与BigData的源头是"MI"和"IoT"

1 真正"改革生产生活习惯" 的是 "国家政策"与"政府"。

新经济的产生是以“改革生产生活习惯”为前提.
生产生活的习惯改变:
行政办公、经商、工作和生活都必须用到智能设备、智能信息系统。

国家教育和培训为整个行业提供充分的人力资源:
开设新课程, 并且教育和培训出大量的AI人工智能、ML机器学习、DA数据分析、SW软件与HW硬件人才;
国家政策的产业引导朝"智能化、信息化、自动化"升级换代
即新经济的一个大方向.
产业和民间资本的投融资促进自然经济的蓬勃发展。

2 人人都使用移动智能终端和智能信息系统

大量的真实有效数据，是统计模型的必要条件。
而大多数人的生活, 都在使用这些智能设备(智能手机、平板、电脑和其他设备).
使得每个人都产生“大量的数据”, 为整个行业提供“实际数据";
日夜产生源源不断的真实数据。

统计概率模型的预训练大量数据的本质:

有“预训练”和“预测应用”两个阶段;
预测应用的"规律、可信与可靠度" 由"预训练的大量数据" 与"模型本身"决定。
“预训练的'大量数据'”是“上确界”:
统计概率模型(包括transformer), 预测时“用到的规律”,
都是由“模型”总结“训练时大量数据”得到的统计规律。
模型本身的“选择设计(统计分析)”与“实现”也非常重要
- 首先"模型本身"要有"够多参数与够高精度"(NN"深度神经网络"要有足够"深度")
  学习“大量数据的规律”才能保障“任何模型”的有效性。
- 模型本身选取的“统计方法”和“实现”是研究人员决定
  例如, 常用的Linear Regression模型, CNN卷积模型于图像处理，LSTM/Transformer于NLP, ...

$\large Supervised\ Statistical\ Model$:

$\large Transformer+Self Attention$

$\large Supervised\ Model$: Supervised by $\large Training\ Data$.
$\large Statistical\ Model$: mainly using Probability+Statistics methods.
both $\large Transformer$ and $\large Self Attention$ are $ Supervised\ Statistical\ Model $
分“训练(学习)阶段”和“预测(应用)阶段”:
- 训练阶段: 在 "大量训练数据" 上 "学习总结事实规律"(确定模型参数),
  主流用统计概率分析方法.
  例如: $\large Self Attention$ 训练时确定最好的模型参数$\large W^q,\ W^k, W^v$.
- 预测阶段: 可重复使用的应用"预先总结的(训练数据的)事实规律"进行快捷高效的预测.
  例如: $\large Self Attention$ 预测时，直接用训练好的 $\large W^q,\ W^k, W^v$ 高效预测 .
$\large Transformer$ 及 $\large Self Attention$ 都是 $\large Supervised\ Statistical\ Model$
是对"大量预训练数据", 用"统计概率分析等方法", 学习总结"事实规律"(确定模型参数),
以能可重复使用的应用"预先总结的事实规律"进行快捷高效的预测的模型.
$\large Self Attention$预测时的"乱序计算出稳定" $\large Attention\ Score\ Vector$ "能力
- $\large Self Attention$预测用 $\large Parameter$ 是"稳定不变"预先训练好存在模型的.
  即: 计算Word Sequence任意两个"Word"的$\large Attention\ Score$时, 用的 $\large W^q,\ W^k, W^v$ 是稳定不变的训练好的模型参数.
- 任意乱序计算稳定的" $\large Attention\ Score\ Vector$ " 能力:
  "Word Sequence"任意重排, 得到同一 $\large Attention\ Score\ Vector$(如果不嵌入 $\large PE位置信息$).
$\large Transformer$的核心原理:
是组合使用多种"数学驱动"的先进技术:
- $\large Self Attention$,
- $\large PE(Positional\ Encoding)$,
- $\large WE(Word\ Embedding)$.
实现以下多种优点:
- 解耦"Long Sequence"(长序列)的"强顺序依赖(Word的前后位置)",
- 可并行计算 $\large Attention\ Score\ Vector$,
- 可伸缩性$\large Scalability$.

posted @ 2024-08-15 15:42 abaelhe 阅读(25) 评论(0) 收藏举报

刷新页面返回顶部

abaelhe