SciTech-BigDataAIML-Methodology方法论-Whole+Part整体和局部-$\large Supervised\ Statistical\ Model$统计模型和大量训练数据+Transformer核心原理+ MI移动互联+IoT万物互联-Economics经济-Politics政策
词汇
MI(Mobile Internet): 移动互联网
IoT(Internet of Things): 万物互联网
WE(Word Embedding): 词嵌入
PE(Positional Encoding): 位置编码
整体和局部是统一的
例如人类历史,
- 民族和国家的发展的规律 与 当时的人的特征是 统一的;
*“整体的规律”与“局部人的生产生活规律”的统一性,得到强化 。
特别是当今的MI(移动互联)、IOT(万物互联) 和BigData(大数据)、AI(人工智能)的时代.
整体规律 与 局部规律 的统一被强化的根本原因,
是整体和局部之间的, 政府作为。
AI(统计模型)与BigData的源头是"MI"和"IoT"
1 真正"改革生产生活习惯" 的是 "国家政策"与"政府"。
新经济的产生是以“改革生产生活习惯”为前提.
生产生活的习惯改变:
行政办公、经商、工作和生活 都必须用到智能设备、智能信息系统。
- 国家教育和培训为整个行业提供充分的人力资源:
开设新课程, 并且教育和培训出大量的AI人工智能、ML机器学习、DA数据分析、SW软件与HW硬件人才; - 国家政策的产业引导朝"智能化、信息化、自动化"升级换代
即新经济的一个大方向. - 产业和民间资本的投融资促进自然经济的蓬勃发展。
2 人人都使用移动智能终端和智能信息系统
- 大量的真实有效数据,是统计模型的必要条件。
而大多数人的生活, 都在使用这些智能设备(智能手机、平板、电脑和其他设备). - 使得每个人都产生“大量的数据”, 为整个行业提供“实际数据";
日夜产生源源不断的真实数据。
统计概率模型的预训练大量数据的本质:
- 有“预训练”和“预测应用”两个阶段;
预测应用的"规律、可信与可靠度" 由"预训练的大量数据" 与"模型本身"决定。 - “预训练的'大量数据'”是“上确界”:
统计概率模型(包括transformer), 预测时“用到的规律”,
都是由“模型”总结“训练时大量数据”得到的统计规律。 - 模型本身的“选择设计(统计分析)”与“实现”也非常重要
- 首先"模型本身"要有"够多参数与够高精度"(NN"深度神经网络"要有足够"深度")
学习“大量数据的规律”才能保障“任何模型”的有效性。 - 模型本身选取的“统计方法”和“实现”是研究人员决定
例如, 常用的Linear Regression模型, CNN卷积模型于图像处理,LSTM/Transformer于NLP, ...
- 首先"模型本身"要有"够多参数与够高精度"(NN"深度神经网络"要有足够"深度")
\(\large Supervised\ Statistical\ Model\):
\(\large Transformer+Self Attention\)
-
\(\large Supervised\ Model\): Supervised by \(\large Training\ Data\).
-
\(\large Statistical\ Model\): mainly using Probability+Statistics methods.
-
both \(\large Transformer\) and \(\large Self Attention\) are $ Supervised\ Statistical\ Model $
-
分“训练(学习)阶段”和“预测(应用)阶段”:
-
训练阶段: 在 "大量训练数据" 上 "学习总结事实规律"(确定模型参数),
主流用统计概率分析方法.
例如: \(\large Self Attention\) 训练时确定最好的模型参数\(\large W^q,\ W^k, W^v\). -
预测阶段: 可重复使用的应用"预先总结的(训练数据的)事实规律"进行快捷高效的预测.
例如: \(\large Self Attention\) 预测时,直接用训练好的 \(\large W^q,\ W^k, W^v\) 高效预测 .
-
-
\(\large Transformer\) 及 \(\large Self Attention\) 都是 \(\large Supervised\ Statistical\ Model\)
是对"大量预训练数据", 用"统计概率分析等方法", 学习总结"事实规律"(确定模型参数),
以能可重复使用的应用"预先总结的事实规律"进行快捷高效的预测的模型. -
\(\large Self Attention\)预测时的"乱序计算出稳定" \(\large Attention\ Score\ Vector\) "能力
- \(\large Self Attention\)预测用 \(\large Parameter\) 是"稳定不变"预先训练好存在模型的.
即: 计算Word Sequence任意两个"Word"的\(\large Attention\ Score\)时, 用的 \(\large W^q,\ W^k, W^v\) 是稳定不变的训练好的模型参数. - 任意乱序计算稳定的" \(\large Attention\ Score\ Vector\) " 能力:
"Word Sequence"任意重排, 得到同一 \(\large Attention\ Score\ Vector\)(如果不嵌入 \(\large PE位置信息\)).
- \(\large Self Attention\)预测用 \(\large Parameter\) 是"稳定不变"预先训练好存在模型的.
-
\(\large Transformer\)的核心原理:
是组合使用多种"数学驱动"的先进技术:- \(\large Self Attention\),
- \(\large PE(Positional\ Encoding)\),
- \(\large WE(Word\ Embedding)\).
实现以下多种优点:
- 解耦"Long Sequence"(长序列)的"强顺序依赖(Word的前后位置)",
- 可并行计算 \(\large Attention\ Score\ Vector\),
- 可伸缩性\(\large Scalability\).

浙公网安备 33010602011771号