SciTech-BigDataAIML-LLM-Transformer Series-Input+Output-Sampling + Vectorize and Matrixize 不同类型的Input数据(Text/Picture/Audio/Video/Graph:如社交网与分子图)

SciTech-BigDataAIML-LLM-Transformer Series

Sampling(采样)

  • Sampling Rate(采样速率)
    单位时间采集样本的数量, 有单位.
    例视频以frame/second为单位, 音频的 kbps

  • Sampling Resolution(采样精度)
    Digitalize(数量化) a Sample(采集到的样本)时,
    表示“信号值域”所用的bit(位数)。
    例如:

    • 音频 的 16bit, 24bit, 32bit 就是指其 "采样精度";
    • Panel(显示屏)的 dpi(Dots Per Inch);
    • Color Channel(色彩通道)的8bit与10bit
    • 视频设备 的 FHD, 2K, 4K, 8K 也是指其“显示的精度”.
  • Resampling(重采样)
    不同制式之间进行转换, 有时需要Resampling.
    “高”转“低”容易, 但“低”转“高”时最需要尽可能保障还原度.

Vectorize(向量化) and Matrixize(矩阵化) 不同数据

常用的\(\large Input\)数据类型有:

  • Text文本: Word Embedding就可以转化Word Seq.为Matrix(Vector Seq.)
    将每一word 变换为一 Vector,
    就可以将整段Text(Word Seq.)变化为一 Matrix(Vector Seq.).

  • Audio语音, Picture图片, Video视频,
    这三类都可采用 "Stepping Slip Window" 或"CNN"方式,
    并Sampling a frame( OR Window) 来将each frame(OR window)转化成一 Vector,
    最终将数据转化成一 Matrix(Vector Seq.).
    如下图: 对audio音频进行Vectorize与Matrixize,
    将 Slip Window设为25ms时长, Step为10ms; 对frame进行Sampling 得到其 Vector.
    将完整的audio音频 转换为一 Matrix. 如一段 1s音频 转换为长100的Matrix(Vector Seq.).

  • Graph图结构(如社交网图与分子结构图)、Object二进制对象(如可执行文件).
    可将 a Node 用 a Vector 表示, 于是整个 "Graph" "转化为一个 "Matrix(Vector Seq.)"
    比如:

    • Social Network Graph 将 a Node 的 Profile(账户信息) 表示为一 "Vector";
    • Molecular Structure Graph:
      将 an Atom 表示为一个One-Hot vector(也可 Embedding with Context),
      进一步可将 Molecule Structure 表示为一 Matrix(Vector Seq.).

常用的\(\large Output\)数据类型有:

  1. \(\large N:N\) 输入 N长 的 Vector Seq., 输出 N长的 label Seq., 每个vector对应一个label.

  2. \(\large N:1\) 输入 N长 的 Vector Seq., 输出 unique label

  3. \(\large N:M\) 输入 N长 的 Vector Seq., 输出 M长(模型决定长度)的 Vector Seq.
    著名的 \(\large Seq2Seq\) \(\large Output\)模型. 经典应用是: Translation(机器翻译任务).

posted @ 2024-08-16 14:26  abaelhe  阅读(37)  评论(0)    收藏  举报