2024-02-05 - Vit模型基础 - 卢菁

摘要

2024-02-05 周一 老家 晴

小记: 多模态大语言模型才是未来,多模态不过也是各个模态的组合,未来已来。

课程内容

1. 多模态入门: vit 模型

  • vit: Vision Transforms

2. CNN vs Transforms

  • 用神经网络对图像进行分类;
  • 越靠近输入的网络,越倾向于提取特征(客观的需求)
  • 越靠近输出的网络,越倾向于分类(主观的需求)

3. 多模态: Blip模型

关键点: NLP 和 CV 都可以通过 Transformers 无缝实现兼容,视觉处理Transformers 比使用 CNN 好很多。

总结

心得: 多模态是研究的最佳方向,赶紧上车。

posted @ 2024-02-05 15:31  流雨声  阅读(27)  评论(0)    收藏  举报