代码改变世界

完整教程:大模型浪潮下的“冷思考”:计算机视觉的变局与出路

2025-09-30 13:17  tlnshuju  阅读(20)  评论(0)    收藏  举报

说明在一次计算机视觉交流活动中的分享。就是:本文内容

“狼来了”还是“新大陆”?

  1. 文生图
  2. 文/图生视频:

图生视频的多模态举例


花了数年时间学习的图像处理、特征工程、CNN 调优、……,这些知识在“说句话就能解决问题”的大模型面前,是否已经过时了?


1. “文/图”生“图/视频”的科技现状

正处在一个 “惊艳与笨拙并存”的青春期

1.1 技术成就:跨越“可用”鸿沟,进入“惊艳”阶段

1.2 核心局限:看似智能,实则“不懂常识”

  • “画不对”的物理与逻辑错误:
    • 6根或4根,关节扭曲不合常理。就是著名的人手问题:生成的手指经常
    • 空间关系混乱:无法稳定处理复杂的空间逻辑,如镜中反射的影像与现实不符、阴影的方向与光源位置矛盾、物体之间不合逻辑地穿透等。
    • “感就是计数与精确性差:很难让它精确地画出“桌子上有且只有5个苹果”,它可能会画出4个或6个。它对数字