plan

知道补全的是谁：1识别已知画面人物，2建立与重绘区域人物联系

补全：3人物特征提取的怎么样，4画的怎么样

解决方法：

1建立imb，为模型提供画面里可能有谁的信息；添加目标检测模块，告诉生成模型画面里哪里有人，然后去imb匹配。如此，就解决了哪里有人，人长什么样的问题。

2身份一致损失，标注补全区域人物信息，知道要补全谁，就可以对生成的错误人物施加惩罚

3同1

4加模型参数量

coner case 人物渐入画面内

解决办法：采用双向线索，左侧向前采样前一秒钟5帧，右侧向后采样后一秒5帧，添加一个新的条件输入模块。还有需要研究怎么让模型更关注远期信息。

使用动态imb

在每个chunk运行目标检测算法获取

计算一致性损失本就需要标注所有需要重绘的人物

下面说一下我的整体思路：
首先跑算法建立imb（只要剧中出现过全貌都纳入，如何识别出并抽取身份向量你需要给出方案），并且标注出需要补全的人物的身份gt（有没有自动化方案）；
模型结构：添加一个用于选择imb人物的cross attention模块以及一个处理前帧的模块一个处理后帧的模块
训练时，前向推理包含以下输入：当前chunk的帧集合，前一个chunk生成后的最后一秒抽样5帧，后一个chunk生成后的第一秒抽样5帧，从前后chunk采样目的是为了解决人物/车辆渐入时，已知区域无参考的情况。视频mask，imb；
损失函数：原始outpainting 去噪mse损失+ 人物一致性损失（重绘人物和gt人物损失）
我认为不需要考虑re entry的问题（预处理imb提供了足够的人物信息，并且前后chunk抽样也缓解了这个问题，因为re entry本质就是一个渐入问题），但是re entry也可以像你说的使用增大目标人物权重的方式？但问题是怎么识别出re entry情况并且知道给哪个人增加权重

posted @ 2026-06-08 17:21 ruiw123 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

plan

公告