plan

知道补全的是谁:1识别已知画面人物,2建立与重绘区域人物联系

补全:3人物特征提取的怎么样,4画的怎么样

解决方法:

1建立imb,为模型提供画面里可能有谁的信息;添加目标检测模块,告诉生成模型画面里哪里有人,然后去imb匹配。如此,就解决了哪里有人,人长什么样的问题。

2身份一致损失,标注补全区域人物信息,知道要补全谁,就可以对生成的错误人物施加惩罚

3同1

4加模型参数量

coner case 人物渐入画面内

解决办法:采用双向线索,左侧向前采样前一秒钟5帧,右侧向后采样后一秒5帧,添加一个新的条件输入模块。还有需要研究怎么让模型更关注远期信息。

使用动态imb

在每个chunk运行目标检测算法获取

计算一致性损失本就需要标注所有需要重绘的人物

下面说一下我的整体思路:
首先跑算法建立imb(只要剧中出现过全貌都纳入,如何识别出并抽取身份向量你需要给出方案),并且标注出需要补全的人物的身份gt(有没有自动化方案);
模型结构:添加一个用于选择imb人物的cross attention模块 以及一个处理前帧的模块一个处理后帧的模块
训练时,前向推理包含以下输入:当前chunk的帧集合,前一个chunk生成后的最后一秒抽样5帧,后一个chunk生成后的第一秒抽样5帧,从前后chunk采样目的是为了解决人物/车辆渐入时,已知区域无参考的情况。视频mask,imb;
损失函数:原始outpainting 去噪mse损失+ 人物一致性损失(重绘人物和gt人物损失)
我认为不需要考虑re entry的问题(预处理imb提供了足够的人物信息,并且前后chunk抽样也缓解了这个问题,因为re entry本质就是一个渐入问题),但是re entry也可以像你说的 使用增大目标人物权重的方式? 但问题是怎么识别出re entry情况 并且知道给哪个人增加权重

posted @ 2026-06-08 17:21  ruiw123  阅读(7)  评论(0)    收藏  举报