一个增量文本聚类的方法

我们最近在做一个 AI Video Editor 网站, 其中我们有一个分析相似的视频脚本的能力，我们叫 Best Viral Video Hook.

这里面有一个命题：我们只希望针对新增的文本进行聚类，而且不能改变旧的文本分类。
所以我们做了一个这样子的算法：

每天进行新增的文本聚类的时候，

把新增的文本的embedding加入AnnoyIndex
将之前所有数目大于2的分类都重新找一遍，如果新的文本，在旧的分类里面，则直接归入旧的分类；
把新文本，没有聚类的，全部重新聚类一次；如果找到2个或以上的相似文本，则找到这组的文本最小ID，用这个ID的embedding重新找一次，用最小ID作为组的ID

这样子我们就用AnnoyIndex做了一个增量的聚类算法。

posted @ 2024-03-27 15:52 chenbinghui_albert 阅读(117) 评论(0) 收藏举报

刷新页面返回顶部

chenbinghui