Authors
吴祖成, 吴小俊, 徐天阳
Publication date
2024/6/7
Journal
计算机应用
Pages
0
Description
针对跨模态检索任务中关系具有的多样性, 同时基于外观的传统范式无法准确反映图像中显著物体间的关联, 使得其在复杂场景中的应用效果不佳的问题, 提出了基于模态内细粒度特征关系提取的图像文本检索模型. 首先, 为了获得更加直观的位置信息, 将图像划分为网格, 并通过物体与网格的位置关系建立位置表征. 其次, 为了在关系建模阶段保持节点信息的稳定和独立性, 模型使用了一个跨模态信息指导的特征融合模块. 最后, 还提出了一种自适应三元组损失用于动态平衡正负样本的训练权重. 模型在 Flickr30K 和 MS-COCO 数据集上与最新的模型 CHAN (Cross-modal Hard Aligning Network) 相比, 在 R@ SUM 指标上分别提升了 1.5% 和 0.02%. 实验结果表明了所提模型在检索的召回率上的有效性.
Scholar articles
吴祖成, 吴小俊, 徐天阳 - 计算机应用, 2024