收藏文章
摘要:
近年来,人工智能技术在计算机视觉和自然语言处理领域的飞速发展,促进了两者间的深度融合,极大地拓展了智能系统的技术边界和应用前景。这种跨领域整合不仅推动了技术创新,也为诸多新颖研究和应用开辟了新的路径。本文提出了一种针对猫狗数据集和铁路相关数据集的图像检索方法——CLIP-Retrieval,旨在解决公开和专业领域中复杂背景、多角度拍摄等带来的图像检索挑战。CLIP-Retrieval利用CLIP模型的图像编码器作为核心架构,通过提取图像特征并构造相似度矩阵,计算不同图像之间的相似度分数,根据排序结果展示最相关的图像。为验证CLIP-Retrieval的鲁棒性和稳定性,我们进行了对比实验和抗干扰实验。实验结果显示,该算法在性能上有显著提升,具备良好的图像检索效果。具体而言,CLIP-Retrieval能够有效应对不同数据集中的复杂背景、姿态变化等问题,提供准确且高效的检索服务。
页码:
177-186
刊物介绍