半岛彩票日前,第38届人工智能领域顶级会议AAAI-24和2024年IEEE音频、语音与信号处理国际会议(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2024)录用结果相继出炉,人工智能学院李成龙教授团队3篇论文入选(AAAI-24两篇,ICASSP 2024一篇),涉及以车辆为中心的预训练大模型、行人重识别等研究方向。ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,在国际上享有盛誉并具有广泛的学术影响力,是CCF-B类收录会议。
论文“Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception”由安徽大学王逍副教授为第一作者,李成龙教授为通讯作者。该论文提出了一个大规模车辆数据集用于预训练,称为Autobot1M,它包括图像数据1026394张,文本描述12693条;同时提出了一种车辆预训练框架,称为VehicleMAE,该框架将车辆轮廓信息和高级自然语言描述相结合,以实现有效的掩蔽车辆重构。具体来说,在预训练阶段,采用Transformer编解码器来实现掩码图像重构,在空间先验模块中通过边缘检测器提取输入图像轮廓信息,通过轮廓信息监督重构图像的结构信息;在语义先验模块我们采用预先训练过的视觉语言模型(CLIP)对自然语言描述进行编码,并为语义信息引导的高级重构构建对比学习方案,通过余弦相似度损失约束CLIP视觉嵌入与Transformer解码器重构特征之间的相似性,通过跨模态对比学习损失约束CLIP视觉嵌入、Transformer解码器重特征与CLIP语义嵌入之间的相似度分布。
论文“Heterogeneous Test-time Training for Multi-modal Person Re-identification”由我校博士生王梓为第一作者,郑爱华教授为通讯作者。该论文提出了用于鲁棒多模态行人再识别的异构测试时间训练(HTT)框架,通过模态间关系挖掘和测试数据利用来增强模型泛化。(a)在训练期间,我们采用了两种完全监督损失(CE损失和Triplet损失)和两种自监督损失的组合(3M损失和CIM损失)(b)在测试时训练期间仅采用自监督损失来更新模型。微调后,使用归一化后的特征进行测试(c)3Mloss增加了同一身份模态内的距离,CIM损失进一步扩大了属于不同身份的模态特征的区别。实验结果表明,HTT框架显著提高了模型对未见测试数据的泛化能力,在基准数据集上取得了优异的效果,所提出的CIM损失迫使网络优先考虑来自不同身份的样本之间的模态间差异,从而增强最终特征的多样性。
论文“Parallel Augmentation and Dual Enhancement for Occluded Person Re-identification”由安徽大学博士生王梓为第一作者,郑爱华教授为通讯作者。该论文提出了一种称为并行增广机制(PAM)的数据增强方法。我们的PAM由三个独立的组件组成:基础增强(BA)、擦除增强(EA)和裁剪增强(CA)。在我们的并行增强机制中,EA仅实现擦除操作,CA仅裁剪原始图像。经过PAM后,我们将获得一个图像三元组:包括一张原始的非遮挡图像和两张增强的遮挡图像。为了充分利用全局和局部特征,我们还提出了双重增强策略(DES),通过迫使上下文信息和细节相互促进来增强它们。全局和局部特征将通过两个连续步骤得到增强。每个局部特征可以通过全局特征中的上下文信息来增强,然后全局特征可以吸收增强的局部特征中的详细信息。值得注意的是,我们的DES不需要额外的注释或模型帮助。
据悉,本届AAAI会议共有12100篇投稿(主赛道),打破历史纪录,经过全面而严格的审查程序,共有2342篇论文脱颖而出,录取率23.75%。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。第38届国际人工智能大会(AAAI2024)计划于2024年2月20日-2月27日在加拿大温哥华召开。