针对复杂交通场景下,特别是拥堵道路中,经常出现的交通目标密集、互相遮挡,小尺度目标检测精度低的问题,提出了一种面向复杂交通场景的目标检测模型YOLO-T(You Only Look Once-Transformer)。首先提出CTNet主干网络,相较于CSPDarknet53,该主干拥有更深的网络结构和多尺度特征提取模块,不仅能够更好地学习密集目标的多级特征,还可以提高模型对复杂交通场景的应对能力,进而引导模型更加关注小目标的特征信息,提升小目标的检测性能;其次引入Vit-Block,采用卷积和Transformer并行的方式融合更多的特征,兼顾局部和上下文信息的关联性,从而提升检测精度;最后在颈部网络Neck后增加Reasonable模块,引入注意力机制,进一步提高目标检测算法对复杂场景和遮挡目标的鲁棒性。实验结果表明,相比基准算法,YOLO-T在KITTI数据集和BDD100K数据集的检测精度分别提高了1.92%和12.78%,能有效提升复杂交通场景下的检测性能,更好地辅助驾驶员对其他车辆行驶行为的判断,减少交通事故的发生。