点击数: 更新日期: 2023-10-20
中文题目:CLASPPNet:一种融合车道线检测的跨层多分类车道语义分割模型
论文题目:CLASPPNet: A Cross-Layer Multi-Class Lane Semantic Segmentation Model Fused with Lane Detection Module
录用期刊/会议:International Conference on Artificial Neural Networks (CCF C类)
录用/见刊时间:2023年6月29日
封面图片:
封面摘要:
本文设计了一种融合车道线检测的跨层多分类车道语义分割模型,改善了现有模型在特殊车道(例如匝道、应急车道)和车道线上的分割效果,同时具有更高的分割效率。
作者列表:
1) 黄超 中国石油大学(北京)信息科学与工程学院 计算机技术专业 硕 21
2) 王智广 中国石油大学(北京)信息科学与工程学院 计算机系教师
3) 范永年 中国石油大学(北京)信息科学与工程学院 计算机科学与技术专业 硕 20
4) 刘凯 中国石油大学(北京)信息科学与工程学院 计算机科学与技术专业 硕 22
5) 鲁强 中国石油大学(北京)信息科学与工程学院 计算机系教师
摘要:
多类车道语义分割是交通违法检测系统中的一项关键技术。然而,现有的多分类车道语义分割模型存在对特殊车道(例如匝道、紧急车道)和车道线分割精度较低的问题,本文提出了一种融合车道线检测的跨层多分类车道语义分割模型CLASPPNet(Cross Layer Atrous Spatial Pyramid Pooling Network)。首先,本文设计了一种跨层ASPP(Atrous Spatial Pyramid Pooling)结构,充分融合图像中的深层和浅层特征信息,提高对车道分割的完整程度。其次,该跨层结构在训练时融合了车道线检测模块,提高了对车道线的特征提取能力。本文在基于俯瞰视角的高速公路数据集上进行了测试,结果显示本文的模型在特殊车道和车道线分割效果上取得了显著的提升,并具有更少的参数量。
背景与动机:
目前,能够检测并获取道路信息的模型主要分为车道检测和多分类车道语义分割两类。多分类车道语义分割将车道和车道线划分为不同类别,通过语义割可以获得更为丰富的语义信息。然而,现有的模型在被应用到高速公路多分类车道语义分割任务时,存在的对特殊车道和车道线分割精度不高的问题。
设计与实现:
本文设计了一种融合车道线检测的跨层多分类车道语义分割模型,见图1。在跨层结构中,模型分为跨层车道线检测结构和跨层ASPP结构。
图1. CLASPPNet模型
主要内容:
车道线关键点数据生成
本文设计了一种从像素级标注中采样车道线关键点的方法具体来说,首先,将多分类车道像素级标注转换为仅包含车道线的像素级标注。对于其中的每条车道线,将图像纵向平均分为行,其中为预先定义的行间距,得到的这些行被称为关键行。对于每一个关键行,对图像从左到右进行逐像素点扫描,见图2。
图2. CASPPNet模型使用的两种数据标注类型
某两个相邻像素点发生到从背景到车道线(或反之)的变化时,将其标注为一个边界点。对于一条完整的车道线,它总是有两个边界点和。车道线的关键点的计算方式如下:
对于位于图像边界的车道线的点,将边界也视为其的一个边界点。最后,删去那些只有一个关键点的车道线,因为这样的车道线长度太短,车道线检测分支不能从这些车道线中学习到有效的特征。
跨层车道线检测结构
本文设计了一个跨层车道线检测结构。该结构在训练时引入了CLRNet模型车道线检测分支中的ROIGather作为LaneDetection模块,来改善模型对车道线特征的提取能力,见图3。
图3. 跨层车道线检测模块
具体来说,该结构为每条车道线定义了车道线先验信息,它包含每条车道线36个关键点的坐标偏移值。在跨层结构中,每层都定义了一个LaneDetection模块,它使用FPN的输出和上层车道线先验信息(第0层使用和通过均匀分布完成初始化的)作为输入,得到ROI特征,然后对提取的ROI特征进行卷积,再经过FC层映射为车道线先验信息。同时,为了获取车道线先验信息的全局上下文信息,LaneDetection计算了全局特征图和车道线先验信息的注意力矩阵,最后得到改进后的作为本层LaneDetection模块的输出。对于得到的三个LaneDetection模块的输出,使用它和车道线关键点标注计算车道线检测结果Loss,并表示为,从而改善Backbone和FPN对车道线的特征提取能力。由于该模块仅在训练时使用,因此对模型推理效率几乎没有影响。
跨层ASPP结构
本文设计了跨层ASPP结构,该结构包含三个不同膨胀率的ASPP模块,它们相互之间不共享参数,见图4。
图4. 跨层ASPP模块
设置每层ASPP模块的输出为,它被定义为:
具体来说,第0层将该层FPN的输出作为的输入,第层()将上层的输出上采样到与当前层FPN的输出相同尺寸后,将二者进行拼接,共同作为该层的输入。之后,经过不同膨胀率的空洞卷积后,得到的输出。最后,将的输出和第3层FPN的输出进行拼接,共同作为Decoder的输入。在Decoder中,首先定义了一个的卷积层,它负责对输入的融合了深层和浅层特征信息的特征图进行降维操作,之后经过BatchNormal和ReLU,再使用卷积生成尺寸为原图的包含每个类别预测信息的特征图。最后,对该图进行上采样,然后使用它和像素级标注计算语义分割结果Loss,并表示为。
实验结果及分析:
本文在基于俯瞰视角的高速公路数据集上训练了4种模型,并将它们与CLASPPNet进行了对比,结果见表1和图5。
表1. CLASPPNet与其它模型在基于俯瞰视角高速公路数据集上的评估结果
图5. 五种车道语义分割模型效果对比
结果表明,CLASPPNet在特殊车道(例如匝道、紧急车道)和车道线上表现出更优秀的分割能力,在mIoU上也超过了其它的模型,且参数量仅为28.9M。
此外,本文测试了CLASPPNet使用不同Backbone时的mIoU和FLOPs,并与其它模型中mIoU较高的几个进行了对比,结果见图6。
图6. CLASPPNet使用不同Backbone时与其它模型的对比
从图中可以看到,CLASPPNet在使用ResNet34时mIoU最高,为86.4%,且此时的FLOPs仅为使用MiT-B4作为Backbone的SegFormer的58%,Segformer是基于Transformer的语义分割模型中的一个简单、高效、具有更少参数量的语义分割模型。而当CLASPPNet使用ResNet18时,mIoU仍可以达到86%,比FLOPs相近的使用MiT-B2的SegFormer高了1.1%。与DeepLab-ERFC模型相比,CLASPPNet在准确度和复杂度上都取得了巨大的提升。这表明了本文设计的跨层结构具备较强的特征提取能力,它降低了模型对Backbone的特征提取能力的要求,使得在仅使用ResNet18的情况下依然可以超过其它的模型。
结论:
本文首先分析了现有的基于卷积神经网络的多分类车道语义分割模型存在的对特殊车道和车道线分割精度不高的问题,提出了一种融合车道线检测的跨层多分类车道语义分割模型CLASPPNet。该模型设计了一个跨层ASPP结构,进行分层特征提取和跨层特征融合,充分融合深层和浅层特征信息,改善了车道分割效果。同时,该跨层结构在训练时融合了车道线检测模块,使模型能够更好的学习和提取车道线特征。最后,本文在基于俯瞰视角的高速公路数据集上进行了实验,结果显示CLASPPNet在特殊车道和车道线的分割精度上取得了显著改善。与其它模型相比,CLASPPNet的取得了更高的mIoU,同时具有更少的参数和FLOPs。
通讯作者简介:
王智广,男,博士,教授,博士生导师,北京市教学名师。中国计算机学会(CCF)高级会员,全国高校实验室工作研究会信息技术专家指导委员会委员,全国高校计算机专业(本科)实验教材与实验室环境开发专家委员会委员,北京市计算机教育研究会常务理事。长期从事分布式并行计算、三维可视化、计算机视觉、知识图谱方面的研究工作,主持或承担国家重大科技专项子任务、国家重点研发计划子课题、国家自然科学基金、北京市教委科研课题、北京市重点实验室课题、地方政府委托课题以及企业委托课题20余项,在国内外重要学术会议和期刊上合作发表学术论文70余篇,培养了100余名硕士博士研究生。