Lightweight and Progressively-Scalable Networks for Semantic Segmentation

Abstract(摘要)

主要方法：通过一次性扩展单个维度（卷积块的数量、通道的数量或输入分辨率）来逐步将小型网络扩展到更大的网络，以满足最佳速度/精度权衡。

Conclusion and Discussion（总结和讨论）

它是一种探索经济设计并逐步扩大网络以实现有效的语义分割

可能影响精度/延迟的平衡的因素为：多路径框架中的基本卷积块和路径交互方式

在卷积块中使用3×3Conv和双线性插值实现跨路径的交互

（上采样换成PointRend会怎样？）

先构建一个微型网络，然后一次性扩展单个维度将微型网络扩展为一系列较大的网络

Introduction（引言）

语义分割是为图像分割或视频帧的每个像素分配语义标签

多尺度学习沿三个不同维度进行语义分割：

U-shape(结构分层融合特征，逐步提高空间分辨率)
pyramid pooling（在多个尺度上执行空间或空洞空间金字塔池化深入研究金字塔信息）
muti-path framework（将输入图像的大小调整为多个分辨率或尺度，并将每个尺度输入到深度学习的单独路径中）

本文使用的就是muti-path framework，将输入分辨率从高到低并行放置，直接保持高分辨率信息，这样学习到的特征可能更有能力对每个像素进行分类和定位

轻量化用于语义分割的计算单元
逐步扩大网络，同时平衡准确性和推理延迟

一次性扩展单个维度（卷积块的数量、通道的数量或输入分辨率）

联想截图_20240315191556

contributions:

(1) The lightweight design of convolutional blocks and the way of path interactions in multipath framework are shown capable of regarding as the practical principles for efficient semantic segmentation; （卷积块的轻量化设计和多路径框架中的路径交互方式实用）

(2) The exquisitely devised LPS-Net is shown able to progressively expand the network complexity while striking the right accuracy-efficiency tradeoff; （可扩展网络复杂性）

(3) LPSNet has been properly verified through extensive experiments over three datasets, and superior capability is observed on both NVIDIA GPUs and embedded devices in our experiments.（结果很不错）

Results（结果）

Methods（方法）

Macro Architecture（employs the multi-path recipe）

LPS-Net 中采用多路径配方的宏架构

（轻量化）三个设计原则：（卷积类型、通道数数量、跨多个路径的交互方式）

将输入图像的大小调整为多个尺度，并将每个尺度反馈送到单独的路径中。

将交互模块放置在阶段 3∼5 的末尾，旨在促进路径之间的相互交互。所有路径的输出被聚合并输入到分割头中，以生成具有 num 类通道的分数图。

对分数图执行双线性上采样，产生分辨率为 H×W 的输出，与输入分辨率完全匹配

卷积块

卷积块的类型

通过实验选择用标准卷积作为 LPSNet 中的构建块

通道数

具有 2n-divisible 通道宽度的卷积的可并行化实现。因此，将 LPSNet 中卷积的通道宽度设为2n-divisible，其中 n 尽可能大。