深度并不一定等于性能,“聪明”也可以很浅薄

让我们来聊聊 ParNet 这个大家伙。它只用 12 层网络,就在 ImageNet 上取得了 80.7% 的 Top-1 准确率,同时在 CIFAR10 和 CIFAR100 上分别拿下 96% 和 81% 的成绩。MS-COCO 的平均检测精度也达到了 48%。对于深度学习中的深度神话,ParNet 给出了一个新的回答。 深度真的就能保证性能吗?以前大家都以为网络越深越好,可一旦深度超过几百层,模型的延迟和能耗就会把它压垮。既然减少深度可以保住精度,那为什么还要坚持深度呢?普林斯顿和英特尔的团队在他们的最新论文中提出了 ParNet,把这个问题解答得很清楚。 ParNet 的结构很独特。它把网络分成多条独立的子流,每条子流都在不同分辨率下提取特征,最后再把它们融合在一起。这种方式让 ParNet 在只有 12 层的情况下,仍然能够捕捉到丰富的信息。团队还对 RepVGG 块进行了改进,加入了 Skip-Squeeze-Excitation 模块,既保持了计算效率,又引入了通道注意力。下采样块故意把分辨率调低、宽度翻倍,创造出多尺度信息;融合块则把不同分辨率的特征拼接起来。 在实验中,ParNet 和 ResNet110、DenseNet 这些深度巨兽同台竞技。在 ImageNet、CIFAR 和 MS-COCO 等大规模数据集上的表现都非常出色。非深度网络第一次在视觉识别领域和深度网络平起平坐了。 团队认为,ParNet 的并行流结构非常适合分布式计算,未来可以很方便地部署在多芯片处理器上。如果硬件配合得好,推理速度还有很大的提升空间。深度并不一定等于性能,“聪明”也可以很浅薄。 至于 Excitation 和 ImageNet 这些术语,我就不再重复解释了。希望大家通过这个介绍能对 ParNet 有更深入的了解。