深度并不一定等于性能，“聪明”也可以很浅薄

让我们来聊聊 ParNet 这个大家伙。它只用 12 层网络，就在 ImageNet 上取得了 80.7% 的 Top-1 准确率，同时在 CIFAR10 和 CIFAR100 上分别拿下 96% 和 81% 的成绩。MS-COCO 的平均检测精度也达到了 48%。对于深度学习中的深度神话，ParNet 给出了一个新的回答。深度真的就能保证性能吗？以前大家都以为网络越深越好，可一旦深度超过几百层，模型的延迟和能耗就会把它压垮。既然减少深度可以保住精度，那为什么还要坚持深度呢？普林斯顿和英特尔的团队在他们的最新论文中提出了 ParNet，把这个问题解答得很清楚。 ParNet 的结构很独特。它把网络分成多条独立的子流，每条子流都在不同分辨率下提取特征，最后再把它们融合在一起。这种方式让 ParNet 在只有 12 层的情况下，仍然能够捕捉到丰富的信息。团队还对 RepVGG 块进行了改进，加入了 Skip-Squeeze-Excitation 模块，既保持了计算效率，又引入了通道注意力。下采样块故意把分辨率调低、宽度翻倍，创造出多尺度信息；融合块则把不同分辨率的特征拼接起来。在实验中，ParNet 和 ResNet110、DenseNet 这些深度巨兽同台竞技。在 ImageNet、CIFAR 和 MS-COCO 等大规模数据集上的表现都非常出色。非深度网络第一次在视觉识别领域和深度网络平起平坐了。团队认为，ParNet 的并行流结构非常适合分布式计算，未来可以很方便地部署在多芯片处理器上。如果硬件配合得好，推理速度还有很大的提升空间。深度并不一定等于性能，“聪明”也可以很浅薄。至于 Excitation 和 ImageNet 这些术语，我就不再重复解释了。希望大家通过这个介绍能对 ParNet 有更深入的了解。