IE盒子

搜索
查看: 128|回复: 2

涨点神器!HorNet:递归门控卷积的高效高阶空间交互

[复制链接]

2

主题

4

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2022-9-22 03:29:15 | 显示全部楼层 |阅读模式
一句话总结

本文提出递归门控卷积 (gnConv),它通过门控卷积和递归设计执行高效、可扩展和平移等变的高阶空间交互,即插即用来改进各种视觉 Transformer 和基于卷积的模型,并提出新的通用视觉骨干家族:HorNet,优于Swin、ConvNeXt等网络,代码刚刚开源!
想看更多ECCV 2022论文和开源项目可以点击:
点击关注@CVer计算机视觉,第一时间看到最优质、最前沿的CV、AI工作~
注:文末附【Transformer】交流群
HorNet

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions


单位:清华(鲁继文团队), Meta AI
代码:https://github.com/raoyongming/HorNet
论文:https://arxiv.org/abs/2207.14284
视觉 Transformers 的最新进展在基于点积 self-attention 的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,我们展示了视觉 Transformer 背后的关键要素,即输入自适应、远程和高阶空间交互,也可以通过基于卷积的框架有效实现。我们提出了递归门控卷积(gnConv),它通过门控卷积和递归设计执行高阶空间交互。


新操作具有高度的灵活性和可定制性,它兼容各种卷积变体,并将自注意力中的二阶交互扩​​展到任意阶,而不会引入大量额外的计算。
gnConv 可以作为一个即插即用的模块来改进各种视觉 Transformer 和基于卷积的模型。基于该操作,我们构建了一个新的通用视觉骨干家族,名为 HorNet。




算法细节









实验结果

在 ImageNet 分类、​​COCO 对象检测和 ADE20K 语义分割方面的大量实验表明,在整体架构和训练配置相似的情况下,HorNet 的性能明显优于 Swin Transformers 和 ConvNeXt。 HorNet 还显示出对更多训练数据和更大模型大小的良好可扩展性。




除了在视觉编码器中的有效性外,我们还展示了 gnConv 可以应用于特定任务的解码器,并以更少的计算量持续提高密集预测性能。


我们的结果表明,gnConv 可以成为一个新的视觉建模基础模块,它有效地结合了视觉 Transformer 和 CNN 的优点。


点击进入—>
CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer222。加的时候备注一下:Transformer+学校/公司+昵称+知乎,即可。然后就可以拉你进群了。
强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。
推荐阅读

ECCV2022 | MaskPoint:用于点云自监督学习的Masked判别
ECCV2022 Oral | 冠军方案!IDOL:视频实例分割的在线新模型
ECCV 2022 Oral | Pose for Everything:类别无关的姿态估计
ECCV 2022 | AiATrack:Transformer视觉跟踪的注意力中的注意力
北大&MSRA提出Conditional DETR V2:带有框查询的高效检测Transformer
ECCV 2022 | 浙大&阿里提出RDIoU:重新思考基于 IoU 的单阶段3D目标检测优化
ECCV 2022 | BootMAE:用于视觉BERT预训练的自举掩码自编码器
ECCV 2022 Oral | ObjectBox:Anchor-free目标检测的从中心到框
ECCV 2022 | Med-DANet:用于高效医学体素分割的动态架构网络
ECCV 2022 | V2X-ViT:V2X与视觉Transformer的协同感知
ECCV 2022 | 88.7%准确率!谷歌提出MaxViT:多轴视觉Transformer
ECCV 2022 | PEBAL:用于城市自动驾驶系统的异常分割模型
YOLOv4团队打造YOLOv7!最先进的实时目标检测网络来了!
ECCV 2022 | GraphVid:只需几个节点即可理解视频
ECCV 2022 | InvPT:用于密集场景理解的倒金字塔多任务Transformer
MIT提出:在 256KB 内存的设备上训练
CVPR 2022 | 清华&字节&京东提出BrT:用于视觉和点云3D目标检测的桥接Transformer
EdgeNeXt:用于移动视觉应用的高效融合CNN-Transformer架构
COCO上高达62.4 AP!GLIPv2来了!统一定位和视觉-语言理解
FAIR提出ConvNeXt:2020 年代的卷积网络
清华提出:最新的计算机视觉注意力机制(Attention)综述!
Swin Transformer夺得ICCV 2021最佳论文!中国学者拿下“半壁江山”!
为何Transformer在计算机视觉中如此受欢迎?
Transformer一脚踹进医学图像分割!看5篇MICCAI 2021有感
深度学习中的 Attention 机制总结与代码实现(2017-2021年
回复

使用道具 举报

4

主题

10

帖子

18

积分

新手上路

Rank: 1

积分
18
发表于 2022-9-22 03:29:56 | 显示全部楼层
这么牛的文章,必须三连载!
回复

使用道具 举报

0

主题

5

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2025-3-17 13:51:15 | 显示全部楼层
顶顶更健康
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表