南通新闻

usdt otc api接入(www.caibao.it):无需卷积,完全基于Transformer的首个视频明晰架构出炉

来源:南通新闻网 发布时间:2021-03-24 浏览次数:

USDT官网

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

问题:无需卷积,完全基于Transformer的首个视频明晰架构出炉

选自Facebook AI

机械之心编译

编辑:小舟、陈萍

Facebook AI 提出新型视频明晰架构:完全基于Transformer,无需卷积,训练速率快、盘算成本低。

TimeSformer 是首个完全基于 Transformer 的视频架构。近年来,Transformer 已成为自然语言处置(NLP)领域中许多应用的主导方式,包罗机械翻译、通用语言明晰等。

TimeSformer 在一些具有挑战性的动作识别基准(包罗 Kinetics-400 动作识别数据集)上实现了最佳的性能。此外,与 3D 卷积神经网络(CNN)相比,TimeSformer 的训练速率约莫快了 3 倍,而推断所需的盘算量不足其十分之一。

论文链接:

https://arxiv.org/pdf/2102.05095.pdf

此外,TimeSformer 的可扩展性使得在更长的视频片断上训练更大的模子成为可能。这为 AI 系统明晰视频中更庞大的人类行为打开了大门,对需要明晰人类庞大行为的 AI 应用来说是极为有益的。

在 Kinetics-400(左) 和 Kinetics-600(右) 两个动作识别基准上,TimeSformer 与当前具有 SOTA 性能的 3D 卷积神经网络的视频分类准确率对照效果。TimeSformer 在这两个数据集上都到达了最优的准确率。

TimeSformer:全新的视频明晰架构

传统的视频分类模子行使了 3D 卷积滤波器。然而这样的滤波器在捕捉局部时空区域内的短程模式方面是有用的,然则它们不能对超出其接受域的时空依赖关系举行建模。

,

usdt收款平台

菜宝钱包(www.caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

,

TimeSformer 仅确立在 Transformer 模子中使用的自注重力机制上,这使得捕捉整个视频的时空依赖关系成为可能。为了将 Transformer 应用到视频中,该模子将输入视频注释为从每个帧中提取的图像 patch 的时间 - 空间序列。

这种名堂类似于 NLP 中使用的名堂,在 NLP 中,Transformer 将句子视为从每个单词中盘算出的特征向量序列。正如 NLP Transformer 通过将每个单词与句子中的其他单词举行对照来推断其寄义一样,该模子通过显式地将每个 patch 与视频中的其他 patch 举行对照来捕捉每个 patch 的寄义。这也是所谓的自注重力机制,这使得捕捉相邻 patch 之间的短程依赖性以及远距离 patch 之间的远程关联成为可能。

传统的 3D 卷积神经网络盘算成本对照高昂,由于它们需要在视频中所有的空间 - 时间位置上使用大量的滤波器。而 TimeSformer 具有较低的盘算成本,由于它:(1)将视频剖析成一组不重叠的 patch;(2)接纳自注重力,制止对所有 patch 对举行详尽的对照。研究者将此方案称为支解空间 - 时间注重力,其头脑是依次应用时间注重力和空间注重力。

当使用时间注重力时,每个 patch(例如在下图中,蓝色的正方形)只与其他帧中相同空间位置的 patch(绿色正方形)举行对照。若是视频包罗 T 帧,则每个 patch 只举行 T 次时间上的对照。当使用空间注重力时,每个 patch 仅与统一帧内的 patch(红色 patch)举行对照。

因此,若是 N 是每帧中的 patch 数,则支解空间 - 时间注重力只对每个 patch 执行一共(T N)次对照,而不是团结空间 - 时间注重力的方式所需的(T×N)次对照。此外,该研究发现与团结空间 - 时间注重力相比,支解空间 - 时间注重力不仅更有用,而且更准确。

TimeSformer 的可扩展性让它能够在极长的片断(例如,102 秒时长的 96 帧序列)上运行,以执行超长程时间建模,这显著差异于当前的 3D CNN。后者仅限于处置至多几秒钟的片断。而识别长时间流动是一种主要需求。

例如,假设有一个制作法式吐司的视频。一次剖析几秒钟的 AI 模子可能会识别出一些原子动作(例如打鸡蛋或将牛奶倒入碗中)。但对每个单独动作举行分类,对于分类庞大流动是远远不够的。TimeSformer 则可以在更长的时间局限内剖析视频,从而展现出原子动作之间明确的依赖关系(例如将牛奶和已经打好的鸡蛋夹杂)。

TimeSformer 的高效让在高空间分辨率(例如高达 560x560 像素的帧)和长视频(包罗高达 96 帧)上训练模子成为可能。

上图展示了由 TimeSformer 学习的自注重力热图的可视化。第一行是原始帧,第二行通过自注重力给出的视频分类主要性来加权每个像素的颜色(被以为不主要的像素会变暗)。TimeSformer 学习介入视频中的相关区域,以执行庞大的时空推理。

促进更多领域的生长

为了训练视频明晰模子,现在最好的 3D CNN 只能使用几秒长的视频片断。使用 TimeSformer 可以在更长的视频片断(长达几分钟)上举行训练。这可能会极大地促进研究事情,以教会机械明晰视频中庞大的长动作。对于许多旨在领会人类行为的 AI 应用程序(例如 AI 助手)而言,这是主要的一步。

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片