文章目录
Compact Bilinear Pooling
Abstract
双线性模型很成功,但是双线性特征是高维的。因此,本文提出了两种紧双线性表示,具有与双线性表示相同的辨别能力,但只有几千维。
本文提出的紧凑的表示允许分类错误的反向传播。
Introduction
视觉特征的编码和池化是语义图像分析方法的重要组成部分。
双线性结构是一种编码和池化机制。
本文提出的方法由一个新的双线性池化的核化观点所驱动,并且允许反向传播的端到端学习。
本文提出的紧凑的双线性方法依赖于核函数的低维特征映射的存在性。本文证明了双线性特征和多项式核关系密切,并在先人工作的基础上提出了压缩双线性特征的新方法。
本文的贡献在于三方面:
- 压缩维度;
- 验证反向传播;
- 提出双线性池化的核化视角。
Compact bilinear models
双线性模型定义为:
B是一个cxc的矩阵,但是为了方便分析,将其视为一个长度为 c 2 c^2 c2的向量。
A kernelized view of bilinear pooling
一般对图像表征采用支持向量机来或者逻辑回归进行分类,他们都可以视为线性核机器。
双线性池使得线性分类器具备二阶核向量机辨别能力。
Compact bilinear pooling
如果我们能找到一些低维度的映射函数 ϕ ( x ) ∈ R d , d < < c 2 \phi(x)\in R^d,d<<c^2 ϕ(x)∈Rd,d<<c2,满足 < ϕ ( x ) , ϕ ( y ) > ≈ k ( x , y ) <\phi(x),\phi(y)>\approx k(x,y) <ϕ(x),ϕ(y)>≈k(x,y),之后,我们就能近似上图中的内积:
C属于紧凑双线性特征。
本文调查了两种近似策略,分别是Random Maclaurin和Tensor Sketch。
RM是一种早期的方法,用来作为一种低维显式特征映射来近似多项式核。entry在矩阵中的意思是元素。
此处给的算法与原文还是有区别的,这里取了N=2。
Tensor Sketch Projection算法在此不多赘述,明白是一种近似即可。
Some properties of compact bilinear pooling
上表展示了bilinear pooling和compact bilinear feature的一些特征。