我正在实现一个依赖三维卷积的模型(对于类似于动作识别的任务),我希望使用批处理规范化(请参见)。我找不到任何关于3D Conv的教程,因此我在这里做了一个简短的教程,我想和你一起回顾一下。
下面的代码引用了TensorFlow r0.12,它显式地引用变量-我的意思是除了tf.contrib.layers.batch_norm()函数之外,我没有使用tf.contrib.learn。我这样做的目的是为了更好地理解事情是如何在引擎盖下工作的,并且有更多的实现自由(例如,变量摘要)。
我将首先编写一个完全连接层的例子,然后编写一个二维卷积,最后编写一个三维卷积的例子,从而顺利地到达三维卷积的情况。在浏览代码时,如果您能检查所有操作是否都正确,那就太好了——代码运行,但我对应用批处理规范化的方式不完全确定。我以一个更详细的问题结束这篇文章。
import tensorflow as tf
# This flag is used to allow/prevent batch normalization params updates
# depending on whether the model is being trained or used for prediction.
training = tf.placeholder_with_default(True, shape=())
全连接(FC)箱
# Input.
INPUT_SIZE = 512
u = tf.placeholder(tf.float32, shape=(None, INPUT_SIZE))
# FC params: weights only, no bias as per [Ioffe & Szegedy 2015].
FC_OUTPUT_LAYER_SIZE = 1024
w = tf.Variable(tf.truncated_normal(
[INPUT_SIZE, FC_OUTPUT_LAYER_SIZE], dtype=tf.float32, stddev=1e-1))
# Layer output with no activation function (yet).
fc = tf.matmul(u, w)
# Batch normalization.
fc_bn = tf.contrib.layers.batch_norm(
fc,
center=True,
scale=True,
is_training=training,
scope='fc-batch_norm')
# Activation function.
fc_bn_relu = tf.nn.relu(fc_bn)
print(fc_bn_relu) # Tensor("Relu:0", shape=(?, 1024), dtype=float32)
二维卷积(CNN)层案例
# Input: 640x480 RGB images (whitened input, hence tf.float32).
INPUT_HEIGHT = 480
INPUT_WIDTH = 640
INPUT_CHANNELS = 3
u = tf.placeholder(tf.float32, shape=(None, INPUT_HEIGHT, INPUT_WIDTH, INPUT_CHANNELS))
# CNN params: wights only, no bias as per [Ioffe & Szegedy 2015].
CNN_FILTER_HEIGHT = 3 # Space dimension.
CNN_FILTER_WIDTH = 3 # Space dimension.
CNN_FILTERS = 128
w = tf.Variable(tf.truncated_normal(
[CNN_FILTER_HEIGHT, CNN_FILTER_WIDTH, INPUT_CHANNELS, CNN_FILTERS],
dtype=tf.float32, stddev=1e-1))
# Layer output with no activation function (yet).
CNN_LAYER_STRIDE_VERTICAL = 1
CNN_LAYER_STRIDE_HORIZONTAL = 1
CNN_LAYER_PADDING = 'SAME'
cnn = tf.nn.conv2d(
input=u, filter=w,
strides=[1, CNN_LAYER_STRIDE_VERTICAL, CNN_LAYER_STRIDE_HORIZONTAL, 1],
padding=CNN_LAYER_PADDING)
# Batch normalization.
cnn_bn = tf.contrib.layers.batch_norm(
cnn,
data_format='NHWC', # Matching the "cnn" tensor which has shape (?, 480, 640, 128).
center=True,
scale=True,
is_training=training,
scope='cnn-batch_norm')
# Activation function.
cnn_bn_relu = tf.nn.relu(cnn_bn)
print(cnn_bn_relu) # Tensor("Relu_1:0", shape=(?, 480, 640, 128), dtype=float32)
三维卷积(CNN3D)层案例
# Input: sequence of 9 160x120 RGB images (whitened input, hence tf.float32).
INPUT_SEQ_LENGTH = 9
INPUT_HEIGHT = 120
INPUT_WIDTH = 160
INPUT_CHANNELS = 3
u = tf.placeholder(tf.float32, shape=(None, INPUT_SEQ_LENGTH, INPUT_HEIGHT, INPUT_WIDTH, INPUT_CHANNELS))
# CNN params: wights only, no bias as per [Ioffe & Szegedy 2015].
CNN3D_FILTER_LENGHT = 3 # Time dimension.
CNN3D_FILTER_HEIGHT = 3 # Space dimension.
CNN3D_FILTER_WIDTH = 3 # Space dimension.
CNN3D_FILTERS = 96
w = tf.Variable(tf.truncated_normal(
[CNN3D_FILTER_LENGHT, CNN3D_FILTER_HEIGHT, CNN3D_FILTER_WIDTH, INPUT_CHANNELS, CNN3D_FILTERS],
dtype=tf.float32, stddev=1e-1))
# Layer output with no activation function (yet).
CNN3D_LAYER_STRIDE_TEMPORAL = 1
CNN3D_LAYER_STRIDE_VERTICAL = 1
CNN3D_LAYER_STRIDE_HORIZONTAL = 1
CNN3D_LAYER_PADDING = 'SAME'
cnn3d = tf.nn.conv3d(
input=u, filter=w,
strides=[1, CNN3D_LAYER_STRIDE_TEMPORAL, CNN3D_LAYER_STRIDE_VERTICAL, CNN3D_LAYER_STRIDE_HORIZONTAL, 1],
padding=CNN3D_LAYER_PADDING)
# Batch normalization.
cnn3d_bn = tf.contrib.layers.batch_norm(
cnn3d,
data_format='NHWC', # Matching the "cnn" tensor which has shape (?, 9, 120, 160, 96).
center=True,
scale=True,
is_training=training,
scope='cnn3d-batch_norm')
# Activation function.
cnn3d_bn_relu = tf.nn.relu(cnn3d_bn)
print(cnn3d_bn_relu) # Tensor("Relu_2:0", shape=(?, 9, 120, 160, 96), dtype=float32)
我想确定的是,上面的代码是否准确地实现了批处理规范化,如在秒末的[Ioffe & Szegedy 2015]中所述。3.2:
对于卷积层,我们还希望规范化遵守卷积属性,以便以相同的方式对同一特征图中位于不同位置的不同元素进行规范化。为了实现这一点,我们在一个小批量中对所有位置上的所有激活进行了联合规范化。[…]算法。对2进行了类似的修改,以便在推断期间,bn变换对给定特征图中的每个激活应用相同的线性变换。
更新
我想上面的代码对于3dconv的情况也是正确的。事实上,当我定义我的模型时,如果我打印所有可训练变量,我还会看到beta和gamma变量的预期数量。例如:
Tensor("conv3a/conv3d_weights/read:0", shape=(3, 3, 3, 128, 256), dtype=float32)
Tensor("BatchNorm_2/beta/read:0", shape=(256,), dtype=float32)
Tensor("BatchNorm_2/gamma/read:0", shape=(256,), dtype=float32)
这对我来说没问题,因为由于bn,每个特征图都会学习一对beta和gamma(总共256个)。
【IOffe&Szegedy 2015】:批量规范化:通过减少内部协变量移位加速深度网络培训
最佳答案
这是关于3dbatchnorm的一篇很好的文章,人们常常没有注意到,batchnorm可以应用于任何秩大于1的张量。您的代码是正确的,但我忍不住添加了一些重要的注意事项:
“标准”2d batchnorm(接受4d张量)在TensorFlow中的速度可能比3d或更高,因为它支持fused_batch_norm
实现,这适用于one kernel operation:
融合批处理规范结合了批处理所需的多种操作
标准化为单个内核。批量标准是一个昂贵的过程
对于某些型号来说,这在操作中占很大比例
时间。使用熔合批次规范可导致12%-30%的加速。
也有an issue on GitHub来支持3D过滤器,但最近没有任何活动,此时问题已解决。
尽管最初的文件规定在relu激活之前使用batchnorm(这就是您在上面的代码中所做的),但有证据表明在激活之后使用batchnorm可能更好。以下是Francois Chollet对Keras GitHub的评论:
…我可以保证最近由Christian[Szegedy]编写的代码
应用relu
在Bn之前。不过,这偶尔还是一个有争议的话题。
对于任何有兴趣在实践中应用规范化思想的人来说,这一思想的最新研究进展,即weight normalization和layer normalization,修复了原始batchnorm的某些缺点,例如,它们对LSTM和循环网络更有效。
关于python - 使用TensorFlow中的3D卷积进行批量标准化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41830723/