今天利用TensorFlow来实现多层神经网络的设计,并用手写数字数据库对模型进行训练和测试。

多层神经网络又叫多层感知机(Multi-layer Perception,MLP),多层神经网络包含输入层,输出层,隐藏层。隐藏层相当于模型的黑箱部分。理论上只要隐藏层包含的节点足够多,即使只有一个隐藏层的神经网络也可以拟合任意函数。隐藏层越多,越容易拟合复杂函数。理论研究表明,喂你喝复杂函数需要的隐藏层节点的数目,基本上随着隐藏层的数量增多成指数下降趋势。也就是说层数越多,神经网络所需要的隐含节点可以越少。

今天用到的模块和版本号:
Python版本:3.5.3
Tensorflow版本:1.0.1

首先导入数据

1
2
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

然后就可以建立模型了

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
in_units = 784
h1_units = 300
W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))
b1 = tf.Variable(tf.zeros([h1_units]))
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))
x = tf.placeholder(tf.float32, [None, in_units])
y_ = tf.placeholder(tf.float32, [None, 10])
keep_prob = tf.placeholder(tf.float32)
hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
hidden1_drop = tf.nn.dropout(hidden1, keep_prob)
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)
# Define loss and optimizer
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)

模型中,隐藏层的节点数设为300,在隐藏层中,用ReLU作为激活函数,这样可以防止多层神经网络中的梯度弥散。并在隐藏层中添加dropout层,Dropout可以用来防止过拟合。输出层用Softmax作为激活函数。

模型设计完成之后,就可以对模型参数进行初始化

1
2
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()

最后就可以对模型进行训练,并验证识别的正确率。对模型进行3000次训练,训练过程中,每训练100次用测试数据对模型进行测试并输出测试结果

1
2
3
4
5
6
7
for i in range(3001):
batch_xs, batch_ys = mnist.train.next_batch(100)
train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})
if (i) % 100 == 0:
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(int((i) / 100), ':', accuracy.eval({x: mnist.test.images, y_: mnist.test.labels,keep_prob: 1.0}))

最后得到输出图如下

可以看出,最终模型的正确率在98%左右,相比较之前的单层神经网络有了不小的提高。

参考资料:

  • 《TensorFlow 实战》