Planet X

TensorFlow 学习笔记-入门篇

以前上机器学习课的时候就知道了TensorFlow框架,但一直没有上手使用过,这次暑假在计算所实习,老师安排的项目就跟TensorFlow有关,于是自学,顺便写点学习笔记。

学习思路是跟着TensorFlow官方文档的例子来练习。感谢极客公园的汉化版文档

P.s. 官方文档称目前TensorFlow支持C, C++, Python编程语言,但我印象中好像没有人使用C, C++来调用TensorFlow,原因是Python库提供了大量的辅助函数来简化构建图的工作,这些函数还没有被C, C++库支持。

安装

可以通过Pip,Docker,Virtualenv,Anaconda,源码编译等方法安装,具体过程见此网页

使用之前要理解的基本概念

Tensor(张量)

TensorFlow 使用Tensor(张量)这种数据结构来表示所有的数据。‘’TensorFlow‘’即意为张量在图节点之间的流动。

张量可以被理解为一个n维数组或者列表。一个张量带有一个数据类型维数

数据类型:有DT_FLOAT, DT_DOUBLE, DT_INT64等(在Python中分别表示为 tf.float32, tf.float64, tf.int64)。

维数(阶):在TensorFlow中,张量的维数被描述为,与矩阵的阶是不同的。可以认为一个零阶张量是一个纯量,一个一阶张量是一个向量,一个二阶张量是一个矩阵。

Graph(图)

TensorFlow使用图来表示计算任务。图中的每个节点被称为op (operation), 一个op获得0个或多个Tensor,产生0个或多个Tensor。这一点有点像构建数据库的底层操作时的架构,也是由很多op组成,数据在op间传递,每个op只负责对数据做相应的操作。

TensorFlow程序通常被组织成构建阶段执行阶段

构建图

构建图的第一步是创建源op,源op的输出被传给其他op继续做运算。

TensorFlow Python 库有一个默认图 (default graph), op 构造器可以为其增加节点. 这个默认图对 许多程序来说已经足够用了。

1
2
3
4
5
6
7
8
9
10
11
12
13
import tensorflow as tf
# 创建一个常量 op, 产生一个 1x2 矩阵. 这个 op 被作为一个节点
# 加到默认图中.
# 构造器的返回值代表该常量 op 的返回值.
matrix1 = tf.constant([[3., 3.]])
# 创建另外一个常量 op, 产生一个 2x1 矩阵.
matrix2 = tf.constant([[2.],[2.]])
# 创建一个矩阵乘法 matmul op , 把 'matrix1' 和 'matrix2' 作为输入.
# 返回值 'product' 代表矩阵乘法的结果.
product = tf.matmul(matrix1, matrix2)

默认图现在有三个节点, 两个 constant() op, 和一个matmul() op. 为了真正进行矩阵相乘运算, 并得到矩阵乘法的 结果, 你必须在会话启动这个图。

在会话(Session)里启动图

一个 TensorFlow 图描述了计算的过程。 为了进行计算, 图必须在会话里被启动。会话 将图的 op 分发到诸如 CPU 或 GPU 之类的设备上,同时提供执行 op 的方法。

构造阶段完成后,才能启动图。启动图的第一步是创建一个 Session 对象,如果无任何创建参数,会话构造器将启动默认图。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 启动默认图.
sess = tf.Session()
# 调用 sess 的 'run()' 方法来执行矩阵乘法 op, 传入 'product' 作为该方法的参数.
# 上面提到, 'product' 代表了矩阵乘法 op 的输出, 传入它是向方法表明, 我们希望取回
# 矩阵乘法 op 的输出.
# 整个执行过程是自动化的, 会话负责传递 op 所需的全部输入. op 通常是并发执行的.
# 函数调用 'run(product)' 触发了图中三个 op (两个常量 op 和一个矩阵乘法 op) 的执行.
# 返回值 'result' 是一个 numpy `ndarray` 对象.
result = sess.run(product)
print result
# ==> [[ 12.]]
# 任务完成, 关闭会话.
sess.close()

Session 对象在使用完后需要关闭以释放资源。除了显式调用close 外,也可以使用 with 代码块来自动完成关闭动作。

1
2
3
with tf.Session() as sess:
result = sess.run([product])
print result

在实现上, TensorFlow 将图形定义转换成分布式执行的操作, 以充分利用可用的计算资源(如 CPU 或 GPU). 一般你不需要显式指定使用 CPU 还是 GPU, TensorFlow 能自动检测. 如果检测到 GPU, TensorFlow 会尽可能地利用找到的第一个 GPU 来执行操作.

如果机器上有超过一个可用的 GPU, 除第一个外的其它 GPU 默认是不参与计算的. 为了让 TensorFlow 使用这些 GPU, 你必须将 op 明确指派给它们执行. with...Device 语句用来指派特定的 CPU 或 GPU 执行操作:

1
2
3
4
5
6
with tf.Session() as sess:
with tf.device("/gpu:1"):
matrix1 = tf.constant([[3., 3.]])
matrix2 = tf.constant([[2.],[2.]])
product = tf.matmul(matrix1, matrix2)
...

设备用字符串进行标识. 目前支持的设备包括:

  • "/cpu:0": 机器的 CPU.
  • "/gpu:0": 机器的第一个 GPU, 如果有的话.
  • "/gpu:1": 机器的第二个 GPU, 以此类推.

阅读使用GPU章节, 了解 TensorFlow GPU 使用的更多信息.

变量

变量维护图执行过程中的状态信息. 下面的例子演示了如何使用变量实现一个简单的计数器. 参见Variables 章节了解更多细节.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# 创建一个变量, 初始化为标量 0.
state = tf.Variable(0, name="counter")
# 创建一个 op, 其作用是使 state 增加 1
one = tf.constant(1)
new_value = tf.add(state, one)
update = tf.assign(state, new_value)
# 启动图后, 变量必须先经过`初始化` (init) op 初始化,
# 首先必须增加一个`初始化` op 到图中.
init_op = tf.initialize_all_variables()
# 启动图, 运行 op
with tf.Session() as sess:
# 运行 'init' op
sess.run(init_op)
# 打印 'state' 的初始值
print sess.run(state)
# 运行 op, 更新 'state', 并打印 'state'
for _ in range(3):
sess.run(update)
print sess.run(state)
# 输出:
# 0
# 1
# 2
# 3

代码中 assign() 操作是图所描绘的表达式的一部分, 正如 add() 操作一样. 所以在调用 run() 执行表达式之前, 它并不会真正执行赋值操作.

Fetch

为了取回操作的输出内容, 可以在使用 Session 对象的 run() 调用 执行图时, 传入一些 tensor, 这些 tensor 会帮助你取回结果. 在之前的例子里, 我们只取回了单个节点 state, 但是你也可以取回多个 tensor:

1
2
3
4
5
6
7
8
9
10
11
12
input1 = tf.constant(3.0)
input2 = tf.constant(2.0)
input3 = tf.constant(5.0)
intermed = tf.add(input2, input3)
mul = tf.mul(input1, intermed)
with tf.Session() as sess:
result = sess.run([mul, intermed])
print result
# 输出:
# [array([ 21.], dtype=float32), array([ 7.], dtype=float32)]

需要获取的多个 tensor 值,在 op 的一次运行中一起获得(而不是逐个去获取 tensor)。

Placeholder 和 Feed

在构建图的时候,往往会遇到不确定Tensor矩阵维数的情况,这种时候可以用placeholder把这个维数信息留空,在执行Session.run()的时候再把相应的维数大小作为参数“feed” 给相应的op。例如:

1
2
3
4
5
6
7
8
9
input1 = tf.placeholder(tf.float32)
input2 = tf.placeholder(tf.float32)
output = tf.mul(input1, input2)
with tf.Session() as sess:
print sess.run([output], feed_dict={input1:[7.], input2:[2.]})
# 输出:
# [array([ 14.], dtype=float32)]