我用tensorflow解这个方程组:

f1 = y - x*x = 0
f2 = x - (y - 2)*(y - 2) + 1.1 = 0

python - 使用 tensorflow 逃避局部最小值-LMLPHP
如果我选择了错误的起点(x,y)=(-1.3,2),那么我将进入局部最小值,用此代码优化f1^2+f2^2:
f1 = y - x*x
f2 = x - (y - 2)*(y - 2) + 1.1
sq=f1*f1+f2*f2
o = tf.train.AdamOptimizer(1e-1).minimize(sq)
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run([init])
    for i in range(50):
        sess.run([o])
        r=sess.run([x,y,f1,f2])
        print("x",r)

如何使用内置的TensorFlow工具逃逸此局部极小值?有没有其他的TF方法可以用来解决这个方程,从这个坏点开始?

最佳答案

目前,还没有内置张量流的全局优化方法通过ScipyOptimizerInterface有一个窗口打开了scipy world,但它(当前?)只包装scipy的minimize,这是一个局部最小化。
但是,您仍然可以将tensorflow的执行结果视为任何其他函数,这些函数可以提供给您选择的优化器。假设您想使用scipy的basinhopping全局优化器进行实验你可以写

import numpy as np
from scipy.optimize import basinhopping
import tensorflow as tf

v = tf.placeholder(dtype=tf.float32, shape=(2,))
x = v[0]
y = v[1]

f1 = y - x*x
f2 = x - (y - 2)*(y - 2) + 1.1
sq = f1 * f1 + f2 * f2
starting_point = np.array([-1.3, 2.0], np.float32)

with tf.Session() as sess:
  o = basinhopping(lambda x: sess.run(sq, {v: x}), x0=starting_point, T=10, niter=1000)
print(o.x)
# [0.76925635 0.63757862]

(我不得不调整basinhopping的温度和迭代次数,因为默认值通常不会让解决方案脱离以局部最小值为起点的区域)。
通过将tensorflow视为优化器的黑匣子,您发现后者无法访问tensorflow自动计算的渐变从这个意义上说,它不是最优的——尽管你仍然可以从计算函数的gpu加速中获益。
编辑
由于您可以显式地将梯度提供给basinhopping使用的局部极小值,因此您可以输入tensorflow梯度的结果:
import numpy as np
from scipy.optimize import basinhopping
import tensorflow as tf

v = tf.placeholder(dtype=tf.float32, shape=(2,))
x = v[0]
y = v[1]

f1 = y - x*x
f2 = x - (y - 2)*(y - 2) + 1.1
sq = f1 * f1 + f2 * f2
sq_grad = tf.gradients(sq, v)[0]
init_value = np.array([-1.3, 2.0], np.float32)

with tf.Session() as sess:
  def f(x):
    return sess.run(sq, {v: x})
  def g(x):
    return sess.run(sq_grad, {v: x})
  o = basinhopping(f, x0 = init_value, T=10.0, niter=1000, minimizer_kwargs={'jac': g})
print(o.x)
# [0.79057982 0.62501636]

出于某种原因,这比不提供梯度要慢得多——但是可能是提供了梯度,最小化算法不一样,所以比较可能没有意义。

09-10 00:04
查看更多