坐标下降和次梯度的解释
如何在套索背景下简单解释协调下降和次梯度解决方案。
一个直观的解释随后会有所帮助。
假设你有一个包含K
个变量/参数w
( w_1, w_2, w_3, ..., w_k
)的多变量函数F(W)
)。 参数是旋钮,目标是以F最小化函数F
的方式更改这些旋钮。 坐标下降是一种贪婪的方法,它意味着在每次迭代中改变参数w_i
的值以最小化F
它很容易实现,并且像梯度下降一样,它可以保证每次迭代时F
最小,并达到局部最小值。
通过Bing图像搜索从Internet上借用的图片
如上图所示,函数F
有两个参数x
和y
。 在每次迭代中,两个参数都被一个固定值c
改变,并且函数的值在新点上被评估。 如果该值较高并且目标是使功能最小化,则所选参数的改变将被颠倒。 然后对第二个参数进行相同的过程。 这是该算法的一个迭代。
使用坐标下降的一个优点是在计算函数的梯度是昂贵的问题。
来源
协调下降
梯度下降
上一篇: Explanation for Coordinate Descent and Subgradient
下一篇: Firefox randomly close XMLHttpRequest connection if inactive. Why?