§ 4. Метод Ньютона

... это они от радости усложняют, из увлечения умственным трудом — раньше они голыми руками работали и без смысла в голове; пусть теперь радуются своему разуму.

— Ну, ладно, — понял Копенкин, — тогда им надо получше усложнять, следует в полной мере помочь. Ты выдумай им что-нибудь ... неясное.

А. Платонов. Чевенгур

Здесь описывается и обсуждается важнейший метод второго порядка - метод Ньютона.

Если исходить из того, что необходимым этапом нахождения решения задачи

где f: R^m → R, является этап нахождения стационарных точек, т. е.точек, удовлетворяющих уравнению

(обозначение F для f ′ мы будем сохранять на протяжении всего параграфа), то можно попытаться решать уравнение (2) известным методом Ньютона решения нелинейных уравнений

Формула (3) может быть выведена, исходя из следующих соображений. Пусть xⁿ — некоторое приближенное решение уравнения (2). Тогда если заменить функцию F в уравнении (2) ее линейным приближением

и взять в качестве следующего приближения решение уравнения

Применительно к задаче (1) эти соображения выглядят так. Пусть так же, как и в п. 3.2 у нас уже есть некоторое приближенное решение xⁿ задачи (1). Заменим в ней функцию f ее приближением второго порядка:

f(x) ≈ φ(x) ≝ f(xⁿ) + (f ′(xⁿ), x – xⁿ) +

(f ′′(xⁿ)(x – xⁿ), x – xⁿ)

и в качестве следующего приближения возьмем решение задачи

З а д а ч а 4.1*. Докажите, что если f ′′(xⁿ) > 0, то решение задачи (6) задается формулой (4).

Геометрическая интерпретация формул (3) и (4) приведена на рис. 10а и 10б.

Метод Ньютона относится к методам второго порядка, поскольку для вычисления каждой итерации требуется знание второй производной функции f. По тем же соображениям градиентный метод относят к методам первого порядка. Подчеркнем, что здесь речь идет не о порядке сходимости метода, а о порядке используемых методом производных минимизируемой функции.

Д о к а з а т е л ь с т в о. Очевидно, F = f ′ ∈ C¹ и поэтому

Поскольку F ′(x*) невырожден, в силу (7) при x достаточно близких к x* невырожден и оператор F ′(x) и более того,

Поэтому, в частности, при x достаточно близких к x*

Далее, в силу того, что F дифференцируема, а x* — стационарная точка,

x – x* – [F ′(x)]^–1F(x) = [F ′(x)]^–1F ′(x)(x – x*) – [F ′(x)]^–1F(x) =

= [F ′(x)]^–1[F ′(x)(x – x*) – F(x)] = o(x – x*).

xⁿ⁺¹ – x* = xⁿ – [F ′(xⁿ)]^–1F(xⁿ) – x* ≝

≝ φ(xⁿ – x*) = o(xⁿ – x*).

(9)

Возьмем теперь в качестве V_x*, например, окрестность {x ∈ R^m: ||ψ(x – x*)|| ≤ ||x – x*||/2}. В силу (9), очевидно, если x⁰ ∈ V_x*, то

||xⁿ⁺¹ – x*|| ≤

||xⁿ – x*|| ≤ ... ≤

2ⁿ⁺¹

||x⁰ – x*||

и, следовательно, xⁿ → x* при n→ ∞. Более того, для произвольного q ∈ (0, 1) найдется ε > 0 такое, что ||ψ(x – x*)|| ≤ q||x – x*|| при ||x – x*|| ≤ ε. Но тогда, если ||xⁿ – x*|| ≤ε, то ||xⁿ⁺¹ – x*|| ≤ q||xⁿ – x*||. Из последнего утверждения очевидным образом вытекает нужное соотношение ||xⁿ – x*|| ≤ Cqⁿ.

Таким образом, метод Ньютона, с одной стороны, может сходиться с более высоким чем градиентный метод порядком, а, с другой стороны, для его сходимости требуются достаточно хорошие начальные приближения (по крайней мере так требуется в доказанной теореме). Простой геометрический пример (см. рис. 11) подтверждает эту особенность метода (мы приводим пример для уравнения (2); соответствующий пример для задачи (1) получается "интегрированием" рис. 11).

Разумеется, как метод второго порядка, метод Ньютона требует большего объема вычислительной работы, поскольку приходится вычислять вторые производные функции f.

К этому сводятся основные преимущества (высокий порядок сходимости) и недостатки (локальный характер сходимости и больший объем вычислений) метода Ньютона.

Если функция f дополнительно сильно выпукла, то можно утверждать сходимость именно к решению задачи (1), а не только к стационарной точке функции f, и, кроме того, оценить радиус окрестности, из которой приближения Ньютона сходятся.

Пусть f ∈ C² и, более того, f ′′ удовлетворяет условию Липшица с константой L. Пусть f сильно выпукла с константой λ. Пусть V_x* — окрестность решения задачи (1), состоящая из точек x ∈ R^m таких, что

Д о к а з а т е л ь с т в о. По теореме 2.9 и 2.10 в условиях нашей теоремы решение x* задачи (1) существует и единственно. Воспользуемся аналогом формулы Ньютона — Лейбница для функции f ′:

Вычитая из обеих частей этого равенства f ′′(xⁿ)h = ∫₀¹f ′′(xⁿ)h dsи учитывая, что f ′′ удовлетворяет условию Липшица, получаем (ср.).

||f ′(xⁿ + h) – f ′(xⁿ) – f ′′(xⁿ)h|| ≤

∫

1

0

[f ′′(xⁿ + sh) – f ′′(xⁿ)]hds

≤

∫

1

0

||f ′′(xⁿ + sh) – f ′′(xⁿ)|| · || h|| ds ≤

∫

1

0

Ls||h||²ds =

||h||².

Положим в полученной оценке h = –[f ′′(xⁿ)]^–1f ′(xⁿ):

||f ′(xⁿ + h) – f ′(xⁿ) + f ′′(xⁿ)[f ′′(xⁿ)]^–1f ′(xⁿ)|| = || f ′(xⁿ⁺¹)|| ≤

≤

||[f ′′(xⁿ)]^–1f ′(xⁿ)||² ≤

||[f ′′(xⁿ)]^–1||²·||f ′(xⁿ)||².

(10)

З а д а ч а 4.2*. Докажите, что если обратимый линейный оператор A на R^m удовлетворяет оценке A ≥ λ, то ||A^–1|| ≤ λ^–1.

Поскольку f сильно выпукла, в силу задачи 2.15, f ′′(xⁿ) ≥ λ и поэтому (см. пред. задачу) ||[f ′′(xⁿ)]^–1|| ≤ λ^–1. Продолжая неравенство (10), получаем

С помощью (11) индукцией по n легко доказывается неравенство

||f ′(xⁿ)|| ≤

(

2λ²

)

2ⁿ–1

||f ′(x⁰)||^2ⁿ =

2λ²

(

2λ²

||f′(x⁰)||

)

2ⁿ

2λ²

q²ⁿ.

(12)

Наконец, в силу сильной выпуклости f, так как x* — решение задачи (1) и, следовательно, f ′(x*) = Θ,

λ||xⁿ – x*|| ² ≤ (f ′(x*), xⁿ – x*) ≤ ||f ′(x*)|| · ||xⁿ – x*||,

откуда ||f ′(x*)|| ≥ λ|| xⁿ – x*||. Тогда из (12) следует нужное неравенство.

Из доказанной теоремы следует, что чем меньше константа Липшица отображения x → f ′′(x), т. е. чем ближе это отображение к константе, и, следовательно, чем ближе функция f к квадратичной, тем быстрее сходится метод Ньютона. В частности, если f квадратична: f(x) = (Ax, x)/2 + (b, x) + c, то метод Ньютона конечен, а именно, сходится за один шаг, причем из любой начальной точки.

Если снизить требования гладкости на функцию f, например, отказаться от условия Липшица для f ′′, то скорость сходимости, вообще говоря, падает.

З а д а ч а 4.4. Покажите, что для функции f(x) = |x|^5/2 метод Ньютона сходится лишь линейно.

Как позволяет думать теорема 4.4, метод Ньютона даже для сильно выпуклых функций в общем случае сходится лишь локально. В следующем пункте мы описываем модификации этого метода, которые могут обладать свойством глобальной сходимости.

Эти методы еще называют методами Ньютона — Рафсона, или демпфированными методами Ньютона. Они строятся по аналогии с градиентными методами с переменным шагом. Общий вид их таков

Длина шага может выбираться с помощью алгоритма дробления шага (см. п. 3.9), требуя, например, выполнения неравенства

f(xⁿ⁺¹) = f(xⁿ –αⁿ[f ′′(xⁿ)]^–1f ′(xⁿ)) ≤

≤ f(xⁿ) – εαⁿ(f ′(xⁿ), [f ′′(xⁿ)]^–1f ′(xⁿ)),

или, как в методе наискорейшего спуска полагая

Этот метод основан на следующей идее. Чтобы избежать расходимости приближений метода Ньютона, вызванных неудачным выбором начального приближения (см. рис. 11), можно попытаться запретить следующей итерации быть слишком далеко от предыдущей. Для этого следующую итерацию ищут из условия

где lⁿ — некоторый параметр (вообще говоря, свой на каждом шаге). Первые три слагаемых в определении функции φ представляют собой квадратичную аппроксимацию функции f, а последнее слагаемое — "штраф", не позволяющий точке xⁿ⁺¹ уходить далеко от точки xⁿ (с идеями метода штрафов мы еще столкнемся ниже). Минимум (по крайней мере, стационарная точка) функции φ вычисляется в явном виде из следующего уравнения (относительно x)

xⁿ⁺¹ = argmin φ(x) = xⁿ – [f ′′(xⁿ) + lⁿI]^–1f ′(xⁿ).

(13)

Очевидно, что если lⁿ = 0, то (13) представляет собой метод Ньютона, а если lⁿ велико, то (поскольку [f ′′(xⁿ) + lⁿI]^–1 ≈ (lⁿ)^–1I при больших lⁿ) формула (13) близка к градиентному методу. Поэтому, подбирая значения параметра lⁿ, можно добиться, чтобы метод (13), во-первых, сходился глобально, и во-вторых, квадратично. Можно, например, выбирать lⁿ из следующих соображений: угол между направлениями шага и антиградиента должен быть острым, а значение функции на каждом шаге должно квалифицировано убывать. В этом случае lⁿ должно удовлетворять следующим условиям (здесь мы обозначаем "антинаправление" шага [f ′′(xⁿ) + lⁿI]^–1f ′(xⁿ) через yⁿ)

В некоторых задачах более существенным недостатком метода Ньютона является его большая вычислительная трудность: на каждом шаге требуется вычисление оператора (матрицы) f ′′(xⁿ) и его (ее) обращение, что при больших размерностях стóит в вычислительном плане очень дорого. Один из способов обхода этих трудностей состоит в "замораживании" оператора f ′′(xⁿ) — использовании на каждом шаге [f ′′(x⁰)]^–1 взамен [f ′′(xⁿ)]^–1:

Геометрическая интерпретация модифицированного метода Ньютона (14) изображена на рис. 12.

Можно показать, что при естественных ограничениях модифицированный метод Ньютона сходится лишь линейно (это плата за уменьшение объема вычислений). Можно также не замораживать оператор [f ′′(xⁿ)]^–1 навсегда, а обновлять его через определенное число шагов, скажем k:

здесь [a] в верхнем индексе обозначает целую часть числа a. Можно доказать, что если функция f сильно выпукла и f ′′ удовлетворяет условию Липшица, то

т. е. за k шагов порядок погрешности уменьшается в k + 1 раз, что соответствует следующей оценке погрешности на каждом шаге:

Другими словами, метод (15) является методом ^k√k+1-го порядка сходимости. Таким образом, метод (15) занимает промежуточное положение между методом Ньютона (k = 1) и модифицированным методом Ньютона (14) (k = ∞) как по скорости сходимости, так и по объему вычислений.

Другой способ уменьшения объема работы, связанного с вычислением функции f ′′(xⁿ) описывается в следующем пункте.

Напомним, что метод секущих решения уравнения (2) заключается в приближенной замене функции F в этом уравнении не касательной y = F(xⁿ) + F ′(xⁿ)(x – xⁿ), а секущей гиперплоскостью. Например, в одномерном случае — прямой y = F(xⁿ) + (F(xⁿ) – F(x^n–1))(x – xⁿ) /(xⁿ – x^n–1) (см. рис. 13). Эта замена приводит (в скалярном случае!) к следующему методу решения задачи (1):

xⁿ⁺¹ = xⁿ –

xⁿ – x^n–1

f ′(xⁿ) – f ′(x^n–1)

f ′(xⁿ),

В многомерном случае поступают следующим образом. Пусть xⁿ, x^n–1, ..., x^n–m — уже вычисленные m + 1 итерации. Для каждой компоненты f_j′ функции f ′ (j = 1, ..., m) построим в R^m+1 гиперплоскость S_j, проходящую через m + 1 точку (xⁱ, f_j′(xⁱ)) (i = n – m, ..., n) графика этой компоненты. Пусть P — "горизонтальная" проходящая через нуль гиперплоскость в R^m+1: P = {(x, y) ∈ R^m×R; y = 0}. В качестве xⁿ⁺¹ возьмем точку пересечения гиперплоскостей P и S_j:

Несложные рассуждения показывают, что xⁿ⁺¹ можно вычислять так. Пусть α⁰, ..., αⁿ — решение системы

Затем описанные действия повторяются для точек xⁿ⁺¹, xⁿ, ..., x^n–m+1.

Отметим, что поскольку на каждом шаге в системе (16) меняется лишь один столбец, то ее решение на каждом шаге можно обновлять с помощью специальной процедуры, не требующей большого объема вычислений.

Отметим, что метод секущих, в отличие от ранее рассматривавшихся методов, не является одношаговым в том смысле, что для вычисления следующей итерации ему не достаточно информации, полученной на предыдущем шаге — нужна информация, полученная на m + 1 предыдущих шагах. Такие методы называются многошаговыми. В следующем параграфе мы рассмотрим ряд таких методов. Методы же Ньютона и градиентный являются одношаговыми: для вычисления xⁿ⁺¹ требуется знать поведение функции и ее производных только в точке xⁿ.

File based on translation from T_EX by T_TH, version 3.05.
Created 7 Jun 2002, 21: 38.