Метод проекции градиента

Назначение сервиса. В онлайн-калькуляторе для нахождения условного экстремума функции используется основной алгоритм проекции градиента (случай линейных ограничений).

Для онлайн решения задачи на экстремум необходимо ввести При этом ограничения типа x_i ≥ 0 не учитывайте.

Рассмотрим задачу оптимизации при единственном линейном ограничении в виде равенства
f(x) → min, (1)
. (2)
В заданной точке x^k, в которой ▽f(x^k)≠0, делается попытка найти направление поиска, которое бы лежало на поверхности ограничения и являлось направлением спуска. Такое направление можно получить геометрически ортогонально проектируя вектор, противоположный ▽f(x^k) на поверхность ограничения (см. рис.1).

Рисунок 1

Здесь ▽f_c^k - проекция антиградиента на поверхность ограничений, которая приводит в допустимые точки. Действительно, для ∀α ≥ 0 точки, заданные соотношением
x = x^k-α▽f_c^k (3)
удовлетворяют линейному ограничению
.
Это направление задает спуск, т. к. угол между ▽f^k и ▽f_c^k больше 90°. Процесс ортогонального проектирования состоит в разложении вектора на две ортогональные компоненты: параллельную поверхности, заданной ограничением, и перпендикулярную к ней. Параллельная компонента является искомой проекцией градиента.
Пусть вектор a - нормаль к поверхности ограничения. Отметим, что из выражения a^TS=0 следует допустимость направления, задаваемого вектором S (S параллельно поверхности).
Т. о. все векторы, перпендикулярные к поверхности ограничения должны быть параллельны к a. Следовательно, для любого вектора S его компонента S’, перпендикулярная к поверхности ограничения, равняется значению a, умноженному на константу.
Обозначим через S” компоненту S, параллельную поверхности ограничения. Тогда S” удовлетворяет соотношению
a^TS”=0. (4)
Т.о. любой вектор можно представить в виде векторной суммы:
S=S′+S″, (5)
где S′=λa, а S”удовлетворяет уравнению a^TS”=0.
Найдем λ. Рассмотрим скалярное произведение a^TS. В силу (5) и (4) имеем
a^TS=a^Tλa+a^TS″= λa^Ta, (6)
откуда λ=(a^Ta)^-1a^TS. (7)
Из (5) найдем S″=S-S′=S- λa. Подставим сюда (7), получим
S″=S-a(a^Ta)^-1a^TS=(I- a(a^Ta)^-1a^T)S , (8)
где I- единичная матрица, порядок которой согласован с S. Матрица P=I- a(a^Ta)^-1a^T - проекционная матрица. Она проектирует вектор S на плоскость, задаваемую ограничением h(x).
Отметим, что P является симметрической и положительно полуопределенной. Симметричность P очевидна. Для доказательства положительной полуопределенности рассмотрим произведение y^TPy для произвольного y≠0. Тогда

Рисунок 2

Используя неравенство Шварца (y^Ta)²≤(y^Ty) (a^Ta), убеждаемся, что числитель неотрицателен.

Свойства проекций

Пусть S”=-P▽f (x^k) - направление спуска.
Если S”=0, то точка x^k удовлетворяет необходимым условиям Лагранжа. Вектор множителей Лагранжа задается выражением
λ=(AA^T)^-1A▽f. (9)
Первое утверждение следует из того, что матрица P симметрическая и положительно полуопределена. Действительно, имеем
x^k⁺¹=x^k-αP▽f (x^k); α≥0;
f(x^k+1)=f(x^k- αP▽f (x^k))= f(x^k)- α▽f^T(x^k+1)P▽f (x^k)
Так как

, то f^k⁺¹≤f^k, что и требовалось доказать.
Имеем S”=-P▽f, т. е. S“ - это проекция вектора ▽f на поверхность ограничений. Поэтому, если S”=0, значит градиент ▽f перпендикулярен поверхности ограничений.
Рассмотрим второе свойство. Т.к. S”=-P▽f, то произведение ▽f^TS”=-▽f^TP▽f≤0. Если S”=-P▽f=0, то следовательно ▽f∟S”, т. е. ▽f перпендикулярен поверхности ограничений. Тогда из формулы S=S’+S”=A^Tλ+S”=0 следует
▽f =A^Tλ. (10)
Т.к. строками матрицы A являются векторы коэффициентов в линейных ограничениях, то (10) представляет собой другую форму записи необходимого условия Лагранжа:

, (11)
где a_k - k-й вектор ограничений. Отсюда мы видим, что λ_k- это множители Лагранжа, т. е. множители функции

.
Необходимое условие экстремума:

;
▽h_k=a_k.
Нетрудно получить выражение для λ: S=S’+S”;

т.е. λ =(AA^T)^-1A▽f, (12)
где (AA^T)^-1 существует только в том случае, если значения a_k линейно независимы. Если имеются линейно зависимые ограничения, их следует исключить из рассмотрения.

Основной алгоритм проекций градиента

Вычислить матрицу P=I-A^T(AA^T)^-1A в предположении, что векторы a_k линейно независимы. Задать ε>0- погрешность сходимости. Пусть найдена допустимая точка x^k.
Шаг 1. Вычислить S^k=-P▽f (x^k).
Шаг 2. Если |S^k|≤ ε, то вычислить λ по формуле (9) и закончить вычисления. В противном случае - продолжить вычисления. Переход на Шаг 3.
Шаг 3. Определить максимальную длину шага:

Шаг 4. Решить задачу одномерного поиска:
f(x^k+αS^k)→min; 0≤α≤ α_max.
Шаг 5. Положить x^k⁺¹=x^k+α S^k → Шаг 1.
Замечание. Мы рассмотрели алгоритм, в котором используются линейные равенства. Но его можно легко распространить на неравенства, используя либо дополнительные переменные, либо активные ограничения, что предпочтительнее, т. к. второй способ позволяет уменьшить размерность.
При использовании второго способа с помощью получаемой по формуле (12) оценки множителей Лагранжа осуществляется поочередное исключение ограничений из множества активных ограничений. Модификация выглядит следующим образом. В заданной точке x^k для определения активного множества проверяются ограничения в виде неравенств: a_j^Tx≥b_j, j=1..m.
Составляется матрица ограничений из строк, соответствующих активным ограничениям. Вычисляется проекционный оператор P и проекция S^k. Если |S^k|≤ ε, то вычисляем множители Лагранжа:
λ=(AA^T)^-1A▽f (x^k).
Если все λ_i≥0, то решение найдено. В противном случае ограничение с наибольшим по модулю множителем Лагранжа исключается из множества активных ограничений, вычисляется заново P и делается переход на Шаг 1.

Пример №1. f(x)=2*x₁²+2*x₂²-2*x₁*x₂-4*x₁-6*x₂
X⁰=(0;0)
g₁: x₁+x₂≤2
g₂: x₁+5*x₂≤5
g₃: x₁ ≥ 0
g₄: x₂ ≥ 0
Определим градиент целевой функции:

▽ f(X) =

4*x₁-2*x₂-4

-2*x₁+4*x₂-6

Перепишем систему ограничений в следующем виде: ax ≥ b
Тогда A⁰:

A⁰=

-1	-1
-1	-5
1	0
0	1

Итерация 0.

▽ f(X₀) =

-4

-6

В точке x⁰ активные ограничения [3, 4]. Поэтому имеем:

A⁰=

1	0
0	1

Шаг 1.

P=I-A^T(AA^T)^-1A =

1	0
0	1

1	0
0	1

0	0
0	0

S⁰=-P ▽ f(X₀) = -

0	0
0	0

-4

-6

Шаг 2. |S⁰|=0 ≤ 0.01
Следовательно, необходимо проверить соответствующие ограничения и множители:

λ = (AA^T)^-1A ▽ f(X₀) =

-4

-6

Так как λ₂ наибольший по модулю множитель, 2-е активное ограничение исключается.
A⁰=(1;0)
Шаг 1.
В точке x⁰ нет активных ограничений. P=I

S⁰=-P ▽ f(X₁) = -

1	0
0	1

-4

-6

Шаг 2. |S⁰|=7.2111>0.01
Шаг 3.

λ_min = (0.2; 0.147; 0; 0) = 0.147
Шаг 4. Ищем минимум вдоль прямой:

X = X₁ + hS¹ =

+ h

4.0*h

6.0*h

f(X) = 2*(4.0*h)²+2*(6.0*h)²-2*(4.0*h)*(6.0*h)-4*(4.0*h)-6*(6.0*h) → min
Найдем такой шаг h, чтобы целевая функция достигала минимума вдоль этого направления. Из необходимого условия существования экстремума функции (f'(x₁)=0):
112.0*h-52.0=0
0 ≤ h ≤ 0.147
h=0.464, лежит вне интервала.
Шаг 5. X¹ = (0.588;0.882)
Итерация 1.

▽ f(X₂) =

-3.412

-3.647

В точке x¹ активные ограничения [2]. Поэтому имеем:

A¹=

-1

-5

Шаг 1.

P=I-A^T(AA^T)^-1A =

1	0
0	1

0,0385	0,192
0,192	0,962

0,962	-0,192
-0,192	0,0385

S¹=-P ▽ f(X₂) = -

0,962	-0,192
-0,192	0,0385

-3.412

-3.647

2.579

-0.516

Шаг 2. |S¹|=2.6303>0.01
Шаг 3.

g₂: λ_max = max(0, ∞)

λ_min = (0.969; ∞; 0; 0) = 0.969
Шаг 4. Ищем минимум вдоль прямой:

X = X₂ + hS² =

0.588

0.882

+ h

2.579

-0.516

2.5792*h+0.58823

-0.51584*h+0.88235

f(X) = 2*(2.5792*h+0.58823)²+2*(-0.51584*h+0.88235)²-2*(2.5792*h+0.58823)*(-0.51584*h+0.88235)-4*(2.5792*h+0.58823)-6*(-0.51584*h+0.88235) → min
Найдем такой шаг h, чтобы целевая функция достигала минимума вдоль этого направления. Из необходимого условия существования экстремума функции (f'(x₂)=0):
32.995*h-6.9183=0
0 ≤ h ≤ 0.969
h=0.21; x=(1.129;0.774)
Шаг 5. X² = (1.129;0.774)
Итерация 2.

▽ f(X₃) =

-1.032

-5.161

В точке x² активные ограничения [2]. Поэтому имеем:

A²=

-1

-5

Шаг 1.

P=I-A^T(AA^T)^-1A =

1	0
0	1

0,0385	0,192
0,192	0,962

0,962	-0,192
-0,192	0,0385

S²=-P ▽ f(X₃) = -

0,962	-0,192
-0,192	0,0385

-1.032

-5.161

Шаг 2. |S²|=0 ≤ 0.01
Следовательно, необходимо проверить соответствующие ограничения и множители:
λ = (AA^T)^-1A ▽f(X₃) = 1.032
λ≥0. Таким образом, точка x² удовлетворяет условиям Куна-Таккера.
Ответ: x = (1.129;0.774)

Пример №2. f(x)=(x₁-1)²+(x₂-2)²→min
g₁=x₁-2x₂≥-2
g₂=-x₁-x₂≥-4
g₃=x₁≥0
g₄=x₂≥0

Рис. 3

В точке x⁰ ограничения g₁ и g₂ неактивные, а ограничения g3=0 и g₄=0, т. е. активные. Поэтому a₃=(1,0); a₄=(0,1).
Имеем ; AA^T=I, P=(I-I) =0.
Шаг 1. . Следовательно, необходимо проверить соответствующие ограничения и множители
.
Так как λ₂ - наибольший по модулю множитель, второе активное ограничение g₄≥0 исключается. При этом активное множество сокращается до одного единственного ограничения g₃≥0.
Таким образом, A=(1,0); AA^T=1 - скаляр.
Следовательно .
Шаг 1. .
Шаг 2. Т. к. |S⁰|=4>ε, то переход на Шаг 3.

Шаг 3.

Шаг 4. Ищем минимум вдоль прямой:

;

.
Шаг 5. x¹=(0;1).
В этой новой точке опять проверяем ограничения на активность. Ясно, что ограничения g₁≥0 и g₃≥0 активные. Таким образом

Следовательно, S=-P▽f (x¹)=0.
Вектор ▽f(x¹)=(-2;-2);

=(1;-3).
Т. к. λ₂<0, то второе активное ограничение g₃≥0 исключаем из множества активных ограничений. Теперь активное множество состоит только из g₁. Следовательно A=(1,-2);

.
Шаг 1.

.
Шаг 2. |S¹|>0, следовательно, продолжаем.
Шаг 3. Длина шага λ_max=5/6 определяется ограничением g₂≥0.
Шаг 4. Ищем минимум функции f(x) вдоль прямой:

;
f(x)=(2.4α-1)²+(1+1.2α-2)², откуда α=1/2.
Шаг 5. x²=(1.2;1.6). В этой точке активно только первое ограничение. Множество активных ограничений остается без изменений и следовательно нет необходимости пересчитывать P. В точке x² имеем: