Blame
|
1 | # Konvexní funkce |
||||||
| 2 | ||||||||
| 3 | <div style="visibility:hidden;height:0;overflow:hidden;margin:0;padding:0"> |
|||||||
| 4 | ||||||||
| 5 | ```math |
|||||||
| 6 | \newcommand{\LetThereBe}[2]{\newcommand{#1}{#2}} \newcommand{\letThereBe}[3]{\newcommand{#1}[#2]{#3}} |
|||||||
| 7 | \letThereBe{\addTag}{2}{\cssId{#1-#2}{\tag{#2}}} \letThereBe{\addLabel}{2}{\cssId{#1-#2}{\text{#2}}} \letThereBe{\refTag}{2}{\href{###1-#2}{(\text{#2})}} |
|||||||
| 8 | \letThereBe{\eqT}{1}{\addTag{eq}{#1}}\letThereBe{\secT}{1}{\addLabel{sec}{#1}} |
|||||||
| 9 | \letThereBe{\eqRef}{1}{\refTag{eq}{#1}} \letThereBe{\secRef}{1}{\refTag{sec}{#1}} |
|||||||
| 10 | \LetThereBe{\R}{\mathbb{R}} \LetThereBe{\N}{\mathbb{N}} |
|||||||
| 11 | \letThereBe{\rcases}{1}{\left.\begin{align}#1\end{align}\right\}} |
|||||||
| 12 | \letThereBe{\rcasesAt}{2}{\left.\begin{alignat}{#1}#2\end{alignat}\right\}} |
|||||||
| 13 | \letThereBe{\lcases}{1}{\begin{cases}#1\end{cases}} |
|||||||
| 14 | \letThereBe{\lcasesAt}{2}{\left\{\begin{alignat}{#1}#2\end{alignat}\right.} |
|||||||
| 15 | \letThereBe{\scal}{2}{\langle #1, #2 \rangle} \letThereBe{\norm}{1}{\left\lVert #1 \right\rVert} \LetThereBe{\dist}{\rho} |
|||||||
| 16 | \LetThereBe{\and}{\&}\letThereBe{\brackets}{1}{\left\{ #1 \right\}} |
|||||||
| 17 | \letThereBe{\parc}{2}{\frac {\partial #1}{\partial #2}} |
|||||||
| 18 | \letThereBe{\mtr}{1}{\begin{pmatrix}#1\end{pmatrix}} |
|||||||
| 19 | \letThereBe{\bm}{1}{\boldsymbol{#1}} \letThereBe{\mcal}{1}{\mathcal{#1}} |
|||||||
| 20 | \letThereBe{\vv}{1}{\mathbf{#1}}\letThereBe{\vvp}{1}{\pmb{#1}} |
|||||||
| 21 | \LetThereBe{\ve}{\varepsilon} \LetThereBe{\l}{\lambda} \LetThereBe{\th}{\vartheta} \LetThereBe{\a}{\alpha} |
|||||||
| 22 | \letThereBe{\conv}{1}{\mathrm{conv}\, #1} \letThereBe{\cone}{1}{\mathrm{cone}\, #1} |
|||||||
| 23 | \letThereBe{\aff}{1}{\mathrm{aff}\, #1} \letThereBe{\lin}{1}{\mathrm{Lin}\, #1} \letThereBe{\span}{1}{\mathrm{span}\, #1} |
|||||||
| 24 | \LetThereBe{\O}{\mathcal O} |
|||||||
| 25 | \letThereBe{\ri}{1}{\mathrm{ri}\, #1} \letThereBe{\rd}{1}{\mathrm{r}\partial\, #1} \letThereBe{\interior}{1}{\mathrm{int}\, #1} |
|||||||
| 26 | \LetThereBe{\proj}{\Pi} \letThereBe{\epi}{1}{\mathrm{epi}\, #1} |
|||||||
| 27 | \letThereBe{\grad}{1}{\mathrm{grad}\, #1} \letThereBe{\hess}{1}{\nabla^2\, #1} |
|||||||
| 28 | \letThereBe{\subdif}{1}{\partial #1} \letThereBe{\co}{1}{\mathrm{co}\, #1} |
|||||||
| 29 | \letThereBe{\iter}{1}{^{[#1]}} |
|||||||
| 30 | \letThereBe{\set}{1}{\left\{ #1 \right\}} |
|||||||
| 31 | ``` |
|||||||
| 32 | ||||||||
| 33 | </div> |
|||||||
| 34 | ||||||||
| 35 | ##### **Definice** $\secT{2.2.1}$ (Konvexní funkce) |
|||||||
| 36 | Nechť $X \subseteq \R^n$ je **konvexní** množina. Funkce $f: X \to \R$ se nazývá |
|||||||
| 37 | - **konvexní** na $X$, jestliže pro všechna $x_1, x_2 \in X$ a každé $\l \in [0,1]$ platí |
|||||||
| 38 | ||||||||
| 39 | ```math |
|||||||
| 40 | f(\l x_1 + (1 - \l)x_2) \leq \l f(x_1) + (1-\l) f(x_2) \eqT{2.2.1} |
|||||||
| 41 | ``` |
|||||||
| 42 | ||||||||
| 43 | - **ostře konvexní** na $X$, jestliže nerovnost $\eqRef{2.2.1}$ je **ostrá** pro všechna $x_1, x_2 \in X, x_1 \neq x_2$ a každé $\l \in (0,1)$. |
|||||||
| 44 | - **silně konvexní** na $X$ s **konstantou silné konvexnosti** $\th > 0$, jestliže pro všechna $x_1, x_2 \in X$ a každé $\l \in [0,1]$ platí |
|||||||
| 45 | ||||||||
| 46 | ```math |
|||||||
| 47 | \underbrace{f(\l x_1 + (1 - \l)x_2) \leq \l f(x_1) + (1 - \l) f(x_2)}_{\eqRef{2.2.1}} - \th \l(1-\l)\norm{x_1 - x_2}^2 \eqT{2.2.2} |
|||||||
| 48 | ``` |
|||||||
| 49 | ||||||||
| 50 | > V praxi je **silná** konvexnost "silnější" než **ostrá** konvexnost a ta je silnější než "*obyčejná*" konvexnost |
|||||||
| 51 | ||||||||
| 52 | ##### **Věta** $\secT{2.2.2}$ (Konvexnost nadgrafu) |
|||||||
| 53 | Nechť $X \subseteq \R^n$ je *konvexní* množina a nechť $f : X \to \R$. Funkce $f$ je **konvexní** na $X$ právě tehdy, když její **nadgraf** (**epigraf**) |
|||||||
| 54 | ||||||||
| 55 | $$\epi f := \brackets{\underbrace{[x, \beta]}_{\text{bod}} \in \R^{n+1} \mid x \in X, \beta \geq f(x)}$$ |
|||||||
| 56 | ||||||||
| 57 | je **konvexní** množina. |
|||||||
| 58 | ||||||||
| 59 | --- |
|||||||
| 60 | ||||||||
| 61 | Pro **ostře** konvexní funkci musí "tyto dva body" vždy ležet nad sebou (myšleny jejich souřadnice na ose $y$). Navíc pro **silnou** konvexnost mezi nimi musí vždy být alespoň daná mezera. |
|||||||
|
62 | |||||||
| 63 |  |
|||||||
|
64 | |||||||
| 65 | > Tyto body **nemusí** ležet nad sebou (na svislé přímce). Navíc ještě |
|||||||
| 66 | > |
|||||||
| 67 | > $f$ **konvexní** $\iff$ $-f$ **konkávní** |
|||||||
| 68 | ||||||||
| 69 | ### Kombinace konvexních funkcí |
|||||||
| 70 | ||||||||
| 71 | ##### **Věta** $\secT{2.2.3}$ (Nezáporná linearní kombinace konvexních funkcí) |
|||||||
| 72 | Nechť $X \subseteq \R^n$ je konvexní množina, funkce $f_1, \dots, f_m: X \to \R$ jsou konvexní na $X$ a $\a_1, \dots, \a_m \geq 0$ jsou daná čísla. Potom $F(x) = \a_1 f_1(x) + \dots + \a_m f_m(x)$ je **konvexní**. |
|||||||
| 73 | ||||||||
| 74 | ##### **Věta** $\secT{2.2.4}$ (*Sublevel set*) |
|||||||
| 75 | Nechť $X \subseteq \R^n$ je konvexní množina a $f: X \to \R$ je *konvexní* funkce na $X$. Pak pro libovolné $K \in \R$ je odpovídající **dolní vrstevnicová množina** (***sublevel set***) |
|||||||
| 76 | ||||||||
| 77 | $$V_K := \brackets{x \in X \mid f(x) \leq K}$$ |
|||||||
| 78 | ||||||||
| 79 | také **konvexní**. |
|||||||
| 80 | ||||||||
| 81 | > Platí pouze tato implikace: $f$ ***konvexní*** $\implies$ *sublevel set **konvexní*** \ |
|||||||
| 82 | > Například $x^3$ má konvexní *sublevel set*, ale sama konvexní **není**. |
|||||||
| 83 | ||||||||
| 84 | Přesněji říkáme, že pokud má funkce $f$ **konvexní** *sublevel set*, pak $f$ je **kvazikonvexní**. |
|||||||
| 85 | ||||||||
| 86 | ##### **Věta** $\secT{2.2.5}$ (Jensen) |
|||||||
| 87 | Nechť $X \subseteq \R^n$ je konvexní množina a funkce $f:X \to \R$ je konvexní na $X$. Pak pro libovolné $m \in \N, x_1, \dots, x_m \in X$ a čísla $\l_1, \dots, \l_m \geq 0$ splňující $\sum_{i = 1}^m \l_i = 1$ platí |
|||||||
| 88 | ||||||||
| 89 | $$f \left( \sum_{i = 1}^m \l_i x_i \right) \leq \sum_{i = 1}^m \l_i f(x_i). \eqT{2.2.3}$$ |
|||||||
| 90 | ||||||||
| 91 | Je-li navíc funkce $f$ **ostře konvexní** a $\l_1, \dots, \l_m \in (0,1)$, pak rovnost v $\eqRef{2.2.3}$ nastane *právě tehdy*, když $x_1 = \dots = x_m$. |
|||||||
| 92 | ||||||||
| 93 | > První část **Věty** $\secRef{2.2.5}$ lze jistě podle **Definice** $\secRef{2.2.1}$ nahradit ekvivalencí |
|||||||
| 94 | ||||||||
| 95 | > Z Jensenovy nerovnosti $\eqRef{2.2.3}$ lze odvodit například **AG nerovnost** \ |
|||||||
| 96 | > $${x_1 + \dots + x_m \over m} \leq \sqrt[m]{x_1 \cdot \ldots \cdot x_m}$$ |
|||||||
| 97 | ||||||||
| 98 | ### Lokalizace minima konvexní funkce |
|||||||
| 99 | ||||||||
| 100 | ##### **Věta** $\secT{2.2.6}$ |
|||||||
| 101 | Nechť $X \subseteq \R^n$ je konvexní množina a funkce $f: X \to \R$ konvexní. Potom následující tvrzení jsou pravdivá |
|||||||
| 102 | - Libovolné **lokální minimum** funkce $f$ na $X$ je současně **globálním minimem**. |
|||||||
| 103 | - Množina bodů množiny $X$, v nichž funkce $f$ nabývá svého **minima** na $X$, je **konvexní**. Je-li funkce dokonce **ostře konvexní**, pak je tato množina **nejvýše jednoprvková**. |
|||||||
| 104 | - Je-li funkce $f$ **diferencovatelná** na **otevřené** množině $\mcal U \supseteq X$ a $x^* \in X$ je jejím **stacionárním bodem**, tj. $\grad f(x^* ) = 0$, pak $x^* $ je bodem **globálního minima** funkce $f$ na množině $X$. |
|||||||
| 105 | ||||||||
| 106 | --- |
|||||||
| 107 | ||||||||
| 108 | Z Věty $\secRef{2.2.6}$ mimo jiné plyne, že je-li $f: X \to \R$ (*ostře*) konvexní a **spojitá** funkce na konvexní a **kompaktní** množině $X \subseteq \R^n$, pak $f$ má na $X$ (*právě jedno*) **globální minumum**. |
|||||||
| 109 | ||||||||
| 110 | ----- |
|||||||
| 111 | ||||||||
| 112 | ##### **Věta** $\secT{2.2.7}$ (Základní věta konvexního programování) |
|||||||
| 113 | Máme-li konvexní funkci $f: X \to \R$ na polytopu $X := \conv \brackets{x_1, \dots, x_m} \subseteq \R^n$, pak je maximum funkce $f$ na $X$ dosaženo v některém z bodů $x_1, \dots, x_m$. |
|||||||
| 114 | ||||||||
| 115 | **Obecněji:** je-li $X$ konvexní a **kompaktní** množina, pak maximum nastává v **extrémním bodě** (tj. v takovém bodě, který **není netriviální** konvexní kombinací dvou bodů z $X$) |
|||||||
| 116 | ||||||||
| 117 | > Z Věty $\secRef{2.2.7}$ plyne **základní věta lineárního programování**: \ |
|||||||
| 118 | > Je-li funkce $f$ **afinní** (taková funkce je konvexní i konkávní zároveň), pak **globální maximum** nastává v některém z bodů $x_1, \dots, x_m$, tj. v některém z **"vrcholů" polytopu**. |
|||||||
| 119 | ||||||||
| 120 | ### Vlastnosti konvexních funkcí |
|||||||
| 121 | ||||||||
| 122 | ##### **Věta** $\secT{2.4.1}$ (Spojitost konvexní funkce) |
|||||||
| 123 | Nechť $X \subseteq \R^n$ je konvexní množina a funkce $f: X \to \R$ je konvexní na $X$. Pak $f$ je **spojitá** pro každé $x \in \ri X$. |
|||||||
| 124 | ||||||||
| 125 | --- |
|||||||
| 126 | ||||||||
| 127 | Dále ještě známe několik podmínek zaručujících konvexnost funkce $f: \R \to \R$: |
|||||||
| 128 | - má-li $f$ *vlastní* derivaci v **otevřeném** intervalu $I$, pak $f$ je (*ostře*) konvexní na $I$ právě tehdy, když $f'$ je **neklesající** (***rostoucí***) na $I$. |
|||||||
| 129 | - má-li $f$ *vlastní* derivaci v **otevřeném** intervalu $I$, pak $f$ je (*ostře*) konvexní na $I$ právě tehdy, když pro každé $x, x^* \in I$ platí |
|||||||
| 130 | ||||||||
| 131 | ```math |
|||||||
| 132 | f(x) \geq^{(>)} f(x^* ) + f'(x^* )(x - x^* ), |
|||||||
| 133 | ``` |
|||||||
| 134 | ||||||||
| 135 | tj. graf funkce $f$ leží **nad tečnou** sestrojenou v **libovolném** bodě. |
|||||||
| 136 | - má-li $f$ vlastní **druhou** derivaci v **otevřeném** intervalu $I$, pak $f$ je konvexní na $I$ právě tehdy, když funkce $f''(x) \geq 0$ (je-li $f''(x) > 0$ na $I$, pak **ostře konvexní**) |
|||||||
| 137 | ||||||||
| 138 | Tyto tvrzení si nyní rozšiřme pro $f: \R^n \to \R$ pro **silnou** konvexnost s konstatnou $\th$ (volbou $\th = 0$ dostáváme **ostrou** konvexnost) |
|||||||
| 139 | ||||||||
| 140 | ##### **Věta** $\secT{2.4.2}$ |
|||||||
| 141 | Nechť $X \subseteq \R^n$ je konvexní množina a funkce $f$ diferencovatelná na otevřené množině $\mcal U \supseteq X$. Pak $f$ je **silně** konvexní na $X$ s konstantou **silné** konvexnosti $\th \geq 0$ právě tehdy, když pro každé $x, x^* \in X$ platí |
|||||||
| 142 | ||||||||
| 143 | $$f(x) \geq f(x^* ) + \scal {\grad f(x^* )} {x - x^* } + \th \norm{x - x^* }^2 \eqT{2.4.1}$$ |
|||||||
| 144 | ||||||||
| 145 | > Ve $\eqRef{2.4.1}$ výraz $\scal {\grad f(x^* )} {x - x^* }$ hraje úlohu **tečné nadroviny** v bodě $x^* $ s **normálovým vektorem** $\grad f(x^* )$ (tečným jak na nadrovinu, tak na funkci $f$ v bodě $x^* $) |
|||||||
| 146 | > |
|||||||
| 147 | > Ještě jinými slovy je z Věty $\secRef{2.4.2}$ plyne, že nadrovina daná $\scal {\grad f(x) - \grad f(x^* )} {x - x^* } \geq \th \norm{x - x^* }^2$ **opěrnou nadrovinou** pro $\epi f$ |
|||||||
| 148 | ||||||||
| 149 | ##### **Důsledek** $\secT{2.4.5}$ |
|||||||
| 150 | Nechť $X \subseteq \R^n$ je konvexní množina splňující $\interior X \neq \emptyset$. Nechť funkce $f: X \to \R$ je *dvakrát* spojitě diferencovatelná na **otevřené** množině $\mcal U \supseteq X$ s maticí druhých derivací $\hess f(x)$ (*Hessova matice*). Pak $f$ je **silně** konvexní na $X$ s konstantou silné konvexnosti $\th \geq 0$ právě tehdy, když pro každé $x \in X$ a $h \in \R^n$ platí |
|||||||
| 151 | ||||||||
| 152 | $$\scal {\hess f(x)} h \geq 2 \th \norm{h}^2 \eqT{2.4.3},$$ |
|||||||
| 153 | ||||||||
| 154 | jinými slovy $\hess f(x) \geq 2 \th I$ pro všechna $x \in X$. |
|||||||
| 155 | ||||||||
| 156 | --- |
|||||||
| 157 | ||||||||
| 158 | Z Důsledku $\secRef{2.4.5}$ plynou následující tři implikace |
|||||||
| 159 | - $\hess f(x) \geq 0$ pro všechna $x \in X \implies f$ je konvexní na $X$ |
|||||||
| 160 | - $\hess f(x) > 0$ pro všechna $x \in X \implies f$ je **ostře** konvexní na $X$ |
|||||||
| 161 | - $\interior X \neq \emptyset$ a $f$ je konvexní na $X \implies \hess f(x) \geq 0$ pro všechna $x \in X$ |
|||||||
