ここでは、『スパース性に基づく機械学習』p.67補題6.1から、
2変数関数の同時凸性について説明します。
補題の証明にある
「同時凸性は関数$g(x, y) = \frac{x^2}{y}+y$のヘシアン行列が、
y>0のとき半正定行列であることから確認できます。」
という説明の流れを解説します。
この説明は「ヘシアンが半正定行列だから、同時凸性である」ということです。
すなわち問題になるのは、なんでヘシアンが半正定だと、同時凸なの?ということですね。
以下、その解説を行います。
ヘシアンは極値の判定で用いることが出来ます。
その際にヘシアンは以下の3パターンに分類されます。
ここではヘシアンが半正定なので、極小値のパターンであることがわかります。
ちなみに正定と半正定の厳密な区別は、固有値の話で必要となりますが、
ここでは割愛します。
次に、ヘシアンの元となったL1ノルムの関数 \begin{align} {||w||}_1 = \frac{1}{2} \sum_{j=1}^{d} min (\frac{{w_j}^2}{n_j}+n_j) \end{align} について、テイラー展開で近似することを考えましょう。
できるだけ大雑把に近似しましょう。
2変数関数である、という点だけ点だけ考えます。
すると上の複雑な式は、
\begin{align}
{||w||}_1 \approx \sum_{i, j} C_{ij} (x-a)^i (y-b)^j
\end{align}
と、簡単な2変数関数のテイラー展開に落とし込むことができます。
なお、Cは係数を指します。テイラー展開におけるある値の近くで・・・という部位です。
必要なのは2次の項までなので、$i=0, j=0$から$i=2, j=2$まで展開してみましょう。
2変数関数の極小値とは、幾何学的には谷の底を指します。
この谷底は、ふたつの次元の曲線の底が重なった場所です。
すなわち、極小値は曲線成分によってもたらされる値であり、直線成分は含まれていないのです。
極小値を導出するヘシアンには、直線成分が含まれてはいけない。
このことを念頭に置きながら、ヘシアンがその条件を満たしているか考えましょう。
まずヘシアンの対角成分は2階微分ですので、曲線成分だけが残ります。
そしてヘシアンの残りの成分は1階微分ですが、ヘシアンの行列式では
\begin{align}
A &= \left(
\begin{array}{ccc}
a & b \\
c & d
\end{array}
\right) \\
&= ad - bc
\end{align}
となるので、1階微分の項の2乗が得られます。
よって、2次の成分だけが含まれた行列式が導かれ、ここから、直線成分が含まれていないことがわかります。
一変数関数において、偶数階の微分には、特殊な意味が含まれています。 それは「偶数階目の微分値が正であるとき、凸関数である」ということです。
例を挙げてみましょう。$y=x^4$について、 \begin{align} y &= x^4 \\ y^{(1)} &= 4 x^3 \\ y^{(2)} &= 12 x^2 \\ y^{(3)} &= 24 x \\ y^{(4)} &= 24 > 0 \end{align} なので、$y=x^4$は凸関数です。
2次関数において、2階の導関数の正負から凸や凹を判定する問題は、大学受験でも頻出ですね。
この手段が使えるのは、偶数次の項がある場合だけです。
逆に言えば、どれだけ次数が高くても、偶数次の項しか含まれていない場合には、
問答無用で凸関数が得られる(最小値を求められる)という訳です。
これは基本的に1変数の関数に対し成り立つのですが、
ヘシアンでは2階微分を行うことで、1変数の関数が得られています。
よってヘシアンが正定値であるとき、凸関数を得ることが出来ます。
凸関数ということは、その関数のあらゆる次元について同時に凸であることは自明です。