ここでは、『スパース性に基づく機械学習』p.67補題6.1から、
2変数関数の同時凸性について説明します。

問題提起

補題の証明にある
「同時凸性は関数$g(x, y) = \frac{x^2}{y}+y$のヘシアン行列が、 y>0のとき半正定行列であることから確認できます。」
という説明の流れを解説します。

この説明は「ヘシアンが半正定行列だから、同時凸性である」ということです。
すなわち問題になるのは、なんでヘシアンが半正定だと、同時凸なの?ということですね。
以下、その解説を行います。

ヘシアンと正定

ヘシアンは極値の判定で用いることが出来ます。
その際にヘシアンは以下の3パターンに分類されます。

ここではヘシアンが半正定なので、極小値のパターンであることがわかります。
ちなみに正定と半正定の厳密な区別は、固有値の話で必要となりますが、 ここでは割愛します。

L1ノルムをテイラー展開で近似

次に、ヘシアンの元となったL1ノルムの関数 \begin{align} {||w||}_1 = \frac{1}{2} \sum_{j=1}^{d} min (\frac{{w_j}^2}{n_j}+n_j) \end{align} について、テイラー展開で近似することを考えましょう。

できるだけ大雑把に近似しましょう。
2変数関数である、という点だけ点だけ考えます。
すると上の複雑な式は、 \begin{align} {||w||}_1 \approx \sum_{i, j} C_{ij} (x-a)^i (y-b)^j \end{align} と、簡単な2変数関数のテイラー展開に落とし込むことができます。
なお、Cは係数を指します。テイラー展開におけるある値の近くで・・・という部位です。

必要なのは2次の項までなので、$i=0, j=0$から$i=2, j=2$まで展開してみましょう。

2変数関数における極小値の意味

2変数関数の極小値とは、幾何学的には谷の底を指します。
この谷底は、ふたつの次元の曲線の底が重なった場所です。
すなわち、極小値は曲線成分によってもたらされる値であり、直線成分は含まれていないのです。

極小値を導出するヘシアンには、直線成分が含まれてはいけない。
このことを念頭に置きながら、ヘシアンがその条件を満たしているか考えましょう。

まずヘシアンの対角成分は2階微分ですので、曲線成分だけが残ります。
そしてヘシアンの残りの成分は1階微分ですが、ヘシアンの行列式では \begin{align} A &= \left( \begin{array}{ccc} a & b \\ c & d \end{array} \right) \\ &= ad - bc \end{align} となるので、1階微分の項の2乗が得られます。
よって、2次の成分だけが含まれた行列式が導かれ、ここから、直線成分が含まれていないことがわかります。

偶数階の微分

一変数関数において、偶数階の微分には、特殊な意味が含まれています。 それは「偶数階目の微分値が正であるとき、凸関数である」ということです。

例を挙げてみましょう。$y=x^4$について、 \begin{align} y &= x^4 \\ y^{(1)} &= 4 x^3 \\ y^{(2)} &= 12 x^2 \\ y^{(3)} &= 24 x \\ y^{(4)} &= 24 > 0 \end{align} なので、$y=x^4$は凸関数です。

2次関数において、2階の導関数の正負から凸や凹を判定する問題は、大学受験でも頻出ですね。

この手段が使えるのは、偶数次の項がある場合だけです。
逆に言えば、どれだけ次数が高くても、偶数次の項しか含まれていない場合には、
問答無用で凸関数が得られる(最小値を求められる)という訳です。

これは基本的に1変数の関数に対し成り立つのですが、
ヘシアンでは2階微分を行うことで、1変数の関数が得られています。

よってヘシアンが正定値であるとき、凸関数を得ることが出来ます。
凸関数ということは、その関数のあらゆる次元について同時に凸であることは自明です。