対数尤度と回帰式
中西準子・吉田喜久雄・益永茂樹編著「演習:環境問題」
第10章 ダムは壊すべきか? 松田裕之・森田健太郎著 補遺
尤度(likelihood)とは,あるモデル(回帰式)がどれだけ事象(観察結果)を説明しているかの「尤もらしさ」のことであり,そのモデルによりその事象が起こる確率で表される(岸野1997).式(1)の場合には,それぞれのダムの上にイワナが絶滅している確率pは,流域面積wと隔離後の時間tによって表される.実際にイワナがいるという事象が起こる確率はp,いない(q=0)確率は1-pであり,これを52のダムすべてについて掛け合わせると,52のダムそれぞれのイワナの有無の事象が起こる確率になる.pq(1-pi)1-qはイワナがいるときq=1でp,いないときq=0で(1-p)となる.つまり,尤度Lは52のダムでの積
L= (1)
となる.Πは,和を表す狽ノ対して積を表す数学記号である.
この尤度が高いほど,確率pを予測したロジスティック回帰モデルが現実をよく説明することを意味する.そこで,尤度が最大になる回帰式を求める.尤度が最大になるとき,その対数(対数尤度log-likelihood)も最大になる.対数尤度LLは,
LL=i [qi log pi + (1-qi) log (1-pi)] (2)
となる.ただし,対数は底数eの自然対数を意味する.
回帰式(1)は,3つの未知の係数がある回帰式
(1-pi)/pi = Exp[a + c log wi - d log ti] (3)
から尤度が最大になる係数a, b, cを選ぶと
(1-p)/p = Exp[7.575 + 1.511 ln w - 2.29 ln t] (4)
という回帰式が得られる。回帰式を得る際には,単に尤度が高いだけでなく,できるだけ単純な(未知の係数の数が少ない)式を選ぶことである.上記の式に勾配を加え,尤度が最大になる係数を選ぶと,
(1-pi)/pi = Exp[5.668 + 1.404 log si + 2.071 log wi - 2.39 log ti] (5)
となる.このときの対数尤度の和は-18であり,勾配を加える前のそれ(-19.87)より高い(Excelファイルのワークシート図2a参照).けれども,回帰式を複雑にすれば尤度が高くなるのは当然で,係数の数が観察数(52)以上なら,対数尤度を0(すなわち,尤度を1)にすることさえできるだろう!そこで,対数尤度を係数の数で割り引いたものの正負を反対にした値をAIC(Akaike’s Informaiton Criterion)といい,AIC = -2×(対数尤度)+ 2×(係数の数)がモデル選択の基準として広く使われている(岸野2001).AICが低いモデルを選ぶことになる.上記の場合,勾配を入れた場合と入れない場合のAICはそれぞれ42.01と43.73となる.勾配を入れた方が,モデルを複雑にした分以上に尤度が増えたことになる.
結果は予測したpが5割未満なのに既にいない場所,5割以上なのにまだいる場所はそれぞれ4カ所と5カ所である.この結果は、最小自乗法を用いた結果とそれほど変わらないが、やはり、研究者は最尤法を用いるべきである。この場合の将来予測を添付Excelファイルのワークシート「図2a」に示した。最小自乗法の結果が比べてみていただきたい。
こうして,回帰式(4)を求めたが,いくつか説明できないダムがある.本章ではこれ以上の分析は行わないが,個々の例外についてその理由を考えてみることも,よりよい回帰式を得るコツだろう.