研究テーマの紹介

進化と学習の相互作用,Baldwin効果

Baldwin効果とは?

生物には,代表的な2つの適応メカニズムがあります.一つは,生物集団において,よりうまく振舞った個体が生き残って子孫を残していくことで,集団全体の遺伝子構成が変化する「進化」であり,もう一つは,生物の各個体が生涯の間に得た経験や,環境との相互作用を通して自らを作り変えることによって,よりうまく振舞う「学習」です.進化は集団レベルの生じるとても長いスパンの適応プロセスなのに対し,学習は個体レベルで生じ,進化と比べるてとても短いスパンで生じるプロセスと言うことができます.

これら,進化と学習という2つの適応プロセスがどのように影響し合っているかという問題は,実は100年以上も前から生物学において議論されてきました.その最も有名な議論が,いわゆる,「獲得形質は遺伝するか?」という問いに関するものです.つまり,「ある個体が学習によって獲得した形質が,そっくりそのまま,その子孫に遺伝情報として受け継がれるようなことはありえるか?」ということです.このような仕組みの存在を提唱したのが,Lamarckで,その考え方はLamarckismなどと呼ばれます.が,現在ではよく知られているように,このような仕組みは実際には存在せず,いわゆる一般的なDarwin的なメカニズムによって我々は進化しているとされています.

ということは,少なくとも,獲得形質の遺伝子への逆コーディングの仕組みがないという意味では,進化と学習が直接的に影響することはありえないということですが,では,進化と学習は,一切相互に影響し合わないのでしょうか?この影響の存在について,Baldwinは,Darwin的な進化メカニズムにおいても,個体レベルの学習が集団レベルの進化に方向性を与え,「あたかも」獲得形質が遺伝するような進化のシナリオを描くことができると主張しました.これが後に,Baldwin効果と呼ばれる現象です.この効果は,現在の一般的な解釈では,学習によって生じる適応度に関するメリットとコストのバランスに基づく,2つの段階から構成される過程であるとされています.

なお,ここで述べる学習とは,人間の知能に代表されるような高度な学習メカニズムだけでなく,たとえば運動による筋肉の増強や日焼けによる皮膚の色の変化などを含む表現型の生涯の変化,すなわち広い意味での表現型可塑性を示すものです.

第1段階は,学習によって適応的な形質を獲得するメリットが中心的な選択圧として働き,学習可能な個体が集団中に広まっていく過程です.一見すると,第1段階によって全ての個体が学習可能になれば,適応度差は生じることはなく,それ以上進化は進まないように思われます.しかし,Baldwin効果の興味深いのは,学習にかかるコストによる適応度の違いに注目した第2段階が存在することにあります.

多くの場合,学習には何らかの形でコストがかかるります.例えば,形質を獲得するのに時間やエネルギーがかかってしまうことや,そもそも学習し損ねてしまうといったことなどが考えられます.このコストは学習によるメリットと比べてわずかかもしれませんが,確実に適応度の差に現れ,集団はコストが小さくなる方向に向かって徐々に進化すると考えられます.コストが最も小さい状況は,究極的には学習すべき形質を生得的に獲得している状況であるため,2つの段階を経て,はじめは学習によって獲得されていた形質が生得的に獲得されている形質へと進化するシナリオを描くことができるわけです.

このとき,2つの段階において,集団全体の学習に対する依存度(可塑性)というものが定義できるとすれば,典型的には下図のような適応度と依存度のカーブを描くと考えられます.

この効果は,近年,HintonとNowlanによる遺伝的アルゴリズムを用いた先駆的な進化シミュレーションによって,その存在が明確に示されて以来,生物学的観点からのみならず,進化と学習のハイブリッドな適応システムの設計といった,工学的観点からも注目されています.


研究その1:動的環境における進化と学習の相互作用

ところで,これまで,Hintonらの研究をはじめとするBaldwin効果に関する研究は,世代を通して最適解が固定されるという意味で静的な環境を前提として議論されてきました.しかし,Baldwin効果の一般的な解釈である「学習のメリットとコストのバランス」を考えると,むしろ,動的な環境ほど「学習のメリットとコスト」はより大きく働き,進化と学習は積極的に相互作用すると考えられます.

そこで,我々は,動的な環境におけるBaldwin効果について解析しています.動的な環境は,大きく分けて2種類考えられます.一つは集団が置かれた環境自体が世代を通して変化し,個体の適応度に影響を与える場合,もう一つは集団における個体間の相互作用に依存して各個体の適応度が決定される場合です.我々は,後者の環境の典型的な例として,繰り返し囚人のジレンマゲームの戦略の進化を取り上げています.ジレンマゲームにおける戦略を決定する遺伝子に加えて,各遺伝子によって発現する形質(戦略の一部)が可塑的か(我々がメタ・パブロフ学習と呼ぶ学習規則によって学習可能か)どうかを決定する遺伝子を導入して進化実験を行っています,協調行動の創発という文脈において,学習は進化の舞台にどのような形で現れ,何を演じて,そして去っていくのかが論点です.

これまでの進化実験の結果,学習はBaldwin効果を通して協調行動の創発を促進することがわかっています.Baldwin効果の第1段階として,集団全体における可塑性の増加を伴った裏切り的な集団から協調的な集団へのシフト,第2段階として協調関係を維持しながらも協調集団の維持に必要最小限の可塑性を持ったメタ・パブロフ[x00x]型戦略への収束が確認されています.この結果は,動的な環境においてBaldwin効果が確認されたというだけでなく,学習によるメリットとコストを明示的に導入しなくても個体間の相互作用によってコストとメリットが浮き出てくること,進化と学習が自動的に調節されるような枠組みの工学的応用の可能性を示した点で重要であると言えます.

そのほかにも,現れた戦略のゲーム論的な解析など,いろいろ行っています.詳細については発表論文をご覧ください.


研究その2:進化と学習の相互作用の新たなシナリオ

同時に,我々は,従来Baldwin効果に関して言われてきた,2段階によって構成される進化のシナリオとは異なる,新たなシナリオの存在について抽象モデルを用いて実験を行っています.

具体的には,遺伝子座間に適応度への寄与について相互作用がある,つまり,エピスタシスがある環境として,ニューラルネットワークの結合重みの進化を取り上げ,各形質の可塑性の進化を導入して実験および解析を行っています.その結果,進化の過程は,Baldwin効果に関する一般的な2つの段階によって構成されるのではなく,その中間的な特性を持った段階を含む3つの段階によって構成されることが判明しています.

こちらについても,詳細は発表論文をご覧ください.

2003. 6. 26 Reiji SUZUKI
-> home