第24回LSIデザインコンテスト・イン沖縄  設計仕様書 - 4-1

4-1.Q値表

強化学習の目的は,行動の価値の指標であるQ値を更新していくことで,最終的にエージェントが得られる報酬が最大限となるようなQ値の表を完成させること, と言い換えることもできる.表1に例題における未学習状態のQ値表を示す.
※初期値はランダムで生成,S25はゴールとなっており,それ以上行動する必要はないため0と設定している.


Table 1 : 未学習状態のQ値表

Q-table before training


表1は各状態におけるそれぞれの行動の価値を数値化して示してある.例えば, S1においては「→」,「↑」,「←」,「↓」に進む価値がそれぞれ0.1,0.3,0.2,0.5となっており, 最も価値の高い行動は「↓」に進むことだということが分かる.
本例題では,強化学習を通じてQ値表を適切な形へと完成させていく.


<<Back                 Next>>