設計仕様書

1. 目的
2. 設計環境
3. 強化学習とは
   3-1.強化学習の一連の流れ
4. 強化学習を用いた迷路探索
   4-1.Q値表
   4-2.Q - Learning
   4-3.学習結果
5. 課題

第24回LSIデザインコンテスト・イン沖縄設計仕様書 - 4-1

4-1.Q値表

強化学習の目的は，行動の価値の指標であるQ値を更新していくことで，最終的にエージェントが得られる報酬が最大限となるようなQ値の表を完成させること，と言い換えることもできる．表１に例題における未学習状態のQ値表を示す．
※初期値はランダムで生成，S25はゴールとなっており，それ以上行動する必要はないため０と設定している．

Table 1 : 未学習状態のQ値表

表１は各状態におけるそれぞれの行動の価値を数値化して示してある．例えば， S1においては「→」，「↑」，「←」，「↓」に進む価値がそれぞれ0.1，0.3，0.2，0.5となっており，最も価値の高い行動は「↓」に進むことだということが分かる．
本例題では，強化学習を通じてQ値表を適切な形へと完成させていく．

<<Back Next>>

Contents

設計仕様書

第24回LSIデザインコンテスト・イン沖縄 設計仕様書 - 4-1

4-1.Q値表

第24回LSIデザインコンテスト・イン沖縄設計仕様書 - 4-1