技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

強化学習入門

強化学習入門

~基本アルゴリズム・深層強化学習・応用~
東京都 開催

概要

本セミナーでは、数ある人工知能手法の中でも今とくに注目されている「深層強化学習」について動画やデモを用いてわかりやすく解説いたします。

開催日

  • 2017年11月24日(金) 10時30分 16時30分

修得知識

  • 強化学習の基本原理と要素技術の基本知識
  • 深層学習の基本原理と要素技術の基本知識
  • 深層強化学習の基本原理と応用に関する知見
  • 最先端最適化技術の可能性と問題点についての知見

プログラム

 世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現。このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。
 AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。本セミナーはこのような現状を踏まえセミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。そして、いよいよ後半では「最前線:深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。
 様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。本セミナーを通して「強化学習」とその先にある「深層強化学習」の基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。

  1. 第1部 はじめに
    1. 強化学習の基本概念
    2. 多腕バンディット問題をわかりやすく説明
    3. 強化学習における探索と利用のジレンマ
    4. 多腕バンディット問題の解法をわかりやすく説明
      • 平均報酬という概念について
      • 平均報酬を更新するための式の導きかた
      • Epsilon-greedy
      • 最適初期値設定法
      • UCB1
      • Bayesian/Thompson 法の詳細
    5. 簡易デモ (python) :Gridworld (上記4種類解法の実行:直感的に理解する)
  2. 第2部 基本概念-マルコフ決定過程 (MDP) の基本原理のポイント
    1. 確率過程
    2. マルコフ性とは
    3. マルコフ鎖とは
    4. MDPの定義と式の導き方
    5. 方策πの定義と価値関数の対応関係
    6. 状態価値関数[V (s) ]におけるベルマン方程式をわかりやすく説明
    7. 状態行動価値関数[Q (s,a) ] におけるベルマン方程式をわかりやすく説明
    8. 簡易演習デモ (python) 1:Gridworld (式を理解するために)
    9. 最適状態価値関数 V* (s) のポイント
    10. 最適状態行動価値関数 Q* (s,a) のポイント
    11. 最適状態価値関数 V* (s) と最適状態行動価値関数 Q* (s,a) の相互関係
    12. ベルマン最適性方程式の導きかた
    13. 簡易デモ (python) 2:Gridworld (式を理解する)
    14. ディスカッション:最適性と近似性について
  3. 第3部 中核 強化学習におけるMDP問題の解法
    1. 動的計画法の解説と入門:
      1. 反復法による価値関数を求める:ランダム方策 vs 固定方策
      2. 最適な方策の探索手法をわかりやすく説明
        • 方策反復法による最適状態価値関数を求める
        • 遷移確率を考慮した方策反復法による最適状態価値関数を求める
        • 価値反復法による最適状態価値関数を求める
      3. 簡易デモ (python) :Gridworld (4種類解法の実行と結果比較:概念を理解する)
    2. Monte-Carlo (MC) 法をわかりやすく解説
      1. モデル法とモデルフリー法のちがい
      2. 経験に基づく学習手法のポイント
      3. MC法と多腕バンディットの内在関連性
      4. 状態価値関数・行動状態価値関数と平均報酬との関係
      5. MC法による状態価値関数の求め方とポイント
      6. MC法による最適状態行動価値関数 Q (s,a) の求め方とポイント
      7. 簡易デモ (python) :Gridworld (2種類MC法の実行と比較:概念を理解する)
    3. TD学習手法のポイントと入門
      1. TD (0) 法の説明と式の導きかた
      2. SARSA法の説明と式の導きかた
      3. Q-学習法の説明と式の導きかた
      4. On-PolicyとOff-Policyを詳しく説明
      5. 簡易デモ (python) :Gridworld (3種類TD法の実行と比較:概念を理解する)
  4. 第4部 拡張ー強化学習における関数近似手法とは (入門編)
    1. Tabular法 (表形式手法) と近似解法のちがい
    2. 回帰モデルと誤差関数をあらためて復習
    3. 最急降下勾配法とMC法との関連性をわかりやすく説明
    4. 疑似勾配 (Semi-Gradient) とは
    5. 簡単な線形回帰モデルに基いたMC法による状態価値関数 V (s,θ) を求める
    6. 簡単な線形回帰モデルに基いたTD (0) 法による V (s,θ) を求める
    7. 簡単な線形回帰モデルに基いたSARSA法による V (s,θ) を求める
    8. 簡易デモ (python) :Gridworld (回帰近似MDP解法の実行:直感的理解)
  5. 第5部 最前線 深層強化学習の基本概念と最重要ポイント
    1. 簡易型ニューラルネットワークを応用したQ-学習手法の説明
    2. 深層Q-学習 (DQN) の基本ポイント
    3. 連続動作空間における強化学習のポイント
    4. 方策勾配法の基本と式の導き方
    5. ガウシアン型行動確率分布の導入
    6. 方策勾配法による連続動作空間における強化学習の簡易説明
    7. 深層Actor-Critic法の基本と実行のコツ
    8. 簡易実演デモ (python) : Mountain car, Cartpole, Atariなど (概念の理解)
  6. 第6部 応用 強化学習と深層強化学習の応用事例
    1. ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
    2. 電気制御素子のパラメーター探索における強化学習の応用事例紹介
    3. 蓄電池充放電制御における強化学習の応用事例紹介
    4. 太陽光発電の変動制御における強化学習の応用事例紹介
    5. 簡易実演デモ (python) : (応用の可能性と効果を議論する)
    • 質疑応答

講師

  • 曽我部 東馬
    電気通信大学 i-パワードエネルギーシステム研究センター 基盤理工学専攻
    准教授

会場

商工情報センター カメリアプラザ

9F 第2研修室

東京都 江東区 亀戸2-19-1 カメリアプラザ 9F
商工情報センター カメリアプラザの地図

主催

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様
: 46,278円 (税別) / 49,980円 (税込)

割引特典について

  • R&D支援センターからの案内登録をご希望の方は、割引特典を受けられます。
    • 1名でお申込みいただいた場合、1名につき 43,750円 (税別) / 47,250円 (税込)
    • 複数名で同時にお申し込みいただいた場合、1名につき 23,139円 (税別) / 24,990円 (税込)
    • 案内登録をされない方は、1名につき 46,278円 (税別) / 49,980円 (税込)

これから開催される関連セミナー

開始日時
2017/11/28 人工知能の基礎と自動車展開 (自動運転) への考え方・本質を理解する講座 東京都
2017/11/28 遠赤外線カメラ (ナイトビジョンカメラ) の基礎とディープラーニングを組合わせた人検知技術 東京都
2017/11/29 Pythonではじめる機械学習入門講座 東京都
2017/11/29 深層学習 (ディープラーニング) の基礎的・根本的な原理を徹底的に理解しよう 東京都
2017/11/29 ディープラーニングのビジネス活用事例研究 東京都
2017/11/30 SVM (サポートベクターマシン) とDeep Learningを中心とした機械学習の画像認識への応用 東京都
2017/11/30 はじめてのPython入門と教師あり学習・教師なし学習 東京都
2017/12/6 これからはじめるための機械学習・ディープラーニング入門講座 京都府
2017/12/8 OpenCV3を用いた画像処理プログラミング入門 東京都
2017/12/8 音声認識技術 入門講座 東京都
2017/12/11 フレームワークによる機械学習及びディープラーニングの基礎と実践 東京都
2017/12/13 Rではじめる機械学習 東京都
2017/12/14 画像解析/画像認識入門からPythonによる実装まで 東京都
2017/12/19 Pythonでデータ分析実務 (入門編) 東京都
2017/12/19 高次元材料情報統合学による材料開発の革新的加速 東京都
2017/12/22 人工知能 (AI) の必須基礎知識と製造業の各部門における活用 東京都
2018/1/11 車載カメラを中心とした環境認識、センサフュージョン技術 東京都
2018/1/16 ニューラルネットワークの原理とその高速化技術 東京都
2018/1/16 新規事業戦略へのAI・IoT活用 東京都
2018/1/17 明日からできるスパースモデリングの基礎、実践・実装技術 愛知県