技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

深層強化学習の基礎とその応用

深層強化学習の基礎とその応用

東京都 開催 会場 開催

概要

本セミナーでは、深層強化学習の基本知識と応用を動画をデモを交えて、わかりやすく解説いたします。

開催日

  • 2019年4月22日(月) 10時30分 16時30分

受講対象者

  • AIの最先端知識と技術に興味をお持ちの方
  • AIの研究と応用を真剣に検討されている方
  • AIを含めた最適化技術の応用に携わっている方
  • 「最適化とは何か?」を知りたい方
  • 画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方

修得知識

  • 強化学習の基本原理と要素技術の基本知識
  • 深層学習の基本原理と要素技術の基本知識
  • 深層強化学習の基本原理と応用に関する知見
  • 最先端最適化技術の可能性と問題点についての知見

プログラム

 世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。このAlphaGoの歴史的な勝利を支えた手法、すなわち「深層強化学習手法」が一躍注目を集めています。
 AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。
 本セミナーはこのような現状を踏まえ、深層強化学習の最も基本となる強化学習の中核的な内容を例題と「動画」を通して、みなさんになるべくわかりやすく説明します。
 さらに本セミナーでは、難解といわれる「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した強化学習手法を簡易デモなどを用いてわかりやすく説明します。これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。最後に、逆深層強化学習という強化学習報酬関数を学習する手法の原理と応用技法について説明します。
 様々な背景を持つ受講者のみなさんが理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。

  1. 第1部 はじめに
    1. 強化学習の基本概念
    2. 強化学習・深層学習および深層強化学習の特徴と違い
    3. 深層強化学習により可能となること
    4. 多腕バンディット問題をわかりやすく説明
    5. 強化学習における探索と利用のジレンマ
    6. 多腕バンディット問題の解法をわかりやすく説明
      • 平均報酬という概念について
      • 平均報酬を更新するための式の導きかた
      • Epsilon-greedy
      • 最適初期値設定法
      • UCB1
      • Bayesian/Thompson 法の詳細
    7. 簡易デモ (python) :Gridworld (上記4種類解法の実行:直感的に理解する)
  2. 第2部 基本概念-マルコフ決定過程 (MDP) の基本原理のポイント
    1. 確率過程
    2. マルコフ性とは
    3. マルコフ鎖とは
    4. MDPの定義と式の導き方
    5. 方策πの定義と価値関数の対応関係
    6. 状態価値関数[V (s) ]におけるベルマン方程式をわかりやすく説明
    7. 状態行動価値関数[Q (s,a) ] におけるベルマン方程式をわかりやすく説明
    8. 簡易演習デモ (python) 1:Gridworld (式を理解するために)
    9. 最適状態価値関数V* (s) のポイント
    10. 最適状態行動価値関数Q* (s,a) のポイント
    11. 最適状態価値関数V* (s) と最適状態行動価値関数Q* (s,a) の相互関係
    12. ベルマン最適性方程式の導きかた
    13. 簡易デモ (python) 2:Gridworld (式を理解する)
    14. ディスカッション:最適性と近似性について
  3. 第3部 中核:強化学習におけるMDP問題の解法
    1. 動的計画法の解説と入門:
      1. 反復法による価値関数を求める:ランダム方策 vs 固定方策
      2. 最適な方策の探索手法をわかりやすく説明
        • 方策反復法による最適状態価値関数を求める
        • 遷移確率を考慮した方策反復法による最適状態価値関数を求める
        • 価値反復法による最適状態価値関数を求める
      3. 簡易デモ (python) :Gridworld (4種類解法の実行と結果比較:概念を理解する)
    2. Monte-Carlo (MC) 法をわかりやすく解説
      1. モデル法とモデルフリー法のちがい
      2. 経験に基づく学習手法のポイント
      3. MC法と多腕バンディットの内在関連性
      4. 状態価値関数・行動状態価値関数と平均報酬との関係
      5. MC法による状態価値関数の求め方とポイント
      6. MC法による最適状態行動価値関数Q (s,a) の求め方とポイント
      7. 簡易デモ (python) :Gridworld (2種類MC法の実行と比較:概念を理解する)
    3. TD学習手法のポイントと入門
      1. TD (0) 法の説明と式の導きかた
      2. SARSA法の説明と式の導きかた
      3. Q-学習法の説明と式の導きかた
      4. On-PolicyとOff-Policyを詳しく説明
      5. 簡易デモ (python) :Gridworld (3種類TD法の実行と比較:概念を理解する)
  4. 第4部 拡張ー強化学習における関数近似手法とは (入門編)
    1. Tabular法 (表形式手法) と近似解法の違い
    2. 回帰モデルと誤差関数をあらためて復習
    3. 簡単な線形回帰モデルに基いたMC法による状態価値関数V (s,θ) を求める
    4. 簡単な線形回帰モデルに基いたSARSA法によるV (s,θ) を求める
    5. 簡易デモ (python) :Gridworld (回帰近似MDP解法の実行:直感的理解)
  5. 第5部 最前線:深層強化学習の基本概念と最重要ポイント
    1. 簡易型ニューラルネットワークを応用したQ-学習手法の説明
    2. 深層Q-学習 (DQN) の基本ポイント
    3. 連続動作空間における強化学習のポイント
    4. 方策勾配法の基本と式の導き方
    5. ガウシアン型行動確率分布の導入
    6. 方策勾配法による連続動作空間における強化学習の簡易説明
    7. 深層Actor-Critic法の基本と実行のコツ
    8. 簡易実演デモ (python) : Mountain car, Cartpole, Atariなど (概念の理解)
  6. 第6部 逆強化学習の基本概念と最重要ポイント
    1. 逆強化学習の解法:線形計画最適化逆強化学習手法
    2. 逆強化学習の解法:最大エントロピー逆強化学習手法
    3. 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
  7. 第7部 応用:強化学習と深層強化学習及び逆強化学習の応用事例
    • 質疑応答

会場

江東区産業会館

第5展示室

東京都 江東区 東陽4丁目5-18
江東区産業会館の地図

主催

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様
: 46,278円 (税別) / 49,980円 (税込)

案内割引・複数名同時申込割引について

R&D支援センターからの案内登録をご希望の方は、割引特典を受けられます。
案内および割引をご希望される方は、お申込みの際、「案内の希望 (割引適用)」の欄から案内方法をご選択ください。
複数名で同時に申込いただいた場合、1名様につき 23,139円(税別) / 24,990円(税込) で受講いただけます。

  • R&D支援センターからの案内を希望する方
    • 1名様でお申し込みの場合 : 1名で 43,750円(税別) / 47,250円(税込)
    • 2名様でお申し込みの場合 : 2名で 46,278円(税別) / 49,980円(税込)
    • 3名様でお申し込みの場合 : 3名で 69,417円(税別) / 74,970円(税込)
  • R&D支援センターからの案内を希望しない方
    • 1名様でお申し込みの場合 : 1名で 46,278円(税別) / 49,980円(税込)
    • 2名様でお申し込みの場合 : 2名で 92,556円(税別) / 99,960円(税込)
    • 3名様でお申し込みの場合 : 3名で 138,833円(税別) / 149,940円(税込)
本セミナーは終了いたしました。

これから開催される関連セミナー

開始日時 会場 開催方法
2024/3/29 Pythonによるアンサンブル学習の基礎と応用 オンライン
2024/3/29 機械学習を用いたスペクトルデータ解析と材料開発への適用 オンライン
2024/3/29 マテリアルズインフォマティクス (MI) の最新動向と小規模データ駆動型MIの展開 オンライン
2024/4/4 多変量解析・データ処理 超入門 オンライン
2024/4/10 Pythonによる時系列データ分析とその活用 オンライン
2024/4/11 技術者・研究者のための多変量解析入門講座 オンライン
2024/4/12 機械学習/Deep Learningの画像データ前処理に活用できる画像フィルタリングの基本と最新動向 オンライン
2024/4/15 ディープラーニングの基礎と実践 オンライン
2024/4/15 少ないデータに対する機械学習、深層学習の適用 オンライン
2024/4/17 ルールベースと機械学習ベースの画像認識技術 オンライン
2024/4/18 生成AIをめぐる著作権問題の最前線 東京都 会場・オンライン
2024/4/19 ディープラーニングの基礎と実践 オンライン
2024/4/19 実験計画法・ベイズ最適化を用いた効率的な実験デザイン オンライン
2024/4/19 自然言語処理の基礎と生成AI・大規模言語モデルの研究開発への活用 オンライン
2024/4/24 脳波計測・処理・解析・機械学習の基礎と応用および脳波データの活用方法 オンライン
2024/4/24 技術者・研究者のための多変量解析入門講座 オンライン
2024/4/25 カルマンフィルタの実践 オンライン
2024/4/26 少ないデータに対する機械学習、深層学習の適用 オンライン
2024/4/26 AI関連発明の出願戦略のポイントと生成AIを巡る知財制度上の留意点 オンライン
2024/4/26 ChatGPTを活用したPythonプログラミングとコード生成 オンライン