技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

認識から行動へ : 深層強化学習を理解するための基礎と応用

認識から行動へ : 深層強化学習を理解するための基礎と応用

東京都 開催 会場 開催

開催日

  • 2018年7月24日(火) 10時30分 16時30分

プログラム

 古典的AIでは問題解決を「診断型」と「計画型」に大別してきた。深層学習は前者、すなわち、対象の「認識」や「分類」を担うアルゴリズムである。近年注目されているAlphaGo、そして自動運転の問題を考えてみると、状態を認識し、その状態に最適な行動を選択する必要がある。第2世代のAIでは、この状態と行動の対を「If (状態) then (行動) 」のルールとして、人間の専門的知識を知識ベース化しヒューリスティクス (発見的知識) などと呼んだ。しかし、この種の知識獲得は困難を極め、ルールの優先順位を決める重みづけに限界があった。そこで登場したのが強化学習である。強化学習は「未知の環境での」行動獲得の手段であり、報酬というスカラー量さえ定義できれば、後は試行錯誤に委ねられる設計者フリー、モデルフリーであることが最大の売りである。 しかし、強化学習で所与とされる「報酬」、「状態空間」の設計が案外難しいことが実用を妨げている。
 この流れの中で、深層学習がにわかに注目され、そこに強化学習を導入した深層強化学習によるAtariの成功を受けて、再度強化学習が注目されている。そこで、本セミナーでは、強化学習の理論的基礎、その応用として自動運転による交通流最適化を通じて状態の特徴空間や報酬の設計法として逆強化学習、模倣学習について解説する。

  1. 人工知能における問題解決
    1. 診断型と計画型
    2. 探索
    3. 論理的推論
      1. 演繹推論
      2. 帰納推論
  2. 強化学習の基礎
    1. モデリング
      1. 状態集合、行動集合、報酬
      2. 学習主体 (エージェント) の定義
      3. 環境との相互作用:報酬
    2. マルコフ決定過程
      1. 動的計画法
      2. 行動選択
      3. 環境との相互作用:報酬
  3. 強化学習:基本アルゴリズム
    1. 強化学習の分類
      1. ブートストラップ法
      2. モンテカルロ法
    2. 代表的な強化学習アルゴリズム
      1. TD学習
      2. Q学習
      3. Sarsa
      4. モンテカルロ法
        • First – visit Monte Carlo, Every – visit Monte Carlo
        • Profit Sharing
    3. 状態と行動
      1. 連続と離散
      2. Actor – Critic
      3. 行動選択
    4. 応用と課題
      1. 交通流最適化/マルチエージェントモデル
      2. 電力融通/マルチエージェントモデル
      3. 不完全知覚問題
      4. 報酬設計問題
  4. 逆強化学習
    1. 逆強化学習の基礎
      1. 状態遷移確率を用いる方法 (Ng)
      2. 模倣による方法 (Abbeel)
    2. 最新の逆強化学習アルゴリズム
      1. Maximum Entropy IRL
      2. Bayesian Non Parametric IRL
    3. 逆強化学習の応用と課題
      1. インセンティブの推定
      2. Active Forecast (行動予測)
    4. 応用と課題
      1. 交通流最適化/マルチエージェントモデル
      2. 電力融通/マルチエージェントモデル
      3. Feature Construction IRL: 状態空間と報酬の相互改善法
  5. 最近の話題
    1. 頑健性を実現する強化学習:生成モデル GAN
    2. 適応性を実現する強化学習:Bayesian Nonparametric IRL for Switched MDPs
  6. まとめ

講師

  • 荒井 幸代
    千葉大学 大学院 工学研究科 都市環境システムコース
    教授

会場

株式会社オーム社 オームセミナー室
東京都 千代田区 神田錦町3-1
株式会社オーム社 オームセミナー室の地図

主催

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様
: 46,000円 (税別) / 49,680円 (税込)
1口
: 57,000円 (税別) / 61,560円 (税込) (3名まで受講可)
本セミナーは終了いたしました。

これから開催される関連セミナー

開始日時 会場 開催方法
2024/4/25 カルマンフィルタの実践 オンライン
2024/4/26 ExcelとPythonによる多変量解析 超入門 オンライン
2024/4/26 少ないデータに対する機械学習、深層学習の適用 オンライン
2024/4/26 AI関連発明の出願戦略のポイントと生成AIを巡る知財制度上の留意点 オンライン
2024/5/2 脳波計測・処理・解析・機械学習の基礎と応用および脳波データの活用方法 オンライン
2024/5/8 AI関連発明の出願戦略のポイントと生成AIを巡る知財制度上の留意点 オンライン
2024/5/17 スパース推定の本質の理解と実装応用技術への展開 オンライン
2024/5/23 ベイズ統計から学ぶ統計的機械学習 オンライン
2024/5/24 マテリアルインフォマティクスの材料開発への適用と活用事例 オンライン
2024/5/27 機械学習による適応的実験計画 オンライン
2024/5/27 外観検査へのAI導入と生成AIによるトレーニングデータ不足への対応 オンライン
2024/5/31 マテリアルズインフォマティクスのためのデータ解析 オンライン
2024/6/12 デジタル時代のヘルスケアビジネスの立ち上げ方 東京都 会場・オンライン
2024/6/13 エンジニアのための実験計画法とExcel上で構築可能な人工知能を併用する非線形実験計画法 オンライン
2024/6/14 機械学習による異常検知入門 東京都 会場
2024/6/18 機械学習/AIによる特許調査の高度化で実践するスマート特許戦略 オンライン
2024/6/18 Pythonではじめる機械学習入門講座 オンライン
2024/6/20 ISO 13485:2016対応に必須の医療機器プロセスバリデーション (進め方、統計的手法とそのサンプルサイズ) オンライン
2024/6/24 外観検査の自動化の進め方と画像データ取得およびAIによる検査のポイント オンライン
2024/7/1 ISO 13485:2016対応に必須の医療機器プロセスバリデーション (進め方、統計的手法とそのサンプルサイズ) オンライン