技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

逆強化学習・模倣学習の基礎と応用

逆強化学習・模倣学習の基礎と応用

東京都 開催 会場 開催

開催日

  • 2019年8月27日(火) 10時30分 16時30分

修得知識

  • 逆強化学習の問題設定
  • マルコフ決定過程・ベルマン方程式
  • 例題を通じて逆強化学習の実装方法
  • 制御分野と機械学習の共通部分
  • 逆強化学習の事例
  • 逆強化学習の応用範囲

プログラム

 逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。
 熟練者のうまみ=「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、逆最適制御とも呼ばれる。
 本セミナーでは、逆強化学習の基盤となる数理的な問題設定の基本を説明するとともに、講師の研究室での経験を踏まえ、初学者が陥りがちな課題を整理し、逆強化学習アルゴリズムの実装方法やどのように適用するかに焦点をあて、説明を進めていく。その次に逆強化学習の応用事例を幅広く紹介する予定である。特に強化学習の実応用で問題となる報酬関数の設計など、明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動のモデル化を中心とした話題を提供したいと考えている。例えば状況に応じた運転経路・目的地予測、人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などを紹介する予定である。最後に、逆強化学習が抱える課題を共有し、この分野の発展につながればと考えている。

  1. 機械学習・制御における逆強化学習の位置づけ
    1. 機械学習における位置づけ
    2. 最適制御との接点
    3. 逆強化学習の応用分野・従来の時系列データ解析との違い
  2. 機械学習の基礎 (概要)
    1. 識別的な機械学習の一般的な定式化
    2. 正則化付き経験損失最小化
    3. 典型的な識別問題 (分類・回帰) の例
    4. 逆強化学習における問題設定
  3. 時系列データのモデリング : マルコフ決定過程と最適制御
    1. 時系列データモデリング
      1. マルコフ過程・動的システム
    2. 報酬と紐付く時系列データモデリング
      1. マルコフ決定過程
    3. 報酬関数最大化問題 : 最適制御・最適政策
    4. ベルマン方程式・価値反復法
  4. 逆強化学習
    1. 逆強化学習の定式化
    2. 逆強化学習の損失関数の設計
    3. 逆強化学習のパラメータ最適化
  5. 逆強化学習の適用
    1. 逆強化学習の実装
    2. 研究事例から学ぶ逆強化学習の適用事例
      1. マルコフ決定過程 (状態空間・行動) の設計の実例
      2. 報酬関数設計の実例
  6. 逆強化学習の最近の話題
    • 逆強化学習の高速化
    • 高次元化
    • 文脈の活用
    • マルチエージェント問題
    • 深層学習との融合
    • 落穂拾い
  7. まとめ

講師

  • 下坂 正倫
    東京工業大学 情報理工学院 情報工学系
    准教授

会場

ちよだプラットフォームスクウェア
東京都 千代田区 神田錦町3-21
ちよだプラットフォームスクウェアの地図

主催

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様
: 46,000円 (税別) / 49,680円 (税込)
1口
: 57,000円 (税別) / 61,560円 (税込) (3名まで受講可)
本セミナーは終了いたしました。

これから開催される関連セミナー

開始日時 会場 開催方法
2025/4/8 機械学習を用いたスペクトルデータ解析と材料開発への適用 オンライン
2025/4/9 マテリアルズインフォマティクス (MI) の最新動向と小規模データ駆動型MIの展開 オンライン
2025/4/10 Vision Transformerの仕組みとBEV Perception オンライン
2025/4/11 マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例 オンライン
2025/4/15 自動運転・運転支援に向けた各種センサーを用いた周辺環境認識技術 オンライン
2025/4/16 異常検知・学習データ作成のための生成AI活用 オンライン
2025/4/16 Pythonによる機械学習の基礎と実践 オンライン
2025/4/16 機械学習を用いたスペクトルデータ解析と材料開発への適用 オンライン
2025/4/17 スパース推定の基礎、本質の把握・理解と実装応用技術への展開 オンライン
2025/4/22 マテリアルズインフォマティクスの高分子材料開発への応用 オンライン
2025/4/22 未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門 オンライン
2025/4/23 ベイズ推定を用いたデータ解析 オンライン
2025/4/25 機械学習のための効率的なデータ取得法と解釈・評価方法 オンライン
2025/4/25 マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例 オンライン
2025/4/28 AI外観検査 (画像認識) のはじめ方、すすめ方、精度向上への考え方 オンライン
2025/4/30 未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門 オンライン
2025/5/6 ベイズ推定を用いたデータ解析 オンライン
2025/5/7 生成AIを活用したデータ分析の基礎とポイント オンライン
2025/5/7 機械学習のための効率的なデータ取得法と解釈・評価方法 オンライン
2025/5/13 異常検知への生成AI活用と判断の標準化、高精度化 オンライン