技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

逆強化学習・模倣学習の基礎と応用

逆強化学習・模倣学習の基礎と応用

オンライン 開催

開催日

  • 2021年12月23日(木) 10時30分 16時30分

修得知識

  • 逆強化学習の問題設定
  • マルコフ決定過程・ベルマン方程式
  • 例題を通じて逆強化学習の実装方法
  • 制御分野と機械学習の共通部分
  • 逆強化学習の事例
  • 逆強化学習の応用範囲

プログラム

 逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。
 熟練者のうまみ=「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、逆最適制御とも呼ばれる。
 本セミナーでは、逆強化学習の基盤となる数理的な問題設定の基本を説明するとともに、講師の研究室での経験を踏まえ、初学者が陥りがちな課題を整理し、逆強化学習アルゴリズムの実装方法やどのように適用するかに焦点をあて、説明を進めていく。その次に逆強化学習の応用事例を幅広く紹介する予定である。特に強化学習の実応用で問題となる報酬関数の設計など、明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動のモデル化を中心とした話題を提供したいと考えている。例えば状況に応じた運転経路・目的地予測、人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などを紹介する予定である。最後に、逆強化学習が抱える課題を共有し、この分野の発展につながればと考えている。

  1. 機械学習・制御における逆強化学習の位置づけ
    1. 機械学習における位置づけ
    2. 最適制御との接点
    3. 逆強化学習の応用分野・従来の時系列データ解析との違い
  2. 機械学習の基礎 (概要)
    1. 識別的な機械学習の一般的な定式化
    2. 正則化付き経験損失最小化
    3. 典型的な識別問題 (分類・回帰) の例
    4. 逆強化学習における問題設定
  3. 時系列データのモデリング:マルコフ決定過程と最適制御
    1. 時系列データモデリング
      • マルコフ過程・動的システム
    2. 報酬と紐付く時系列データモデリング
      • マルコフ決定過程
    3. 報酬関数最大化問題
      • 最適制御
      • 最適政策
    4. ベルマン方程式・価値反復法
  4. 逆強化学習
    1. 逆強化学習の定式化
    2. 逆強化学習の損失関数の設計
    3. 逆強化学習のパラメータ最適化
  5. 逆強化学習の適用
    1. 逆強化学習の実装
    2. 研究事例から学ぶ逆強化学習の適用事例
      1. マルコフ決定過程 (状態空間・行動) の設計の実例
      2. 報酬関数設計の実例
  6. 逆強化学習の最近の話題
    1. 逆強化学習の高速化・高次元化・文脈の活用
    2. マルチエージェント問題・深層学習との融合・落穂拾い
  7. まとめ

講師

  • 下坂 正倫
    東京工業大学 情報理工学院 情報工学系
    准教授

主催

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様
: 47,000円 (税別) / 51,700円 (税込)
1口
: 57,000円 (税別) / 62,700円 (税込) (3名まで受講可)

ライブ配信セミナーについて

  • 本セミナーは「Zoom」を使ったライブ配信セミナーとなります。
  • お申し込み前に、 視聴環境テストミーティングへの参加手順 をご確認いただき、 テストミーティング にて動作確認をお願いいたします。
  • 開催日前に、接続先URL、ミーティングID​、パスワードを別途ご連絡いたします。
  • セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
  • ご自宅への書類送付を希望の方は、通信欄にご住所・宛先などをご記入ください。
  • タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
  • ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
  • 講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。
  • Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
    万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。
本セミナーは終了いたしました。

これから開催される関連セミナー

開始日時 会場 開催方法
2024/5/2 脳波計測・処理・解析・機械学習の基礎と応用および脳波データの活用方法 オンライン
2024/5/8 AI関連発明の出願戦略のポイントと生成AIを巡る知財制度上の留意点 オンライン
2024/5/17 スパース推定の本質の理解と実装応用技術への展開 オンライン
2024/5/23 ベイズ統計から学ぶ統計的機械学習 オンライン
2024/5/24 マテリアルインフォマティクスの材料開発への適用と活用事例 オンライン
2024/5/27 機械学習による適応的実験計画 オンライン
2024/5/27 外観検査へのAI導入と生成AIによるトレーニングデータ不足への対応 オンライン
2024/5/31 マテリアルズインフォマティクスのためのデータ解析 オンライン
2024/6/10 機械学習 (ディープラーニング) の基礎・活用・実践 (全3回) オンライン
2024/6/10 Python基礎と機械学習 基礎 オンライン
2024/6/12 デジタル時代のヘルスケアビジネスの立ち上げ方 東京都 会場・オンライン
2024/6/13 エンジニアのための実験計画法とExcel上で構築可能な人工知能を併用する非線形実験計画法 オンライン
2024/6/14 機械学習による異常検知入門 東京都 会場
2024/6/18 機械学習/AIによる特許調査の高度化で実践するスマート特許戦略 オンライン
2024/6/18 Pythonではじめる機械学習入門講座 オンライン
2024/6/19 実験自動化によるR&Dの高速化と再現性向上 オンライン
2024/6/19 機械学習を用いた画像認識技術の基礎とその応用 オンライン
2024/6/19 外観検査自動化に向けた画像処理・AI技術活用の課題と導入のポイント オンライン
2024/6/20 ISO 13485:2016対応に必須の医療機器プロセスバリデーション (進め方、統計的手法とそのサンプルサイズ) オンライン
2024/6/24 外観検査の自動化の進め方と画像データ取得およびAIによる検査のポイント オンライン