逆強化学習の基礎と発展

オンライン開催

概要

本セミナーでは、逆強化学習の応用事例を紹介したうえで、逆強化学習の理解につながる、機械学習や強化学習の基礎から説明し、そのうえで逆強化学習の数理的な問題設定、さらに、本研究分野の発展に寄与するいくつかのアルゴリズムを紹介いたします。

開催日

2023年11月21日(火) 10時30分～ 16時30分

修得知識

逆強化学習の問題設定
マルコフ決定過程・ベルマン方程式
例題を通じて逆強化学習の実装方法
制御分野と機械学習の共通部分
逆強化学習の事例
逆強化学習の応用範囲

プログラム

　逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。熟練者のうまみ=「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、逆最適制御とも呼ばれる。これは、強化学習の実応用で問題となる報酬関数の設計など、明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動のモデル化とも関連した応用も多い。例えば状況に応じた運転経路・目的地予測、人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などがある。
　本セミナーでは、このような逆強化学習の応用事例を紹介したうえで、逆強化学習の理解につながる、機械学習や強化学習の基礎から説明し、そのうえで逆強化学習の数理的な問題設定、さらに、本研究分野の発展に寄与するいくつかのアルゴリズムを紹介していく。近年の逆強化学習の課題なども紹介できればと考えている。

AI分野における模倣学習の位置づけ
1. AI分野における強化学習の位置づけ
2. 最適制御と強化学習
3. 強化学習と逆強化学習
4. 行動クローニングと逆強化学習
逆強化学習の応用事例
1. 行動スキル獲得
2. 行動予測
3. 効率的な強化学習
機械学習の基本要素の確認
1. 損失の期待値・平均値の最小化
2. 正則化
3. 数値最適化 (勾配法)
強化学習の問題設定
1. マルコフ決定過程
2. 報酬最大化
3. 価値関数・Bellman方程式・価値反復法
逆強化学習の基礎
1. 逆強化学習の基本的枠組の導出
2. モデルベース離散状態空間の逆強化学習
  1. 最大マージン逆強化学習
  2. 最大エントロピー逆強化学習
3. 強化学習と逆強化学習の双対性 (GAIL)
逆強化学習の発展
1. モデルフリー連続状態空間の強化学習
  1. 価値関数近似・方策勾配法
  2. SAC,PPO,TRPO etc.
2. 報酬関数の表現手法
  1. 線形モデル
  2. 加法モデル
  3. 非線形モデリング
  4. 敵対的生成モデリング (AIRL)
逆強化学習の実装
- シミュレーション環境を用いた逆強化学習の実装事例を紹介する
逆強化学習の最近の進展

ページのトップヘ

講師

下坂正倫氏
東京工業大学情報理工学院情報工学系

准教授

ページのトップヘ

主催

株式会社トリケップス

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。

(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様

: 49,000円 (税別) / 53,900円 (税込)

1口

: 60,000円 (税別) / 66,000円 (税込) (3名まで受講可)

ライブ配信セミナーについて

本セミナーは「Zoom」を使ったライブ配信セミナーとなります。
お申し込み前に、視聴環境とテストミーティングへの参加手順をご確認いただき、テストミーティングにて動作確認をお願いいたします。
開催日前に、接続先URL、ミーティングID、パスワードを別途ご連絡いたします。
セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
ご自宅への書類送付を希望の方は、通信欄にご住所・宛先などをご記入ください。
タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。
Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。

本セミナーは終了いたしました。

セミナーの再開催を依頼する

ページのトップヘ

開始日時		開催方法
2025/4/8	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2025/4/9	マテリアルズインフォマティクス (MI) の最新動向と小規模データ駆動型MIの展開	オンライン
2025/4/10	Vision Transformerの仕組みとBEV Perception	オンライン
2025/4/11	マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例	オンライン
2025/4/15	自動運転・運転支援に向けた各種センサーを用いた周辺環境認識技術	オンライン
2025/4/16	異常検知・学習データ作成のための生成AI活用	オンライン
2025/4/16	Pythonによる機械学習の基礎と実践	オンライン
2025/4/16	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2025/4/17	スパース推定の基礎、本質の把握・理解と実装応用技術への展開	オンライン
2025/4/22	マテリアルズインフォマティクスの高分子材料開発への応用	オンライン
2025/4/22	未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門	オンライン
2025/4/23	ベイズ推定を用いたデータ解析	オンライン
2025/4/25	機械学習のための効率的なデータ取得法と解釈・評価方法	オンライン
2025/4/25	マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例	オンライン
2025/4/28	AI外観検査 (画像認識) のはじめ方、すすめ方、精度向上への考え方	オンライン
2025/4/30	未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門	オンライン
2025/5/6	ベイズ推定を用いたデータ解析	オンライン
2025/5/7	生成AIを活用したデータ分析の基礎とポイント	オンライン
2025/5/7	機械学習のための効率的なデータ取得法と解釈・評価方法	オンライン
2025/5/13	異常検知への生成AI活用と判断の標準化、高精度化	オンライン

発行年月
2023/6/30	生産プロセスにおけるIoT、ローカル5Gの活用
2022/12/31	機械学習・ディープラーニングによる "異常検知" 技術と活用事例集
2021/10/25	AIプロセッサー (CD-ROM版)
2021/10/25	AIプロセッサー
2021/7/30	マテリアルズインフォマティクスのためのデータ作成とその解析、応用事例
2021/7/14	AIビジネスのブレークスルーと規制強化
2021/6/30	人工知能を用いた五感・認知機能の可視化とメカニズム解明
2021/6/28	AI・MI・計算科学を活用した蓄電池研究開発動向
2020/8/11	化学・素材業界におけるデジタルトランスフォーメーションの最新調査レポート
2020/7/31	生体情報センシングと人の状態推定への応用
2020/4/30	生体情報計測による感情の可視化技術
2020/3/26	ビッグデータ・AIの利活用に伴う法的留意点
2020/3/24	リアルワールドデータの使用目的に応じた解析手法 - 各データベースの選択と組み合わせ -
2019/1/31	センサフュージョン技術の開発と応用事例
2018/5/31	“人工知能”の導入による生産性、効率性の向上、新製品開発への活用
2013/6/21	機械学習によるパターン識別と画像認識への応用
1993/3/1	新しいサーボ制御の基礎と実用化技術

tech-seminar.jp

セミナー

セミナー (分野別)

出版物

お申し込み・ご購入

お問い合わせ