認識から行動へ : 深層強化学習を理解するための基礎と応用

東京都開催会場開催

開催日

2018年7月24日(火) 10時30分～ 16時30分

プログラム

　古典的AIでは問題解決を「診断型」と「計画型」に大別してきた。深層学習は前者、すなわち、対象の「認識」や「分類」を担うアルゴリズムである。近年注目されているAlphaGo、そして自動運転の問題を考えてみると、状態を認識し、その状態に最適な行動を選択する必要がある。第2世代のAIでは、この状態と行動の対を「If (状態) then (行動) 」のルールとして、人間の専門的知識を知識ベース化しヒューリスティクス (発見的知識) などと呼んだ。しかし、この種の知識獲得は困難を極め、ルールの優先順位を決める重みづけに限界があった。そこで登場したのが強化学習である。強化学習は「未知の環境での」行動獲得の手段であり、報酬というスカラー量さえ定義できれば、後は試行錯誤に委ねられる設計者フリー、モデルフリーであることが最大の売りである。しかし、強化学習で所与とされる「報酬」、「状態空間」の設計が案外難しいことが実用を妨げている。
　この流れの中で、深層学習がにわかに注目され、そこに強化学習を導入した深層強化学習によるAtariの成功を受けて、再度強化学習が注目されている。そこで、本セミナーでは、強化学習の理論的基礎、その応用として自動運転による交通流最適化を通じて状態の特徴空間や報酬の設計法として逆強化学習、模倣学習について解説する。

人工知能における問題解決
1. 診断型と計画型
2. 探索
3. 論理的推論
  1. 演繹推論
  2. 帰納推論
強化学習の基礎
1. モデリング
  1. 状態集合、行動集合、報酬
  2. 学習主体 (エージェント) の定義
  3. 環境との相互作用:報酬
2. マルコフ決定過程
  1. 動的計画法
  2. 行動選択
  3. 環境との相互作用:報酬
強化学習:基本アルゴリズム
1. 強化学習の分類
  1. ブートストラップ法
  2. モンテカルロ法
2. 代表的な強化学習アルゴリズム
  1. TD学習
  2. Q学習
  3. Sarsa
  4. モンテカルロ法
    - First – visit Monte Carlo, Every – visit Monte Carlo
    - Profit Sharing
3. 状態と行動
  1. 連続と離散
  2. Actor – Critic
  3. 行動選択
4. 応用と課題
  1. 交通流最適化/マルチエージェントモデル
  2. 電力融通/マルチエージェントモデル
  3. 不完全知覚問題
  4. 報酬設計問題
逆強化学習
1. 逆強化学習の基礎
  1. 状態遷移確率を用いる方法 (Ng)
  2. 模倣による方法 (Abbeel)
2. 最新の逆強化学習アルゴリズム
  1. Maximum Entropy IRL
  2. Bayesian Non Parametric IRL
3. 逆強化学習の応用と課題
  1. インセンティブの推定
  2. Active Forecast (行動予測)
4. 応用と課題
  1. 交通流最適化/マルチエージェントモデル
  2. 電力融通/マルチエージェントモデル
  3. Feature Construction IRL: 状態空間と報酬の相互改善法
最近の話題
1. 頑健性を実現する強化学習:生成モデル GAN
2. 適応性を実現する強化学習:Bayesian Nonparametric IRL for Switched MDPs
まとめ

ページのトップヘ

講師

荒井幸代氏
千葉大学大学院工学研究科都市環境システムコース

教授

ページのトップヘ

会場

株式会社オーム社オームセミナー室

東京都千代田区神田錦町3-1

ページのトップヘ

主催

株式会社トリケップス

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。

(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様

: 46,000円 (税別) / 49,680円 (税込)

1口

: 57,000円 (税別) / 61,560円 (税込) (3名まで受講可)

本セミナーは終了いたしました。

セミナーの再開催を依頼する

ページのトップヘ

ページ内で移動

これから開催される関連セミナー

開始日時		開催方法
2024/6/18	機械学習/AIによる特許調査の高度化で実践するスマート特許戦略	オンライン
2024/6/18	Pythonではじめる機械学習入門講座	オンライン
2024/6/19	実験自動化によるR&Dの高速化と再現性向上	オンライン
2024/6/19	機械学習を用いた画像認識技術の基礎とその応用	オンライン
2024/6/19	外観検査自動化に向けた画像処理・AI技術活用の課題と導入のポイント	オンライン
2024/6/24	外観検査の自動化の進め方と画像データ取得およびAIによる検査のポイント	オンライン
2024/6/24	小規模データに対する機械学習の効果的適用法	オンライン
2024/6/24	計測インフォマティクスの基礎とスペクトルデータ解析への応用	オンライン
2024/6/26	少ないデータに対する機械学習の適用と学習結果の評価技術	オンライン
2024/7/5	小規模データに対する機械学習の効果的適用法	オンライン
2024/7/8	機械学習 (ディープラーニング) の基礎・活用・実践 (全3回)	オンライン
2024/7/8	ディープラーニングと機械学習プロジェクトの進め方	オンライン
2024/7/9	画像認識技術を用いたAI外観検査の現場導入事例と精度向上技術	オンライン
2024/7/10	外観検査のデジタル化・自動化	オンライン
2024/7/10	異常検知、学習データ作成への生成AI活用	オンライン
2024/7/18	Vision Transformerの仕組み	オンライン
2024/7/22	画像認識技術入門	オンライン
2024/7/22	ベイズモデリングの入門 & 実践講座	オンライン
2024/7/23	カルマンフィルタの実践	オンライン
2024/7/25	ディープニューラルネットワークモデル/MTシステムの基礎と学習データ最小化	オンライン

発行年月
2023/6/30	生産プロセスにおけるIoT、ローカル5Gの活用
2022/12/31	機械学習・ディープラーニングによる "異常検知" 技術と活用事例集
2021/10/25	AIプロセッサー (CD-ROM版)
2021/10/25	AIプロセッサー
2021/7/30	マテリアルズインフォマティクスのためのデータ作成とその解析、応用事例
2021/7/14	AIビジネスのブレークスルーと規制強化
2021/6/30	人工知能を用いた五感・認知機能の可視化とメカニズム解明
2021/6/28	AI・MI・計算科学を活用した蓄電池研究開発動向
2020/8/11	化学・素材業界におけるデジタルトランスフォーメーションの最新調査レポート
2020/7/31	生体情報センシングと人の状態推定への応用
2020/4/30	生体情報計測による感情の可視化技術
2020/3/26	ビッグデータ・AIの利活用に伴う法的留意点
2020/3/24	リアルワールドデータの使用目的に応じた解析手法 - 各データベースの選択と組み合わせ -
2019/1/31	センサフュージョン技術の開発と応用事例
2018/5/31	“人工知能”の導入による生産性、効率性の向上、新製品開発への活用
2013/6/21	機械学習によるパターン識別と画像認識への応用
1993/3/1	新しいサーボ制御の基礎と実用化技術

tech-seminar.jp

セミナー

セミナー (分野別)

出版物

お申し込み・ご購入

お問い合わせ