深層強化学習の基本・最新アルゴリズムと応用

～深層学習のさらに先にある “深層強化学習手法”～

東京都開催会場開催デモ付き

開催日

2018年9月14日(金) 10時30分～ 16時30分

修得知識

強化学習の基本原理と要素技術の基本知識
深層学習の基本原理と要素技術の基本知識
深層強化学習の基本原理と応用に関する知見
最先端最適化技術の可能性と問題点についての知見

プログラム

　2016年、世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。また昨年、AlphaGoのシリーズにAlphaGo Zero とAlphaZeroが現れ、人間の経験を使用せずscratchから強くなるという典型的な強化学習手法が学術産業界から一層注目を集めています。
　AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方々にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。
　本セミナーはこのような現状を踏まえ、深層強化学習の基本と応用において下記をポイントに講義の内容を構成しました。

【1】最も基本となる強化学習の中核アルゴリズムについて、例題と「動画」を通して、アルゴリズムのコードを砕きながらなるべくわかりやすく説明します。
【2】強化学習と深層学習の架け橋となる関数近似器の説明について工夫を加えます。難解といわれる「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した強化学習手法について簡易デモなどを用いてわかりやすく説明します。これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。
【3】深層強化学習はニューラルネットワークに適した新しいアルゴリズムが近年、多数提案され、従来の強化学習手法より著しく向上した学習結果が得られています。本セミナーは最新深層強化学習アルゴリズムの理論土台になる確率方策勾配と決定的方策勾配法の違いを徹底的に分析し、簡易モデルを通してわかりやすく説明します。
【4】担当講師の実際の研究内容を踏まえ、現場での深層強化学習の応用ノウハウと経験を解説し、受講者の皆様がすぐ役立つスキルを持ち帰ることができるよう内容を準備します。
　これまで、延120人に深層強化学習を含めた強化学習の入門講義を実践した経験を元に、様々な背景を持つ受講者のみなさんにとって「どこが難しく感じるのか」あるいは「どこをもっと説明してほしいのか」を配慮。目的に合わせて、理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。

第1部はじめに
1. 強化学習の基本概念
2. 強化学習・深層学習および深層強化学習の特徴と違い
3. 深層強化学習により可能となること
4. 強化学習における探索と利用のジレンマ
5. 多腕バンディット問題の解法をわかりやすく説明
  - Epsilon – greedy
  - 最適初期値設定法
  - UCB1
  - Bayesian/Thompson 法の詳細
6. 簡易デモ (python) :Gridworld (上記4種類解法の実行:直感的に理解する)
第2部基本概念:マルコフ決定過程 (MDP) の基本原理のポイント
1. マルコフ性とは
2. 平均という簡単な概念からMDPを学ぶ
3. MDPの定義と式の導き方
4. 状態遷移確率と行動確率の違い
5. 価値関数V (s) と状態行動価値関数[Q (s,a) ]の定義
6. 簡易演習デモ (python) 1:Gridworld (式を理解するために)
7. 最適状態価値関数V_* (s) のポイント
8. 最適状態行動価値関数Q_* (s,a) のポイント
9. 簡易デモ (python) 2:Gridworld (式を理解する)
10. ディスカッション:最適性と近似性について
第3部中核:強化学習におけるMDP問題の解法
1. 動的計画法の解説と入門
  - 最適な方策の探索手法をわかりやすく説明
  - 方策反復法による最適状態価値関数を求める
  - 価値反復法による最適状態価値関数を求める
  - 簡易デモ (python) :Gridworld (4種類解法の実行と結果比較:概念を理解する)
2. Monte – Carlo (MC) 法をわかりやすく解説
  - モデル法とモデルフリー法のちがい
  - MC法による最適状態行動価値関数Q (s,a) の求め方とポイント
  - 簡易デモ (python) :Gridworld (2種類MC法の実行と比較:概念を理解する)
3. TD学習手法のポイントと入門
  - SARSA法の説明と式の導きかた
  - Q – 学習法の説明と式の導きかた
  - On – PolicyとOff – Policyを詳しく説明
  - 簡易デモ (python) :Gridworld (3種類TD法の実行と比較:概念を理解する)
第4部拡張:強化学習における関数近似手法とは (入門編)
1. Tabular法 (表形式手法) と近似解法のちがい
2. 回帰モデルと誤差関数をあらためて復習
3. 最急降下勾配法とMC法との関連性をわかりやすく説明
4. 疑似勾配 (Semi – Gradient) とは
5. 簡単な線形回帰モデルに基いたMC法による状態価値関数V (s,θ) を求める
6. 簡単な非線形回帰モデルに基いたTD (0) 法によるV (s,θ) を求める
7. 簡単な非線形回帰モデルに基いたSARSA法によるV (s,θ) を求める
8. 簡易デモ (python) :Gridworld (回帰近似MDP解法の実行:直感的理解)
第5部最前線:深層強化学習の基本概念と最重要ポイント
1. 簡易型ニューラルネットワークを応用したQ – 学習手法の説明
2. 深層Q – 学習 (DQN) の基本ポイント
3. 連続動作空間における強化学習のポイント
4. 方策勾配法の基本と式の導き方
5. ガウシアン型行動確率分布の導入
6. 方策勾配法による連続動作空間における強化学習の簡易説明
7. 深層Actor – Critic法の基本と実行のコツ
8. 確率方策勾配法と決定的方策勾配の比較
9. 決定的方策勾配DDPGの長所と短所について分析
10. 簡易実演デモ (python) : Mountain car, Cartpole, Atariなど (概念の理解)
第6部応用:強化学習と深層強化学習の応用事例
1. 蓄電池充放電制御における強化学習の応用事例
2. 混合整数計画問題における深層強化学習応用事例
3. PID制御素子における強化学習の応用事例

全体のまとめと質疑応答・名刺交換

ページのトップヘ

講師

曽我部東馬氏
電気通信大学 i-パワードエネルギーシステム研究センター基盤理工学専攻

教授

ページのトップヘ

会場

株式会社オーム社オームセミナー室

東京都千代田区神田錦町3-1

ページのトップヘ

主催

株式会社トリケップス

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。

(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様

: 46,000円 (税別) / 49,680円 (税込)

1口

: 57,000円 (税別) / 61,560円 (税込) (3名まで受講可)

本セミナーは終了いたしました。

セミナーの再開催を依頼する

ページのトップヘ

開始日時		開催方法
2026/5/13	AIエージェントの基礎と業務導入のポイント	オンライン
2026/5/21	マテリアルズ・インフォマティクスと第一原理計算による材料研究の実践	オンライン
2026/5/21	Pythonデータ分析実践講座 (入門編)	オンライン
2026/5/21	マテリアルズインフォマティクスのための実験データ統合、データベース構築と活用例	オンライン
2026/5/21	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2026/5/22	Pythonデータ分析実践講座 (入門編)	オンライン
2026/5/22	AIエージェントの基礎と業務導入のポイント	オンライン
2026/5/25	生成AI (ChatGPT) を活用した多変量解析実践講座	オンライン
2026/5/25	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2026/5/26	外観検査の自動化におけるAI活用の実際	オンライン
2026/5/26	分子シミュレーションの基礎と高分子材料の研究・開発の効率化への展開	オンライン
2026/5/26	レーザー加工分野における機械学習の活用手法	オンライン
2026/5/27	生成AI (ChatGPT) を活用した多変量解析実践講座	オンライン
2026/5/27	レーザー加工分野における機械学習の活用手法	オンライン
2026/5/28	材料・分析データに活かすためのケモメトリクスの基礎と実践	オンライン
2026/6/2	機械学習を用いた画像認識技術の基礎とその応用	オンライン
2026/6/2	Pythonによるデータ解析の基礎と実務への応用	オンライン
2026/6/3	生成AIを活用したデータ分析の基礎と利用のポイント	オンライン
2026/6/4	ExcelデータをPythonで活かすデータ解析	オンライン
2026/6/4	外観検査の自動化におけるAI活用の実際	オンライン

発行年月
2024/10/31	少ないデータによるAI・機械学習の進め方と精度向上、説明可能なAIの開発
2023/6/30	生産プロセスにおけるIoT、ローカル5Gの活用
2022/12/31	機械学習・ディープラーニングによる "異常検知" 技術と活用事例集
2021/10/25	AIプロセッサー (CD-ROM版)
2021/10/25	AIプロセッサー
2021/7/30	マテリアルズインフォマティクスのためのデータ作成とその解析、応用事例
2021/6/30	人工知能を用いた五感・認知機能の可視化とメカニズム解明
2021/6/28	AI・MI・計算科学を活用した蓄電池研究開発動向
2020/8/11	化学・素材業界におけるデジタルトランスフォーメーションの最新調査レポート
2020/7/31	生体情報センシングと人の状態推定への応用
2020/4/30	生体情報計測による感情の可視化技術
2019/1/31	センサフュージョン技術の開発と応用事例
2018/5/31	“人工知能”の導入による生産性、効率性の向上、新製品開発への活用
2013/6/21	機械学習によるパターン識別と画像認識への応用
1993/3/1	新しいサーボ制御の基礎と実用化技術

tech-seminar.jp

セミナー

セミナー (分野別)

出版物

お申し込み・ご購入

お問い合わせ