強化学習アルゴリズム入門

～「平均」からはじめる基礎と応用 / 「強化学習」「深層学習」「深層強化学習」の基本原理と応用、そして最先端最適化技術へ / 応用できる、実務に活かせる目線で、重要ポイントを理解・習得する講座～

東京都開催会場開催デモ付き

概要

本セミナーは、強化学習の基礎から解説し、深層強化学習について例題と動画、デモを通してわかりやすく解説いたします。

開催日

2019年6月24日(月) 10時30分～ 16時30分

修得知識

強化学習の基本原理と要素技術の基本知識
深層学習の基本原理と要素技術の基本知識
深層強化学習の基本原理と応用に関する知見
最先端最適化技術の可能性と問題点についての知見

プログラム

　AlphaGoがプロ棋士を破った2016年以降、さまざまな分野から注目されている深層強化学習ですが、専門書は非常に難解でわかりづらい傾向にあります。
　そこで本セミナーは、初歩的な数学を使って原理をわかりやすく解説します。価値・探索・マルコフ決定過程・動的計画法・モンテカルロ法・TD法といった強化学習の諸要素を、中高生にもなじみ深い平均値の計算から説明し、初学者でも基本とコツを自然と身につけられます。抽象的な強化学習の概念と煩雑な数学式を直感的に感じつつ、本質まで把握できることが本セミナーの最大の特徴です。
　また本セミナーと併行する書籍では、全例題にPythonとMATLABのコード付き。原理・数式・コードという一連の流れを紐付けて理解できるようになっています。初学者でも入りやすく、難しさを感じないまま、強化学習の基本と深層学習のコツを自然と身につけられるセミナーです。
　難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。
　テキストとして使用する書籍「強化学習アルゴリズム入門」には、すべての例題にPythonとMATLABのコードが例示されています。セミナー受講とともに実際のコードを確認することでより理解が深まります。

第1章平均から学ぶ強化学習の基本概念
1. はじめに
2. 平均と期待値
  1. 平均
  2. 期待値
  3. 期待値と平均の関係
3. 平均と価値
4. 平均とマルコフ性
  1. 平均の計算式とその変形
  2. 逐次平均表現とMP
5. 平均によるベルマン方程式の導出
  1. 平均表現と価値関数の導入
  2. 決定型Bellman方程式の導出
  3. 確率型Bellman方程式の導出
6. 平均によるモンテカルロ学習手法の導出
  1. 総報酬関数Gt+1の導入
  2. 総報酬GtとVtの比較
  3. 総報酬Gtの平均による価値関数vSt
7. 平均によるTD法の導出
  1. TD (0) 法の計算式の導出
  2. TD (n) 法の計算式の導出
第2章各アルゴリズムの特徴と応用
1. はじめに
2. 方策π (a | S)
  1. 多腕バンディット問題
  2. ε-Greedy方策
  3. UCB-1方策
  4. Bayes sampling方策
3. 動的計画法
  1. ε-Greedy (ε=1) 反復方策
  2. ε-Greedy (ε=0) 方策反復法 (On-Policy)
  3. ε-Greedy (ε=0) 価値反復法 (Off-Policy)
4. モンテカルロ法
  1. 固定開始点モンテカルロ法
5. TD (0) 法
  1. 方策反復方策からSARSA法の導出
  2. TD (0)-SARSA法
  3. 価値反復方策からTD (0)-Q学習法の導出
  4. 完全Off-Policy のTD (0)-Q学習法
  5. 部分Off-Policy のTD (0)-Q学習法
  6. Q学習法とSARSA法の比較
第3章関数近似手法
1. はじめに
2. 関数近似の基本概念
3. 関数近似モデルを用いたV (St) の表現
4. 機械学習による価値関数の回帰
  1. 誤差関数からわかる回帰と分類
  2. 誤差関数の設計と確率勾配降下法
  3. 強化学習における回帰解析の仕組み
5. モンテカルロ法を応用した価値関数回帰
6. Td (0)-SARSA法を適用した行動状態価値関数の回帰
7. Td (0)-Q法を応用した行動状態価値関数の回帰
第4章深層強化学習の原理と手法
1. TD-Q学習におけるNNによる行動価値関数回帰
2. DQNによる行動状態価値関数近似
3. 確率方策勾配法
  1. モンテカルロ離散方策勾配法
  2. ベースラインモンテカルロ離散方策勾配法
  3. 離散型Actor-Critic法
  4. 連続型Actor-Critic法
4. 決定型方策勾配法
  1. DDPG
  2. ハイブリッドDDPG
5. TRPO/PPO法
  1. EMアルゴリズム
  2. 信頼領域 (trust region) と自然勾配
  3. 信頼領域方策勾配法TRPO
6. まとめと展開

質疑応答・名刺交換

ページのトップヘ

講師

曽我部東馬氏
電気通信大学 i-パワードエネルギーシステム研究センター基盤理工学専攻

准教授

ページのトップヘ

会場

大田区産業プラザ PiO

6F D会議室

東京都大田区南蒲田1-20-20

ページのトップヘ

主催

サイエンス＆テクノロジー株式会社

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。

(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様

: 42,750円 (税別) / 46,170円 (税込)

複数名

: 22,500円 (税別) / 24,300円 (税込)

複数名同時受講の割引特典について

2名様以上でお申込みの場合、
1名あたり 22,500円(税別) / 24,300円(税込) で受講いただけます。
- 1名様でお申し込みの場合 : 1名で 42,750円(税別) / 46,170円(税込)
- 2名様でお申し込みの場合 : 2名で 45,000円(税別) / 48,600円(税込)
- 3名様でお申し込みの場合 : 3名で 67,500円(税別) / 72,900円(税込)
同一法人内 (グループ会社でも可) による複数名同時申込みのみ適用いたします。
受講券、請求書は、代表者にご郵送いたします。
請求書および領収書は1名様ごとに発行可能です。
申込みフォームの通信欄に「請求書1名ごと発行」と記入ください。
他の割引は併用できません。

本セミナーは終了いたしました。

セミナーの再開催を依頼する

ページのトップヘ

開始日時		開催方法
2025/4/16	異常検知・学習データ作成のための生成AI活用	オンライン
2025/4/16	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2025/4/17	スパース推定の基礎、本質の把握・理解と実装応用技術への展開	オンライン
2025/4/17	画像認識のためのディープラーニングとモデルの軽量化	オンライン
2025/4/22	マテリアルズインフォマティクスの高分子材料開発への応用	オンライン
2025/4/22	未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門	オンライン
2025/4/23	小規模データに対する機械学習の効果的適用法	オンライン
2025/4/23	ベイズ推定を用いたデータ解析	オンライン
2025/4/25	機械学習のための効率的なデータ取得法と解釈・評価方法	オンライン
2025/4/25	マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例	オンライン
2025/4/28	AI外観検査 (画像認識) のはじめ方、すすめ方、精度向上への考え方	オンライン
2025/4/30	未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門	オンライン
2025/5/6	ベイズ推定を用いたデータ解析	オンライン
2025/5/7	機械学習のための効率的なデータ取得法と解釈・評価方法	オンライン
2025/5/7	生成AIを活用したデータ分析の基礎とポイント	オンライン
2025/5/13	異常検知への生成AI活用と判断の標準化、高精度化	オンライン
2025/5/15	化学工学におけるビッグデータ非依存のニューラルネットワーク活用手法	オンライン
2025/5/16	画像認識技術入門	オンライン
2025/5/19	AI分野における特許戦略	オンライン
2025/5/20	マテリアルズインフォマティクス・第一原理計算の基礎と材料研究への応用	オンライン

発行年月
2023/6/30	生産プロセスにおけるIoT、ローカル5Gの活用
2022/12/31	機械学習・ディープラーニングによる "異常検知" 技術と活用事例集
2021/10/25	AIプロセッサー
2021/10/25	AIプロセッサー (CD-ROM版)
2021/7/30	マテリアルズインフォマティクスのためのデータ作成とその解析、応用事例
2021/7/14	AIビジネスのブレークスルーと規制強化
2021/6/30	人工知能を用いた五感・認知機能の可視化とメカニズム解明
2021/6/28	AI・MI・計算科学を活用した蓄電池研究開発動向
2020/8/11	化学・素材業界におけるデジタルトランスフォーメーションの最新調査レポート
2020/7/31	生体情報センシングと人の状態推定への応用
2020/4/30	生体情報計測による感情の可視化技術
2020/3/26	ビッグデータ・AIの利活用に伴う法的留意点
2020/3/24	リアルワールドデータの使用目的に応じた解析手法 - 各データベースの選択と組み合わせ -
2019/1/31	センサフュージョン技術の開発と応用事例
2018/5/31	“人工知能”の導入による生産性、効率性の向上、新製品開発への活用
2013/6/21	機械学習によるパターン識別と画像認識への応用
1993/3/1	新しいサーボ制御の基礎と実用化技術

tech-seminar.jp

セミナー

セミナー (分野別)

出版物

お申し込み・ご購入

お問い合わせ