強化学習入門

～基本アルゴリズム・深層強化学習・応用～

東京都開催会場開催

概要

本セミナーでは、数ある人工知能手法の中でも今とくに注目されている「深層強化学習」について動画やデモを用いてわかりやすく解説いたします。

開催日

2017年11月24日(金) 10時30分～ 16時30分

修得知識

強化学習の基本原理と要素技術の基本知識
深層学習の基本原理と要素技術の基本知識
深層強化学習の基本原理と応用に関する知見
最先端最適化技術の可能性と問題点についての知見

プログラム

　世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現。このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。
　AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。本セミナーはこのような現状を踏まえセミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。そして、いよいよ後半では「最前線:深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。
　様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。本セミナーを通して「強化学習」とその先にある「深層強化学習」の基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。

第1部はじめに
1. 強化学習の基本概念
2. 多腕バンディット問題をわかりやすく説明
3. 強化学習における探索と利用のジレンマ
4. 多腕バンディット問題の解法をわかりやすく説明
  - 平均報酬という概念について
  - 平均報酬を更新するための式の導きかた
  - Epsilon-greedy
  - 最適初期値設定法
  - UCB1
  - Bayesian/Thompson 法の詳細
5. 簡易デモ (python) :Gridworld (上記4種類解法の実行:直感的に理解する)
第2部基本概念-マルコフ決定過程 (MDP) の基本原理のポイント
1. 確率過程
2. マルコフ性とは
3. マルコフ鎖とは
4. MDPの定義と式の導き方
5. 方策πの定義と価値関数の対応関係
6. 状態価値関数[V (s) ]におけるベルマン方程式をわかりやすく説明
7. 状態行動価値関数[Q (s,a) ] におけるベルマン方程式をわかりやすく説明
8. 簡易演習デモ (python) 1:Gridworld (式を理解するために)
9. 最適状態価値関数 V* (s) のポイント
10. 最適状態行動価値関数 Q* (s,a) のポイント
11. 最適状態価値関数 V* (s) と最適状態行動価値関数 Q* (s,a) の相互関係
12. ベルマン最適性方程式の導きかた
13. 簡易デモ (python) 2:Gridworld (式を理解する)
14. ディスカッション:最適性と近似性について
第3部中核強化学習におけるMDP問題の解法
1. 動的計画法の解説と入門:
  1. 反復法による価値関数を求める:ランダム方策 vs 固定方策
  2. 最適な方策の探索手法をわかりやすく説明
    - 方策反復法による最適状態価値関数を求める
    - 遷移確率を考慮した方策反復法による最適状態価値関数を求める
    - 価値反復法による最適状態価値関数を求める
  3. 簡易デモ (python) :Gridworld (4種類解法の実行と結果比較:概念を理解する)
2. Monte-Carlo (MC) 法をわかりやすく解説
  1. モデル法とモデルフリー法のちがい
  2. 経験に基づく学習手法のポイント
  3. MC法と多腕バンディットの内在関連性
  4. 状態価値関数・行動状態価値関数と平均報酬との関係
  5. MC法による状態価値関数の求め方とポイント
  6. MC法による最適状態行動価値関数 Q (s,a) の求め方とポイント
  7. 簡易デモ (python) :Gridworld (2種類MC法の実行と比較:概念を理解する)
3. TD学習手法のポイントと入門
  1. TD (0) 法の説明と式の導きかた
  2. SARSA法の説明と式の導きかた
  3. Q-学習法の説明と式の導きかた
  4. On-PolicyとOff-Policyを詳しく説明
  5. 簡易デモ (python) :Gridworld (3種類TD法の実行と比較:概念を理解する)
第4部拡張ー強化学習における関数近似手法とは (入門編)
1. Tabular法 (表形式手法) と近似解法のちがい
2. 回帰モデルと誤差関数をあらためて復習
3. 最急降下勾配法とMC法との関連性をわかりやすく説明
4. 疑似勾配 (Semi-Gradient) とは
5. 簡単な線形回帰モデルに基いたMC法による状態価値関数 V (s,θ) を求める
6. 簡単な線形回帰モデルに基いたTD (0) 法による V (s,θ) を求める
7. 簡単な線形回帰モデルに基いたSARSA法による V (s,θ) を求める
8. 簡易デモ (python) :Gridworld (回帰近似MDP解法の実行:直感的理解)
第5部最前線深層強化学習の基本概念と最重要ポイント
1. 簡易型ニューラルネットワークを応用したQ-学習手法の説明
2. 深層Q-学習 (DQN) の基本ポイント
3. 連続動作空間における強化学習のポイント
4. 方策勾配法の基本と式の導き方
5. ガウシアン型行動確率分布の導入
6. 方策勾配法による連続動作空間における強化学習の簡易説明
7. 深層Actor-Critic法の基本と実行のコツ
8. 簡易実演デモ (python) : Mountain car, Cartpole, Atariなど (概念の理解)
第6部応用強化学習と深層強化学習の応用事例
1. ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
2. 電気制御素子のパラメーター探索における強化学習の応用事例紹介
3. 蓄電池充放電制御における強化学習の応用事例紹介
4. 太陽光発電の変動制御における強化学習の応用事例紹介
5. 簡易実演デモ (python) : (応用の可能性と効果を議論する)

質疑応答

ページのトップヘ

会場

江東区役所商工情報センター (カメリアプラザ)

9F 第2研修室

東京都江東区亀戸2-19-1

ページのトップヘ

主催

株式会社 R&D支援センター

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。

(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様

: 46,278円 (税別) / 49,980円 (税込)

割引特典について

R&D支援センターからの案内登録をご希望の方は、割引特典を受けられます。
- 1名でお申込みいただいた場合、1名につき 43,750円 (税別) / 47,250円 (税込)
- 複数名で同時にお申し込みいただいた場合、1名につき 23,139円 (税別) / 24,990円 (税込)
- 案内登録をされない方は、1名につき 46,278円 (税別) / 49,980円 (税込)

本セミナーは終了いたしました。

セミナーの再開催を依頼する

ページのトップヘ

開始日時		開催方法
2025/4/8	Pythonによる特許データ分析とIPランドスケープへの活用	オンライン
2025/4/8	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2025/4/9	マテリアルズインフォマティクス (MI) の最新動向と小規模データ駆動型MIの展開	オンライン
2025/4/10	Vision Transformerの仕組みとBEV Perception	オンライン
2025/4/11	Excel・Pythonで学ぶ製造業向けデータ解析と実務への応用	オンライン
2025/4/11	マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例	オンライン
2025/4/11	AIを活用した創薬研究プロセスの加速化	オンライン
2025/4/15	自動運転・運転支援に向けた各種センサーを用いた周辺環境認識技術	オンライン
2025/4/16	異常検知・学習データ作成のための生成AI活用	オンライン
2025/4/16	Pythonによる機械学習の基礎と実践	オンライン
2025/4/16	機械学習を用いたスペクトルデータ解析と材料開発への適用	オンライン
2025/4/17	スパース推定の基礎、本質の把握・理解と実装応用技術への展開	オンライン
2025/4/17	画像認識のためのディープラーニングとモデルの軽量化	オンライン
2025/4/18	実験計画法・ベイズ最適化を用いた効率的な実験デザイン	オンライン
2025/4/22	マテリアルズインフォマティクスの高分子材料開発への応用	オンライン
2025/4/22	未知の異常も検知する人工知能MTシステム (MT法) 基礎と応用入門	オンライン
2025/4/23	ベイズ推定を用いたデータ解析	オンライン
2025/4/25	機械学習のための効率的なデータ取得法と解釈・評価方法	オンライン
2025/4/25	マテリアルズインフォマティクスの基礎と高分子材料設計における応用事例	オンライン
2025/4/28	AIを活用した創薬研究プロセスの加速化	オンライン

発行年月
2024/3/4	対話型生成AI (人工知能) 利活用技術技術開発実態分析調査報告書
2024/3/4	対話型生成AI (人工知能) 利活用技術技術開発実態分析調査報告書 (CD-ROM版)
2023/6/30	生産プロセスにおけるIoT、ローカル5Gの活用
2022/12/31	機械学習・ディープラーニングによる "異常検知" 技術と活用事例集
2021/10/25	AIプロセッサー (CD-ROM版)
2021/10/25	AIプロセッサー
2021/7/30	マテリアルズインフォマティクスのためのデータ作成とその解析、応用事例
2021/7/14	AIビジネスのブレークスルーと規制強化
2021/6/30	人工知能を用いた五感・認知機能の可視化とメカニズム解明
2021/6/28	AI・MI・計算科学を活用した蓄電池研究開発動向
2020/8/11	化学・素材業界におけるデジタルトランスフォーメーションの最新調査レポート
2020/7/31	生体情報センシングと人の状態推定への応用
2020/4/30	生体情報計測による感情の可視化技術
2020/3/26	ビッグデータ・AIの利活用に伴う法的留意点
2020/3/24	リアルワールドデータの使用目的に応じた解析手法 - 各データベースの選択と組み合わせ -
2019/1/31	センサフュージョン技術の開発と応用事例
2018/5/31	“人工知能”の導入による生産性、効率性の向上、新製品開発への活用
2013/6/21	機械学習によるパターン識別と画像認識への応用
1993/3/1	新しいサーボ制御の基礎と実用化技術

tech-seminar.jp

セミナー

セミナー (分野別)

出版物

お申し込み・ご購入

お問い合わせ