強化学習の基礎と実践

東京都開催会場開催

概要

本セミナーでは、強化学習の基礎から解説し、基本的なアルゴリズムからチューニング、最新応用についてわかりやすく解説いたします。

開催日

2018年8月21日(火) 12時30分～ 16時30分

修得知識

強化学習の基礎理論
強化学習の基本アルゴリズム
実際に強化学習を試してみることができる

プログラム

　2016年、Googleが買収したDeepMind社が開発したコンピュータ囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのが深層学習 (ディープ・ラーニング) と強化学習を組み合わせたDeepQ – Network (DQN) である。
　本セミナーでは、強化学習の基礎理論と基本アルゴリズムについて解説し、LEGOロボットを用いたデモ、最近の研究動向、最新の応用事例を紹介する。

はじめに
1. 強化学習研究の歴史
2. 強化学習研究の動向
3. デモ (迷路)
強化学習の基礎
1. 強化学習の枠組み
2. マルコフ決定過程 (MDPs)
3. 決定的環境と確率的環境
4. エージェントの目的
5. 行動価値
6. 学習エージェントの行動選択法
  1. 一様ランダム選択
  2. グリーディー選択
  3. ε – グリーディー選択
  4. ソフトマックス選択
7. 探査と知識利用のジレンマ
基本的な強化学習アルゴリズム
1. 行動価値推定型
  1. Q学習
  2. Sarsa
2. 方策最適化型
  1. Policy Gradient
3. 行動価値推定型
  1. Profit Sharing (PS)
  2. OnPS
強化学習パラメーターのチューニング
1. 状態のチューニング
2. 行動のチューニング
3. 報酬関数のチューニング
4. 割引率のチューニング
5. ステップあたりの時間のチューニング
6. ステップサイズのチューニング
7. ε – グリーディー選択におけるεのチューニング
8. ソフトマックス選択における温度のチューニング
9. 行動価値の初期値のチューニング
実環境への応用する際の課題
1. マルチエージェント強化学習
2. 関数近似
3. 部分観測マルコフ決定過程 (POMDPs)
最新の強化学習
1. 多目的強化学習
2. 逆強化学習
3. 安全な強化学習
4. マルコフ決定過程簡約化
5. 複利型強化学習
6. 深層強化学習Deep Q – Network (DQN)
7. Trust Region Policy Optimization (TRPO)
応用事例
1. 複利型強化学習の応用事例
  1. 国債銘柄選択
  2. ブラックジャック
  3. 株取引
  4. 日本国債取引
2. 深層強化学習の応用事例
  1. ロボットアーム
  2. 自動運転車
  3. ドローン
まとめ

質疑応答

ページのトップヘ

会場

江東区役所商工情報センター (カメリアプラザ)

東京都江東区亀戸2-19-1

ページのトップヘ

主催

株式会社 R&D支援センター

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。

(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様

: 46,278円 (税別) / 49,980円 (税込)

案内割引・複数名同時申込割引について

R&D支援センターからの案内登録をご希望の方は、割引特典を受けられます。
案内および割引をご希望される方は、お申込みの際、「案内の希望 (割引適用)」の欄から案内方法をご選択ください。
複数名で同時に申込いただいた場合、1名様につき 23,139円(税別) / 24,990円(税込) で受講いただけます。

R&D支援センターからの案内を希望する方
- 1名様でお申し込みの場合 : 1名で 43,750円(税別) / 47,250円(税込)
- 2名様でお申し込みの場合 : 2名で 46,278円(税別) / 49,980円(税込)
- 3名様でお申し込みの場合 : 3名で 69,417円(税別) / 74,970円(税込)
R&D支援センターからの案内を希望しない方
- 1名様でお申し込みの場合 : 1名で 46,278円(税別) / 49,980円(税込)
- 2名様でお申し込みの場合 : 2名で 92,556円(税別) / 99,960円(税込)
- 3名様でお申し込みの場合 : 3名で 138,833円(税別) / 149,940円(税込)

本セミナーは終了いたしました。

セミナーの再開催を依頼する

ページのトップヘ

開始日時		開催方法
2026/7/6	少数・不揃いな計測データの機械学習とモデル設計	オンライン
2026/7/9	機械学習を用いた流体力学現象の予測とモデリング	オンライン
2026/7/14	はじめてのPI (プロセスインフォマティクス)	オンライン
2026/7/15	第一原理計算と機械学習を用いた材料設計へのアプローチ	オンライン
2026/7/17	ラボオートメーションに向けた実験環境の構築と導入・実装のポイント	オンライン
2026/7/17	第一原理計算と機械学習を活用した材料設計と応用展開	オンライン
2026/7/21	第一原理計算と機械学習を活用した材料設計と応用展開	オンライン
2026/7/24	はじめてのPI (プロセスインフォマティクス)	オンライン
2026/7/29	ラボオートメーションに向けた実験環境の構築と導入・実装のポイント	オンライン
2026/7/30	機械学習原子間ポテンシャルの理論体系と応用展開	オンライン
2026/7/31	製造現場における正常/異常判定の考え方とデータ解析結果の使いこなし方	オンライン
2026/7/31	機械学習原子間ポテンシャルの理論体系と応用展開	オンライン
2026/10/23	未知の不良や異常も検知する検査・センシング・モニタリングに適した人工知能MTシステム (MT法) 基礎と応用	オンライン

発行年月
2024/10/31	少ないデータによるAI・機械学習の進め方と精度向上、説明可能なAIの開発
2023/6/30	生産プロセスにおけるIoT、ローカル5Gの活用
2022/12/31	機械学習・ディープラーニングによる "異常検知" 技術と活用事例集
2021/10/25	AIプロセッサー (CD-ROM版)
2021/10/25	AIプロセッサー
2021/7/30	マテリアルズインフォマティクスのためのデータ作成とその解析、応用事例
2021/6/30	人工知能を用いた五感・認知機能の可視化とメカニズム解明
2021/6/28	AI・MI・計算科学を活用した蓄電池研究開発動向
2020/8/11	化学・素材業界におけるデジタルトランスフォーメーションの最新調査レポート
2020/7/31	生体情報センシングと人の状態推定への応用
2020/4/30	生体情報計測による感情の可視化技術
2019/1/31	センサフュージョン技術の開発と応用事例
2018/5/31	“人工知能”の導入による生産性、効率性の向上、新製品開発への活用
2013/6/21	機械学習によるパターン識別と画像認識への応用
1993/3/1	新しいサーボ制御の基礎と実用化技術

tech-seminar.jp

セミナー

セミナー (分野別)

出版物

お申し込み・ご購入

お問い合わせ