技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

機械学習のためのデータ前処理技術とノウハウ

機械学習のためのデータ前処理技術とノウハウ

~未整理の実用的なデータで学ぶ前処理のポイント / 思ったようなデータが入手できない、学習が上手くいかない時の秘策~
オンライン 開催

アーカイブ配信で受講をご希望の場合、視聴期間は2024年12月20日〜2025年1月10日を予定しております。
アーカイブ配信のお申し込みは2024年12月20日まで承ります。

概要

本セミナーでは、機械学習の成果を左右する「データ前処理」について取り上げ、その基本から、高度な前処理、自然言語・画像・音声におけるすぐに使える前処理技術、うまく対処できない時のための最新技術の調べ方のコツなどについて、PCを用いた演習を含めて実践的な内容を解説いたします。

開催日

  • 2024年12月11日(水) 10時30分 16時30分

修得知識

  • Google Colaboratoryを用いたデータ分析
  • Pythonを用いたデータの前処理
  • 数値、テキスト、画像、音声データの前処理
  • 最近のAIでは常識になっている技術
    • ファインチューニング
    • データ拡張
    • 大規模言語モデルなど

プログラム

 本セミナーでは、データ分析や人工知能の開発において欠かせないデータの前処理技術についてレクチャーし、実演を交えて解説します。Google Colab環境用に準備されているサンプルコードを使って実データを対象に前処理し、機械学習してみることで、実践的な技術を習得していただくことがねらいです。実際、市販の教科書を片手にGoogle Colabにあらかじめインストール済みの各種ライブラリ (数値計算、機械学習、深層学習フレームワーク) を使って、どなたでも簡単にデータサイエンスやAIの初歩を体験することができます。しかし、そうした初歩的なサンプルコードの多くが理想的なデータ形式であったり、整理されたデータを対象としているため、実務において目の前にした未整理のデータの前処理に挫折してしまう方も多いと聞きます。このようにサンプルデータと実務で直面する生データとのギャップに戸惑うことは少なくありません。
 このセミナーでは、とにかく手っ取り早く手を動かしながら実用的なデータ前処理のコツをつかみたい人には最適です。困ったときにそのまま使える便利で実用的な前処理用サンプルコードを提供します。また、講師のこれまでの研究や実務の経験から、有用なデータの収集方法のコツ、思ったようなデータが入手できないときの秘策、学習が上手くいかないときのチューニングのノウハウなども伝授します。

  1. 準備
    1. Google Colabを使ったPython実行環境
    2. 便利なライブラリ群
      1. NumPy, pandas
      2. scikit-learn
      3. matplotlib
      4. Tensorflow, Keras
  2. 基本的な前処理テクニック
    1. 標準化、正規化、ビニング
    2. 外れ値と欠損値の扱い
      1. 四分位範囲による外れ値除去
      2. 外れ値に頑健な標準化法
      3. 単一代入法による欠損値の補完
      4. 多重代入法による欠損値の補完
    3. 特徴選択手法
      1. フィルタ法
        • カイ二乗検定
        • ANOVA
        • ピアソン積率相関係数
      2. ラッパ法
        • RFE
        • Boruta
      3. 正則化
        • リッジ回帰
        • LASSO回帰
        • 弾性回帰ネット
    4. 次元削減手法
      1. PCA
      2. NMF
      3. UMAP
      4. その他の次元削減
  3. 高度な前処理テクニック
    1. カテゴリカルデータの数値データへの変換
      1. one-hotエンコーディング
      2. ラベルエンコーディングとその他のエンコーディング法
      3. 特徴量ハッシング
      4. カテゴリ変数の分散表現 (エンティティ埋め込み)
    2. 不均衡データに対するリサンプリング法
      1. アンダーサンプリング
        • ENN
        • NearMiss
        • TomekLinks etc.
      2. オーバーサンプリング
        • SMOTE
        • ADASYN
        • BorderlineSMOTE etc.
    3. 時系列データに対する前処理
      1. 窓付き統計値
      2. タイムゾーンの変換
      3. 時系列データの補完
  4. テキストデータの前処理テクニック
    1. テキスト抽出と分かち書き・形態素解析
    2. 単語分散表現とトピックモデリング
      1. Word2Vec
      2. fastText
      3. 潜在的ディリクレ配分法 (LDA)
      4. その他のトピック分布
    3. ニューラルネットワークを用いたテキスト分類
      1. 畳み込みニューラルネットワークによる分類
      2. BERTのファインチューニングによる分類
      3. テキストデータの拡張方法
    4. 大規模言語モデル
      1. 言語モデルのファインチューニング
      2. 言語モデルの軽量化
      3. 言語モデルの説明可能性
  5. まとめ
    1. 演習問題
    2. もっと詳しく学びたい方へ
    • 質疑応答

講師

  • 松本 和幸
    徳島大学 大学院 社会産業理工学研究部
    准教授

主催

お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。

お問い合わせ

本セミナーに関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(主催者への直接のお問い合わせはご遠慮くださいませ。)

受講料

1名様
: 50,000円 (税別) / 55,000円 (税込)
複数名
: 45,000円 (税別) / 49,500円 (税込)

複数名同時受講割引について

  • 2名様以上でお申込みの場合、1名あたり 45,000円(税別) / 49,500円(税込) で受講いただけます。
    • 1名様でお申し込みの場合 : 1名で 50,000円(税別) / 55,000円(税込)
    • 2名様でお申し込みの場合 : 2名で 90,000円(税別) / 99,000円(税込)
    • 3名様でお申し込みの場合 : 3名で 135,000円(税別) / 148,500円(税込)
  • 同一法人内による複数名同時申込みのみ適用いたします。
  • 受講券、請求書は、代表者にご郵送いたします。
  • 他の割引は併用できません。

アカデミック割引

  • 1名様あたり 30,000円(税別) / 33,000円(税込)

日本国内に所在しており、以下に該当する方は、アカデミック割引が適用いただけます。

  • 学校教育法にて規定された国、地方公共団体、および学校法人格を有する大学、大学院、短期大学、附属病院、高等専門学校および各種学校の教員、生徒
  • 病院などの医療機関・医療関連機関に勤務する医療従事者
  • 文部科学省、経済産業省が設置した独立行政法人に勤務する研究者。理化学研究所、産業技術総合研究所など
  • 公設試験研究機関。地方公共団体に置かれる試験所、研究センター、技術センターなどの機関で、試験研究および企業支援に関する業務に従事する方
  • 支払名義が企業の場合は対象外とさせていただきます。
  • 企業に属し、大学、公的機関に派遣または出向されている方は対象外とさせていただきます。

ライブ配信対応セミナー / アーカイブ配信対応セミナー

  • 「Zoom」を使ったライブ配信またはアーカイブ配信セミナーのいずれかをご選択いただけます。
  • お申し込み前に、 視聴環境テストミーティングへの参加手順 をご確認いただき、 テストミーティング にて動作確認をお願いいたします。
  • 開催日前に、接続先URL、ミーティングID​、パスワードを別途ご連絡いたします。
  • セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
  • タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
  • ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
  • 講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。

ライブ配信セミナーをご希望の場合

  • Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
    万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。

アーカイブ配信セミナーをご希望の場合

  • 当日のセミナーを、後日にお手元のPCやスマホ・タブレッドなどからご視聴・学習することができます。
  • 配信開始となりましたら、改めてメールでご案内いたします。
  • 視聴サイトにログインしていただき、ご視聴いただきます。
  • 視聴期間は2024年12月20日〜2025年1月10日を予定しております。
    ご視聴いただけなかった場合でも期間延長いたしませんのでご注意ください。
本セミナーは終了いたしました。

これから開催される関連セミナー

開始日時 会場 開催方法
2025/2/10 目的に応じた統計手法の選択とデータ解析のポイント オンライン
2025/2/10 生成AI・LLM活用へのデータ整理、システム構築とRAGを用いた検索精度向上 オンライン
2025/2/10 着実にステップアップできる多変量解析講座 オンライン
2025/2/12 実験短縮、研究開発効率化へのMI、生成AI、ロボット導入と活用のポイント オンライン
2025/2/12 マテリアルズ・インフォマティクスの基礎と実践 オンライン
2025/2/12 AI外観検査 (画像認識) のはじめ方、すすめ方、精度向上への考え方 オンライン
2025/2/14 CMOSイメージセンサの基礎講座 オンライン
2025/2/17 目的に応じた統計手法の選択とデータ解析のポイント オンライン
2025/2/19 生成AIを活用したデータ分析の基礎とポイント オンライン
2025/2/20 マイオリジナルChatGPTへのカスタマイズの仕方、育成ノウハウ オンライン
2025/2/20 人工知能技術:MTシステム 超入門 オンライン
2025/2/21 Python を用いたスペクトルデータ解析 (前編・後編) オンライン
2025/2/21 Python を用いたスペクトルデータ解析 (前編) オンライン
2025/2/21 Python を用いたスペクトルデータ解析 (後編) オンライン
2025/2/21 CMOSイメージセンサの基礎講座 オンライン
2025/2/25 AI・LLMの学習時間短縮と性能、回答精度向上 オンライン
2025/2/25 反応装置・プロセス設計の基礎とスケールアップの留意点 オンライン
2025/2/26 ChatGPTによる多変量解析の進め方 オンライン
2025/2/26 マテリアルズインフォマティクスの動向と小規模・実験データへの応用 オンライン
2025/2/27 医薬品CMC・製造におけるAI・機械学習・データ活用の課題と導入のポイント オンライン