Vision Transformerの仕組みとBEV Perception
~物体検出、自己教師あり学習、BEV Perception等のコンピュータビジョン最前線~
オンライン 開催
開催日
-
2024年12月24日(火) 10時30分
~
16時30分
受講対象者
- 画像処理・物体認識に関連する技術者
- デジタルカメラ、デジタルビデオカメラ
- 印刷、カラーコピー機
- テレビ・ディスプレイ
- レーザ計測、位置決め
- 医用画像処理、医療機器制御
- 衛星画像処理
- 超解像技術
- ロボットのカメラ、制御
- 外観検査装置
- 非破壊検査装置
- 車載カメラ
- 防犯カメラ など
プログラム
自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。
本セミナーではVision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、自動運転技術に欠かせないTransformerベースのBEV Perceptionの最前線についても紹介する。
- 再帰型ニューラルネットワークの仕組み
- 再帰型ニューラルネットワーク (RNN)
- LSTM
- Seq2seq、Attention Seq2seq
- Transformerの仕組み
- Transformer
- 大規模言語モデル
- Vision Transformerの仕組み
- 特徴表現獲得の変遷
- VIsion Transformer (ViT)
- ViTによる画像認識
- ViTによる特徴表現獲得
- ViTベースの物体検出、セマンティックセグメンテーション
- ViTの自己教師あり学習
- ViTの最新動向
- ViTの派生手法
- Swin Transformer
- ConvNeXtなど
- ViTの派生手法の傾向
- TransformerによるBEV Perception
- Bird’s-Eye-View (BEV) 空間
- BEVベースの3D物体検出
- BEVベースの自動運転:UniAD
講師
藤吉 弘亘 氏
中部大学
工学部
ロボット理工学科
教授
主催
お支払い方法、キャンセルの可否は、必ずお申し込み前にご確認をお願いいたします。
お問い合わせ
(主催者への直接のお問い合わせはご遠慮くださいませ。)
受講料
1名様
:
49,000円 (税別) / 53,900円 (税込)
1口
:
60,000円 (税別) / 66,000円 (税込)
(3名まで受講可)
ライブ配信セミナーについて
- 本セミナーは「Zoom」を使ったライブ配信セミナーとなります。
- お申し込み前に、 視聴環境 と テストミーティングへの参加手順 をご確認いただき、 テストミーティング にて動作確認をお願いいたします。
- 開催日前に、接続先URL、ミーティングID、パスワードを別途ご連絡いたします。
- セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
- ご自宅への書類送付を希望の方は、通信欄にご住所・宛先などをご記入ください。
- タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
- ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
- 講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。
- Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。