自動運転車(AV)のパーセプションシステムの物体検出モデルを学習する際には、実世界のデータが不可欠です。しかし、現実の世界では、トレーニングに必要なすべてのデータを簡単に提供できないことがあります。例えば、自転車やオートバイといったクラスは、歩行者や自動車に比べて発生頻度が低いため、実世界のデータで学習したパーセプションモデルでは正しく検出することが難しい場合があります(図1)。同様に、事故のような最も危険な状況は、テストドライブの最後の数パーセントに隠されているかもしれません。

現実の世界では、存在しないクラスやロングテールイベントの発生頻度が低いにもかかわらず、物体検出モデルは、一般的なクラスや状況と同様に、それらを処理できるように訓練する必要があります。ここ数年、いくつかのパーセプションチームでは合成データを利用して、実世界のデータセットの限界に対処しようとしています。実世界のデータと合成データの間には、まだドメインギャップがあることを認識しておく必要がありますが、最近の手法では、合成データの改良と新しい機械学習の学習戦略を組み合わせることで、このギャップを克服しつつあります。
この使用例を示すために、Applied Intuition のパーセプションチームは、実世界のデータセットで見つかったクラスの偏りに対処するための補助的なトレーニングリソースとして合成データを使用するケーススタディを実施しました。この研究では、合成データがクラスの偏りを緩和し、実世界のデータが限られている領域への対処に役立つ可能性があることを示しています。
目標と範囲
このケーススタディでは、Motional が提供しているデータセットである nuImages をベースラインのトレーニングデータセットとして使用しています。このデータセットでは、自転車というクラスの出現頻度は、自動車や歩行者などの著名なクラスに比べて 170 倍も低くなっています(図2)。

このケーススタディでは、合成データセットを生成して使用し、パーセプションアルゴリズムの自転車に対する物体検出性能を向上させるとともに、他のクラスに対する物体検出性能を維持または向上させます。また、合成データを用いることで、モデルの物体検出性能を向上させるために必要な実世界のデータ量を減らせるかどうかについても検討します。
実施内容
このケーススタディでは以下のステップで構成されています。
- nuImagesデータセットの実世界のデータのみで学習したベースラインモデルを分析する。
- 実世界のデータセットに含まれる Cyclistクラスの出現頻度が不足していることに着目し、ラベル付きの合成データを生成する。合成データセットでは、より多くのCyclistクラスの例を作成する。
- 上記の合成データを、nuImagesデータに加えて、補助的な学習リソースとして使用する。
1. ベースラインモデルの分析
まず、実世界のnuImagesデータにおいて、クラスの偏りに対してパーセプションモデルがどのように反応するかを測定します。Cascade Mask R-CNNのパーセプションモデルを、このデータセットで収束するまで学習しました。その結果、 Cyclist クラスでの物体検出性能は、他のすべてのクラスに比べて低くなりました(図3)。

2. 合成データの生成
次に、合成データを生成して、割合の少ない Cyclist クラスをアップサンプルします(図4)。ここでは、手続き型の3D環境生成、シナリオの自動作成、合成データ生成パイプラインを用いて、このプロセスを実現しています。

3. 合成データと実世界データを用いたパーセプションモデルの学習
そして、上記の合成データセットを用いて、以下の実験でモデルの性能を向上させます。
i)混合学習実験
合成データと実世界のデータを1つの大きな学習データセットにまとめます。実世界のデータと合成データの両方を含むバッチを、訓練中にこのデータセットからランダムに抽出します。合成データと実世界データの比率を調整し、合成データを多く、実世界データを少なくすることが、モデルの物体検出性能に影響を与えるかどうかを調べるために、2つの実験を行いました。
- 合成データと実世界データの比率を0.5:1にした場合
- 合成データと実世界データの比率を1:1にした場合
ii) ファインチューン実験
検証のために少量の合成セットを使用して、合成データセットのみで収束するようにモデルを学習します。その後、以下の量の実世界データを用いてモデルの微調整を行うため,3回の実験を行います
- データアブレーションなしでの微調整: nuImagesトレーニングセットの 100% を使用
- データアブレーションありでの微調整: nuImagesトレーニングセットの 70% を使用
- データアブレーションありでの微調整: nuImagesトレーニングセットの 50% を使用
実験結果
1. 定量的な結果
実世界のデータを100%使用したベースラインモデルと比較して,合成データと実世界のデータを混合して学習すること(混合学習)は,Cyclistクラスの改善につながる(図5).合成データでモデルを事前学習した後に,100%の実世界データでモデルを微調整する方法(データアブレーションなしの微調整)が最も高い性能向上を示し,すべてのクラスでベースラインモデルを一貫して上回った(図5)。

合成データでモデルを事前学習した後、実世界データの70%でモデルを微調整する(データアブレーションによる微調整)ことで、Cyclistクラス(図5)と全体(図6)の両方で性能が向上しました。

2. 定性的な洞察
このケーススタディでは、合成データが、困難なケースでの物体検出性能の向上に役立つことが示唆されています。以下の画像は、合成データで事前学習したモデルが成功する一方で、ベースラインモデルが Cyclist を適切に検出できなかったケースを示しています(図7 a)~7 c))。



商用アプリケーション
このケーススタディでは、自動運転車のパーセプションモデルをノミナルケースとエッジケースの両方でトレーニングする際に、合成データが実世界のデータセットを補完する有用なツールであることを早くから示しています。落下物、高速道路上の歩行者や生きている動物、濃霧による視界不良などの状況は稀であるにもかかわらず、AVは安全にナビゲートするための準備をしなければなりません。合成データは、Cyclistなどの少数派クラスに対するパーセプションモデルの物体検出性能を向上させることで、クラスの偏りに対処するのに役立ちます。また、合成データは、トレーニングデータセットを生成し、実世界のデータを収集するには頻度が低すぎたり、危険であったりする場合に、稀なケースや困難なケースを対象とするための、迅速で費用対効果の高い、倫理的な方法を提供します。
Applied Intuition の合成データセットの詳細については、パーセプションエンジニアのチームにお問い合わせください。