急速に進歩する自動運転車の開発分野では、膨大な量のデータを効率的にマイニングし、分析する能力が極めて重要です。モビリティの未来を推進するエンジニアリング チームは、重要な洞察を特定し、システム パフォーマンスを向上させるために、膨大な車両ログ データをふるいにかけるという大きな課題に直面しています。
従来のデータ マイニング技術では、オートノミーに特化したデータセットの複雑さと量を処理するには、時間がかかりすぎたり、柔軟性に欠けたり、非効率的であったりするため、多くの場合うまくいきません。このような課題には、データの手作業によるトリアージ、タスクに特化した狭いモデルへの依存、大幅な再構成や再トレーニングを行わずに進化するデータニーズに適応することの本質的な難しさなどがあります。
Applied Intuition は、このような障害を認識し、オートノミーエンジニアが膨大なデータセットにアプローチする方法を変革する最前線にいます。基礎モデルや創発的な機械学習パラダイムなどの高度な AI テクノロジーを活用することで、よりスケーラブルで効率的なソリューションを提供します。
今回のブログでは、データマイニングに関連する課題と、従来のアプローチではうまくいかない点を探ります。より効率的でスケーラブルなアプローチを提供するあらたな機械学習パラダイム、特に基盤モデルを紹介します。
最後に、Applied Intuition の Data Explorer がこれらのテクノロジーを活用してデータ検索を強化し、自動運転車輌の開発を加速する方法について説明します。
データ主導の自動運転ソフトウェア
自動運転ソフトウェアは、ますますデータ駆動型になってきています。多くのハードコード化されたモジュールは、ML ベースのものに置き換えられており、特に認識、予測、プランニングのモジュールがそうです。この傾向は、業界が完全に差別化可能なエンド ツー エンドの自動運転ソフトウェアに移行するにつれて加速する一方です。
ML ベースの自動運転ソフトウェアを実世界でテストするために、エンジニアリングチームは通常、自動運転車のフリート走行を行ってシステム性能を評価し、不具合を特定します。不具合が発見された場合、システムを改善するには、高速で複数ステップの「データループ」が必要になります。
- フリート ログ データをマイニングし、類似の不具合ケースを見つける。
- 自動運転システムを改善するために、収集したデータからデータセットを組み立てる。
- 不具合をカバーするシミュレーション テストケースを構築し、将来のリグレッションを追跡する。
例えば、オンボードの認識システムが信号無視の歩行者を検出するのに苦労している場合、エンジニアはフリートログデータから似たようなシナリオを探し出すことができます。そして、認識システムを改善するためのターゲットデータセットと、将来の認識システムのリグレッションを追跡するための一連のテストを作成することができます。
データの海から特定のイベントを見つける
高速データループに不可欠なのは、効率的なデータマイニングである。自動運転車輌を大規模に運用することは、大量の多様な走行データにアクセスすることを意味します。しかし、データ量が膨大になると、関連するイベントのマイニングに時間がかかり、複雑になります。
データマイニングの最も基本的なアプローチは、エンジニアがドライブログ全体を確認し候補となるイベントを表面化させるような、手作業によるトリアージです。この方法は、フリートが成長するにつれて拡張できないだけでなく、エンジニアが微妙なイベントを見落としたり、データを異なるように解釈したりする可能性があるため、ヒューマンエラーや矛盾が生じる可能性があります。
タスクに特化した機械学習モデルやヒューリスティックは、この手作業によるトリアージプロセスの一部を自動化するのに役立ちます。例えば、歩行者を正確に検出するように訓練されたオフライン物体検出システムは、トリアージ エンジニアが信号無視の例をより迅速に見つけるのに役立ちます
さらに、クラスタリングや異常検知のような教師なし学習技術は、データ内のパターンや異常な事象を特定することができます。しかし、これらの技術は、手作業で作成された特徴や古典的な次元削減に依存することが多く、どちらもバイアスを導入し、ログデータ内の元の意味情報を保持するのに苦労します。
全体として、狭いタスクに特化したモデル、ヒューリスティック、および手作業で作成された特徴は、データのニーズが変化したときに適応させるのが難しく、コストがかかる可能性があります。
データマイニングにおける汎用モデルの台頭
インターネット規模のデータで事前学習された基礎モデルは、機械学習の新しいパラダイムの先駆けとなりました。タスクに特化したモデルとは異なり、基礎モデルは汎用性があり、幅広いタスクを理解し適応できるように設計されています。
その最も有名な例が、文脈内学習能力に秀でた大規模言語モデルです。このような汎用のモデルをデータマイニングに適用すると、大規模なデータセットに含まれる希少なパターンや複雑なパターンを、データのニーズの変化に応じて変更したり再トレーニングしたりすることなく識別できます。
Applied Intuition の Data Explorer は、マルチモーダルな基礎モデルを活用して、自然言語の記述だけからフリート ログ データのロングテールイベントを見つけることができます。
例えば、エンジニアは「夜間の自転車」、「歩行者の信号無視」、「工事現場」などを検索し、Data Explorer がその記述に一致する関連ログセグメントを表示します。これにより、ヒューリスティックやタスクに特化したモデルを使用した場合よりも、高速で柔軟なデータマイニングが可能になります。
AI を活用した検索エンジンの構築
Data Explorer は、マルチモーダルな基礎モデルを使用して、エンジニアが関連するフリートログデータをより速く見つけられるようにします。これらのモデルは、Data Explorer のログデータ検索エンジンの原動力となります。
- 関連性と柔軟性: 検索エンジンは、大規模な再設定や再トレーニングを必要とすることなく、多種多様なユーザークエリをサポートする必要がある。
- 高速でスケーラブル: 結果は低レイテンシーで表示されるべきであり、検索エンジンはデータセットが大きくなってもパフォーマンスを維持すべきである。
- コスト効率: インフラコストを最小限に抑える
適切で柔軟なデータ検索のためのニューラル表現
Data Explorer のログデータ検索エンジンは、対照学習によって訓練された基礎モデルを活用しています。私たちのマルチモーダルモデルは、インターネットからかき集めた 50 億以上のテキストと画像のペアからなる大規模なデータセットで学習され、幅広いテーマ、スタイル、コンテキストを網羅しています。
この多様なデータセットにより、モデルはテキストデータと視覚データの豊かで一般化された表現を学習することができ、データ分布の変化に対して強くすることができます。例えば、このモデルは照明や遠近法、あるいは画像内の予期せぬ視覚的要素の変化にも対応し、さまざまなシナリオにおいてテキストクエリと視覚データの正確な関連付けを保証します。
Applied Intuition の基本モデルは、各テキスト説明を対応する画像と関連付けながら、関連性のないペアと区別して学習します。学習プロセスでは、視覚データと言語データの神経表現(埋め込みベクトル)を学習します。類似した画像とテキストは類似した埋め込みベクトルを持ちます。
学習後、我々の基礎モデルは、自動車データ検索への有用性を検証するために、自動車に特化した内部ベンチマークに対して評価されます。我々のベンチマークは、歩行者、車両、天候、道路標識のような重要な車両ログデータ要素のゼロショット分類の精度とリコールを測定します。
二層タワー検索システムの構築
画像・テキスト埋め込みが持つベクトル距離の特性は、データ検索のような下流のタスクで活用することができます。特に、Data Explorerは、このような埋め込みを用いて、2つのタワーからなるデータ検索システムを構築しています。
- フリート ログ カメラのデータは、前もって一度埋め込まれます。これは検索システムの最初のタワーであり、正式には 「アイテムタワー 」と呼ばれます。例えば、車両の前面カメラの1フレームは、1つの埋め込みベクトルを生成します。
- 自然言語で書かれたユーザークエリは、クエリ時に埋め込まれます。これは検索システムにおける第二のタワーであり、正式には 「クエリ タワー 」と呼ばれます。例えば、「交差点の工事区域 」というクエリは、単一の埋め込みベクトルを生成します
- 最後に、データエクスプローラは、ユーザーのクエリの埋め込みに最も近いログデータの埋め込みを見つけるために、最近傍検索を実行します。
Spark による高速でスケーラブルな最近傍検索
Data Explorer は Apache Spark を活用して、数千時間に及ぶフリート ログ データに対して最近傍探索をスケーリングします。最近傍検索は、システムがユーザクエリに最も類似したエンベッディングを素早く見つけることができるため、このアプリケーションに特に適しています。Spark を使用する動機は以下の通りです。
- 強力なスケーリング特性: Spark は分散型システムであり、クエリやデータ量が増加しても、需要に応じて水平方向に拡張できます。
- 構造化された車両ログデータとの統合: Data Explorer は、構造化された車両ログデータ(知覚出力、エゴポーズなど)をすでに Spark で展開しており、自然言語と構造化データの両方のフィルタを使用したハイブリッド検索をネイティブに実行できます。
- すぐに使えるサポート: Spark は近似最近傍探索をネイティブでサポートし、高速なベクトル探索を実現します。
- 成熟した社内インフラ: Applied Intuition はすでに多くの製品で Spark を活用しています。
インフラ コスト削減のための最適化された ML推論
二層タワー検索システムでは、2つのタワーそれぞれで ML モデルの推論が必要です。しかし、2 つのタワーのアクセスパターンが大きく異なるため、ML 推論には 2 つのアプローチが必要です。
.png)
「アイテムタワー 」は、非同期で多数の画像の埋め込みを大量に生成します。例えば、4 台のカメラを 4Hzでサンプリングした 20 分間のログでは、約 20,000 枚の画像を埋め込む必要があります。この場合、Vision Transformers (ViT) のバリエーションである CLIP 基盤ビジュアルエンコーダが高いスループットを持つことが重要です。これらの画像バッチは、最初のログデータアップロード中に非同期で計算されるため、個々のリクエストの待ち時間はあまり気になりません。
これを実現するために、CLIP 基盤ビジュアルエンコーダーをクラウド GPU で実行します。GPUは同時に大きなデータバッチを処理することに優れており、何千もの画像を効率的に埋め込むような高スループットのタスクに最適です。
しかし、コストが高いため、GPU を自動的にスケールアップ/スケールダウンして負荷に対応するキューシステムを使用しています。これには、コストを節約するために負荷がないときにGPU をゼロにすることも含まれます。
「クエリタワー」は、クエリ時に1つのテキストに対してエンベッディングを生成します。低遅延は、検索エンジンの応答性に直接影響するため、このプロセスにとって非常に重要です。リクエストのスループットは、比較的低負荷であることが予想されるため、それほど気にする必要はないです。
これを実現するために、CLIP 基盤テキストエンコーダ (GPTスタイルのトランスフォーマー) を常時オンのクラウド CPU で実行します。CPU のスループットは低いですが、コストは大幅に低いです。このコスト削減により、CPU は GPU のような高額な出費をすることなく運用を続けることができ、クエリタワーで量は少ないがレイテンシに敏感なタスクを処理するのに理想的な選択肢となります。
将来的には、より多くのデータモダリティを統合し、時間的コンテキストを組み込み、顧客固有のデータで基礎モデルを微調整する自動化を構築することで、Data Explorer のデータインテリジェンス機能をさらに強化することを目指しています。
当社の基礎モデルは現在、車両ログのカメラデータのみを使用しています。しかし、車両ログには通常、シーンのコンテキストを理解するための他の有用な信号が多数含まれています。 例えば、LiDAR、レーダー、地図情報、車載スタック出力などです。これらの追加信号を取り入れることで、シーンで何が起こっているかをより深く理解することができます。
さらに、現在の基礎モデルは個々の画像フレームを処理しており、複数のフレームにまたがって時間経過とともに何が起こるかを考慮していないです。基礎モデルを動画に拡張することで、シーン理解を向上させることができる。例えば、車両の動きから車両の操縦を解釈したり、歩行者の行動から歩行者の意図を理解したり、信号が変化する交差点の状態を追跡したりすることができます。
私たちの基礎モデルは、分布シフトに対する感度を下げるために膨大な量のデータで訓練されていますが、モデルは常に、希望するユースケースに最も近い顧客固有のデータで微調整されたときに最高のパフォーマンスを発揮します。私たちは、このプロセスをデータ エクスプローラー内で直接セルフサービスできるようにし、特定のタスクにおける基礎モデルのパフォーマンスを向上させるつもりです。
Applied Intuition は、AI を活用した自律走行開発の限界に挑戦しています。Data Explorer は、自律走行エンジニアがフリートログデータを分析する方法に革命をもたらし、プロセスを大幅に高速化、効率化します。
自動運転ソフトウェア開発を加速させたいとお考えの方は、Data Explorer ーがデータ管理と分析プロセスを合理化し、より効率的な開発サイクルとデータへの深い洞察を可能にする方法について詳細をご覧ください。
また、自動運転の未来のために最先端の AIツールを構築することに情熱を注げる方は、Applied Intuition チームへの参加をご検討ください。