대규모 자율 주행 데이터 세트 마이닝을 위한 AI

March 26, 2025

빠르게 발전하는 자율주행차 개발 분야에서는 방대한 양의 데이터를 효과적으로 마이닝하고 분석하는 능력이 매우 중요합니다. 미래의 모빌리티를 주도하는 엔지니어링 팀은 방대한 차량 로그 데이터를 통해 핵심 인사이트를 파악하고 시스템 성능을 개선해야 하는 중대한 과제에 직면해 있습니다. 

기존의 데이터 마이닝 기법으로는 자율주행 관련 데이터 세트의 복잡성과 방대한 양을 처리하기에 너무 느리거나 유연하지 않거나 비효율적인 것으로 판명되는 경우가 많습니다. 이러한 문제에는 데이터의 수동 분류, 좁은 업무별 모델에 대한 의존, 상당한 재구성 및 재교육 없이 진화하는 데이터 요구사항에 적응하는 데 내재된 어려움 등이 포함됩니다.

이러한 챌린지를 파악한 Applied Intuition은 자율주행  엔지니어가 방대한 데이터 세트에 접근하는 방식을 혁신하는 데 앞장서고 있으며,  기반 모델과 새로운 머신 러닝 패러다임을 비롯한 고급 AI 기술을 활용하여 확장 가능하고 효율적인 솔루션을 제공합니다.

이번 블로그 게시물에서는 데이터 마이닝과 관련된 과제와 기존 접근 방식의 부족한 점을 살펴보며 보다 효율적이고 확장 가능한 접근 방식을 제공하는 새로운 머신 러닝 패러다임, 특히 기초 모델을 소개할 예정입니다.  

더불어서 이러한 기술을 활용하여 데이터 검색을 개선하고 자율 주행 차량의 개발을 가속화하는 Applied Intuition의 데이터 탐색기에 대해 설명합니다.

데이터 기반 자율성 스택

자율주행 스택은 점점 더 데이터 기반이 되고 있습니다. 하드 코딩된 많은 모듈이 ML 기반 모듈로 대체되었으며, 특히 인식, 예측 및 계획 모듈이 그 대표적인 예입니다. 이러한 추세는 업계가 완전히 차별화 가능한 엔드투엔드 자율성 스택으로 이동함에 따라 더욱 가속화될 것입니다.

실제 환경에서 ML 기반 자율주행 스택을 테스트하기 위해 엔지니어링 팀은 일반적으로 자율주행 차량을 운전하여 시스템 성능을 평가하고 장애를 식별합니다. 장애가 발견되면 시스템을 개선하려면 빠른 다단계 '데이터 루프'가 필요합니다. 

  1. 차량 로그 데이터를 분석하여 유사한 장애 사례 찾기
  2. 채굴된 데이터에서 데이터 세트를 조합하여 자율 시스템 개선
  3. 장애를 다루고 향후 회귀를 추적하는 시뮬레이션 테스트 사례 구축

예를 들어, 온보드 인식 시스템이 무단횡단 보행자를 감지하는 데 어려움을 겪는 경우 엔지니어는 차량 로그 데이터에서 유사한 시나리오를 마이닝한 다음에 인식 시스템을 개선하기 위한 목표 데이터 세트와 향후 인식 시스템의 퇴보를 추적하기 위한 일련의 테스트를 만들 수 있습니다.

데이터의 바다에서 특정 이벤트 찾기

빠른 데이터 루프에 필수적인 것은 효율적인 데이터 마이닝입니다. 자율주행 차량을 대규모로 운영한다는 것은 상당한 양의 다양한 주행 데이터에 액세스할 수 있다는 것을 의미합니다. 그러나 데이터의 양이 방대하기 때문에 관련 이벤트에 대한 마이닝은 시간이 많이 걸리고 복잡할 수 있습니다.

데이터 마이닝의 가장 기본적인 접근 방식은 엔지니어가 전체 주행 로그를 보고 적격 이벤트를 선별하는 수동 분류입니다. 이 방법은 차량이 증가함에 따라 확장하지 못할 뿐만 아니라 엔지니어가 미묘한 이벤트를 놓치거나 데이터를 다르게 해석할 수 있기 때문에 인적 오류와 일관성 없는 결과가 발생할 여지가 있습니다.

작업별 머신 러닝 모델과 휴리스틱은 이러한 수동 분류 프로세스의 일부를 자동화하는 데 도움이 될 수 있습니다. 예를 들어, 보행자를 정확하게 감지하도록 훈련된 오프라인 물체 감지 시스템은 분류 엔지니어가 무단횡단자의 사례를 더 빨리 찾는 데 도움이 될 수 있습니다.

또한 클러스터링 및 이상 징후 감지와 같은 비지도 학습 기법을 사용하면 데이터 내에서 패턴이나 비정상적인 이벤트를 식별할 수 있습니다. 하지만 이러한 기법들은 종종 수작업으로 만든 특징이나 고전적인 차원 축소에 의존하기 때문에 편향이 발생하고 로그 데이터의 원래 의미 정보를 유지하는 데 어려움을 겪습니다.

전반적으로, 좁은 작업별 모델, 휴리스틱, 수작업으로 만든 피처는 데이터 요구사항의 변화에 따라 조정하기 어렵거나 비용이 많이 들 수 있습니다.

데이터 마이닝을 위한 제너럴리스트 모델의 부상

인터넷 규모의 데이터로 사전 학습된 기초 모델은 머신 러닝의 새로운 패러다임을 열었습니다. 작업별 모델과 달리 기초 모델은 다양한 작업을 이해하고 적응할 수 있는 다용도로 설계되었습니다. 

가장 잘 알려진 예는 상황에 맞는 학습 능력이 뛰어난 대규모 언어 모델입니다. 데이터 마이닝에 적용되는 이러한 범용 모델은 데이터 요구가 변화함에 따라 변경하거나 재학습할 필요 없이 대규모 데이터 세트에서 희귀하거나 복잡한 패턴을 식별할 수 있습니다.

Applied Intuition의 Data Explorer는 멀티모달(multimodal) 기반 모델을 활용하여 자연어 설명만으로 차량 로그 데이터에서 롱테일 이벤트를 찾아냅니다. 

예를 들어, 엔지니어가 '야간 자전거 운전자', '무단횡단 보행자', '공사 구역'을 검색하면 Applied Intuition의 Data Explorer가 이 설명과 일치하는 관련 로그 세그먼트를 표시합니다. 이를 통해 휴리스틱이나 작업별 모델을 사용할 때보다 더 빠르고 유연하게 데이터 마이닝을 수행할 수 있습니다.

AI 기반 검색 엔진 구축

Data Explorer는 멀티모달 기반 모델을 사용하여 엔지니어가 관련 차량 로그 데이터를 더 빠르게 찾을 수 있도록 지원합니다. 이러한 모델은 Data Explorer의 로그 데이터 검색 엔진을 구동하도록 설계되었습니다:

  • 관련성 및 유연성: 결과는 사용자 쿼리와 밀접하게 일치해야 하며, 검색 엔진은 광범위한 재구성이나 재교육 없이도 다양한 사용자 쿼리를 지원해야 합니다.
  • 빠르고 확장 가능: 짧은 지연 시간으로 결과가 표시되어야 하며, 검색 엔진은 데이터 세트가 증가함에 따라 성능을 유지해야 합니다.
  • 비용 효율적: 인프라 비용을 최소화해야 합니다.

관련성 있고 유연한 데이터 검색을 위한 신경망 표현

Data Explorer의 로그 데이터 검색 엔진은 대조 학습을 통해 훈련된 기초 모델을 활용합니다. 멀티모달 모델은 인터넷에서 스크랩한 50억 개 이상의 텍스트와 이미지로 구성된 대규모 데이터 세트에서 다양한 주제, 스타일, 컨텍스트를 포괄하는 학습을 거쳤습니다. 

이러한 다양한 데이터 세트를 통해 모델은 텍스트 및 시각적 데이터의 풍부하고 일반화된 표현을 학습할 수 있으므로 데이터 분포 변화에 강력하게 대응할 수 있습니다. 예를 들어, 조명, 원근감 또는 이미지 내의 예상치 못한 시각적 요소의 변화를 처리하여 다양한 시나리오에서 텍스트 쿼리와 시각적 데이터 간의 정확한 연관성을 보장할 수 있습니다.

Applied Intuition의 기본 모델은 각 텍스트 설명을 해당 이미지와 연관시키면서 관련 없는 쌍과 구별하여 학습합니다. 훈련 과정에서 시각 데이터와 언어 데이터 모두에 대한 신경 표현(임베딩 벡터) 을 학습합니다. 비슷한 이미지와 텍스트는 비슷한 임베딩 벡터를 갖게 됩니다.

학습이 완료된 후에는 자동차 데이터 검색에 대한 유용성을 검증하기 위해 내부 자동차 관련 벤치마크와 비교하여 기초 모델을 평가합니다. 이 벤치마크는 보행자, 차량, 기상 조건, 노면 표시와 같은 중요한 차량 기록 데이터 요소의 제로 샷 분류에 대한 정확도와 회상률을 측정합니다.

투 타워 검색 시스템 만들기

이미지/텍스트 임베딩의 벡터 거리 속성은 데이터 검색과 같은 다운스트림 작업에서 활용할 수 있습니다. 특히, Data Explorer는 이러한 임베딩을 사용하여 투타워 데이터 검색 시스템을 구동합니다.

  • 차량 로그 카메라 데이터는 한 번 미리 임베드됩니다. 이것은 검색 시스템의 첫 번째 타워이며 공식적으로 “아이템 타워”라고 합니다. 예를 들어, 차량의 전방 카메라 한 프레임이 하나의 임베딩 벡터를 생성합니다.
  • 자연어로 작성된 사용자 쿼리는 쿼리 시점에 임베드됩니다. 이것은 검색 시스템의 두 번째 타워이며 공식적으로는 “쿼리 타워”로 알려져 있습니다. 예를 들어, “교차로에서 건설 구역”이라는 쿼리는 하나의 임베딩 벡터를 생성합니다.
  • 마지막으로, 데이터 탐색기는 가장 가까운 이웃 검색을 수행하여 사용자 쿼리 임베딩과 가장 근접하게 일치하는 로그 데이터 임베딩을 찾습니다.

빠르고 확장 가능한 최인접 이웃 검색을 위한 Spark

Data Explorer는 Apache Spark를 활용하여 수천 시간 분량의 플릿 로그 데이터로 가장 가까운 이웃 검색을 확장할 수 있습니다. 가장 가까운 이웃 검색은 시스템이 사용자 쿼리와 가장 유사한 임베딩을 빠르게 찾을 수 있게 해주기 때문에 이 애플리케이션에 특히 적합합니다. Spark를 사용하게 된 동기는 다음과 같습니다:

  • 강력한 확장성: Spark는 쿼리와 데이터 양이 증가함에 따라 수요를 충족하기 위해 수평적으로 확장할 수 있는 분산형 시스템입니다.
  • 구조화된 차량 로그 데이터와의 통합: Data Explorer는 이미 구조화된 차량 로그 데이터(인식 출력, 에고 포즈 등)를 Spark에 노출하고 있으므로 자연어 및 구조화된 데이터 필터를 모두 사용하여 기본적으로 하이브리드 검색을 수행할 수 있습니다.
  • 즉시 사용 가능한 지원: Spark는 빠른 벡터 검색을 위해 근사 최인접 검색을 기본적으로 지원합니다.
  • 성숙한 내부 인프라: Applied Intuition은 이미 많은 제품에서 Spark를 활용하고 있습니다.

인프라 비용 절감을 위한 최적화된 ML 추론

두 개의 타워로 구성된 검색 시스템에서는 두 개의 타워 각각에서 ML 모델 추론이 필요합니다. 하지만 두 타워의 액세스 패턴이 크게 다르기 때문에 ML 추론을 위해 두 가지 접근 방식이 필요합니다:

이터 검색 시스템의 두 가지 타워

'아이템 타워'는 많은 이미지에 대한 임베딩을 비동기식으로 대량으로 생성합니다. 

예를 들어, 4대의 카메라가 4Hz로 샘플링된 20분 분량의 로그에는 약 20,000개의 이미지가 임베딩되어야 합니다. 이 경우 비전 트랜스포머(ViT)의 변형인 CLIP 기반 비주얼 인코더가 높은 처리량을 제공하는 것이 중요합니다. 이러한 이미지 배치는 초기 로그 데이터 업로드 중에 비동기적으로 계산되므로 개별 요청 지연 시간은 크게 걱정할 필요가 없습니다.

이를 위해 클라우드 GPU에서 CLIP 기반 비주얼 인코더를 실행합니다. GPU는 대량의 데이터를 동시에 처리하는 데 탁월하기 때문에 수천 개의 이미지를 효율적으로 임베딩하는 등 처리량이 많은 작업에 이상적입니다. 하지만 비용이 높기 때문에 부하를 처리하기 위해 GPU를 자동으로 확장 및 축소하는 대기열 시스템을 사용합니다. 여기에는 부하가 없을 때는 GPU를 0으로 스케일링하여 비용을 절감하는 것도 포함됩니다.

'쿼리 타워'는 쿼리 시점에 단일 텍스트에 대한 임베딩을 생성합니다. 이 과정에서 짧은 지연 시간은 검색 엔진의 응답성에 직접적인 영향을 미치고 사용자가 결과를 빠르게 받을 수 있도록 하기 때문에 매우 중요합니다. 요청 처리량은 상대적으로 부하가 적을 것으로 예상되므로 크게 걱정할 필요가 없습니다.

이를 위해 항상 켜져 있는 클라우드 CPU에서 CLIP 기반 텍스트 인코더(GPT 스타일 트랜스포머)를 실행합니다. CPU의 처리량은 더 낮지만 비용은 훨씬 저렴합니다. 이러한 비용 절감 덕분에 CPU는 GPU의 높은 비용 부담 없이 계속 작동할 수 있으므로 쿼리 타워에서 적은 양이지만 지연 시간에 민감한 작업을 처리하는 데 이상적인 선택입니다.

앞으로 더 많은 데이터 양식을 통합하고, 시간적 맥락을 통합하고, 고객별 데이터에 대한 기초 모델을 미세 조정하는 자동화를 구축하여 Data Explorer의 데이터 인텔리전스 기능을 더욱 강화하는 것을 목표로 하고 있습니다.

현재 기반 모델은 차량 로그의 카메라 데이터만 사용합니다. 하지만 차량 로그에는 일반적으로 장면의 맥락을 이해하는 데 유용한 여러 가지 다른 신호가 포함되어 있습니다: 예를 들어 LiDAR, 레이더, 지도 정보, 온보드 스택 출력 등이 있습니다. 이러한 추가 신호를 통합하면 기본 모델이 장면에서 일어나는 일을 더 깊이 이해하는 데 도움이 됩니다.

또한, 현재의 기초 모델은 개별 이미지 프레임을 처리하기 때문에 여러 프레임에서 시간이 지남에 따라 발생하는 상황을 고려하지 않습니다. 기초 모델을 비디오로 확장하면 장면 이해도를 향상시킬 수 있습니다. 예를 들어, 차량의 움직임을 통해 차량의 움직임을 해석하고, 보행자의 행동을 통해 보행자의 의도를 파악하고, 신호등 변화에 따른 교차로의 상태를 추적할 수 있습니다.

기본 모델은 방대한 양의 데이터로 학습되어 분포 변화에 대한 민감도를 낮추지만, 원하는 사용 사례에 가장 근접한 고객별 데이터로 모델을 미세 조정할 때 항상 최상의 성능을 발휘합니다. 이 프로세스를 데이터 탐색기 내에서 직접 셀프 서비스화하여 특정 작업에서 기초 모델의 성능을 향상시킬 수 있도록 할 계획입니다.

Applied Intuition은 AI 기반 자율 주행 개발의 경계를 넓히기 위해 최선을 다하고 있습니다. Data Explorer는 자율주행 엔지니어가 차량 로그 데이터를 분석하는 방식을 혁신하여 프로세스를 훨씬 더 빠르고 효율적으로 만들고 있습니다.

자율 주행 스택 개발을 가속화하고 싶다면 Date Explorer가 데이터 관리 및 분석 프로세스를 간소화하여 보다 효율적인 개발 주기와 데이터에 대한 심층적인 인사이트를 제공하는 방법에 대해 자세히 알아보세요.

자율성의 미래를 위한 최첨단 AI 도구를 구축하는 데 열정을 가지고 있다면 Applied Intuition 팀에 합류하는 것을 고려해 보세요.