사례 연구: 합성 데이터를 활용한 객체 감지 성능 향상

2021-12-13
1 min read

자율주행차(AV) 퍼셉션 시스템을 위한 객체 감지 모델 훈련 시 실제 데이터는 필수적입니다. 불행히도 실제 세계는 성공적인 훈련에 필요한 모든 데이터를 언제나 쉽게 제공해 주지 않습니다. 예를 들어, 자전거 및 오토바이 운전자와 같은 클래스는 보행자 및 자동차보다 빈도가 적기 때문에 실제 데이터를 통해 훈련된 퍼셉션 모델은 이를 정확히 감지하기 어렵습니다(그림 1). 마찬가지로 테스트 주행의 마지막 몇 퍼센트에 사고와 같은 가장 위험한 상황이 숨겨져 있을 수도 있습니다.

그림 1: 자전거 운전자는 종종 실제 데이터 세트에서 과소 대표됩니다.. 이런 이유로 실제 데이터로만 훈련된 퍼셉션 모델은 자전거 운전자를 감지하기 어렵습니다. 

과소 대표되는 클래스와 롱테일 이벤트의 경우 실제 세계에서 발생하는 빈도는 적지만 객체 감지 모델은 더 일반적인 클래스 및 상황과 동일하게 이를 처리할 수 있도록 훈련되어야 합니다. 지난 몇 년 동안 퍼셉션 팀은 실제 데이터 세트의 이러한 한계를 일부 보완하기 위해 합성 데이터를 활용하기 시작했습니다. 현실 세계와 합성 데이터 사이에는 인정해야 하는 도메인 격차가 여전히 존재하지만 최근의 방식은 개선된 합성 데이터와 새로운 머신 러닝 훈련 전략을 결합하여 이 격차를 극복하고 있습니다.

이 사용 사례를 증명하기 위해 Applied Intuition의 퍼셉션 팀은 합성 데이터를 보완 훈련 리소스로 사용하여 실제 데이터 세트에서 발견되는 클래스 불균형을 해결하는 사례 연구를 수행했습니다. 이 연구는 합성 데이터를 통해 클래스 불균형을 완화하고 실제 데이터의 한계를 보완할 수 있다는 것을 보여줍니다. 

목표 및 범위

이 사례 연구에서는 모셔널(Motional)에서 일반적으로 사용하는 데이터 세트인 nuImages를 베이스라인 훈련 데이터 세트로 사용합니다. 데이터 세트에서 자전거 운전자 클래스는 자동차 및 보행자와 같이 현저히 많이 발생하는 클래스보다 170배 적게 발생합니다(그림 2).

그림 2: 사례 연구에 사용된 nuImages 훈련 세트의 전체 클래스 중 5개 클래스의 분포. 보행자와 자동차의 빈도가 더 높습니다(이 연구에서 사용된 5가지 클래스 총합의 약 90%). 자전거 운전자의 빈도는 0.3%밖에 되지 않습니다. \

이 연구는 합성 데이터 세트를 생성하고 사용하여 자전거 운전자에 대한 퍼셉션 알고리즘의 객체 감지 성능을 개선하는 동시에 기타 클래스의 객체 감지 성능을 유지하거나 개선합니다. 또한 합성 데이터 사용을 통해 모델의 객체 감지 성능을 개선하는 데 필요한 실제 데이터의 양을 줄일 수 있는지 살펴봅니다.

구현

연구는 다음 단계로 구성됩니다.

  1. nuImages 데이터 세트의 실제 데이터로만 훈련된 베이스라인 모델을 분석합니다.
  2. 실제 데이터 세트에서 자전거 운전자 클래스의 대표성 부족을 특히 대상으로 하는 레이블링된 합성 데이터를 생성합니다. 자전거 운전자의 더 많은 예시가 합성 데이터 세트에서 생성됩니다.
  3. 위의 합성 데이터를 nuImages 데이터의 추가 훈련 리소스로 사용합니다.

1. 베이스라인 모델 분석

우선 퍼셉션 모델이 실제 nuImages 데이터의 클래스 불균형에 어떻게 반응하는지 측정합니다. Cascade Mask R-CNN 퍼셉션 모델은 이 데이터 세트를 통해 수렴될 때까지 훈련됩니다. 그 결과로 나타나는 자전거 운전자 클래스의 객체 감지 성능은 다른 모든 클래스에 비해 낮습니다(그림 3).

그림 3: nuImages 데이터를 통해 훈련하는 경우 베이스라인 퍼셉션 알고리즘의 객체 감지 성능. 바운딩 박스, 세그먼트에 대한 합산 성능과 클래스(자동차, 트럭, 사이클리스트, 모터사이클, 사람) 당 성능은 바운딩 박스와 분할 평균  mAP(mean average precision, 평균 정밀도) 점수(즉, 객체 감지 정확도)로 측정되며 0:5:0.95 IoU(Intersection-over-Union) 값(즉, 예측된 바운더리가 실제와 겹치는 정도)에 대한 평균으로 보고됩니다.

2. 합성 데이터 생성 

다음으로, 과소 대표되는 자전거 운전자 클래스를 업샘플링하기 위해 합성 데이터가 생성됩니다(그림 4). 본 사례 연구에서는 이 프로세스를 활성화하기 위해 절차적 3D 환경 생성, 자동 시나리오 생성 및 합성 데이터 생성 파이프라인을 사용합니다.

그림 4: 자전거 운전자 클래스에 영향을 미치는 클래스 불균형을 대상으로 하는 합성 데이터 세트 예시. 이 데이터 세트에서 자전거 운전자는 27.4% 발생합니다.

3. 합성 및 실제 데이터를 통한 퍼셉션 모델 훈련

위의 합성 데이터 세트는 다음의 실험에서 모델 성능을 개선하기 위해 사용됩니다.

i) 혼합 훈련 실험

합성 데이터와 실제 데이터를 하나의 대규모 훈련 데이터 세트로 결합합니다. 실제 데이터와 합성 데이터를 모두 포함하는 배치는 훈련 중에 이 데이터 세트에서 무작위로 샘플링됩니다. 더 많은 합성 데이터를 사용하고 실제 데이터를 적게 사용하는 경우 모델의 객체 감지 성능에 영향을 미치는지를 조사하고 실제 데이터에 대한 합성 데이터의 비율을 조정하기 위해 두 가지 실험이 수행됩니다.

  • 합성 데이터와 실제 데이터 비율이 0.5:1인 실험
  • 합성 데이터와 실제 데이터 비율이 1:1인 실험

ii) 미세 조정 실험

검증을 위한 작은 홀드아웃 합성 세트를 사용하여 합성 데이터 세트에만 수렴되도록 모델을 훈련합니다. 그럼 다음, 다음과 같은 세 가지 실험을 수행하여 다음의 실제 데이터양에 대해 모델을 미세 조정합니다.

  • 데이터 제거 없이 미세 조정: nuImages 훈련 세트의 100%
  • 데이터 제거를 통한 미세 조정: nuImages 훈련 세트의 70%
  • 데이터 제거를 통한 미세 조정: nuImages 훈련 세트의 50%

주요 결과

1. 정량적 결과

실제 데이터의 100%를 사용하는 베이스라인 모델과 비교하여 합성 데이터와 실제 데이터를 혼합하여 사용하는 경우(혼합 훈련) 자전거 운전자 클래스가 향상됩니다(그림 5). 합성 데이터에 대한 모델을 사전 훈련한 후 실제 데이터의 100%를 사용하여 미세 조정(데이터 제거 없이 미세 조정)하는 경우 일괄적으로 모든 클래스의 성능이 베이스라인 모델보다 향상되어 가장 높은 성능 향상을 보여줍니다(그림 5).

그림 5: 클래스별 mAP 점수. 실제 데이터의 100%를 사용한 베이스라인과 비교할 때 혼합 훈련 및 미세 조정 실험은 자전거 운전자에 대한 mAP 점수를 개선하지만 기타 클래스의 경우 개선에 제한이 있습니다.

합성 데이터를 통해 모델을 사전 훈련한 후 실제 데이터의 70%를 사용하여 미세 조정(데이터 제거를 통한 미세 조정)하는 경우 자전거 운전자 클래스(그림 5)와 전체(그림 6)의 성능이 모두 향상됩니다.

그림 6: 미세 조정 실험의 mAP(Mean average precision) 점수. 실제 데이터의 70%를 사용하여 미세 조정된 실험(녹색)의 mAP 점수가 실제 데이터의 100%를 사용한 베이스라인(파란색) 보다 높습니다.  

2. 정성적 통찰

사례 연구에 따르면 합성 데이터는 어려운 사례에서 물체 감지 성능을 개선하는 데 도움이 될 수 있습니다. 다음 이미지에서 베이스라인 모델은 자전거 운전자를 올바르게 감지하지 못한 반면 합성 데이터를 통해 사전 훈련된 모델은 감지에 성공한 사례를 확인할 수 있습니다(그림 7 a) - 7 c)).

그림 7 a): 실제 데이터로만 훈련된 베이스라인 모델은 에고 차량 근처에 있는 자전거 운전자를 감지하지 못합니다(왼쪽). 합성 데이터를 통해 사전 훈련된 모델은 자전거 운전자를 성공적으로 감지합니다(오른쪽).

그림 7 b): 실제 데이터로만 훈련된 베이스라인 모델은 에고 차량 가까이에 있는 자전거 운전자를 감지하지 못합니다(왼쪽). 합성 데이터를 통해 사전 훈련된 모델은 자전거 운전자를 성공적으로 감지합니다(오른쪽).

그림 7 c): 실제 데이터로만 훈련된 베이스라인 모델은 그늘에 있는 자전거 운전자를 감지하지 못합니다(왼쪽). 합성 데이터를 통해 사전 훈련된 모델은 자전거 운전자를 성공적으로 감지합니다(오른쪽).

상업용 애플리케이션

본 사례 연구는 노미널 및 엣지 사례에서 AV 퍼셉션 모델을 훈련할 때 합성 데이터가 실제 데이터 세트의 유용한 보완 도구가 될 수 있다는 것을 보여줍니다. 고속도로에 낙하물, 보행자, 동물 등이 나타나는 상황이나 짙은 안개로 인해 시야가 좋지 않은 상황은 드물지만, AV는 안전하게 이를 감지할 수 있도록 준비되어야 합니다. 합성 데이터는 자전거 운전자와 같은 소수 클래스에 대한 퍼셉션 모델의 객체 감지 성능을 개선하여 클래스 불균형을 해결하는 데 도움이 될 수 있습니다. 또한 합성 데이터는 빠르고 비용 효율적이며 윤리적인 방법으로 훈련 데이터 세트를 생성하며, 실제 데이터를 수집하기에 너무 드물거나 위험한 경우 이를 보완할 수 있습니다.

Applied의 합성 데이터 세트에 대해 더 자세히 알아보시려면 퍼셉션 엔지니어 팀으로 문의하십시오.