첨단 운전자 지원 시스템(ADAS) 및 자율 주행(AD) 개발에서 학습 데이터 세트의 양과 품질은 ML 모델의 성능에 직접적인 영향을 미칩니다. 그러나 현실 세계에서 학습 데이터를 수집하는 것은 느리고 비용이 많이 들며 물류의 제약을 받을 수 있습니다. 사람이 직접 라벨을 붙이는 것은 비용이 많이 들고 느리며 오류가 발생하기 쉽기 때문에 데이터에 주석을 다는 것은 또 다른 어려움입니다.
왜 Synthetic Dataset인가요?
Applied Intuition 합성 데이터 세트는 인식 및 검증 팀이 ML 모델을 위한 합성 학습 데이터를 정의, 생성 및 활용할 수 있도록 지원하여 데이터 기반 ADAS 및 AD 개발을 촉진합니다.
자연어, 분포 기반 구조화된 언어 또는 시각적 편집기를 사용하여 데이터 세트를 정의하여 모델에 필요한 데이터를 확장 가능하게 가져옵니다.
통계 보기, 필터링, 데이터 추출용 데이터 세트 관리 도구
공개된 사례 연구에서 모델 성능을 개선하는 것으로 입증된 생성된 데이터 세트
혜택
ML 교육 속도 향상
레이블이 지정된 새로운 데이터 세트를 얻고 다음 모델 반복을 최대 32배 빠르게 훈련
데이터 비용 절감
데이터 수집 및 라벨링에 드는 비용을 최대 95%까지 절감
성능 향상
엣지 케이스 성능을 3배 향상하고 전체 모델 성능을 최대 20% 더 빠르게 달성
주요 구성 요소
신속한 장면 생성
자연어 시나리오 생성, Synthetic Datasets 배포 기반 도메인 랜덤 프레임워크를 사용하거나 실제 세계 로그에서 장면을 추출하고 보강하여 합성 데이터 세트를 쉽게 정의하고 대규모로 생성할 수 있습니다. 분포를 직접 제어하여 데이터 세트가 작업 도메인과 일치하고 특정 에지 사례를 타겟팅하도록 보장하는 동시에 훈련 중에 도메인 간격을 최소화하도록 설계할 수 있습니다.
센서 시뮬레이션
합성 데이터 세트는 Applied Intuition의 센서 시뮬레이션 기능을 기반으로 합성 데이터가 물리적으로 정확하고 대상 센서와 작업 도메인을 대표할 수 있도록 합니다. 기계는 인간과 다르게 데이터를 보기 때문에 합성 데이터 세트는 기계가 데이터 학습을 통해 가치를 얻는 데 필요한 다양성과 현실감을 갖춥니다.
라벨 생성
간단한 경계 상자나 직육면체부터 광학, 깊이와 같은 고밀도 라벨까지 다양한 실측 데이터 라벨을 프로그래밍 방식으로 생성할 수 있습니다. 분류, 온톨로지 및 라벨링 사양에 맞게 라벨을 사용자 지정하여 데이터가 기존 데이터 세트 및 ML 파이프라인과 원활하게 통합 가능합니다.
도메인 적응
실제 트레이닝 데이터 세트를 기반으로 도메인 적응을 사용합니다. 태스크 도메인에 맞게 생성 알고리즘과 고전 알고리즘의 조합을 통해 합성 데이터를 다시 스타일링하거나 수정하여 합성 데이터 세트가 ML 지원 시스템에 최대한의 가치를 제공할 수 있습니다.
확장 가능한 인프라
Applied Intuition의 클라우드 엔진을 활용하여 수천 개의 병렬 시뮬레이션을 오케스트레이션하고 단 몇 시간 만에 프로덕션 규모의 데이터 세트를 생성할 수 있습니다.
주요 구성 요소
신속한 장면 생성
자연어 시나리오 생성, Synthetic Datasets 배포 기반 도메인 랜덤 프레임워크를 사용하거나 실제 세계 로그에서 장면을 추출하고 보강하여 합성 데이터 세트를 쉽게 정의하고 대규모로 생성할 수 있습니다. 분포를 직접 제어하여 데이터 세트가 작업 도메인과 일치하고 특정 에지 사례를 타겟팅하도록 보장하는 동시에 훈련 중에 도메인 간격을 최소화하도록 설계할 수 있습니다.
센서 시뮬레이션
합성 데이터 세트는 Applied Intuition의 센서 시뮬레이션 기능을 기반으로 합성 데이터가 물리적으로 정확하고 대상 센서와 작업 도메인을 대표할 수 있도록 합니다. 기계는 인간과 다르게 데이터를 보기 때문에 합성 데이터 세트는 기계가 데이터 학습을 통해 가치를 얻는 데 필요한 다양성과 현실감을 갖춥니다.
라벨 생성
간단한 경계 상자나 직육면체부터 광학, 깊이와 같은 고밀도 라벨까지 다양한 실측 데이터 라벨을 프로그래밍 방식으로 생성할 수 있습니다. 분류, 온톨로지 및 라벨링 사양에 맞게 라벨을 사용자 지정하여 데이터가 기존 데이터 세트 및 ML 파이프라인과 원활하게 통합 가능합니다.
도메인 적응
실제 트레이닝 데이터 세트를 기반으로 도메인 적응을 사용합니다. 태스크 도메인에 맞게 생성 알고리즘과 고전 알고리즘의 조합을 통해 합성 데이터를 다시 스타일링하거나 수정하여 합성 데이터 세트가 ML 지원 시스템에 최대한의 가치를 제공할 수 있습니다.
확장 가능한 인프라
Applied Intuition의 클라우드 엔진을 활용하여 수천 개의 병렬 시뮬레이션을 오케스트레이션하고 단 몇 시간 만에 프로덕션 규모의 데이터 세트를 생성할 수 있습니다.