ISSN: 2167-7670
Panagiotis Meletis
全体的なシーン理解は、将来の自動運転車にとって不可欠な要素です。安全に運転するためには、これらの車両が環境を理解して解釈できることが不可欠です。そのためには、周囲の物体 (車両、人間、交通物体、自然) の正確な検出、走行可能な表面と走行不可能な表面 (道路、歩道、建物) の区別、静的および動的オブジェクトの高レベルのセマンティック クラスへのセグメンテーションが必要です。これまで、コンピューター ビジョンは、これらの問題が複雑で計算量が多いため、個別に取り組んできました。現在、ディープラーニング ベースのシステムは、これらの問題を解決するために手動で注釈が付けられたデータセットでトレーニングされていますが、次のような複数の課題に直面しています。1) 注釈が付けられたセマンティック クラスの数は、利用可能なデータセットによって数十に制限されるため、認識可能なオブジェクトの種類が減ります。2) 注釈の密度はデータセットのサイズに反比例するため、巨大なデータセットでは正確なセグメンテーションが不可能になります。3) 検出とセグメンテーションは別々に解決されるため、メモリと計算量の要求が高くなります。私たちの研究では、1) 異なるセマンティック クラスと異なるタイプの注釈を持つ複数のデータセットで単一のネットワークをトレーニングし、2) 単一のネットワークで検出とセマンティック セグメンテーションの問題を同時に解決する新しい方法を提案することで、前述の課題に対処しています。私たちは、これらのネットワークをリアルタイムのパフォーマンスで自律走行車に導入しました。認識可能なクラスの数が 5 倍に増加するとともに、最先端の結果を実証し、検出とセグメンテーションを統合パノプティック セグメンテーション システムに効率的に統合して、全体的なシーン理解の実現に向けて重要な一歩を踏み出しました。