ISSN: 2165- 7866
アブダラ・バラとアラン・アブラン
複数組織のリポジトリ、特に国際ソフトウェアベンチマーク標準グループ (ISBSG) のリポジトリなど、自発的なデータ提供に基づくリポジトリでは、多くのデータ フィールドで多数の値が欠落している可能性があり、一部の外れ値も含まれている可能性があります。この論文では、ISBSG リポジトリに関連するデータ品質の問題をいくつか示しています。これらの問題は、ベンチマーク目的や推定モデルの構築にリポジトリを利用するユーザーの成果を損なう可能性があります。詳細な統計分析のために識別されたサンプルの品質を向上させるために、データの前処理に関するいくつかの基準と手法を提案し、欠落値のあるデータセットを処理するための多重代入 (MI) 戦略を示します。