ISSN: 2376-130X
ジョン・アンダー・ゴメス・アドリアン
人工知能の技術のほとんど、特に機械学習に属する技術では、データ サンプルを使用してモデル パラメータを調整するアルゴリズムによってトレーニングされた、より堅牢で正確なモデルを取得するために、できるだけ多くのデータが必要です。たとえば、ディープ ニューラル ネットワークに基づくモデルには、数百万のパラメータ (重みと呼ばれます) があり、その値は、トレーニング データ セットのすべてのサンプルを反復的に訪問するエラー バックプロパゲーション アルゴリズムによって段階的に更新されます。Cukier 氏は、スタンフォード大学の研究者が、数千の癌性乳房細胞のサンプルと患者の生存率を使用して機械学習モデルをトレーニングし、特定の生検が重度の癌であるかどうかを予測するという目標と最も相関する入力データの属性のパターンを識別するために、学習アルゴリズムの目標関数を定義したと説明しました。得られた機械学習モデルは、生検が重度の癌であることを最もよく予測する 11 の属性を特定しました。研究者を驚かせたのは、11 の属性のうち、医師が以前に知っていて医学文献で研究されていたのは 8 つだけだったことです。スタンフォード大学の研究者は、入力データのすべての属性を実験に含め、学習アルゴリズムにどの属性を使用するかを指示しなかったため、機械学習アルゴリズムによって発見された属性(または指標)のうち3つは医学界では関連性がないとみなされ、病理学者はそのような指標に注意を向けなかったという結果になりました。カッキーア氏が指摘したように、機械学習が機能するのは、学習アルゴリズムに大量のデータが供給されるためです。これは、人間が一生かけて消化し、いつでも管理できるよりもはるかに多くの情報です。