ISSN: 2165- 7866
アベイニュー・グアディ*、デベラ・テスファイ、テフェリー・ケベベウ
この論文では、ソーシャルメディアに投稿されたニュース項目のアムハラ語テキスト要約を紹介します。これは、Twitter や Facebook のソーシャルメディアから投稿されたドキュメントのニュース項目をアムハラ語テキストで要約するものです。ソーシャルメディアに投稿されたテキストの主な問題は、ほとんどの人がおそらく重複した投稿ドキュメントを含むアムハラ語テキストで投稿されていると読むだろうということです。ただし、ユーザーが探している情報を見つけるには、投稿されたテキストの要約を見つけ、投稿の重要な部分をアムハラ語ドキュメントとして読み、ソーシャルメディアで必要な情報を抽出します。要約は、要約する投稿されたドキュメントの現在の時間表現のテキストドキュメントを提示および投稿することで情報過多に対処します。提案するアプローチには、3 つの主要なコンポーネントがあります。まず、2 つの文のペア内で各投稿ドキュメント間の類似性を計算します。次に、Kmeans アルゴリズムを使用してドキュメントの類似性結果に基づいてクラスタリングし、それらをグループ化します。3 番目に、頻出用語の統計的方法を見つけてドキュメントをランク付けする TF-IDF アルゴリズムを使用して、クラスター化された投稿ドキュメントを個別に要約します。私たちが適用した要約手法は、投稿された文書の中で最もランクの高い文を抽出して要約を作成する抽出要約アプローチであり、要約のサイズはユーザーが識別できます。実験 1 では、抗議投稿のクラスター グループで、抽出率 30% の F 値スコアが最高で 87.07% でした。実験 2 では、干ばつ投稿グループで、抽出率 30% の F 値スコアが最高で 84% でした。実験 3 では、スポーツ投稿グループで、抽出率 30% の F 値スコアが最高で 91.37% でした。また、実験 4 では、要約投稿テキストを生成するために、抽出率 30% の F 値スコアが最高で 93.52% でした。要約のサイズを生成するシステムを大きくすると、投稿テキストの抽出率も増加しました。このため、評価システムは、ソーシャル メディアに投稿されたテキストを要約するのに非常に優れた結果を示しました。