圧縮された DNA 配列における疾患の予測: 未解決の問題

アシュトーシュ・グプタ

概要

圧縮された DNA 配列における疾患の予測: 未解決の問題

アシュトーシュ・グプタ

デオキシリボ核酸 (DNA) は、生物のすべての特性がコード化されている物理的媒体を構成します。その配列を理解することは、分子生物学における主要な関心事です。ヌクレオチド配列 (DNA、RNA) とタンパク質のアミノ酸配列を蓄積するために、いくつかの重要な分子生物学データベース (ERIBL、GenBank、DDJB) が世界中で開発されています。これらのデータベースのサイズが今日では指数関数的に増加していることはよく知られています。他の科学データベースほど大きくはありませんが、そのサイズは数百 GB に及びます [1]。完全なゲノムの場合、これらのテキストは非常に長くなる可能性があります。たとえば、ヒトゲノムには 23 対の染色体にわたって 30 億の文字が含まれています。そこには、人間のすべての遺伝物質が含まれています。利用できるゲノム配列の数が増えるにつれて、データベースの保存と使用の難しさに対処する必要があります。その結果、遺伝情報の圧縮は非常に重要な仕事となります。考慮すべきもう一つの要素は、圧縮された領域でのパターン検索を適用して特定の種類の病気を予測することです。

免責事項: この要約は人工知能ツールを使用して翻訳されたものであり、まだレビューまたは検証されていません。

情報技術およびソフトウェア工学ジャーナルオープンアクセス

概要

圧縮された DNA 配列における疾患の予測: 未解決の問題

情報技術およびソフトウェア工学ジャーナル
オープンアクセス