2025年1月号 (#122)

あけましておめでとうございます。

今月のブログは、MASCOT最新バージョンに組み込まれた、機械学習機能による再スコアリングの意味と仕組みについてです。

今月の論文は、糖リン酸を処理する細菌の微小区画に関する研究です。

今月の小技は、「タンパク質の推定」におけるMascot による処理方法についてです。

Mascotニューズレターのバックナンバーはこのページ(英語版日本語版)からご覧いただけます。ご一読の上、ご意見・ご質問等ございましたら、お気軽にお問い合わせください。

機械学習を用いた再スコアリング

タンパク質配列データベースに対する検索結果には、正しい配列のペプチドと誤った配列のペプチドのヒットが常に混在します。Mascotのイオンスコアは、正しいヒットはほとんどの場合高いスコアとなり、誤ったヒットはほとんどの場合低いスコアとなるように設計されていますが、完璧ではありません。誤ったヒットは、さまざまな理由で偶然発生します。正しい配列がデータベースに存在しない場合、スペクトルにノイズピークが多数存在し誤った配列に対して偶然にマッチした内容が正解より高いスコアが得られた場合などです。

誤ったマッチングは通常、正しいマッチングと比較すると系統的な違いがあります。例えば、プリカーサーの質量誤差、電荷状態、切断ミス許容数、一致したフラグメントイオンの強度の割合などに系統的な違いが見られます。こういった情報をペプチド配列同定に最大限に活用するため、Mascotは、半教師付き機械学習を使用して最も強い識別力をもたらす要因を発見するプログラム「Percolator」が含まれています。 様々な要因からペプチド配列の判定に利用する最適な要因の組み合わせを調整した後、Percolatorはそれらを1つの数値、事後誤差確率(PEP, posterior error probability)に集約します。この数値は、新しいマッチングスコアとして使用されます(このため、Percolatorの処理を「再スコアリング」と呼んでいます)。

再スコアリングを有効にすると、感度が大幅に向上することが多く、ほとんどのワークフローでその恩恵を受けることができます。ルーチンな解析であるヒトのトリプシンサンプルのデータベース検索でも同様です。しかし機械学習も万能ではなく、誤りを起こすこともあります。そのため、ユーザーである皆様が機械学習を使用するかどうかを決定する選択権を持つことが重要である、と弊社では考えています。4MASCOTでは必要に応じて再スコアリング機能を有効または無効にすることができます。

詳細なチュートリアルはブログ記事(英語版日本語版)をご覧ください。

広範囲に分布する糖リン酸処理に関与する、細菌微小区画(microcompartment)の特性解析

Characterization of a widespread sugar phosphate-processing bacterial microcompartment

Matthew E. Dwyer, Markus Sutter & Cheryl A. Kerfeld

Nature Communications Biology, volume 7, Article number: 1562 (2024)

細菌微小区画(BMC, Bacterial Microcompartments)は多くの原核生物によって形成されています。細菌は触媒作用を高めるため、特殊な代謝経路の区間を囲い込んでいます。著者らはバイオインフォマティクスの手法を利用して、機能が解明されていないBMCである、糖リン酸を利用するBMC(SPU BMC, Sugar Phosphate Utilizing BMC)について調べました。SPUの遺伝子座は、糖リン酸代謝に関与する酵素をコードしていると予測されています。著者らは7つのSPUサブタイプを特定し、それらすべてにSPU BMCに特有の酵素であるデオキシリボース5-リン酸アルドラーゼ(DERA)と、共通のSPU酵素であるリボース5-リン酸イソメラーゼ(RPI)が含まれていることを明らかにしました。

これらの酵素の機能的特性を明らかにするため、著者らはN末端にHISアフィニティタグを付加した形でコード領域を合成し、精製を行いました。DERAとRPIの融合体が自然界に存在することから、この2つの酵素が複合体を形成できるかどうかを検証しました。サイズ排除クロマトグラフィーでは、131kDa付近に1つの主要ピークが確認されました。ピーク画分のSDS-PAGE分析およびウェスタンブロットにより、RPIとDERAがほぼ同等の比率で存在することが確認されました。これら酵素は、Mascot Server、Mascot Distiller、Scaffoldを使用した質量分析分析により確認されました。DERAとRPIの相互作用の実験的解析としては初めての研究である可能性が高いと著者は考えています。

Mascotニューズレターで取り上げてほしい話題や研究論文がありましたらぜひご紹介ください。また、Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。

タンパク質の推定

Illustration for Mascot

タンパク質の推定は、ショットガン LC-MS/MS によるタンパク質の同定において重要なステップでありますが、その中身についてはしばしばユーザーに誤解されています。データベース検索ではペプチドのみが特定されるため、ソフトウェアは同定されたペプチドからサンプルのタンパク質を「推定」する必要があります。

Mascot では、ユニークペプチドと共有ペプチドの両方の情報を使用して全体像を構築するアルゴリズムが実装されています。まず、タンパク質は共有ペプチドの一致に基づいて「ファミリー」に分類されます。次に、ユニークな証拠(ユニークペプチド)を持つタンパク質のヒットは、最上位のファミリーメンバーに「格上げ」されます。ユニークな証拠を持たないその他のすべてのタンパク質は、サブセットのステータスに格下げされ、デフォルトでは表示されません。

つまりMascotによって報告されるすべての最上位のタンパク質ヒットは、1つ以上のユニークなMS/MSマッチングという証拠によってその存在が裏付けられています。ペプチドのフラグメンテーションと一致したイオンについては表示することで確認できます。Mascotオンラインヘルプには、アルゴリズムの完全な説明が例を含めて記載されています。

お問い合せ

マトリックスサイエンス株式会社

〒110-0015

東京都台東区東上野1-6-10 ARTビル1F

info-jp@matrixscience.com

電話:03-5807-7895

ファクシミリ:03-5807-7896

Matrix Science logo