著者 : Ville Koskinen   2024年11月25日 投稿のブログ記事 (元の英文記事へのリンク)

Thermo Orbitrap 向けに最適な MS2PIP モデル

Mascot Server 3.0 は、Thermo Orbitrap 装置で測定したデータのタンパク質およびペプチドの同定率を大幅に向上させます。3.0にはにはフラグメント強度予測機能を提供する MS2PIP が搭載されています。データベース検索結果から予測スペクトルと実測スペクトルとの相関度を確認しその数値を利用する事で、トリプシン消化のサンプルでも統計的に有意なマッチングが増えます。

CID および HCD モデル

Mascot Server 3.0 には定性分析およびラベルフリー定量分析用に、Thermo 社の Orbitrap 装置にて測定されたデータ向けに 3 つの MS2PIP モデル(CID、HCD2019/HCD2021、Immuno-HCD)が搭載されています。 どのモデルが「最適」かについては、ご利用の装置の構成によって異なります。 基本的には、HCD を使用している場合は HCD2021 または Immuno-HCD を選択し、それ以外の場合は CID を選択します。装置モデルの種類より、フラグメンテーションのメカニズムが何かという事の方が重要です。例えば、Thermo Q Exactive での HCD フラグメンテーションは、Thermo Q Exactive での CID フラグメンテーションよりも、Thermo Exploris での HCD フラグメンテーションに似ています。

MS2PIP の”CID”モデルはその名称が示すように、リニアイオントラップとインソースCIDのデータ解析に最適です。このモデルはMS2PIP開発者によって、NISTで公開されている高品質なヒトサンプルのCIDスペクトルライブラリーのデータを使用してトレーニングされました。トレーニングデータはサーモだけでなくそれ以外の幅広い機器から得られた304,000のユニークなペプチドマッチから構成されており、一般的なCIDフラグメンテーションパターンをうまく捉えているようです。

Mascotには免疫ペプチドの解析に最適なMS2PIPのモデル”Immuno-HCD”も搭載されています。このモデルは名前の通り、HLA-IおよびHLA-IIペプチドのデータ解析を対象としていますが、トリプシン消化のデータにも良好に動作します。

先月のブログ記事、最適なMS2PIPモデルの選択では、モデルの選択と評価についてさらに詳しく説明しています。

Example: DDA LFQ データ (PXD028735)

理論はどれも大変素晴らしいものですが、具体的な数値で確認できればより満足できますよね!複数のグループによる共同作業によって得られた包括的で高品質な LFQ ベンチマークデータセットを提供されていて、その事がこちらの論文(Van Puyvelde etc. (2022))で説明されています。著者らは 6 台の装置を使用し、そのうちの 1 台は Thermo Q Exactive HF-X です。多くの混合物の中には、QCサンプルと呼ばれる、ヒト(65%)、酵母(22.5%)、大腸菌(12.5%)の混合物が含まれています。すべての装置において 9 回の繰り返し測定が実行されました。

今回のデモンストレーションでは、論文データがアップロードされているPRIDEプロジェクトPXD028735から、QC混合物繰り返し実験の3番目(LFQ_Orbitrap_DDA_QC_03.raw、3.5GB)のThermo raw ファイルを選択しました。このファイルを選んだ特別な理由はありません。今回提示するような同定率の改善は、このデータセットのすべての他のすべてのrawファイルでも同様に見られます。MS1スキャンはプロファイルデータ、MS2 スキャンはセントロイドデータです。rawデータはもともと高品質であり、また処理を単純化するために、Mascot Distiller 2.8 を使用して、デフォルト設定の ThermoXcalibur.opt でファイルを処理しました。

(セントロイドデータとプロファイルデータの違いについては、helpページ>「Peak picking Thermo .RAW data with Mascot Distiller」をご参照ください。

Helpページ「Optimizing your search parameters」の手順に従って、以下の検索パラメータを使用しました。

  • Database:UP5640_H_sapiens(MascotのPreefined definitionとして含まれています)
  • Database : P2311_S_cerevisiae(MascotのPreefined definitionとして含まれています)
  • Database : UP625_E_coli_K12(MascotのPreefined definitionとして含まれています)
  • プリカーサー誤差範囲:10ppm
  • フラグメント誤差範囲:20ppm
  • 固定修飾:Carbamidomethyl(C)
  • 可変修飾:Oxidation(M)
  • 酵素:Trypsin/P、missed cleavage 2

非常に典型的な検索条件であり、ベンチマークに最適なデータセットといえるでしょう。

データはHCDを使用して取得されたため、MS2PIPモデルとして最適なのはHCD2021です。Mascot Server 2.7、2.8、3.0それぞれのバージョンにおける結果は以下の表にまとめられています(基準 : Sequence FDR 1%)。

Mascot Refine? MS2PIP? DeepLC? Proteins Protein FDR Sig. unique seq. Seq. FDR Sig. PSMs PSM FDR
2.7 yes (n/a) (n/a) 4,643 6.89% 20,911 0.87% 40,702 0.57%
2.8 yes (n/a) (n/a) 4,667 4.54% 22,367 1.0% 44,517 0.63%

3.0 yes HCD2021 (none) 4,951 4.75% 24,863 1.0% 50,333 0.64%
3.0 yes HCD2021 yes* 5,007 4.73% 25,104 1.0% 50,969 0.64%

* DeepLC model full_hc_PXD005573_mcp

公平な比較を行うため、各ケースでPercolatorまたは関連する機械学習アルゴリズムによるrefinementを有効にしました。但しver.2.7ではPercolatorが有効になっている場合のスコアのしきい値に関していくつかのバグがあり、1%のSequence FDRを達成できませんでした。ver.2.8においても結果の改善が見られますが、Mascot Server 3.0の新しい機械学習機能はさらに大幅な改善をもたらします。

フラグメント強度に対するHCD2021モデルを有効にすると、ver.2.8と比較して同定されたペプチド配列数が11%増加します(ver.2.7と比較すると19%増加)。予測スペクトルと実測スペクトルの間の相関係数の中央値は0.81です。Mascotにはmachine learning quality reportが付属しており、機械学習の適用により結果がどのように改善したか、またその理由について説明されています。

DeepLC を使用した保持時間予測を有効にすると、さらにわずかながら改善され、25,000 のペプチド配列が検出(2.8 よりも 12%、2.7 よりも 20% 改善)され、5,000 のタンパク質ヒットが検出されました。このデータベース検索では 109,000 件のクエリ(MS/MS スペクトル)が実行されたため、Mascot Server 3.0 はほぼ半分のクエリに対して統計的に有意なペプチドのマッチングを見つける事ができました。


Keywords: ,,, ,