著者 : Patrick Emery   2022年1月24日投稿のブログ記事 (元の英文記事へのリンク)

Defaultとprof_prof どちらが良いか : Mascot Distillerを用いたThermo .RAWデータのピークピッキング処理オプション

Mascot Distillerでは、主な質量分析装置メーカーのRawファイルタイプ毎に多くのデータ処理オプションをまとめたファイルを提供しています。 これらの.optファイルはご自身のデータをピークピッキングするための合理的な出発点として設計されていますが、最高の結果を得るためにはお使いの機器からの典型的なデータを使ってoptファイルのパラメータを調整し使用する必要があります。

Thermofisher社製質量分析装置のRAWファイル向けにもいくつかのオプションファイルが用意されていますが、主なものは次の2つです。

  • default.ThermoXcalibur.opt
  • prof_prof.ThermoXcalibur.opt

ユーザーからのよくある質問として、オプションファイルの違いは何か、どの処理オプションを使うのが最適か、というものが挙げられます。このブログ記事では、上記2つのオプションファイルを使った際に生じる解析結果や計算時間の違いについてご説明します。

Defaultとprof_prof処理オプションの違い

2つの処理オプションの主な違いは、rawデータのMS/MSスキャンが実際にセントロイドとして保存されている場合の扱いです。default設定ではMS/MSピークリストのセントロイド化された状態をそのまま採用するのに対し、prof_prof処理オプションでは、セントロイド化されたデータから独自に疑似的なprofileデータを作成してからピーク抽出を行います。 これにより、prof_profメソッドを使用して生成されたMS/MSピークリストには、フラグメントイオンの電荷などの追加情報が表示されます。 これらの情報はMascot Distiller でde novo sequencing を行う場合に必要であり、またピークリストのデチャージ [多価ピークから1価に換算したm/zを算出する事]に使用できます 。デチャージはトップダウンやミドルダウンの解析では特に重要です。

MSスキャンのピーク検出にはどちらの処理オプションでもプロファイルデータを使用します。これはサーベイスキャンの情報を基本としたさまざまな定量手法(強度ベースのLabel-free、SILACなど)には必要な処理です。

したがって、どの処理方法が最適かという質問に対する答えは、データ内のMS/MSスキャンがセントロイドまたはプロファイルデータのどちらで保存されているか、そしてデータを使って何をしようとしているかによって異なります。

プロファイルデータとして保存されたMS/MSスキャン

MS/MSスキャンがプロファイルデータとして保存されている場合、prof_prof.ThermoXcalibur.optの設定を出発点として使用するべきです。処理時間は2つのオプションでほぼ同じですが、prof_profオプションを使った方がはるかに良い結果が得られます。 これを説明するために、MS/MSスキャンがプロファイルデータとして保存されている.RAWファイルを入手し、Mascot Distillerを使って2つのoptファイルを使って処理をして、生成されたピークリストを同一のパラメーター設定で検索してみました。 結果は以下の表1にまとめられています。

Processing options#Sig. matches (1% FDR)Processing time (HH:MM:SS)
default.ThermoXcalibur.opt382000:01:45
prof_prof.ThermoXcalibur.opt932900:03:18
表1:プロファイルデータとして保存された42021 MS/MSスキャンを含む.RAWファイルを、設定ファイルdefaultprof_profそれぞれで処理し検索した時の結果と処理時間の比較。

prof_profを使用すると処理時間が長くなりますが、それでもピークピッキングは依然として非常に高速と言える範疇であり、defaultに比べると優れた同定結果となりました。以上の事から、MS/MSスキャンをプロファイルデータとして保存している場合はピークピッキングの出発点としてprof_prof.ThermoXcalibur.opt オプションファイルを使用することを強くお勧めします。

セントロイドデータとして保存されたMS/MSスキャン

一般的にprof_profオプションを使用して生成されたピークリストは、defaultのオプションを使用して生成されたものと比較してMascotで検索したときにわずかにスコアが高くなると考えられます。 これはノイズピークの少ないよりきれいなピークリストが得られるからです。このS/N比の改善により、同等のピークマッチをした場合のMascotスコアが向上します(訳者注:同じ数のピークがマッチした場合、入力データ側でマッチしないピーク数の少ない方が、スコアが高くなります)。しかしセントロイドデータをプロファイルデータに変換する「アンセントロイド処理」をする時間が必要となり計算時間がとても長くなります。

de novo sequencing検索のための電荷状態の確認や、多価ピークのデチャージなど、付加的なフラグメントイオンのピーク情報が必要な場合、MS/MSのアンセントロイド化を行う以外に選択肢はありません。 これら以外のケースでは、速度と結果のトレードオフの中で選択をする事になります。

トレードオフとなる内容をさらに検討するために、PRIDEの同じプロジェクトから4つの.RAWファイルを取り出し、Mascot Distillerを使ってdefaultまたはprof_profオプションで処理し、生成されたピークリストを同じ検索設定で検索しました。 結果は以下の表2にまとめられています。

Processing options#Sig. matches (1% FDR)Average score of significant peptides# peptides score >=70Processing time (HH:MM:SS)
default.ThermoXcalibur.opt1598140119200:04:58
prof_prof.ThermoXcalibur.opt1617342135303:57:39
表2:セントロイドデータが保存された合計99745 のMS/MSスキャンを含む4つの.RAWファイルセットについて、defaultprof_profオプションを使用した場合の検索結果と処理時間の比較。

ご覧のようにdefaultではなくprof_profオプションを使用することで、1% PSM FDR での有意なマッチの数が約 1% 増加し、有意なペプチドマッチの平均スコアも 40 から 42 に増加しています。

スコアの高いペプチドマッチに注目すると、より顕著な効果が見られます。prof_prof処理されたピークリストではスコア70以上のマッチが1353あったのに対し、defaultの処理オプションでは1192となり、~13.5%の改善が見られました。 現在リリースされているNCBInrの平均的なIdentity threshold (同定基準値の1つ)は70ですので、非常に大きなサイズのデータベースを検索している場合にはオプションファイルの選択で大幅な改善がもたらされる事がわかります。

しかし、これは処理時間の大幅な増加を引き起こしています。default.ThermoXcalibur.optを使用した場合処理時間は約5分ですが、prof_prof.ThermoXcalibur.optを使用した場合、約4時間まで増加しています。 これは、データのカバレッジを少し改善するには高い代償と言えるかもしれません。

prof_prof.ThermoXcalibur.optの処理オプションでは、1Daあたり600ポイントの分解能でMS/MSセントロイドデータをアンセントロイド化します。600という数字は良い検索結果が得られる高分解能ではありますが、そのためにセントロイド化されたMS/MSスキャンを処理する際の処理時間のかなりの部分がアンセントロイド化に占められてしまう事になります。 以下の表3は、セントロイド解除の分解能をそれぞれ400点/Da、200点/Daに下げた場合の効果を示しています。

Uncentroiding points per Da#Sig. matches (1% FDR)Processing time (HH:MM:SS)
2001589500:52:50
4001591302:09:15
表3:prof_prof処理オプションで使用するアンセントロイドの1Daあたりのポイントを変更した場合の、同定スペクトル数と処理時間との比較

ご覧のように、1Daあたりのセントロイド解除に使用する点を減らすことで処理速度が大幅に向上しましたが、その代償として重要なマッチの数(600/Daの時16173)がデフォルトの処理オプションを使った場合よりもわずかに減少しました(400/Da:15913, 200/Da:15895)。 しかし、de novo sequencingやピークリストのデチャージのためにフラグメントの電荷状態が必要な場合は、このトレードオフを受け入れれるのもやむなしと言えるかと思います。

MS/MSスキャンがセントロイドとして保存されている.RAWデータファイルに対して、フラグメントイオンの電荷状態の情報を必要としない場合はdefault.ThemoXcalibur.opt処理オプションを使用することをお勧めします。 データが悪くなければピークリストからも良い結果が得られ、処理時間も大幅に短縮できます。


Keywords: , ,