機械学習の適用によりMascot Distillerでより多くのタンパク質を定量計算する
先日のMascot Server 3.1アップデートに伴いAPIが変更され、Mascot Distillerにおいても、LFQやTMT、その他の定量メソッドで機械学習を使用できるようになりました。機械学習アルゴリズムの適用により、同定基準として定められた基準値のFDRを満たすスコアの同定ペプチドの数を増加させ、多くの場合はそれに伴って定量計算可能なタンパク質の数も大幅に増加させます。今回私たちはLFQのベンチマークテストを実施しました。Distillerは1%の配列FDRで14%多くのタンパク質を定量することができるようになりました。
DistillerからMASCOTの機械学習アルゴリズムを利用するには
Mascot 3.1では主にThemo Proteome Discoverer™との統合を強化するための改善が行われました。こちらのブログ記事(英語、日本語)に説明がありますが、同じ方法がMascot Distillerでも使われています。すなわちDistillerの現バージョンでもProtoeme Discoverer 同様機械学習利用に対するGUIの問題がありましたが、同じ方法で問題を解決しています。
Mascot Distiller 2.8.5.1のアップデートは無料で、HTTP/Sタイムアウト処理のバグを1つ修正しています。機械学習のrefinement実施結果をDistillerにインポートするために必要な対応でした。
簡単に説明すると、Mascot 3.1では、結果に自動的に適用するMS2Rescoreモデルを指定する新しいinstrument設定を定義します。新しい定義が検索で選択されると、標準のMascotスコアの代わりにrefinementされた結果がMascot Distillerに返されます。これにより、サポートされているデータセットで同定および定量されたタンパク質やペプチドの数が大幅に向上します。
解析例:ヒト、酵母、大腸菌の混合サンプル(PXD028735)、Thermo Orbitrap QE HF-X DDA測定
PRIDEプロジェクト PXD028735から、論文 A comprehensive LFQ benchmark dataset on modern day acquisition strategies in proteomics (Pyuvelde et al., Scientific Data, 9(126), 2022)のrawデータが入手できます。著者らは6種類の装置を使用し、酵母、大腸菌、ヒト由来のタンパク質について、比率が異なる6種類の混合物を解析しました。あらゆるサンプル・あらゆる装置のDDAによる解析です。
Thermo Orbitrap QE HF-Xで分析されたサンプル(AおよびB)の3つの繰り返し実験(アルファ、ベータ、ガンマ)のセットをダウンロードしました。
サンプルAとBは、ヒト、S.cerevisiae、大腸菌のタンパク質を異なる量で混合したもので、サンプルA/サンプルBのタンパク質の予想される比率は以下の通りです:
Species | Expected Log2 protein ratio |
---|---|
H.sapiens | 0 |
S.cerevisiae | 1 |
E.coli | -2 |
Mascot Server 3.1で、新しいinsturment設定MS2PIP:HCD2021をセットし、refinement実施を有効にし、MS2PIPモデルとしてはHCD2021を選択しました。
Instrumentのセットアップ方法はこちらの資料「Using machine learning in Mascot Server 3.1 with Mascot Distiller (5 pages, 225kB)」 (5 pages, 225kB)に記載されています。
Mascot Distiller 2.8.5.1にアップデート後、プロジェクトを作成せずにMascot Distillerを起動し、ワークステーションのGUIを開き、メニューのTools→External Serversを選んでダイアログを開きます。ここで、「Mascot Server」タブのHTTP SettingsのTimeoutの値をデフォルトの60秒から36000(10時間)などの大きな値に変更してください。これはMascot Server上でrefinement計算を実施する間、Mascot DistillerとMascot Server間の接続を繋いでおく必要があるためです。この間、Mascot ServerからMascot Distillerへのデータ送信は行われないので、タイムアウトの設定を大きくしないとrefinementが完了する前にMascot Distillerによって接続が切断されてしまいます。
次に、Distillerで新規マルチファイルプロジェクトを作成し、6つのファイルを全て選択し、処理オプションとしてdefault.ThermoXcalibur.optを選択します。プロジェクトが開いたら、Tools->Preferences->Mascot Search settingsタブを開き、以下のパラメータを設定してください:
- Protein Databases: Use human, yeast and E. coli Uniprot proteomes
- Enzyme Name: Trypsin/P
- Maximum Missed Cleavages: 2
- Instrument: MS2PIP:HCD2021
- Decoy: True
- Taxonomy: All entries
- Error Tolerant Search: False
- Precursor Mass Tolerance: 10 ppm
- Fragment Mass Tolerance: 20 ppm
- Variable Modifications: Oxidation (M), Actyl (Protein N-Term)
- Fixed Modification: Carbamidomethyl (C)
- Quantitation: Label-free [MD]
Mascot Distiller 2.8では、Mascot 3.1で使用されているものよりも古いバージョンの検索フォームが使用されています。そのため、検索フォームで明示的にDecoy検索を行うよう、項目にチェックを入れる必要があります。
Distiller上で、MS2PIP:HCD2021を選択した検索を実施すれば、機械学習適用後の結果がMascot Distillerにインポートされます。6つすべての検索が完了し結果が統合されたのち、定量計算を実行することができます。
機械学習(モデル:MS2PIP:HCD2021)の適用により、同定ペプチド数が25%以上増加
下の表は、HCD2021モデルとMascot Distiller 2.8.5.1を使用した場合と使用しなかった場合の、同定タンパク質とペプチド数の違いまとめたものです:
Mascot Server | #Protein hits | #Proteins quantified | #Peptide sequences (1% FDR) |
---|---|---|---|
3.0 (no refining) | 5089 | 3235 | 27080 |
3.1 (with MS2PIP:HCD2021) | 5961 | 3699 | 34222 |
%improvement | 17% | 14% | 26% |
機械学習アルゴリズム(選択モデルHCD2021)の適用により、同定されたペプチド配列が26%、タンパク質は17%増加しました。
精度を落とすことなく、より多くのタンパク質を定量
ラベルフリー定量を実行した結果、(3つの繰り返しデータのうち)2つまたは3つのデータで、定量されたタンパク質の数が増加しました(最低ペプチド数2)。結果を以下の表に示します。
Mascot Server | Organism | Expected ratio (log2) | Median obs. ratio (log2) | Median absolute deviation | #proteins |
---|---|---|---|---|---|
3.0 (no refining) | H.sapiens | 0 | -0.017 | 0.1 | 2369 |
3.1 (with MS2PIP:HCD2021) | H.sapiens | 0 | -0.012 | 0.1 | 2675 |
3.0 (no refining) | S.cerevisiae | 1 | 1.01 | 0.16 | 733 |
3.1 (with MS2PIP:HCD2021) | S.cerevisiae | 1 | 1.02 | 0.17 | 857 |
3.0 (no refining) | E.coli | -2 | -1.96 | 0.38 | 133 |
3.1 (with MS2PIP:HCD2021) | E.coli | -2 | -1.90 | 0.43 | 167 |
Refinementを実施した結果と実施していない結果を比べた場合、タンパク質の比の中央値は非常に似ており、また各生物について実際に混合されている比率に近い数値でした。しかし、refinementを実施した結果は、2つ以上のペプチドで定量計算されたタンパク質の数が3235から3699に増加しました。
Keywords: label-free , machine learning, Mascot Distiller , MS2PIP, Percolator, quantitation,