今月のブログは、Proteome DiscovererにおいてMASCOTの機械学習機能を使用する方法についてです。同定ペプチド数が50%以上増えます。
今月の論文は、母体免疫活性化が胎児神経発達に及ぼす影響をin vitroモデルで解析した研究です。
今月のお知らせは、US HUPO 2025で発表された、機械学習アルゴリズムに対するアダプターフレームワークについてのご案内です。
Mascotニューズレターのバックナンバーはこのページ(英語版、日本語版)からご覧いただけます。ご一読の上、ご意見・ご質問等ございましたら、お気軽にお問い合わせください。
Thermo Proteome Discoverer (以降PDと表記) にはMascot Server と統合する組み込み式のノードがあります。バージョンとしては 2.0 から最新バージョンの 3.x までがサポートされています。しかし、このMascot ノードには、DeepLC(予測保持時間)または MS2PIP モデル(予測フラグメント強度)を選択するユーザーインターフェースがありません。Mascot Server 3.1 では、Mascot のInstrumentにてこれらのパラメータも併せて定義できるようになりました。新しいInstrument設定を使用して検索を実行すると、Mascotは自動的にMS2Rescoreを実行し、その結果をPercolatorでrefinement(精査・パラメーターの最適化)し、計算後の結果をPDに渡します。
この統合はPDのすべてのバージョン(1.4、2.x、3.x)で動作し、ソフトウェア側に変更を加える必要はありません。公開されているベンチマークデータセット(PXD028735)wを使って、PD 3.1とPD 2.4で結果を比較しました。rawデータはThermo Orbitrap QE HF-X、HCDで取得されたものです。MascotのInstrument設定として新たに「MS2PIP:HCD2021」という独自の設定を作成し、MS2PIP モデル(フラグメント強度予測)には HCD2021 を選択しました。
PD 3.1では、Instrument設定 MS2PIP:HCD2021を適用することで、適用前と比較してほぼ 60%増となる 34,141 のペプチドが同定できました。PD 2.4では35,047のペプチドが同定され、増加率は100%以上です。PD 2.4で比較的大きな増加が見られるのは、機械学習が有効になっていない場合のスコア閾値の計算がPD3.1と異なるためです。機械学習が有効になっている場合、両方のケースにおけるスコア閾値は同じで、Mascot Serverで表示されるProtein Family Summaryレポートで表示されている内容と全く同じになります。
Sandra M. Martín-Guerrero、María Martín-Estebané、Antonio J. Lara Ordóñez、Miguel Cánovas、David Martín-Oliva、Javier González-Maeso、Pedro R. Cutillas、Juan F. López-Giménez
ウイルス感染などの環境ストレスは、妊娠中の母体において免疫活性化(MIA)を引き起こす可能性があり、子の中枢神経系の正常な発達に影響を及ぼす事があります。またヒトにおいてはこのプロセスにより神経精神疾患の発症が引き起こされる事があります。母体免疫活性化のメカニズムを解明するため、著者らは妊娠したマウスが身ごもった胎児から神経幹細胞(NSC)株を取り出し培養しました。取り出した株はポリイノシン・ポリシチジル酸(Poly (I:C))で処理しました。Poly (I:C) は二本鎖RNAの合成アナログであり、ウイルス感染の急性期を模倣することができます。またコントロール群としては生理食塩水が投与されました。そしてこれらサンプルを、トランスクリプトーム、プロテオーム、リン酸化プロテオーム解析しました。
プロテオミクスおよびリン酸化プロテオミクス(LC-MS/MS)では、Mascot Distiller を使用してrawデータからピークリストを作成し、Mascot Server を使用してペプチドを同定しました。 これらの手順は Mascot Daemon によって自動化され、その後、Pescal を使用して LFQ(訳者注:ラベルフリー定量) が行われました。 Poly (I:C)処理後、分化させた NSC と生理食塩水投与後分化させたNSC との間で比較をした結果、タンパク質発現パターンにいくつかの違いが見られ、塩基性のリン酸化プロテオミクスにおいても発現パターンに有意な違いが見られました。興味深いことに、これらの違いはトランスクリプトミクスデータでは明確には見られませんでした。
リン酸化の変化が見られたタンパク質の多くは、神経突起に関与する細胞骨格構造に関連していました。特に、著者らは微小管結合タンパク質 MAP2 のリン酸化ペプチドを 52 種類同定し、そのうち 17 種類は生理食塩水処理群と比較して Poly (I:C) 処理群で増加していました。また、著者らは MAP2 の過剰リン酸化が、統合失調症患者の死後脳サンプルや他の動物モデルの研究結果と一致していることを指摘しています。
Mascotニューズレターで取り上げてほしい話題や研究論文がありましたらぜひご紹介ください。また、Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。
「Mascot Server 3.0では、機械学習アダプター(訳者注:外部の機械学習モデルをMascotに組み込む仕組み)を柔軟にカスタマイズできる新しいフレームワーク(システムの基盤となる仕組み)が導入されています。このアダプターはMascotの結果ファイルとCSVファイルを入力として受け取る独立したプログラムです。アダプターを介して必要な計算を実行したり、外部のツールを利用することができます。アダプターから得た結果を利用する事で、各ペプチドマッチに対する計算済みまたは予測されたfeatureをまとめたCSVデータが生成され、Percolatorの入力ファイルとして利用する事ができます。これらデータを受け取った後、MascotがPercolatorを実行し、より精度を高めた再スコアリングを行います。
私たちはこの仕組みを利用して、MS2RescoreをMASCOTと統合しましたが、同様の方法で他の機械学習モデルをMascotに組み込むことも可能です。詳しくは、US HUPO 2025のポスターをご覧ください。
マトリックスサイエンス株式会社
〒110-0015
東京都台東区東上野1-6-10 ARTビル1F
電話:03-5807-7895
ファクシミリ:03-5807-7896