著者 : Patrick Emery   2021年1月21日投稿のブログ記事 (元の英文記事へのリンク)

NIST Human HCDスペクトルライブラリ

Mascot ver.2.6以降では、米国国立標準技術研究所(NIST)で開発された検索エンジン「MSPepSearch」を使用して、スペクトルライブラリ(訳者注:配列から計算された理論スペクトルでなく、実測のスペクトルから得られたピークリスト)に対する検索を行う事ができます。ライブラリ単独に対する検索を行う事ができるほか、ライブラリとFASTA配列データベースを一緒に検索し両方の検索結果を統合したレポートを作成する事もできます。またご自身のFASTA配列データベースに対する検索結果からスペクトルライブラリを生成する事もできます。

Mascot ver.2.6でスペクトルライブラリ検索を導入した際、Database Managerに多くのpredefinedを準備して、お手軽にライブラリデータベースを利用できるようにしました。ライブラリはNISTやEuropean Bioinformatics Institute (EBI)で一般公開されている、無料で利用可能なものです。そして今回ピックアップするのは、10,000以上のrawデータファイルから作成されたコンセンサスライブラリである "NIST_Human_HCD "ライブラリです。少し前までMascotで準備されていたライブラリの定義は2016/05/03にリリースされたものでした。しかしNISTでは2020年5月にこのライブラリを更新し、その際スペクトルを品質別に3つのライブラリに分割しました。

LibraryDescription
human_hcd_tryp_best 高品質のスペクトル。その大半がmissed cleavageのないペプチド断片
human_hcd_tryp_good 中品質のスペクトル。その大半がmissed cleavageを含むペプチド断片
human_hcd_semitryp 高・中品質のスペクトル。その大半がセミトリプシン断片
表1:2020年5月に公開された3つのNISTヒトHCDコンセンサススペクトルライブラリの説明

NISTのウェブサイトの情報によると、「新しいライブラリはFDR=0.01を閾値としており、同定タンパク質数が4~15%増加し、ペプチド数は前バージョンよりも86%増えている」とのことです。

更新されたライブラリを評価するため、私たちはiPRG2016データセットをNIST_Human_HCDに対して検索し、旧バージョン(2016と表記)、新バージョン3つそれぞれ個別に検索したもの、新バージョンの3つのライブラリすべてを統合してもの、の5つの検索結果について比較をしました。同定基準値はデフォルト値であるスコア300とし、Peptide-spectrum(PSMsと表記)、Peptide-sequenceの同定数を評価対象としました。結果は以下の表2にまとめられています。

LibraryNo. significant PSMsNo. significant sequences
Human_HCD 20162883505
human_hcd_tryp_best3421513
human_hcd_tryp_good805140
human_hcd_semitryp850216
human_hcd_tryp_best+human_hcd_tryp_good+human_hcd_semitryp5056829
表2:300以上のスコアを持つPeptide-spectrum、Peptide-sequenceの同定数。データセットとしてiPRG2016で公開されたものを、検索対象のライブラリとしてNISTのHuman HCD Peptide Librariesで2016のものと2020に新たにリリースされたものを利用している

2016のバージョンと2020の'best'ライブラリの検索結果を比較してみると、スペクトル単位で数え上げたマッチ数は538増えていますが、sequence単位でみると8つしか増えていません。両者の検索結果、答えに含まれている配列も似ていることが示唆されています。3つに分けられたライブラリについていえば、’Best’のライブラリ単独で旧バージョンのライブラリの内容を若干上回っていることがわかります。また、'Best'、'Good'および'Semi-trptic' スペクトルライブラリそれぞれに対する検索と3つまとめて検索した際の同定数を比較すると、この3つのライブラリにはほとんど重複がないであろう事がわかります。更新された3つのライブラリのすべてを検索することで、2016のライブラリを使用した時と比べて2173個のPSMsと324個のペプチド配列を追加で得ることができます。

弊社ではNIST_Human_HCDの更新に対応してdatabase managerのpredefinedの内容を変更いたしました。まず、これまでも存在していたNIST_Human_HCD定義についてはその内容を更新し、human_hcd_tryp_bestライブラリをダウンロードするようにしています。また、NIST_Human_HCD_2_goodとNIST_Human_HCD_3_semitrypという新たな名称の定義を追加しました。NIST_Human_HCD の内容をアップデートしたい場合は、Database manager で「Update」または 「Get New Files」 ボタンをクリックするだけです。ただしMascot 2.6 では既知のバグがあるため、新たなNIST ライブラリを使用したい場合はMascot 2.7 にアップデートすることをお勧めいたします。


Keywords: , ,