英語のWeb版はここをクリックしてください   日本語のWeb版はここをクリックしてください

newsletter banner

2016年9月号

Mascot検索によってマッチしたペプチド全体のFDR(False Discovery Rate)と、その部分集合にあたる修飾されたペプチドのFDRを比較すると、後者のFDRの値が大きくなることがあります。その原因と対策を考察しました。

Mascot を利用した研究論文を紹介しています。取り上げてほしい話題や研究論文かありましたらぜひご紹介ください。また、 Mascot ニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。.

今月の小技は、最近行われたNCBInrの書式変更(gi番号の廃止)に関する対応策をまとめました。

Mascotニューズレターのバックナンバーは このページ からご覧いただけます。日本語版は「Japanese」リンクをクリックしてください。

 

今月のトピックス

メチル化ペプチドはFDRが高い
Mascot を利用した論文の紹介
今月の小技
 

メチル化ペプチドはFDRが高い

大規模なMS/MS質量データに対する検索結果の確からしさを評価するために、Target(実在するアミノ酸配列を持つ配列データベース)とDecoy(ランダムなアミノ酸配列を持つ配列データベース)から得られた2つの検索結果を利用してFDRを計算する方法は、取り扱いも簡便であるため、この10年の間に浸透し、利用されてきました。しかしながら最近になって、New South Wales大学(UNSW)の研究者により、1% 未満のFDRの検索結果であっても、メチル化ペプチドだけを対象としてFDRを計算すると70%を越える場合があることが報告されました。この報告内容から、次の点に注意しながら検索結果を解釈すると良いと思います。

  • 検索結果全体のFDRと検索結果の部分集合(たとえば修飾ペプチド)のFDRは異なる
  • Target/Decoy FDR評価法は全く関係のない配列に偶然にマッチする割合を計算しているだけ(質量誤差や修飾の有無による質量差を考慮したとしてもDecoyには類似配列さえも存在しない、または存在する可能性が低い)
  • アミノ酸残基数が少ないペプチドの質量スペクトルは高いスコアで偶然にマッチしやすい
  • 配列データベース検索はピーク質量にマッチする「対象」を探すだけなので、たとえば微妙な質量差を持つ修飾の位置関係や、その修飾が人為的なのか翻訳後なのかについては何も教えてくれない
  • FDR計算はPSM(Peptide Spectra Matches)数あるいは配列が異なるペプチド数を使って計算するが、この2つの数値を合算することはできない
  • FDRを計算した後の複数の結果を合算することはできない(検索結果を合算した後に再度FDRを計算する必要がある)

これらの注意事項に関する詳細は3つのブログ(part I, part II, part III)に分けて解説してありますのでご覧ください。

ROC curve

Mascotを利用した論文の紹介

Mascotニューズレターで取り上げてほしい話題や研究論文がありましたらぜひご紹介ください。また、Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。

 

Protein primary structure of the Vaccinia virion at increased resolution

Tuan Ngo, Yeva Mirzakhanyan, Nissin Moussatche and Paul David Gershon

Journal of Virology, published online August 24, 2016

The vaccinia virus is a large, complex member of the poxvirus family, and was utilized in the eradication of smallpox. Though widely studied, the details of its protein components were not fully understood. The authors here undertook a very detailed analysis or the proteome of vaccinia with a variety of sample preparations and methods.

Four endoproeteases and CNBr digested the virion proteome, and LC-MS/MS with CID, HCD, or ETD followed by Mascot search produced new details on vaccinia. Additionally 18O-ATP labelling and IMAC preparation helped elucidate the phosphopeptides.

This resulted in the detection of over 88% of the theoretical proteome including the first-time detection of products from 27 open reading frames. Additionally the size of the characterized virion phosphoproteome was doubled from 189 to 396 unique phosphorylation sites.

Thumbnail from featured publication

今月の小技

今年の初めにNCBIから アナウンス があったように、2016年8月22日以降にリリースされたNCBInrデータベースでは書式が変更され、タンパク質エントリのタイトル行の先頭に配置されていたgi番号が削除されています。Mascotはgi番号をタンパク質エントリの固有番号として使用していますので、Mascotの配列データベースの自動更新機能が有効になっている場合は、8月22日以降のNCBInrの更新プロセスは完了せず、ダウンロードされた関連ファイルが解凍された直後に停止します。

この書式変更(gi番号の削除)に対する対応方法をまとめましたのご覧ください(日本語 / English)。

なお、新たにTaxonomy indexである「tax.table」ファイルも追加されており、書式変更されてまだ日が浅いこともありますので、まずはMascotのNCBInrに対する自動更新を無効にし、すこし日数を置いてから新しいNCBInrとしてセットアップするのがよろしいかと思います。

NCBInrの強みは、2016年9月の時点では1億件弱のタンパク質のエントリを持った総合的なタンパク質データベースであり、頻繁に更新されることですが、問題はファイルサイズが大きく、圧縮ファイルの「nr.gz」が22GB、それを解凍したFASTAファイルは56GBもあることです。ただ、運用する上でファイルサイズが問題であれば、NCBIの「Entrezシステム」やUniProtの「Proteomes」を利用してお客様の興味・研究対象の生物種で構成された、よりコンパクトなFASTAファイルをダウンロードし、Mascotにセットアップするのが効率的な場合もあります。お試しください。

NCBI dumps gi numbers

お問い合せ

マトリックスサイエンス株式会社

〒101-0021 東京都千代田区外神田6-10-12 KNビル3F

info-jp@matrixscience.com

電話:03-5807-7895

ファクシミリ:03-5807-7896

 

Matrix Science logo

Matrix Science Ltd, 64 Baker Street, London W1U 7GB, UK
T +44 (0)20 7486 1050  F +44 (0)20 7224 1344  E info@matrixscience.com
 

View in a web browser Forward to a colleague Unsubscribe