2024年8月29日木曜日

トップダウンプロテオーム解析の原理、課題、手法、価値

 タンパク質と構造は細かい部分に着目すれば、遺伝子と1対1対応でなく、同じ遺伝子であってもRNAスプライシングの違い、遺伝子多型、変異、転写後の改変になどによって多くの構造を取ることができます。この記事の「Top-down proteomes(1)」はタンパク質を分解せずにそのまま質量分析を行うため、こうしたタンパク質の構造の多様性を含めてその違いを直接解析する事が可能です。一方、ボトムアッププロテオーム解析ではタンパク質の構造をペプチドまで分解して別々に解析を行います。(参考文献(1) Fig.1参照)私が目指す細胞種特異的薬物送達システムやアンチエイジングの為の細胞外マトリックス送達システムの構築のためには特に各臓器や組織にある循環器の内皮細胞上にある表面タンパク質の遺伝子だけでは示せない3次元構造の詳細について知る必要があります。トップダウンプロテオーム解析は、質量分析による解析なので、構造そのものを明かにすることはできませんが、質量の微妙な違いによって、構造の違いを区別することができます。それに従い、クライオ電子顕微鏡など構造の詳細がわかる解析で別途、重要なたんぱく質を抜き取り検査する事も可能です。
 トップダウンプロテオーム解析のための質量分析では2段階の解析手法(Tandem mass spectroscopy)を利用する事で強化できます。なぜなら、タンパク質全体の無傷の状態の質量分析では分子数が大きいため、細かな構造の違いを高精度で分析することが難しい場合があるからです。従って、全体を分析した後、分子をガス層で制御された方法で断片化し、各部分の質量を測定し、より詳細な分子構造や遺伝子配列を解析します。質量分析では電磁場による分子の分離を行うため、物質のイオン化が必須です。大きな無傷のタンパク質に対してのイオン化は断面化したペプチドをイオン化するよりも技術的にハードルが高いです。こうしたハードルはエレクトロスプレーイオン化(Electrospray ionization (ESI))マトリックス支援レーザー脱離イオン化(Matrix-assisted laser desorption/ionization(MALDI)) 。これらの技術の確立によって払拭されました。上述した断片化(Fragmentation:フラグメンテーション)は電子(10)119、ガス(アルゴン)(11)、紫外線(12)などの媒体によって可能です。タンパク質はアミノ酸、ペプチドの重合体化によって形成されているのでこうした重合体化のための架橋部分がこうした電子、分子、光によるエネルギーによって優先的に切断されます。質量分析では装置内でイオン化タンパク質を一定のパワーで加速させるため、その質量に応じて、加速度が異なり、装置内で一時的に異なる位置を取ります。これにより原理的に特定の質量/電荷比のタンパク質を仕分ける事ができます。特定の質量電荷比のタンパク質を仕分けた後、装置内のソーターによって空間的に分離して、
イオン、電子(2)、紫外線(3)(193nm or 213nm laser(13))などによってペプチドに断片化します。その状態で2次分析します。この時に断片化されたペプチドは既にデータベース化されている遺伝子シーケンスを含めた構造データと1対1で結合、リンクさせる事ができます。そのペプチド構造をマッピングします。タンパク質は固有のペプチドの組み合わせを持っていますからこの個別のペプチド情報からタンパク質を特定することができます。そもそもこれができるからボトムアッププロテオーム解析が成立します。では、これを踏まえた上で、トップダウンプロテオーム解析の付加価値について再度、考えます。トップダウンプロテオーム解析ではタンデムの質量分析によって2次的解析ではボトムアッププロテオーム解析の手法がとられます。すなわち、ペプチドに分解した後、質量分析してそれをデータベースに基づいてコンピューター上でネットワーク解析してそれらを組み立てタンパク質構造を割り当てます。冒頭で述べた様にトップダウンプロテオーム解析では、プロテオフォーム、すなわち同じ遺伝子の異なるタンパク質構造を明らかにできるとあります。これは、こうした2次的な質量分析によるボトムアップ解析に対して、さらに、1次的な質量分析、すなわち
タンパク質全体を無傷の状態で質量分析する事によって可能になります。2次的な質量分析の前の分子、電子、紫外線などの媒体による衝突エネルギーによってたんぱく質を分断する段階で、リン酸、糖などの装飾分子が失われてしまいます。また、ペプチドからコンピューター上のネットワーク解析も完全ではありません。さらにそれぞれのタンパク質を構成する全てのペプチドを検出するのも困難です(1)。従って、無傷のタンパク質全体を質量解析しさらに2次的データと対応させる事で、こうした転写後の構造改変因子を含んだ形で分析する事ができます。
 分析するタンパク質を準備の段階である程度、絞ることでより質量分析を使ったタンパク質情報のイオン質量比の重なりによるノイズを減らす事ができます。例えば、液体クロマトグラフィー(liquid chromatography)では分子量、電荷(イオン、pH)、疎水性に基づいて分離する事が可能です。また、当然、特定のタンパク質に絞って分析することができます。例えば、私はCAMome、すなわち、細胞接着分子に絞ったプロテオーム解析を提案します。予め、細胞接着分子を定義して、それに合わせたモノクローナル抗体を作製し、選択的に結合によって沈降させることで事前に分離することができます。こうした分離を行った後にトップダウンプロテオーム解析をすると私が絶対的に手に入れたい細胞接着分子の細かい構造の違いを識別できる可能性があります。従って、予め、分析したいタンパク質がある程度明らかになっている場合には質量分析を掛けるまえに、免疫沈降などによってそれらのタンパク質を分離して、トップダウン質量分析によって分析する事が有効です。例えば、脳の野、部位ごとの血管内皮細胞の細胞接着分子を分析したいのであれば、標的とする細胞接着分子を選定し、質量分析をかける前の段階で選択的に分離します。この作業を脳の野、部位ごとに行います。そうして脳の野、部位ごと分けて質量分析をかけます。そうすると原理的に脳の野、部位ごとの血管内皮細胞の細胞接着分子の量や構造の違いを明かにすることができます。薬剤は静脈投与の場合は循環器から病変部位へアクセスするので脳血管系の部位ごとの内皮細胞の表面に発現されている細胞接着分子の違いがあるかどうかを明かにすることは私が優先的に目指す脳神経系の細胞種特異的薬物送達システムにおいて絶対的に確認が必要な項目です。
 TDP(Top-Down Proteomics)のサンプル準備は非常に重要です。TDPでは、タンパク質全体を分解することなく解析するため、従来のタンパク質抽出法で使用される試薬がTDPに適さない場合があります。なぜなら、TDPでは導入を妨げてきた技術的障壁がイオン化の手続きであり、解消された今でも高精度なイオン化がBUPに比べて難しいことには変わりないからです。例えば、Goodの緩衝液(Good's buffers)は、一般的に高濃度の塩(>100mM)を含みます。また、プロテアーゼおよびホスファターゼ阻害剤、界面活性剤としてのSDS(ドデシル硫酸ナトリウム)やTriton X-100も使用され、これらはタンパク質の完全な溶解に役立ちます。しかし、これらの従来の試薬はTDPには適さないことがあります。なぜなら、これらの成分がタンパク質のイオン化に干渉し、質量分析の信号を抑制する可能性があるからです。質量分析においては、イオン化が重要なステップであり、イオンの生成や検出が困難になると、精度の高い分析ができなくなります。そのため、TDPにおいては、質量分析に適した試薬や条件を選択することが必要です。例えば、低塩濃度の緩衝液や、イオン化を抑制しない穏やかな界面活性剤を使用することで、タンパク質の検出効率を高め、質量分析の感度を向上させることが目指されます。従って、タンパク質が真性な状態で固有に持つイオン化活性をどのように保持しながら質量分析の為の準備ができるかがより高度にトップダウンプロテオーム解析では問われます。タンパク質の全体では様々な装飾、酵素活性部位がそのまま存在するためこうした外部ストレスから構造を保護する事が必要となります。そのため、プロテアーゼ阻害剤、フォスファターゼ阻害剤が共通的に含められることがあります(1,4)。また、溶液の温度も構造を保持する上で重要な因子です。例えば、-4℃程度の低温で扱われるべきです(1,5)。
 タンパク質質量分析の準備段階で重要な事はタンパク質の溶液内でのクラスター化(束化、相互作用、結合)を防ぐことです。言い換えれば、溶解性(Solubility(1))を高めることです。トップダウンタンパク質解析では準備段階でタンパク質を変性させないことと、溶液中でクラスター化させず、個別のタンパク質ごと分離させた状態を維持する必要があります。しかし、この溶解性がトップダウンプロテオーム解析では技術的なハードルがあります(6,7)。タンパク質の溶液中の疎水効果を減らすために界面活性剤(サーファクタント)が利用されますが、ボトムアッププロテオーム解析の準備で使われるサーファクタントはトップダウンプロテオーム解析のためのそれには適さない可能性があります。なぜなら、大きさ、構造的に大きな違いがあるからです。Azo(4-hexylphenylazosulfonate)は紫外線で分解できるため、利用しやすく、TDPのサーファクタントとして適しているかもしれません。
こうしたサーファクタントはタンパク質を外側から保護します。紫外線照射によって分解されるため、質量分析する直前で紫外線を当てる事で、より真性な状態でタンパク質の質量を分析することができます。(参考文献(6) Fig.1、参考文献(1) Fig.3a)よりサーファクタントの効果を上げるためには「一時的に」タンパク質を脱クラスター化させる必要があります。そのための一つの手段は超音波処理です。しかし、超音波よりもFreeze-thaw(凍結-融解)溶解のほうがトップダウンタンパク質の準備として適していたとされています(8)。
 もう一つ準備で重要な事は分析するタンパク質群の量を均等になるように調整することです。もし、特定のタンパク質が桁で多いような密度分布があると、質量分析をかけた時のシグナルに大きな差が出てしまう事と、そのシグナルの質量が近い時に低いシグナルが吸収されてしまう可能性があります。従って、量の極端に多いものは希釈(分画)、少ないものは濃縮する必要があります。例えば、濃縮の過程で沈降を使う場合には並列して私のプロジェクトとして進めている細胞外小胞のエンジニアリング技術を使う事ができます。例えば、CAMomeでは細胞接着分子に分析を限定しますが、これは「接着性」があるため、対となるリガンドがあります。そのリガンドを細胞外小胞に遺伝子的操作によって装飾させ、タンパク質の沈降に利用することができます。
 基本的にタンパク質が大きくなり、3次元的に折りたたまれていると質量に対するイオン化率が顕著に下がってしまうため、質量分析の精度が大きく低下してしまいます。基本的に30kDaを超えるとトップダウンプロテオーム解析は難しくなるとされています(1)。それを解決するためには上述したようにサイズ、電荷、疎水性などの特性を揃えてそれに合わせたイオン化条件でイオン化させる事です。イオン化率を向上させる技術も重要です。また、イオン化した状態を分析する直前まで保持させるようにサーファクタントで保持して、分析直前で紫外線などの外部因子によってサーファクタントを分解し、より真性な状態で測定することです。また、分析するタンパク質が予め明らかになっている場合には分析するソフトウェア側の介入余地もあります。具体的にはシグナルの増強の為の畳み込み解析、ノイズ除去がピーク位置がある程度、明らかな場合、正確にできるかもしれません。
 トップダウンプロテオーム解析ではサンプル中の不要な混入物質を除去し、解析したいタンパク質だけを精製する。この事が重要です。「Gel-electrophoresis-based fractionation techniques(ゲル電気泳動ベースの分画技術)」これはタンパク質やDNAなどの生体分子を分離するために用いられる方法です。電場の中で異なる分子がゲルを通過する速度の違いを利用して分離を行います。
一般的にタンパク質に付着している不純物はタンパク質よりも小さいため、電場がかかると、ゲルの中を早く移動します。こうしたストレスの違いにより、不純物の一部はタンパク質から剥がれますが、一方で、疎水性相互作用な強い結合でタンパク質と複合体化している不純物においては、こうした処理では不十分である可能性もあります。また、この方法ではタンパク質の3次元構造が崩れてしまうというデメリットがあります。これは不可逆的なたんぱく質の構造の変化を伴うため、トップダウンタンパク質の前処理としては不適である可能性があります。但し、大量の分子量、電荷の異なるタンパク質を効率的に分析したい場合には下述する方法に依拠した前処理が適していることもあります。
 (PF1)Gel-eluted liquid fraction entrapment electrophoresis (GELFrEE)(9)GELFrEEは、ゲル電気泳動を利用したタンパク質の分離技術の一つです。この方法では、異なる分子量のタンパク質がゲル中で移動する速度の違いを利用し、段階的に分画された液体中に回収されます。これにより、異なる分子量のタンパク質をゲルから直接回収することが可能になります。
 (PF2)2D Gel Electrophoresis (2D GE):2次元ゲル電気泳動は、タンパク質分離において非常に精度が高い技術です。2つの異なる特性(主に等電点と分子量)に基づいてタンパク質を分離します。最初の段階では、pH勾配を持つゲルに配置し、電場をかけて分離します。タンパク質を等電点(pI)に基づいて分離されます。その後、分子量に基づいて二次元ゲル電気泳動を行います。これにより同じ分子量を持つたんぱく質であってもポスト翻訳装飾(リン酸化、アセチル化、メチル化など)によって等電点(すなわち正電荷、負電荷の違いによって決まる点)が異なり、1回目でそれに従い分離されます。従って、トップダウンプロテオーム解析をする前の段階ですでに電荷、分子量に従ってタンパク質が分けられているという事です。こうしてトップダウンプロテオーム解析をするメリットはプロテオーム解析ではすでに質量分析スペクトルとデータベースが紐づいているため、ここからトップダウンプロテオーム解析する事によってタンパク質の種類、装飾、アイソフォームなどを同定する事が可能になります。
 タンパク質の3次元構造、すなわち折り畳み構造を安定化させながら分離させる方法として、高濃度塩溶液を用いて分離を行う方法があります。
 (PF3)疎水性相互作用クロマトグラフィー(HIC)シリカゲル、ポリマー、樹脂ビーズなどの塩溶液に溶けた固定相がタンパク質の疎水性と共に結合します。この結合性は塩濃度によって変わります。この相互作用が高いタンパク質から溶液の塩濃度を下げていった時に選択的に溶出するため、分離が可能になります。この結合がイオン相互作用に基づくのが(PF4)イオン交換クロマトグラフィー(IEX)です。
 こうした塩を用いた方法がタンパク質の3次元構造を安定化、保持しながら分離が可能な理由は、タンパク質の折り畳み構造の力の源泉は、個別のタンパク質の中の疎水性、イオン性に基づくことが多いからです。塩の溶液は疎水性、イオン性相互作用を高める働きがありますから、こうした3次元構造の力の源泉を強調させつつ、塩の濃度を変えながら、タンパク質と固定相の結合を少しずつ離脱させていく方法なので、タンパク質の3次元構造を保持しながら分離するのに適しています。タンパク質の中で3次元構造の保持が重要な分子もあります。例えば、細胞外マトリックスであるエラスチンは強い疎水性相互作用で高度に折りたたまれた構造をとります。これをトップダウンプロテオーム解析で信号に対して1対1対応をとるためには3次元構造を保持する事が大切になります。3次元構造はイオン化割合に影響をあたえるためm/z値そのものが変わります。この値と1対1対応を取るため、3次元構造の保持が重要な事と、折り畳み構造が守られていると物質的なノイズも低下します。すなわち「真性」なタンパク質構造の分析精度が向上します。
 私が実現させる(s)細胞種特異的薬物送達システムにおいては送達キャリアであるエクソソームに分泌細胞に対して遺伝子導入を用いて任意の膜タンパク質を分泌段階でエクソソームに装飾させる事が必須となっています。これができるようになると体の中で遺伝子コードされるあらゆるタンパク質のエクソソームの膜装飾が原理的に可能になります。これは、ドラッグデリバリーに革新をもたらすだけではなく、タンパク質の分離技術にも同様に大きな進歩をもたらします。従って、この技術を確立する事は共通の技術リソースでエクソソームの標的化の為の生産と広範な取り組みの中で必須となる解析の前処理におけるタンパク質の高度な分離技術を両立させます。私は2024年8月20日に「小児脳腫瘍」を最も優先的な治療のための疾患に指定しました。いずれにしても脳腫瘍や脳神経系の疾患に利用できる革新的な治療プロトコルを提供する事が目的としてあります。脳神経系は数百以上の細胞種があり、領域、野ごとに特異的です。従って、星状膠細胞を始め、様々な細胞種は野、領域特異的な形質を持ち、同じ遺伝子コードのタンパク質であっても細胞種の違い同様に転写産物の多様性によって3次元構造や変異など構造的に異なる事が想定されます。この野、領域事のタンパク質の微妙なモノを含めた構造の違いを解析によって明らかにすることが脳神経系の細胞取得的薬物送達システム実現のための解析として求められます。例えば、薬物の脳の領域ごと毛細血管の選択的トランスサイトーシスを実現させるためには毛細血管にある内皮細胞のトランスサイトーシスに関わるタンパク質構造の構造の詳細を掌握する事が求められます。コネクソン、インテグリン、ICAM-1などの細胞接着分子がありますが、こうしたタンパク質の構造多様性を野、領域ごとにトップダウンプロテオーム解析で分析するときにはこれらのタンパク質がすでに標的として定まっているわけですから組織から抽出した多くのタンパク質種から
前処理の段階でこれらのタンパク質を特異的に抜き出す必要があります。こうした場合、抗体やナノ粒子が適していますが、細胞外小胞による沈降による分離がより私の統合的な技術開発では資源の共通利用を想定すると適しています。すなわち、エクソソームや規格外の細胞外小胞緒使って、これらの細胞接着分子と対となるたんぱく質を遺伝子エンジニアリングによって細胞外小胞の膜タンパク質に高濃度で装飾させます。細胞外小胞はタンパク質に対して10桁程度重いですから、コネクソン、インテグリン、ICAM-1などの標的となるタンパク質は細胞外小胞と特異的に結合して、非常に高感度で溶液中を沈降させることができます。この時、溶液を塩にしておけば、タンパク質のイオン性、疎水性に基づく3次元構造は保持されますから、溶液として適しています。なぜなら、こうした3次元構造の保持が高度に解析の為、求められるからです。従って、浮力の調整は必要ですが、溶液を高濃度の塩にすることは必須です。この後、タンパク質の3次元構造を高度に保持しながら細胞外小胞との結合を解除したいですが、これが一つ難関です。
おそらく塩濃度を徐々に下げながら、結合力を低下させ、タンパク質を分離することが一番、変化率が小さく良い方法だと思います。従って、細胞外小胞のリガンドと標的タンパク質の結合親和性の調整の為には技術的な工夫が必要で、障壁があります。また、細胞外小胞には多くの膜タンパク質があるので他のタンパク質を同時に沈降させる可能性もあります。沈降させた段階で別の溶液に移し替え、タンパク質が分離した時にタンパク質が浮上するような溶液選択をすれば、タンパク質の分離状態と選択的抽出が可能になります。
 これらは成功すれば革新的ですが、多くの技術的障壁があります。しかし、この障壁を超える事は同時に細胞種得的薬物送達システムの薬物キャリアとしてのエクソソームの生成技術、設計技術の向上に同時に貢献するのでその障壁打破のために費やされる様々な資源(人、金銭、時間、装置、心、肉体的、精神的、エネルギー)。
これらを効率的に活用する事ができます。
 このようなプロテオーム解析の前準備として様々な特性を揃えて分離する事を「Enrichment」と呼びますが、David S. Roberts(敬称略)らはそのEnrichment strategyをTable 1にまとめています(1)。どういった目的でプロテオーム解析をするかで前準備にどういった方法で、どういった特性に基づいてタンパク質を精製するか?分離するか?が変わります。上述した細胞外小胞沈降も分析するタンパク質が定まっていれば非常に強力な能力を潜在的に発揮しますが、そうではない場合、分離プロトコルとしては適していません。
 質量分析の手法はiPS細胞の細胞分離方法であるフルオレセンス活性化細胞ソーティング(FACS: Fluorescence-Activated Cell Sorting)。これと一部原理は類似します。(参考文献(14) Fig.2)対象物、すなわち細胞やタンパク質に電荷を与えて、その後に一定の電場(and 磁場)によってその質量と電荷比に基づいて空間的に分離するという方法です。質量分析ではさらに電子増倍管がそれぞれの位置に対して配置され、電荷質量比(m/z)ごとにタンパク質が衝突して、電子信号に変えられます。この電子信号は任意の電荷質量比(m/z)の量に依存するため、横軸(m/z)に対する縦軸の強度が決定されます。トップダウンプロテオーム解析では直列、タンデムな質量分析解析をするため、どの電荷質量比のタンパク質をさらに電子、ガス、紫外線で分解(フラグメンテーション)するかを決定しなければなりません。Data-dependent acquisitionという方法は、電子増倍管でスキャンする条件を検出される全てのm/zの値のタンパク質を対象とします。その中で最も豊富にあるm/zをフラグメンテーション対象として定めます。この時、1回目の測定でタンパク質固有のmがピーク間隔から求まります。例えば、+1, +2 +3 +4とあれば、それぞれのピークの間隔が同じとなるため、こうした情報から特定の質量を選び出すことができます。こうしたピークは分析対象となるタンパク質の種類が豊富になると無数に存在する事になりますが、こうした間隔の一定性の分析をアルゴリズム上で自動的に行いその種類だけの質量mを同定します。その質量mに対して電荷量パターン数のスペクトルがあり、その中で最大の数を誇る電荷量、すなわち強度が高いものが、次のステップであるフラグメンテーション対象として選択されます。それで分解されたタンパク質を分析する事でボトムアップのプロテオーム解析が付加的に行われます。この手法では最も多くの電荷量パターンのものが選ばれるためボトムアップのプロテオーム解析の信号強度、感度が高まるさらにタンデムの情報を整合しやすいというメリットがあります。こうした方法はデータ依存型の手法でありData-dependent acquisitiionと言われます(15)。より効率的なプロセスとなります。ただ、強度の弱い情報を取りこぼすというデメリットがあります。一方で、データ非依存型の手法では(16)、すべての質量電荷比のタンパク質を分解するため、その後のボトムアップのプロテオーム解析とトップダウンのプロテオーム解析の対応性を分析するために必要とされるアルゴリズムが非常に複雑になります。
 トップダウンプロテオーム解析は情報量が豊富ですが、それを正確に分析するためには高度な知識、経験を必要とします。トップダウンとボトムアップのタンデム、直列のデータを関連付ける必要がるため、複雑性を伴ないます(17)。そのデータの解釈だけではなく、タンパク質をどのように分析したいかによって、前処理の仕方や測定前の分離の条件を変える必要性があります。また、質量を求めるためには電荷量がある程度の割合で「連続に変わる」必要があります。そうしないと質量が原理的に求まらないからです。
実際にはDavid S. Roberts(敬称略)らがFig.5bに示すような(1)複数のスペクトルが一定間隔にならび、その相対強度が最も豊富なところからガウシアン分布になります。ただ、おそらくこれは理想的な場合です。従って、イオン化させる条件も最適化する必要があります。こうした事を総合的に考えるとトップダウンプロテオーム解析は非常に知識、知恵、経験、技術を要する解析です。しかし、全ての条件が完全に共鳴し、最適化されたときには非常に有用な情報が得られる可能性があります。
 実際にFig.5b(1)のようにタンパク質の質量の同定のためには多数、複数のピークが必要になります。分析するタンパク質の種類が1種類ということはないですから、実際は多くのピークが乱立するし、重なることもあります。従って、分析するときには連続した電荷量の違いにおいてピーク量がどういった相対強度で変化するかをある程度、予測するために数理モデルが必要になります。この分布を比較的精度よく予測するモデルが元素の同位体分布を説明するAveragineモデルです(18)。
 タンデム質量分析では複数のデータを統合させ、かつオープンリソースのデータを参照し、取り込む必要があるので国際的に認められた標準規格に準拠した形のファイルタイプを選択する必要があります。それがmzML形式です(19)。装置間の互換性も必要になるため、統一したファイルタイプで国際的に共有する必要があります。
 人間のタンパク質の種類は数万種類と言われていますが、実際に化学装飾、変異、3次元折り畳み構造などを考慮したプロテオフォームの概念で言えば、これはかなり過小評価された数字かもしれません。仮に、この1万倍、すなわち数億種類あり、アミノ酸配列の違いだけでもその1/10の数千万種類あるとします。仮に4000万種類だとすると
    20^n = 40000000 n≒5.85 (アミノ酸は20種類)
 これです。但し、違う種類のタンパク質が特定の順列幅において同じ組み合わせのアミノ酸をシェアしている可能性も大いにあるので、実際はもう少し配列情報がいると思いますが、それでも、アミノ酸10配列くらい連続してわかれば、おそらくあらゆるタンパク質を識別できると思います。これよりも少なくても絞る事は可能なので、それによりコンピューターで推定する事もできます。
質量分析するときには重さが求まるので、それぞれのアミノ酸と化学装飾基の固有の重さがありますから、それによってどういった順列かはわかりませんが、少なくとも組み合わせは求まります。一つの断片から確実に1つのタンパク質までの同定にはいたらなくてもタンパク質を絞り込むことができるので、それを1つ1つ繰り返していけば、具体的にどういったタンパク質が含まれるかがわかります。これがボトムアップの原理です。人のタンパク質は数万種類であるとされています。これはおそらくDNA配列から推定した値だと思います。例えば、脳神経では1万種類くらいの選択的スプライシングがあり、最終転写産物であるmRNAは1つのDNA遺伝子コードに対して1万種類くらい異なる構造を取ることがあります。しかし、こうした選択的スプライシングは一定のコード領域をシェアするため、通常異なる遺伝子DNAコードを持つたんぱく質に比べてアミノ酸配列は一致します。こうした特徴から新規のプロテオフォームを構築することができます。すなわち、多くの(一部の)部分が一致しているけど、一部異なり、それがライブラリにない場合はそのたんぱく質を同じDNAコードを持つたんぱく質の亜型と特定できます。言い換えると、異なるエクソンの挿入や除去が行われるが、同じエクソン部分が存在するため、そこから特定のコードを持つタンパク質から派生していると推定できます。
 ここでボトムアップのプロテオーム解析の様式を理解したところで再度、トップダウンプロテオーム解析の付加価値について考えます。ボトムアッププロテオーム解析ではタンパク質をペプチドまでに分解します。典型的には約5 ~ 20個のアミノ酸数になります。使用されるプロテアーゼ(タンパク質分解酵素)や解析の目的に依存しますが、トリプシンなどの一般的なプロテアーゼを使用する場合、生成されるペプチドの長さは通常この範囲内になります。タンパク質が多数のペプチドに分解されるときには完全にランダムに分解されるのではなく、分解酵素によって結合が外れやすいところが共通化されています。「同じ遺伝子コード」のタンパク質が通常はある程度の数量以上あります。少なくとも数個ということはありません。従って、分解されるペプチドのピースも非常に類似した構造のものが多数生まれます。そうした場合、同じ元のタンパク質をデータ分析上において可逆的に再構成は確率的にはほとんどできなくて、異なるタンパク質源の異なるペプチド断片を組み合わせて、タンパク質を特定する事になります。タンパク質はアミノ酸配列だけでは決まらず、それぞれのアミノ酸に側鎖としてリン酸基、メチル基、アセチル基、ユビキチン基、グリコシル基、リストイル基、ファルネシル基、パルミトイル基、 スルホ基など無数のパターンの化学装飾があります。20種類のアミノ酸はそれぞれ装飾しやすい化学基がありますが、実際に配列のどこで装飾するかは同じ遺伝子コードのタンパク質でも異なる可能性があります。従って、リソースとなるタンパク質が異なる場合、そのピースで推定したタンパク質はボトムアップではDNAコードは正確に見つける事はできても化学装飾を完全な形で推測することは難しいです。言い換えれば、部分的な情報から推測している場合もあるため、空白の部分の構造の情報は化学装飾基を含んでいないか典型的であるか、ランダムであるかで本当の特異的な情報は出力されません。また、完全なピースが揃っていてもその組み合わせは元のタンパク質とは異なります。トップダウンプロテオーム解析の場合は化学装飾も含めてそのまま質量分析によって質量が明らかになるため、完全な配列だけではなく、化学装飾のパターンと量を計測することができます。
 選択的スプライシングではLuciano E. Marasco(敬称略)らがFig.1dに示すように(20)、遺伝子コード領域である特定のエクソンが省かれる違うエクソンが挿入される挿入エクソンのパターンが異なる挿入される位置が異なる挿入されるエクソンの分子量が異なるなどいくつもの変化因子があります。また、その1つのエクソンは数十〜数百のアミノ酸が生成されるため、どこからスプライシングされるか、どこで切り取られるかなどはアミノ酸単位で観たら非常に多様な形式をとることができます。タンパク質は小さなもので50アミノ酸数、大きなものではそれが500以上あるため、こうしたアミノ酸数に従って、当然、エクソンの数や分子量が変わってきます。元々真性(intrinsic)なエクソンの境界はゲノム上で固定的なので選択的スプライシングが生じず、エクソンが固定的でスプライシングによって非コード領域が削除されれば、DNA遺伝子コードをストレートに反映したアミノ酸配列になりますが、こうしたエクソンが転写因子によって可変性を持つ事で一定のアミノ酸配列パターンは維持しながら部分的にアミノ酸配列の順序が変わる事があり、その一つの機序は選択的スプライシングとして概念化されます。
遺伝子コードというのは父親、母親から受け継いだもので46本の染色体としておおよそ安定的に配列が決まっています。これは、生殖細胞系列の遺伝子なので体中、どこの細胞種でもある程度決まっています。しかし、その遺伝子コードから決まったタンパク質しか出せないと機能的に不具合がでる組織もあります。その一つが脳神経系です。脳神経系は200種類以上の細胞種があり、身体の部位の中で最も多様な細胞種を持ちます。以下に示す脳神経系が同じ種類のタンパク質でも多様な構造を持つ理由ははっきりとしたエビデンスはありませんが、脳神経特有の機能から推測可能です。脳神経系は他の臓器、組織とは異なり、特に神経細胞に関しては細胞同士の連結が基本的な機能を担います。その連結先がランダムだと困るので、脳神経系は非常に多様な細胞種の中から必要な連結機能に応じて精緻に選択する必要があります。必ずしも同じ細胞種とは限りません。その為には連結に関わるたんぱく質の構造を部分的に変えて、結合活性、親和性に差をつける必要があります。その構造を部分的に変えるためには同じDNA遺伝子コードからリボソームで生成されるタンパク質を何らかの機序で変更を掛ける必要があります。タンパク質はアミノ酸の直列構造ですから、そのアミノ酸の順列を部分的に変える必要があり、DNA遺伝子コードはそう簡単に変えられませんから、プロセスの中で変更するような適応を行います。そのプロセスが転写機能で、上述した選択的スプライシングが一つです。他にもプロモーターを変えてスプライシングの開始位置を変えたりもできます。そうしたアミノ酸配列だけではなく上述した多様な化学装飾のパターンも変えます。あるいは、シャペロンに代表される細胞質にある機能で3次元折り畳み構造を変える事も出来ます。私が重要視する対象疾患は「小児脳腫瘍」であり、その適用を戦略的に脳神経系疾患に敷衍する事を考えていますからこうした脳神経の仕組みをより詳しく理解する事が求められます。それに基づいた解析が必要になります。実際の機能的な理由は推測の域はでませんが、いずれにしても脳神経系において細胞特異的な転写因子がある事は複数の報告で科学的根拠があるので、同じDNA遺伝子コードでも構造の違いを疑う必要があります。また、それを脳腫瘍組織があるそれぞれの野、領域に特異的に送達するためにそうした構造の違いを利用する必要があります。タンパク質の分析の一つの王道はプロテオーム解析ですが、先進的に開発されてきたボトムアッププロテオーム解析の仕組みを理解すると私が解析したい部分的なたんぱく質の違いを正確に分析することはこのボトムアッププロテオーム解析では原理的に難しい可能性があります。トップダウンプロテオーム解析ではタンパク質を壊さないでそのまま分析を掛ける為、こうしたタンデムな構造の変化を多様に区別して分析する事が可能になります。トップダウンプロテオーム解析では翻訳後に決定される3次元折り畳み構造もタンデムな質量分析と電荷量の分布、データベースとの照合によってある程度の精度で推測できる可能性もあります。こうした精度は、当然、タンパク質の保存状況やどういうたんぱく質を解析装置に入れるかでも決まってきます。上述したように同じDNA遺伝子コードの多様な構造の違いを知りたいのであれば、それぞれの脳神経系の細胞種ごとに解析をわけて、さらにそのたんぱく質の集合体から特定の遺伝子コードのタンパク質だけを取り出して分析する事が求められます。すでにタンパク質がわかっていますからここからアミノ酸配列、化学装飾、変異、3次元構造などの違いを質量、電荷量、数(信号強度)、ガウシアン分布、データベース照合これらのタンデムな情報によって精緻に明確にできる可能性があります。そのためには上述したように脳神経系の転写、翻訳、構造決定のプロセスの遺伝子学、細胞生物学の詳細を理解するだけではなく、プロテオーム解析の物理的なメカニズムの詳細を理解する必要もあります。例えば、質量分析するための質量解像度を上げるためには電場、磁場、装置のフットプリント、電子増倍管の大きさ、配置、データ解析プロトコル(AIの機械学習、推論も含めて)これらなどの再設計、最適化も必要かもしれません。
 では、このような疑問は付加的に生じないでしょうか?トップダウンプロテオーム解析でなぜ、一度、タンパク質全体の分析を行った後、再度、それをペプチドに分解して、また質量分析にかけるのか?その理由は、タンパク質全体の分析では質量とデータベースの質が良ければ配列もわかりますが、変異や化学装飾が多くのアミノ酸残基の「どこに」結合しているかの情報はわかりません。なぜなら「全体」のデータが出るだけだからです。装飾基、変異の「残基の場所」やよりミクロなデータを取得するためにそれをペプチドまで分解して、直列、タンデムに分析する事をします。そういう目的を果たすためには、それぞれの分解されたペプチドがトップダウンで分析されたタンパク質と関連付けながら分析される必要があります。もっと具体的にいえば、タンデムの2回目のペプチドの解析の時にそのペプチドの重量で示されるアミノ酸と化学装飾基のパターンから1回目で明らかにしたタンパク質のコード、アミノ酸のどこに当たるかを正確に対応付ける必要があります。こういう目的から、トップダウンプロテオーム解析で電子、紫外線、ガスでフラグメンテーションしますが、その条件が非常に重要になります。すなわち、短い断片ではより細かな位置情報がわかる可能性がありますが、1回目で掌握したタンパク質のどの位置にそれが該当するかを推測する事を難しくします。一方で、長い断片ではタンパク質の位置を推測する事はアミノ酸のパターンから推測しやすいですが、今度は、どこに化学装飾基が結合しているかの正確性が低下します。従って、フラグメンテーションする時のエネルギーをその条件に合わせて最適化する必要があるはずです。下の段落とも関連しますが、トップダウンプロテオーム解析の時には1回目のタンパク質のデータと既に国際的にシェアされたライブラリにあるデータベース両方を参照しながら、位置特定ができるとより精度が高まるので実際にボトムアップで酵素でポリペプチドに共通的に分解されるときに生じる最も典型的なアミノ酸数(5 ~ 20)に整合させる電子、紫外線、ガス条件を探すことが推奨されます。また、5 ~ 20のアミノ酸の中でさらに目的に合わせて、少なめのアミノ酸にするか多めのアミノ酸にするかを考える必要があります。一般的に分析するタンパク質の分子量が高い場合にはこうした最適値は多い方にあります。分子量が小さい場合には少ない方にあります。また、より詳細な分子情報を得たいときにはフラグメンテーションエネルギーを高めに設定してより細かい断片にして、詳細な情報にする必要があります。その時には、位置情報の照合が難しくなるため、1回目の全体の質量分析から明らかにしたタンパク質全体と1対1対応しやすくするような条件を選択する必要があります。データ依存的な分析(data-dependent acquisition)の方式、すなわちフラグメンテーションする質量電荷比を制限したり、あるいは、予め、分析するときのタンパク質種類を少なく制限したり、フラグメンテーションをかけるタンパク質を少なく制限することが重要です。私のケースでいえば脳神経系の細胞種特異的な「特定の」細胞接着分子の細胞種ごとの構造の微妙な違いを知りたいです。測定前にほぼ完全に分離してある程度、測定回数を分けて、プロテオーム解析実施するときにはそれをするためのリソースは多くかかりますが、すでにタンパク質種を絞り込んでいるため、トップダウンプロテオーム解析でのフラグメンテーション条件のエネルギーをかなり高く設定して、細かく分断する事がおそらく適しています。なぜなら、より細かい正確な構造情報が知りたいからです。但し、この時にもできるだけボトムアッププロテオーム解析で利用される国際的なライブラリを利用できる範囲に留めるか?そういった検討要素が当然、含まれます。
 上述したようにトップダウンタンパク質では電子、紫外線、ガス(アルゴンなど)を分解(フラグメンテーション)の為に利用します。酵素などをin situ(その場)で選択的に利用する事が難しいからです。一方で、ボトムアップではサンプルの準備段階で5 ~ 20アミノ酸数の(ポリ)ペプチドまでタンパク質を分解します。この時には、酵素にも依りますが、結合が解けやすい残基がある程度決まっています。従って、これらペプチドの質量を明らかにしたときにはどういったアミノ酸や化学装飾基が含まれているか重さからコンピューター上で計算するときには、20種類のアミノ酸とあらゆる化学装飾基の重さのパターンから全網羅的に検索するのではなく、あらかじめ決まったデータベースの中から一致する、あるいはそれと近似する重さのアミノ酸と化学装飾基のパターンを検索します。なぜなら、20種類のペプチドのパターンと10種類以上ある化学装飾基のパターンの存在しうる組み合わせは天文学的な数字になるので、コンピューターの計算能力では決して足りないからです。しかし、トップダウンのプロテオーム解析では電子、紫外線、ガス(アルゴンなど)を分解(フラグメンテーション)の為に利用します。これは酵素の条件と大きく異なるため、元々のボトムアップのデータベースからまた、精度よく求められた質量からアミノ酸の組み合わせと化学装飾基を検索できるか、利用できるか?という問題があります。従って、トップダウンプロテオミクスに適した専用のデータベースを構築することが必要です。上の段落で考察したように理想的にはトップダウンプロテオーム解析のタンデム、直列質量分析の2回目のペプチドを分析するときにはできるだけボトムアップの国際的なデータベース、ライブラリを利用できるようにフラグメンテーションの条件を最適化する必要があります。同時に、トップダウンプロテオーム解析、専用のペプチドのアミノ酸、化学装飾基のデータベース、ライブラリの蓄積が進みかつ人工知能の機械学習モデル、推論(インファレンス)が取り入れられると解析の為に必要なコンピューター計算リソースの節約、解析時間効率の向上、フラグメンテーション条件の許容範囲が広がる事につながります。すなわち装置側の細かな制約が少なくなることが期待されます。
 画像解析の畳み込み解析を行うプロセスでは特定の領域ごとに任意の関数を積算し、データを強調させる事とします。この時には一気に全てのデータを畳み込みするわけではなくて、特定のカーネル事、スライドさせながら行います。この時のカーネル、範囲を「フィルタマスク」と呼びます。このフィルタリングとはおそらく概念としてはプロテオームのデータ解析で言えば、どれだけの程度で絞り込むかの範囲を示しています。従って、こうしたフィルタリングを初めは荒く行い、そこから段階的により細かくしていくようなアルゴリズムもおそらく考えられます。例えば、得られたdeconvolution後の質量スペクトルデータから初めはタンパク質の種類や化学装飾の種類、量などの分析を行い、そこからどこのタンパク質に化学装飾が生じているか?タンパク質のサブタイプや変異、3次元折り畳み構造などをよりデータを細かく分析する事によって明らかにします。細かい情報を検索するときには全てのパターンは天文学的な数になりますからそのパターンをどうやって特異的に絞り込むかを考える必要があります。例えば、20種類のアミノ酸はそれぞれ全ての化学装飾基と連結する可能性はありますが、アミノ酸の種類ごと装飾しやすい物質が存在します。例えば、以下です(Open AIより)
1アラニン (Ala, A)
メチル化 (Methylation): アラニンの側鎖にはメチル基が結合することがあります。
2. システイン (Cys, C)
ジスルフィド結合 (Disulfide Bond): システインのチオール基が酸化されてジスルフィド結合を形成します。
スルホキシル化 (Sulfoxidation): システインの硫黄原子が酸化されることがあります。
3. アスパラギン (Asn, N)
アスパラギン化 (Asparaginyl Glycosylation): アスパラギンのアミド基に糖が結合します。
4. グルタミン (Gln, Q)
グルタミン化 (Glutamyl Glycosylation): グルタミンのアミド基に糖が結合することがあります。
5. グリシン (Gly, G)
プロリンのジペプチド (Prolyl Hydroxylation): グリシンとプロリンのジペプチドにヒドロキシル基が結合することがあります。
6. ヒスチジン (His, H)
メチル化 (Methylation): ヒスチジンのイミダゾール環にメチル基が結合することがあります。
ヒスチジンの酸化 (Oxidation): ヒスチジンの側鎖が酸化されることがあります。
7. イソロイシン (Ile, I)
脂肪酸結合 (Fatty Acylation): イソロイシンの側鎖に脂肪酸が結合することがあります。
8. リジン (Lys, K)
アセチル化 (Acetylation): リジンのアミノ基にアセチル基が結合します。
メチル化 (Methylation): リジンのアミノ基にメチル基が結合することがあります。
ユビキチン化 (Ubiquitination): リジンのアミノ基にユビキチンが結合します。
9. ロイシン (Leu, L)
脂肪酸結合 (Fatty Acylation): ロイシンの側鎖に脂肪酸が結合することがあります。
10. メチオニン (Met, M)
酸化 (Oxidation): メチオニンの硫黄原子が酸化されることがあります。
メチル化 (Methylation): メチオニンの側鎖にメチル基が結合することがあります。
11. フェニルアラニン (Phe, F)
酸化 (Oxidation): フェニルアラニンのベンゼン環が酸化されることがあります。
12. プロリン (Pro, P)
ヒドロキシル化 (Hydroxylation): プロリンの側鎖にヒドロキシル基が結合することがあります。
13. セリン (Ser, S)
リン酸化 (Phosphorylation): セリンのヒドロキシル基にリン酸基が結合します。
グリコシル化 (Glycosylation): セリンのヒドロキシル基に糖が結合することがあります。
14. スレオニン (Thr, T)
リン酸化 (Phosphorylation): スレオニンのヒドロキシル基にリン酸基が結合します。
グリコシル化 (Glycosylation): スレオニンのヒドロキシル基に糖が結合することがあります。
15. トリプトファン (Trp, W)
酸化 (Oxidation): トリプトファンのインドール環が酸化されることがあります。
16. チロシン (Tyr, Y)
リン酸化 (Phosphorylation): チロシンのヒドロキシル基にリン酸基が結合します。
酸化 (Oxidation): チロシンのフェノール環が酸化されることがあります。
17. アスパラギン酸 (Asp, D)
アスパラギン酸化 (Aspartyl Phosphorylation): アスパラギン酸のカルボキシル基にリン酸基が結合することがあります。
18. グルタミン酸 (Glu, E)
グルタミン酸化 (Glutamyl Phosphorylation): グルタミン酸のカルボキシル基にリン酸基が結合することがあります。
19. アミノ酸残基のポリフェニル化 (Polyphenylation)
主にチロシン (Tyr, Y)
20. カルボキシル基のメチル化 (Carboxyl Methylation)
主にアスパラギン酸 (Asp, D)とグルタミン酸 (Glu, E)
 例えば、アラニンはメチル基を装飾しやすいわけですからペプチド断片からアラニンと他のリン酸基、メチル基が特定された場合にはアラニンとリン酸基よりもメチル基が干渉しやすいですから、こうした傾向を元にパターンを絞り込んでいく事がより少ない情報から正確に分析する事に貢献するはずです。
 また、それぞれの20種類のアミノ酸においてその順列の中で隣接しやすいパターンもあります。それについて以下に整理します(Open AIより)
1. アラニン (Ala, A)
グリシン (Gly, G): アラニンとグリシンは、比較的小さな側鎖を持ち、互いに隣接しやすいです。
2. システイン (Cys, C)
システイン (Cys, C): 自身でジスルフィド結合を形成しやすく、隣接することが多いです。
3. アスパラギン (Asn, N)
グルタミン (Gln, Q): アスパラギンとグルタミンはアミド基を持ち、親水性の相互作用を形成しやすいです。
4. グルタミン (Gln, Q)
アスパラギン (Asn, N): 同様に、アスパラギンと隣接しやすいです。
5. グリシン (Gly, G)
プロリン (Pro, P): グリシンとプロリンは、特にコラーゲンなどの繰り返し構造においてよく隣接します。
6. ヒスチジン (His, H)
アスパラギン (Asn, N): ヒスチジンのイミダゾール環とアスパラギンのアミド基は、相互作用しやすいです。
7. イソロイシン (Ile, I)
バリン (Val, V): イソロイシンとバリンは疎水性の相互作用により隣接しやすいです。
8. リジン (Lys, K)
アスパラギン酸 (Asp, D): リジンのアミノ基とアスパラギン酸のカルボキシル基は、イオン結合を形成しやすいです。
9. ロイシン (Leu, L)
イソロイシン (Ile, I): ロイシンとイソロイシンは疎水性相互作用により隣接しやすいです。
10. メチオニン (Met, M)
フェニルアラニン (Phe, F): メチオニンのメチル基とフェニルアラニンのベンゼン環は疎水性相互作用を形成します。
11. フェニルアラニン (Phe, F)
チロシン (Tyr, Y): フェニルアラニンとチロシンは疎水性相互作用と水素結合を形成しやすいです。
12. プロリン (Pro, P)
アスパラギン (Asn, N): プロリンとアスパラギンは、ポリペプチド鎖のターンにおいて隣接しやすいです。
13. セリン (Ser, S)
スレオニン (Thr, T): セリンとスレオニンは、似たようなヒドロキシル基を持ち、親水性相互作用を形成しやすいです。
14. スレオニン (Thr, T)
セリン (Ser, S): セリンとスレオニンは共にヒドロキシル基を持ち、隣接しやすいです。
15. トリプトファン (Trp, W)
チロシン (Tyr, Y): トリプトファンとチロシンは、疎水性の相互作用を持ち、隣接しやすいです。
16. チロシン (Tyr, Y)
トリプトファン (Trp, W): 同様に、トリプトファンとチロシンは隣接することがあります。
17. アスパラギン酸 (Asp, D)
グルタミン酸 (Glu, E): アスパラギン酸とグルタミン酸はカルボキシル基を持ち、隣接しやすいです。
18. グルタミン酸 (Glu, E)
アスパラギン酸 (Asp, D): 同様に、アスパラギン酸とグルタミン酸は隣接しやすいです。
19. アミノ酸残基のポリフェニル化 (Polyphenylation)
主にチロシン (Tyr, Y): ポリフェニル化のターゲットとしてチロシンが含まれることが多いです。
20. カルボキシル基のメチル化 (Carboxyl Methylation)
主にアスパラギン酸 (Asp, D)とグルタミン酸 (Glu, E): メチル化されたカルボキシル基が隣接することがあります。
 タンパク質は生体内に自然にある物質ですから自然な環境の適応によってそのパターンが決まる部分もあります。従って、細胞内の環境や細胞外マトリックスなどの干渉によって決まってくる順列パターン、もっといえば隣接パターンがあります。20種類のアミノ酸が全くランダムに隣り合うわけではありません。もしそうであれば、もっと人のタンパク質は多様になるはずです。このような環境因子におる隣接効果もあるし、絶対的な分子の幾何学的条件の整合、あるいは化学結合の親和性などもあります。
 当然、それぞれのアミノ酸がどういった化学装飾基を引き込みやすいか?隣接しやすいアミノ酸のパターン、また、変異が入りやすいアミノ酸、エクソンの両端に存在しやすいアミノ酸などデータ検索を有効する、言い換えれば、そのパターン数を減らすために
考えられる要素は多くあるわけですから、そうしたことを一つ一つ明らかにした上でデータベースを構築したり、検索システム、そのアルゴリズムを構築する事が求められます。今は質量分析(Deconvolution)とデータベース検索に数時間から多くて数日かかることもあるとされています(1)。
 こうしたトップダウンタンパク質のデータをランダムフォレストモデルによって機械学習させ、それによって推論させます。ランダムフォレストモデルというのはデータから細かなパラメータを設定し、その特徴量に対して個別の木を作製します。その木は各ノードで2つに分岐する経路を取り、その分岐では閾値を設定し2つの数字グループに分けます。その閾値ので設定される数字幅をどんどん狭くしていき、最終的に同じ数字の集団になるかほとんど誤差で一致するようになるまで純粋化させていきます。こうした不純物性はジニ不純物で定量化されます。トップダウンプロテオーム解析のデータで考えられる特徴量は以下です。(Open AIより)
(RF1)質量分析に関する特徴量
  ピークの質量/電荷比(m/z): 各ピークの質量/電荷比。
  ピークの強度: 各ピークの強度や相対強度。
  ピークの面積: 各ピークの面積(強度の積分値)。
  ピークの幅: 各ピークの幅やフル・ウィズ・アット・ハーフ・マキシマム(FWHM)。
  ピークの位置: 各ピークの位置(遅延時間など)。
(RF2)タンパク質の特性に関する特徴量
  アミノ酸配列: タンパク質のアミノ酸配列そのものや、その配列から計算される特徴(例えば、アミノ酸の頻度)。
  分子量: タンパク質の分子量や、その分子量の推定値。
  二次構造予測: タンパク質の二次構造予測(α-ヘリックス、β-シートなど)。
  疎水性/親水性: アミノ酸の疎水性または親水性の特徴量。
  修飾情報: 習慣的なポストトランスレーショナル修飾(例えば、リン酸化、アセチル化)。
(RF3)データの統計的特徴
  平均質量/電荷比: 各サンプルの質量/電荷比の平均値。
  標準偏差: 質量/電荷比の標準偏差。
  スキュー度: データの歪度。
  クルトーシス: データの尖度。
  ピークの数: 各サンプルにおけるピークの総数。
(RF4)データの相関性
  ピーク間の相関係数: 各ピーク間の相関係数。
  質量/電荷比とピーク強度の関係: 各ピークの質量/電荷比と強度の関係。
  同時出現の統計: 同時に出現するピークの統計情報。
(RF5)プロセッシングに関する特徴量
  ピーク検出アルゴリズムのパラメータ: 使用したピーク検出アルゴリズムのパラメータ設定(例えば、閾値、スムージングパラメータ)。
  ノイズ除去の結果: ノイズ除去後のデータ特徴(例えば、ノイズレベル)。
(RF6)質量分析の設定に関する特徴量
  質量分析器の種類: 使用する質量分析器の種類(例えば、TOF、四重極)。
  イオン化方法: 使用するイオン化方法(例えば、MALDI、ESI)。
  分析条件: 解析時の条件(例えば、溶媒の種類、電圧設定
 こうした(RF1)~(RF6)で示されるパラメータでそれぞれ個別の「木」をつくり「ランダムフォレスト、すなわち森」を形成します。そこから各枝に分岐させてバランスよく数字幅を細かく分類していき、最終的にほとんど数字の同じグループにわけ、それに対する出力、すなわちタンパク質の結果があります。そうしたネットワークを作製し、新しいデータから(RF1)~(RF6)で示されるパラメータで個別の数字がそれぞれ示されますから、特異的なルートで示される出力が結果として出力されます。すなわち推論です。この時、それぞれの木で出力されるたんぱく質が異なる事があります。その時にはその木の重みづけ(すなわち純度の高い木)を出力に掛けて最終的にもっともその数字が高くなるタンパク質種を選定します。Sean J. McIlwain(敬称略)らのランダムフォレストの特徴量の設定条件は上の(RF1)~(RF6)と異なる可能性がありますが(23)、このような方式で機械学習させた結果True Positive (TP): 正しくタンパク質Aを同定したケース。False Positive (FP): 実際には存在しないタンパク質Aを誤って同定したケース。False Negative (FN): 実際には存在するタンパク質Aを見逃したケース。このようなパターンで評価した結果
Recall= True Positives (TP) / (True Positives (TP)+False Negatives (FN))
これは0.60
Precision= True Positives (TP) / (True Positives (TP)+False Positives (FP))
これは0.78でした。
 すなわち実際にタンパク質を見逃したケースは存在しないタンパク質は同定したケースよりも多かったという事です。ランダムフォレストの出力はタンパク質を決定するだけではなくどういったタンパク質の可能性が高いかのリストが示され、その確率を出力します。そのリストに実際に正解のタンパク質が存在しなかった場合がFalse Negative (FN)です。False Positivesは学習させた全てのタンパク質以外の存在しないはずのタンパク質が出力の中に含まれる場合です。
 比較的高い数字が示されたので、こうした人工知能の確率順の推定リストである程度、タンパク質を絞り込み、そこから検索をかけること、人が確認することで実際の検索時間を短く効率化でき、正確性が上がる可能性があります。
 脳神経系のタンパク質発現は、同じ遺伝子コードのタンパク質でも構造が異なる事があります。例えば、それぞれ領域が異なる
100種類のコネキシン43を調べるとします。組織からサンプリングした時点で、それぞれのコネキシン43がどこから取得されたかというのは当然わかりますから、それらを区別して処理する事は可能です。しかし、トップダウンプロテオーム解析をするときに100回それを分けて行おうとすると非常に時間と手間がかかります。できれば、数回、もっといえば1回で分析したいという需要があります。ただ、同じサブタイプの構造の微妙な違いを分析するときには一度に装置に入れると質量の差が出にくい事と、どのスペクトルがどの組織からとったものかの判別ができません。従って、何らかのマーカー、ラベルが必要です。そういうラベルとして利用できるのが同位体ラベリング(水素であれば、重水素)(21)、化学ラベリングです。例えば、水素の同位体、重水素でラベリングするときにも交換条件を段階的に変化させる事で重水素の交換効率を変えて、複数の異なるラベリングを重水素の一要素で行う事も原理的に可能です。炭素、酸素、窒素の同位体。いろんなラベリングを駆使する事でより多くの種類の同じ遺伝子コードを持つたんぱく質を質量シフト量から区別する事ができる可能性があります。ただ、どれだけの効率でラベリングされるかという定量的なデータは得られないため、識別するためには高い技術、工夫が必要だと思います。また、質量分析の精度も種類を多くする場合には求められます。そういった技術的な障壁を乗り越えてこうした手法を駆使すれば、サンプルを取得した時にはわからない定量性も得られます。
例えば、同じような組織取得条件(資源細胞数の一致など)でコネキシン43の数がわかればそれぞれの組織のコネキシン43の発現活性度も評価することができます。このようなラベリング技術は私が行おうとしている特定の細胞接着分子に対して微妙な構造の違いをトップダウンプロテオーム解析するときにはおそらく必須となると想定されます。ラベリングをする際には構造が変わってしまう懸念もあるため適性な濃度の塩を含む溶液で3次元構造を保護しつつ、交換効率に影響を与える溶液パラメータを変えながら行う事ができるかも問われます。
 イギリス(PRIDE)、アメリカ(PeptideAtlas,MassIVE, Panorama Public)中国(iProx)日本ではプロテオームのデータ収納場所(Repositories)が示されています。日本はjPOSTという収納場所があり、他の国と違うのは複数の団体が管理、運営していることです。参考文献(22)のAffiliationを参照すると大学共同利用機関法人 情報・システム研究機構、新潟大学、九州大学、熊本大学、熊本大学病院、京都大学、Cira、Trans-IT(栃木県)。これらの団体が名を連ねます。世界で数少ないこのようなレポジットリが2015年に我が国の日本にせっかく作られているわけですから、それを管理するこれらの大学と協力して、決められた手順に従って、トップダウンプロテオーム解析のデータを日本(世界)の生物学全体の利益を考えて、管理代表である京都大学の先生とよく相談して蓄積していきます。おそらく今は、トップダウンプロテオーム解析のデータはあまりないかもしれないし、人の脳神経系の細胞接着分子のプロテオフォームのデータもまだ、ほとんどないかもしれないので、創薬ベンチャーとしての立場ですが、このレポジットリを利用して公的なデータベース構築に貢献していきます。


(参考文献)
(1)
David S. Roberts, Joseph A. Loo, Yury O. Tsybin, Xiaowen Liu, Si Wu, Julia Chamot-Rooke, Jeffrey N. Agar, Ljiljana Paša-Tolić, Lloyd M. Smith & Ying Ge 
Top-down proteomics
Nature Reviews Methods Primers volume 4, Article number: 38 (2024) 
(2)
Roman A. ZubarevNeil L. KelleherFred W. McLafferty
Electron Capture Dissociation of Multiply Charged Protein Cations. A Nonergodic Process
J. Am. Chem. Soc. 1998, 120, 13, 3265–3266
(3)
Jared B Shaw 1, Wenzong Li, Dustin D Holden, Yan Zhang, Jens Griep-Raming, Ryan T Fellers, Bryan P Early, Paul M Thomas, Neil L Kelleher, Jennifer S Brodbelt
Complete protein characterization using top-down mass spectrometry and ultraviolet photodissociation
J Am Chem Soc. 2013 Aug 28;135(34):12646-51.
(4)
Zachery R. Gregoricha,b and Ying Ge
Top-down Proteomics in Health and Disease: Challenges and Opportunities
Proteomics. 2014 May; 14(10): 1195–1210.
(5)
Wenxuan Cai 1, Zachary L Hite 2, Beini Lyu 2, Zhijie Wu 3, Ziqing Lin 4, Zachery R Gregorich 1, Andrew E Messer 5, Sean J McIlwain 6, Steve B Marston 5, Takushi Kohmoto 7, Ying Ge 
Temperature-sensitive sarcomeric protein post-translational modifications revealed by top-down proteomics
J Mol Cell Cardiol. 2018 Sep:122:11-22.
(6)
Kyle A. Brown, Bifan Chen, Tania M. Guardado-Alvarez, Ziqing Lin, Leekyoung Hwang, Serife Ayaz-Guner, Song Jin & Ying Ge
A photocleavable surfactant for top-down proteomics
Nature Methods volume 16, pages417–420 (2019)
(7)
Bifan Chen Kyle A. Brown Ziqing Lin Ying Ge
Top-Down Proteomics: Ready for Prime Time?
Anal. Chem. 2018, 90, 1, 110–127
(8)
Jake A Melby 1, Kyle A Brown 1, Zachery R Gregorich 2, David S Roberts 1, Emily A Chapman 1, Lauren E Ehlers 1, Zhan Gao 3, Eli J Larson 1, Yutong Jin 1, Justin R Lopez 4, Jared Hartung 4, Yanlong Zhu 3 5, Sean J McIlwain 6, Daojing Wang 7, Wei Guo 2, Gary M Diffee 4, Ying Ge 1 3 
High sensitivity top-down proteomics captures single muscle cell heterogeneity in large proteoforms
Proc Natl Acad Sci U S A. 2023 May 9;120(19):e2222081120.
(9)
John C Tran 1, Alan A Doucette
Gel-eluted liquid fraction entrapment electrophoresis: an electrophoretic method for broad molecular weight range proteome separation
Anal Chem. 2008 Mar 1;80(5):1568-73.
(10)
Frederik Lermyte 1 2 3, Dirk Valkenborg 2 4 5, Joseph A Loo 6 7 8, Frank Sobott 1
Radical solutions: Principles and application of electron-based dissociation in mass spectrometry-based analysis of protein structure
Mass Spectrom Rev. 2018 Nov;37(6):750-771. 
(11)
R. L. Champion; L. D. Doverspike; T. L. Bailey
Collision‐Induced Dissociation of D2+ Ions by Argon and Nitrogen
J. Chem. Phys. 45, 4377–4384 (1966)
(12)
Romain Giraud, Yves J. C. Le Blanc, Mircea Guna & Gérard Hopfgartner
Ultraviolet photodissociation and collision-induced dissociation for qualitative/quantitative analysis of low molecular weight compounds by liquid chromatography-mass spectrometry
Analytical and Bioanaly
(13)
Timothy P Cleland 1, Caroline J DeHart 2, Ryan T Fellers 2, Alexandra J VanNispen 2, Joseph B Greer 2, Richard D LeDuc 2, W Ryan Parker 1, Paul M Thomas 2 3, Neil L Kelleher 2 3, Jennifer S Brodbelt 1
High-Throughput Analysis of Intact Human Proteins Using UVPD and HCD on an Orbitrap Mass Spectrometer
J Proteome Res. 2017 May 5;16(5):2072-2079. 
(14)
Melanie Generali, Yoshihiko Fujita, Debora Kehl, Moe Hirosawa, Maximilian Y. Emmert, Jun Takahashi, Simon P. Hoerstrup & Hirohide Saito 
Purification technologies for induced pluripotent stem cell therapies
Nature Reviews Bioengineering (2024)
(15)
Bifan Chen,1 Kyle A. Brown,1 Ziqing Lin,2,3 and Ying Ge1
Top-down Proteomics: Ready for Prime Time?
Anal Chem. 2018 Jan 2; 90(1): 110–127.
(16)
Ludovic C Gillet 1, Pedro Navarro, Stephen Tate, Hannes Röst, Nathalie Selevsek, Lukas Reiter, Ron Bonner, Ruedi Aebersold
Targeted data extraction of the MS/MS spectra generated by data-independent acquisition: a new concept for consistent and accurate proteome analysis
Mol Cell Proteomics. 2012 Jun;11(6):O111.016717.
(17)
Huseyin Guner 1, Patrick L Close, Wenxuan Cai, Han Zhang, Ying Peng, Zachery R Gregorich, Ying Ge
MASH Suite: a user-friendly and versatile software interface for high-resolution mass spectrometry data interpretation and visualization
J Am Soc Mass Spectrom. 2014 Mar;25(3):464-70. 
(18)
Dennis Goldfarb,corresponding author*†‡ Michael J. Lafferty,§ Laura E. Herring,∥ Wei Wang,∇ and Michael B. Major†
Approximating Isotope Distributions of Biomolecule Fragments
ACS Omega. 2018 Sep 30; 3(9): 11383–11391.
(19)
Lennart Martens 1, Matthew Chambers, Marc Sturm, Darren Kessner, Fredrik Levander, Jim Shofstahl, Wilfred H Tang, Andreas Römpp, Steffen Neumann, Angel D Pizarro, Luisa Montecchi-Palazzi, Natalie Tasman, Mike Coleman, Florian Reisinger, Puneet Souda, Henning Hermjakob, Pierre-Alain Binz, Eric W Deutsch
mzML--a community standard for mass spectrometry data
Mol Cell Proteomics. 2011 Jan;10(1):R110.000133
(20)
Luciano E. Marasco & Alberto R. Kornblihtt
The physiology of alternative splicing
Nature Reviews Molecular Cell Biology volume 24, pages242–254 (2023)
(21)
Dahang Yu, Zhe Wang, Kellye A. Cupp-Sutton, and Yanting Guo
Quantitative Top-Down Proteomics in Complex Samples Using Protein-Level Tandem Mass Tag Labeling
J Am Soc Mass Spectrom. 2021 Jun 2; 32(6): 1336–1344.
(22)
Yuki Moriya 1, Shin Kawano 1, Shujiro Okuda 2, Yu Watanabe 2, Masaki Matsumoto 3, Tomoyo Takami 3, Daiki Kobayashi 4, Yoshinori Yamanouchi 4 5, Norie Araki 4, Akiyasu C Yoshizawa 6, Tsuyoshi Tabata 6 7, Mio Iwasaki 7, Naoyuki Sugiyama 6, Satoshi Tanaka 8, Susumu Goto 1, Yasushi Ishihama 
The jPOST environment: an integrated proteomics data repository and database
Nucleic Acids Res. 2019 Jan 8;47(D1):D1218-D1224. 
(23)
Sean J McIlwain, Zhijie Wu, Molly Wetzel, Daniel Belongia, Yutong Jin, Kent Wenger, Irene M Ong, Ying Ge
Enhancing Top-Down Proteomics Data Analysis by Combining Deconvolution Results through a Machine Learning Strategy
J Am Soc Mass Spectrom. 2020 May 6;31(5):1104-1113
 

0 コメント:

コメントを投稿

 
;