2022年8月25日木曜日

選択的スプライシングを考慮した量的形質遺伝子座解析

異なる個人のゲノム全域にわたる遺伝的変異一式を対象に、
ある形質(細胞の生物学的な特徴全般)に関連する変異があるか
どうかを調べるゲノムワイド関連解析(GWAS)によって
上述した形質のうち複雑な特質に影響を与える
数千もの感受性の高い遺伝子座を明らかにしています。
その複雑な形質とは
〇自己免疫疾患
〇代謝性疾患
〇癌
これらなどが挙げられます(1)。
しかし、DNAの変異と病気以外の要素が恐らくあるため
その因果関係、原因と結果に関わる生理メカニズムは
まだ完全には理解されていません。
発現量的形質遺伝子座。
Expression quantitative trait loci(eQTL)は
疾患に関連の深い細胞や組織の中の
ゲノムワイド関連解析遺伝子座に豊富に含まれます(2-4)。
つまり、確かに病変部位の細胞や組織には
その病態に関わると推測される
遺伝子変異などが豊富に存在するということです。
従って、遺伝子変異が病気に何らかの影響を与えているだろう
という事はある程度の確率で示すことができます。
しかしながら、
発現量的形質遺伝子座(eQTL)以外の機序は
病気の遺伝可能の多くの割合を占めるということが
近年、説明されています(5)。
スプライシング量的形質遺伝子座。
Splicing quantitative trait loci(sQTL)は
RNAのスプライシングに関わるQTLで
その遺伝子変異は
選択的スプライシング(Alternative splicing)。
これに影響を与えます。
選択的スプライシングとは
DNAから転写された1つのmRNA前駆体から
スプライシングの違いによって
複数の成熟mRNAができる現象です(6-12)。
それによって変異タンパク質を含む
複数のタンパク質が生まれます。
これをアイソフォームと呼びます。
従って、生み出された複数のタンパク質が
その細胞の形質に影響を与えると考えると、
様々な疾患にこの選択的スプライシングが影響を与え、
スプライシング量的形質遺伝子座を分析する事に
医療的な意義を与えます。
--
GTExプロジェクトでは
ゲノムワイド関連解析の遺伝子座の23%が
スプライシング量的遺伝子形質座(sQTL)と
共局在化していました。
発現量的形質遺伝子座(eQTL)とは43%でした(12)。
発現量的形質遺伝子座(eQTL)として
以前定定義された遺伝子座は
スプライシング量的形質遺伝子座(sQTL)信号と
共有化するかもしれません。
なぜなら、選択的スプライシングが
遺伝子発現レベルに影響を与えるからです。
確かに
ゲノムワイド関連解析遺伝子座の集中的な評価は
発現量的形質遺伝子座(eQTL)を共存します。
それは選択的スプライシングが病気を引き起こし、
その病理において重要な役割を果たしている事を意味します(13-17)。
--
スプライシング量的形質遺伝子座(sQTL)を見つける方法は
2つのタイプに分類されます。
①アイソフォーム発現レベルに基づく方法(6-8,18,19)
②Junction read countsに基づく方法(20,21)
-
①の典型的な例は
アイソフォーム比QTL(i-rQTL)分析
転写比QTL分析
これらであり、
Transcriptome assembler(転写の組みたて要素)によって
定量化される遺伝子の中の
アイソフォーム発現の比に焦点を当てています。
このi-rQTL分析では
どのタンパク質アイソフォーム発現が改変されたか?
つまり、どの種類のタンパク質構造が変わったかを
直接的に理解する事を可能にします。
一方で、
アイソフォーム発現の定量性は低く、
特にアイソフォームの注記は不完全である
という点が欠点です。
この欠点は②の方法である
Raw junction reads(mRNAの接合部の読み取り)に
基づいた方法で克服する事ができます。
この方法はアイソフォーム発現を見積もる必要はありません。
しかしながら、
全く同じ接合部が複数のアイソフォームで共有されることがあります。
GENCODE v35では接合部の53%です。
従って、どのアイソフォーム発現が改変されたかを知ることは
①、②の従来の方法では難しいとされています(1)。
--
従来のスプライシング量的形質遺伝子座(sQTL)分析は
sQTLの多くの割合がアイソフォームの
タンパク質翻訳されない領域(UTR)を変えました。
その事はRNAの構造安定性や翻訳効率に影響を与えるかもしれません。
いくつかのスプライシング量的形質遺伝子座(sQTL)は
コード化されたエクソンをスキップ、
あるいは導入することによって
遺伝子配列を変化させました。
これは機能性構造ドメインをなくす、含ませる事による
タンパク質の機能や構造に顕著な影響を与えるかもしれません。
--
Kensuke Yamaguchi(敬称略)らは
コード配列(CDS)に焦点を当てた二つのi-rQTL分析を
提案しています。
1つ目は、
Integrated-isoform ratio QTL分析です。
(i^2-rQTL分析)
これはタンパク質構造の変化を検出するために
同じコード配列を持つアイソフォームを統合する方法です。
2つ目は、
コード配列が不完全なアイソフォームに関する
sQTL効果を調べる事です。
不完全だけど、特徴的なコード配列断片を含む
GENCODEアイソフォームの注釈です。
この2つ目の方法は
未知のコードアイソフォームの発見を導きます。
さらに、
長いRNA-seqを掌握することによって
病気に関連するアイソフォームの
完全長配列を確認します。
選択的スプライシングは多数の未知のアイソフォームを
産生する複雑なイベントです。
Kensuke Yamaguchi(敬称略)らが知る限りにおいて
コード配列の中の変化に焦点を当てた
スプライシング量的形質遺伝子座(sQTL)分析、
長いRNA-seqを掌握することによって
病気に関連するアイソフォームの
完全長配列を確認しています。
これらはまだ報告されていません。
Kensuke Yamaguchi(敬称略)ら医療研究グループの
アプローチは、複雑な形質の中で
生成されるたんぱく質の構造を改変させる
スプライシング量的形質遺伝子座(sQTL)の役割を
解明する潜在性を示します(1)。
定義、結果については理解できる範囲で一部示し、
議論については多く参照しました。
それに対して少し広い視野で考察を加えています。
その内容を読者の方と情報共有したいと思います。

//eQTLとsQTLの定義//ーー
eQTLとsQTLのデータを得るために
105人の健康な日本人から
6種類の免疫細胞を分析しました。
B-cells、CD4+T-cells, CD8+T-cells, monocytes, 
NK cells、peripheral blood leukocytes (PBL)
-
sQTLは上の①、②を広範に含みます。
-
eQTLはアイソフォーム比と遺伝子発現レベル
両方に影響を与えます。
-
gene eQTL
⇒genomic loci altering the gene expression level 
i-eQTL
⇒altering the isoform expression level
-
i-rQTL
⇒altering the ratio of the isoform expression level

//結果//ーー
リードバリアントのピーク位置は
gene eQTL 5'end
isoform eQTL 5'end
i-rQTL 3'end
(参考文献(1) Fig.1eより)
-
細胞種特異性(1 cell-type specific)において
i-rQTLのリードバリアントピーク位置は
翻訳開始サイト(5'end)にあります。
-
各細胞種のアイソフォーム発現レベルの比が
改変された遺伝子は
Fig.2bに示されています。
-
同じコード配列を持つアイソフォームを統合する方法は
Fig.3aに見られるように
接合された複数のコード配列が同じで
翻訳されない領域の異なるRNA群を一つにまとめる
ということです。
それによるアイソフォームの発現の比の
評価の信頼性を統合前と比較したのが
Fig.3bです。
統合後のほうが各種細胞のそれぞれに遺伝子に対して
P値が相対的に低いものが多いので、
統合後の評価の信頼性が上がっているという事です。

//議論//ーー
mRNAのアイソフォームの景観、特徴は
想定よりも複雑です。
生理学的な機能の有無に関わらず
多数のアイソフォームの間の病気に関連する
アイソフォームを見つける効果的な方法を見つける
必要があります。
Kensuke Yamaguchi(敬称略)らは
「統合」と「選択」の二つの戦略を提示しました。
統合では複数のコード領域が同じものを統合し、
選択ではコード領域が不完全なアイソフォームを選択しました。
そしてRNAシーケンスによって
それらを確認しました。
--
接合部ベースsQTL分析の代わりに
sQTLを見つけるための主要なアプローチとして
i-QTLを採用しました。
この分析はsQTLアイソフォームの全長を見つける事ができ
タンパク質の機能的変化を評価するために重要です。
この分析は接合部を変化させることなしに
選択的翻訳開始サイトか、もしくは終了サイトによって
引き起こされるsQTL効果を含む広範なその効果を
検出することができます。
以前の研究ではeQTLに比べてsQTLの
細胞種特異的効果が低かったですが、
今回の研究(1)では
翻訳開始サイトによって引き起こされる
sQTL効果は細胞種特異性を持っていました。
従来の接合部ベースのsQTL研究では
細胞種特異的なsQTLsや病気への役割が
過小評価されていた可能性があります。
今回の研究(1)では
生物学的に重要なsQTLを見つけるために
同じコード領域を持つアイソフォームを統合する事によって
i-rQTL分析を行いました(i^2-rQTL)。
--
2つ目の方法である、
RNAシーケンスの把握による不完全なアイソフォームの
全長のシーケンスを確認しました。
この分析を通して、
コード領域が不完全なアイソフォームの低発現は
病気と関連があるかもしれません。
--
初めの例は
パーキンソン病のリスクアレルrs4698412-Aは
BST1-205を増加させます。
これはBST1-201と比較して
GPIアンカードメインと一致する
選択的コーディングエクソン9を持っています。
Fig.5dの赤のCDSI specific exonです。
パーキンソン病のドーパミン作動性神経細胞の
選択的脆弱性はカルシウムイオンバランス欠如によって
生じます(22)。
BST1は2量体タンパク質として存在し、
Cyclic ADP-riboseの産生を通して
神経細胞内のカルシウムイオン貯蔵から
それを放出させます(23)。
BST1-205の改変されたGPIアンカードメインは
タンパク質機能に影響し、
そのドーパミン抑制におそらく関係します。
--
ほとんどのゲノムワイド関連解析(GWAS)遺伝子座は
cis-eQTL変異のような単一の機能的変異を持つ一方で
いくつかのGWAS遺伝子座は
複数の機能的変異(missense, eQTL/sQTL変異)、
複数の候補遺伝子を持ちます。
この事は病因となる遺伝子を決定する事を難しくします。
癌細胞内のドライバー、パッセンジャー変異の役割と類似して
変異の効果のいくつかは真の病因となりますが、
一方で、病気と関係がない場合もあります。
これらの境界を区別する事は難しいです。
Kensuke Yamaguchi(敬称略)らは
トランスeQTL効果を調べる事に寄って
原因となるQTL効果の候補を見積もりました。
それはコード配列に関連する
統合型i^2-QTL効果が顕著に遺伝子機能に影響を与えうる
という想定に基づきます。
このアプローチは全身性エリテマトーデス(SLE)の
リスク遺伝子座の中の病因となる遺伝子の絞り込みに
成功しています。
SLEリスクアレル(rs2764208-G)はSNRPCアイソフォーム
に関してi^2-rQTL効果を持っていました。
SNRPCはU1-Cタンパク質をエンコードし、
それはU1-snRNPの構成要素の一つです。
これはSLE特異的な自己抗原であると知られています。
アイソフォーム比とISGs発現の導入の間の
関係性を考える事で
SNRPCがこの遺伝子座の原因遺伝子における
強い候補であることを示しました。
加えて、GSEA内で観測された性別バイアスの結果は
SLEの病態生理における性差の解明を導くかもしれません。
--
今回の分析(1)はいくつかの制限要因があります。
選択的UTR効果において過小評価しているかもしれません。
過去からの証拠によって
5'と3'-UTRsは
miRNAとの結合やRNA結合タンパク質によって
mRNAの安定性や、翻訳効率に影響を与えます(24,25)。
確かに病気の遺伝子に関して、
近年の報告では選択的ポリアデニル化信号に
影響を与える遺伝子変異は
複雑な病気に対する遺伝可能性の多くを説明しました。
これは3'-UTRの重要性を強調します(26)。
従って、
翻訳領域だけに焦点を当てたKensuke Yamaguchi(敬称略)らの
分析とは異なる非翻訳領域でのmiRNAやタンパク質
装飾、化学反応によって
表現されるたんぱく質が変わる事が考えられます。
次に
Kensuke Yamaguchi(敬称略)らは
ゲノムワイド関連解析の遺伝子座の共局在化分析において
日本人から得られたsQTLデータを用いました。
ゲノムワイド関連解析の遺伝子座で参照した(?)データは
ヨーロッパから得られたものがほとんどです。
従って、民族間の違いがあった場合、
分析の整合がとれなくなります。
しかし、i^2-rQTL効果の80%以上は
ヨーロッパの人と妥当性を示しています。
3つ目に
行われた分析はミスセンス変異、eQTL変異のような
他の機能的変異の病因効果の可能性を否定できません。
--
Long-read sequencing技術の発達により
病因論に関わる選択的スプライシングは
近年、注目度を高めてきています。
いくつかの研究はこの技術を使って
様々な組織、細胞内でアイソフォーム目録を
作成してきましたが、
まだ見つかっていないアイソフォームは多くあります。
Kensuke Yamaguchi(敬称略)らは
低い発現量、注釈されていないアイソフォーム
に対するLong-read capture RNA-seqを
コード配列に焦点を当てたsQTL分析と組み合わせて
提案しています。
このアプローチはゲノムワイド関連解析遺伝子座の
本当の原因となる効果、遺伝子を明らかにするための
強い方法となります。
見つかったアイソフォームの機能的な(切り分け)分析は
動物モデルにおいて病理の知られてない機序を解明する
とされています。
それは人への応用も可能であると考えます。

//考察//ーー
このゲノムワイド関連解析(GWAS)遺伝子座や
量的形質遺伝子座解析は
特定の病気における各細胞種の変異の箇所との関連を
統計的に分析する手法であると理解しています。
また発現レベルやアイソフォーム量の比を
みる量的形質遺伝子座解析もあります。
これらはあくまで遺伝子の「変異」をみるものです。
しかし、装飾因子、miRNA、lncRNAなど
直接、遺伝子変異には大きくは影響は与えないけど(?)、
核酸の安定性、転写、翻訳効率に影響を与える因子があります。
これはエピジェネティックスと呼ばれます。
(但し、核酸の体内の生合成において
その反応経路でタンパク質が関わり
そのたんぱく質が遺伝子により形成されていたら
遺伝子変異がエピジェネティックスと関連性を持つ
ということが一方で考えられます。)
従って、
ゲノムワイド関連解析、量的形質遺伝子座解析
それに加えてエピジェネティックス解析を
組み合わせて、総合的に考える必要性があるのではないか?
と考えます。
しかし、その瞬間、瞬間で
体外から取り込む栄養で有ったり、
組織間、細胞間の長距離を含めたコミュニケーションがあるので
それぞれの細胞種の遺伝子や発現されるたんぱく質だけで
説明できない部分もあります。
実際にタンパク質以外の物質が体内に多くあります。
その様に考えると
精度の高い病因を探すのは難しいです。
昨日、エピジェネティックスの影響が大きいと述べましたが、
こういったことを総合的に考え、あるいは統合して
その影響の大きさについて考察していく必要があります。
一方で、病因はあくまで遺伝子変異にある
という考え方もあるかもしれません。

(参考文献)
(1)
Kensuke Yamaguchi, Kazuyoshi Ishigaki, Akari Suzuki, Yumi Tsuchida, Haruka Tsuchiya, Shuji Sumitomo, Yasuo Nagafuchi, Fuyuki Miya, Tatsuhiko Tsunoda, Hirofumi Shoda, Keishi Fujio, Kazuhiko Yamamoto & Yuta Kochi 
Splicing QTL analysis focusing on coding sequences reveals mechanisms for disease susceptibility loci
Nature Communications volume 13, Article number: 4659 (2022)
(2)
Dimas, A. S. et al. Common regulatory variation impacts gene
expression in a cell type-dependent manner. Science 325,
1246–1250 (2009).
(3)
Consortium, G. T. Human genomics. The Genotype-Tissue Expres-
sion (GTEx) pilot analysis: multitissue gene regulation in humans.
Science 348, 648–660 (2015).
(4)
Westra, H. J. et al. Systematic identification of trans eQTLs as
putative drivers of known disease associations. Nat. Genet. 45,
1238–U195 (2013).
(5)
Yao, D. W., O’Connor, L. J., Price, A. L. & Gusev, A. Quantifying
genetic effects on disease mediated by assayed gene expression
levels. Nat. Genet. 52, 626–633 (2020).
(6)
Pickrell, J. K. et al. Understanding mechanisms underlying human
gene expression variation with RNA sequencing. Nature 464,
768–772 (2010).
(7)
Montgomery, S. B. et al. Transcriptome genetics using second
generation sequencing in a Caucasian population. Nature 464,
773–U151 (2010).
(8)
Lappalainen, T. et al. Transcriptome and genome sequencing
uncovers functional variation in humans. Nature 501,
506–511 (2013).
(9)
Rotival, M., Quach, H. & Quintana-Murci, L. Defining the genetic and
evolutionary architecture of alternative splicing in response to
infection. Nat. Commun. 10, 1671 (2019).
(10)
Li, Y. I. et al. RNA splicing is a primary link between genetic variation
and disease. Science 352, 600–604 (2016).
(11)
Kim-Hellmuth, S. et al. Cell type-specific genetic regulation
of gene expression across human tissues. Science 369,
6509 (2020).
(12)
Consortium, G. T. The GTEx Consortium atlas of genetic regulatory
effects across human tissues. Science 369, 1318–1330 (2020).
(13)
Ueda, H. et al. Association of the T-cell regulatory gene CTLA4
with susceptibility to autoimmune disease. Nature 423,
506–511 (2003).
(14)
Graham, R. R. et al. A common haplotype of interferon regulatory
factor 5 (IRF5) regulates splicing and expression and is associated
with increased risk of systemic lupus erythematosus. Nat. Genet.
38, 550–555 (2006).
(15)
Thude, H., Hundrieser, J., Wonigeit, K. & Schwinzer, R. A point
mutation in the human CD45 gene associated with defective spli-
cing of exon A. Eur. J. Immunol. 25, 2101–2106 (1995).
(16)
Gregory, A. P. et al. TNF receptor 1 genetic risk mirrors outcome
of anti-TNF therapy in multiple sclerosis. Nature 488,
508–511 (2012).
(17)
Gregory, S. G. et al. Interleukin 7 receptor a chain (IL7R) shows
allelic and functional association with multiple sclerosis. Nat.
Genet. 39, 1083–1091 (2007).
(18)
Monlong, J., Calvo, M., Ferreira, P. G. & Guigo, R. Identification of
genetic variants associated with alternative splicing using
sQTLseekeR. Nat. Commun. 5, 4698 (2014).
(19)
Yang, Q., Hu, Y., Li, J. & Zhang, X. ulfasQTL: an ultra-fast
method of composite splicing QTL analysis. BMC Genomics 18,
963 (2017).
(20)
Pervouchine, D. D., Knowles, D. G. & Guigo, R. Intron-centric esti-
mation of alternative splicing from RNA-seq data. Bioinformatics
29, 273–274 (2013).
(21)
Li, Y. I. et al. Annotation-free quantification of RNA splicing using
LeafCutter. Nat. Genet. 50, 151–158 (2018).
(22)
Ludtmann, M. H. R. & Abramov, A. Y. Mitochondrial calcium
imbalance in Parkinson’s disease. Neurosci. Lett. 663,
86–90 (2018)
(23)
Yamamoto-Katayama, S. et al. Crystallographic studies on human
BST-1/CD157 with ADP-ribosyl cyclase and NAD glycohydrolase
activities. J. Mol. Biol. 316, 711–723 (2002).
(24)
Fabian, M. R., Sonenberg, N. & Filipowicz, W. Regulation of mRNA
translation and stability by microRNAs. Annu. Rev. Biochem. 79,
351–379 (2010).
(25)
Hentze, M. W., Castello, A., Schwarzl, T. & Preiss, T. A brave new
world of RNA-binding proteins. Nat. Rev. Mol. Cell Biol. 19,
327–341 (2018).
(26)
Li, L. et al. An atlas of alternative polyadenylation quantitative trait
loci contributing to complex trait and disease heritability. Nat.
Genet. 53, 994 (2021).


0 コメント:

コメントを投稿

 
;