数学的時間発展による空間オミックス解析の実現

(概略）(1)
高いスループット(測定効率の高い)
単一細胞プロファイリング(細胞の中の物質を包括的に調べる事)は
数百万個という細胞の分子状態を明かにする前例のない能力を提供します。
こうした技術は、当然、細胞の中の物質を調べるために
細胞の中の物質を取り出して、個別化する必要があるため、
細胞や細胞の集合である組織を破壊してしまいます。
こうした破壊は不可逆の為、
該当する細胞がどういった生物学的プロセスを生じてきたのか？
このような「時間的なコンテクスト(脈絡)」を追跡する事を難しくします。
当然、細胞を不可逆に破壊するわけですから、
複数の時間ポイントで観測、解析することができません。
また、私が目的とするそれぞれのタンパク質が
「組織のどこにあるのか？」という
「空間的コンテクスト」を分析するためには
以下のような障害が生じます。
-
(1)位置情報の喪失
単一細胞プロファイリングでは、細胞を個別に分離して解析するため、
細胞が元々どの位置に存在していたのかという情報が失われます。
組織内での位置関係や、特定の細胞がどのような環境にあったかといった
空間的なコンテクストは、細胞を分離してしまうと再現することができません。
このため、細胞の機能や挙動をその空間的な脈絡の中で理解することが
難しくなります。
-
(2)細胞間の相互作用の解析が困難:
組織内での細胞間相互作用や、シグナル伝達、接着、分泌物の影響などは、
細胞の位置関係に強く依存しています。
細胞を破壊して個別に解析することで、
これらの相互作用に関する情報が失われてしまいます。
特に、細胞間の物理的接触や密な相互作用が機能に与える影響を理解する上で、
空間的な脈絡が非常に重要です。
-
(3)組織の構造と機能の関連性の理解が難しい:
組織の構造はその機能に密接に関連しており
細胞の分布や配置、細胞外マトリックスとの関係などが重要な役割を果たします。
細胞を破壊してプロファイリングを行うと、
組織全体の構造的な情報が失われるため、
個々の細胞のデータを元に組織全体の機能を理解することが難しくなります。
たとえば、特定の機能を持つ細胞がどのように組織全体で配置されているか？
これを知ることができなくなります。
-
(4)空間的な異質性の評価ができない:
組織内には、同じ種類の細胞であっても、
その位置によって異なる環境にさらされることがあり、
異なる遺伝子発現パターンや機能を示すことがあります。
細胞を破壊して全て調べることで、
こうした空間的な異質性を評価することができなくなります。
細胞がどの環境に属していたかを知らずに解析を行うと、
データが平均化され、重要な違いが見逃される可能性があります。
--
Charlotte Bunne(敬称略)らは
細胞がどのような経路で輸送されてきたのか?
こうした時間的、空間的コンテクストの元となる情報を
計算生物学(computational biology）でどのように特定することができるか？
それに利用できるアルゴリズム、深層学習(ディープラーニング)を
教科書(Primers)(1)で示します。
この教科書ではその計算アルゴリズムとして
最適輸送理論(Optimal Transport Theory) についての統合された枠組みを総括します(1)。
この最適輸送理論は
最適なマッピング(空間的情報)を求めるための
数学的フレームワークです。
この方法では異なる時間点で取得された
非破壊の測定を元にした細胞情報の変化を元にして、
最適輸送理論の数学モデルを使って推論します。
空間的な情報、すなわち元々「解析された細胞がどこにあったか？」
このデータを取るためには計算上で時間を遡る(戻す)必要があります。
これを初期状態(t0)としてそれより後の複数の時間ポイントの
細胞情報の変化から、最小の移動コストを元に
初期状態の細胞情報を推定します。
従って、こうした計算生物学で初期状態を推論するためには
「どういった環境、条件において」
「どういった複数の時間ポイントで」
「どういった細胞の情報を取得するか？」
これが初期状態、すなわち「その細胞がどこにあったか？」
これを正確に推定することにつながるはずです。
それを推定するのに使われる数学モデルは最適輸送理論に限らず
(E1)合成制御回帰 (Synthetic Control Regression)
(E2)深層生成モデル (Deep Generative Models)
(E3)時系列解析 (Time-Series Analysis)
(E4)多次元スケーリング (Multidimensional Scaling, MDS) とクラスタリング
(E5)転移学習 (Transfer Learning)
などもあります。
なぜ、最適輸送理論の数学モデルは「最適な」輸送を計算の主軸にしているかというと
身体の中の物質の輸送系は全体で見れば、エネルギー最小の法則に
ある程度、従うという前提があるからです。
必ずしもそうではありませんが、
それ(最小)を拠り所にして計算する事が数学的に合理的で正確です(2)。
--
本日は時間を変更して、その内容について確認し、
読者のみなさんに価値ある情報として共有します。

まず、内容に入る前に重要な背景を確認しましょう。
最適輸送理論では「最適な」輸送ルートを考える事で
これはつまり、輸送コスト、エネルギーが最小のルートを想定して
初期状態を推定するということです。
このような「最小」といういわば極値を計算の拠り所にすることは
そもそも数学的にどのような利点があるでしょうか？
例えば、ある任意の行列位置(i,j,tk)を特定するために
周りの行列位置の数列を統計的に利用する事を考えます。
その時には、統計的な微分係数、標準偏差、積分値(全ての合計)などのデータの他に
周りの定義された分析対象となる行列範囲において、
最小、最大などの極値は重要な情報です。
数学モデルで最も大切なことの一つは「数字の特定」です。
例えば、数学的モデルによって示された解が「関数」であれば、
特定の数字に収束しないため、数学的計算コストがあがります。
極値以外の任意の点を対象とする場合、
扱う対象が関数となってしまうため、好ましくありません。
例えば、輸送理論で適当な任意のルートを対象とする場合、
その動きのモデルを数学的に表現するときには
極値を扱う場合に比べて、より高次の数式が必要になります。
微分係数、標準偏差、積分値などは全て計算によって特定の数字に収束します。
最大、最小も極値ですから特定の数字として示すことができます。
従って、最適なルートを探すということは
2次関数のU字型の最小点を計算の主軸にすることですから
低次元の計算で特定の数字を定義する事ができる為、
数学的によりシンプルにモデルを立てる事ができます。

さて、ここから内容(1)に入ります。
時間を遡るといことは山中先生が特定された
山中因子（OCT4、SOX2、KLF4、c-MYC）の
細胞の初期化でも現実的に生じていることです。
今までのトレースがエネルギー的に高い方から低い方への遷移だとして
全体で見れば、理想的な経路が選ばれているとします。
それは理想的な可逆性を実現する事は不可能ですが、
こうした時間に対するエネルギーバランスを逆転することができれば、
時間そのものを逆転させる事は不可能ですが、
その細胞の発展の軌跡を逆に遡ることは現象として可能かもしれません。
数学では基本的にこうした軌跡(トラジェクトリー)を
異なる時間ポイントの数字データの法則性から
両方に時間発展させることができます。
すなわち、過去と未来を予測するという事です。
こうした時間発展は微分などによっても可能ですし、
数列の特徴から数学的帰納法に基づいて予測する事も可能です。
こうした時間発展は単一細胞がどういった動的機序を経てきたのか？
その時間幅を推定によって拡大することができます。
この記事の目的の一部はそれです。
一方で、細胞は前駆状態、祖先があって、細胞系列樹を持ちますから、
細胞の分化状態の変化から前駆状態、祖先を
細胞の動きと同様の様式で最適輸送理論の
数学的フレームワーク(枠組み)に基づいて推論、推定する事が可能です(3)。

この最適輸送理論において、おそらく一つの課題となるが、
初期状態をどうやって定義するのかにあると思います。
なぜなら、任意の時間幅のデータ、そのデータ変化から
数学的に傾向を見出して、時間幅を拡張するにしても、
「具体的にどのタイムポイントが」初期状態なのかが識別できないからです。
従って、初期状態は何らかの「特別なシグナル、数値」を示さなければなります。
例えば、初期状態が「一番安定」ならば、
それらの変化の割合が一番小さくなる、一定になるポイントが
すなわち「初期状態」として定義されます。
このような視点で考えると
あらゆる数学的モデルを使って
最終的に不可逆的に細胞を破壊して詳細評価する
細胞の軌跡を遡り、もともとあった組織での情報を推定するためには
その組織に存在するときに「時間に対して安定な」特性に設定する必要があります。
逆に言えば、組織にいても不安定な特性を評価項目にすると
初期状態の識別が数学上困難になります。
組織にある時には安定なんだけど、
組織から離れてた時間幅で大きく変化する特性が理想的です。
例えば、
組織にいる時には比較的安定で、離れると不安定になる
細胞内の具体的な物質を列挙します。
--
(1)細胞骨格成分
(1a)アクチンフィラメント
細胞内でアクチンフィラメントは細胞の形状維持や運動に関与し、安定しています。しかし、細胞外に放出されると不安定になりやすいです。
(1b)微小管（チューブリン）
微小管は細胞内の輸送や細胞分裂に重要ですが、細胞外では安定性が失われ、速やかに分解されます。
-
(2)細胞内膜系
(2a)細胞膜
細胞膜は細胞内で膜輸送や情報伝達に重要な役割を果たしますが、膜成分が細胞外に放出されると、膜の構造が崩れて不安定になります。
(2b)内因性膜小胞
リソソームや小胞体などの内因性膜小胞も、細胞外ではすぐに不安定になります。
-
(3)細胞内のタンパク質複合体
(3a)シグナル伝達複合体
細胞内でシグナル伝達に関与するタンパク質複合体（例：Gタンパク質複合体）は、細胞外では安定しません。
(3b)転写因子複合体
転写因子や他の転写関連複合体も、細胞外ではすぐに解離または変性します。
-
(4)細胞内のRNA
(4a)mRNA
細胞内ではmRNAは翻訳されるまで比較的安定していますが、細胞外では分解が進むことが多いです。
(4b)小さな非コーディングRNA（例：miRNA）
細胞内で機能しているが、細胞外では不安定になることがあります。
-
(5)細胞内の脂質
(5b)脂質小滴（リポソームなど）
細胞内で安定しているが、細胞外では安定性が低くなり、解体しやすいです。
-
(6)細胞内のエネルギー分子
(6a)ATP（アデノシン三リン酸）
ATPは細胞内でエネルギー源として安定していますが、細胞外ではすぐに加水分解されます。
-
(7)細胞内の酵素
(7a)酵素複合体（例：ATP合成酵素）
細胞内で機能しているが、細胞外では不安定になります。
--
これらの中で非破壊でかつ特別な処理なしに計測できるのは
当然、露出している
(2a)細胞膜です。
他には(5)細胞内脂質も自然蛍光を示すため適しています。
輸送最適理論で異なる時間ポイントでの測定は
非破壊でかつ特別な処理がないことが理想的なはずですから、
こうした特性に依拠して数学的なモデルに組み込み、
最終的に人工知能によって推論、推定させる事を試みます。
--
実際にどういった数学モデルを使うかは
どのようなプロトコルでデータ取得を行うかに依存します。
上のようなプロセスで私が描いている測定形式は
どちらかというと「時間順列が明らかな場合」です。
従って、Charlotte Bunne(敬称略)らが
◎One-to-one matchings.
◎Transportation plans.
これらで示す時系列の最適な並び替えを探す
最適輸送問題とは適用する数学モデルとは相違があります。
時間順列が明らかな場合は、
そこから各データ要素における
並列した数列に対して回帰分析や時系列解析の手法が適しています。
その関数から外挿した時に安定するところの
数字データ、時間ポイントを推測することができます。
ただ、最適輸送問題も
異なるデータポイントで時系列が明らかでないときに
どういう順序が最も合理的な輸送を示しているかの
並び替えを行う事にありますから、
その並び替え後に各測定項目の数列を
回帰分析、時系列解析法、あるいは数学的帰納法で分析する事が
次のプロセスとして存在すると考えます。
但し、時系列が明らかになっている場合でも
類似性の定量化は時間幅の定量化につながるため、
時系列が既知で時間間隔がはっきりわかっていない場合では
最適輸送問題によるアルゴリズム介入余地はあります。
--
抽象的な話だと、わかりにくさもあるので
空間オミックス解析を具体的に推論によって実現する事を考えた時に
具体的にどういったプロセスでアルゴリズムとして組み込むかを定義します。
上述したように
細胞膜の情報は細胞の外側に存在するため
非破壊で、特別な処理をすることなく解析することができます。
計測できうる特性と計測の手段を具体的に示します。
-
(1)膜の厚さ
原子間力顕微鏡 (AFM): 高解像度で膜の厚さを測定できます。膜の断面をスキャンして、膜の厚さをナノメートル単位で定量化します。
電子顕微鏡 (EM): 顕微鏡での断面画像を取得し、膜の厚さを測定します。
-
(2)膜の流動性
フルオレッセンス回転拡散係数 (FRAP): 膜内の蛍光物質の拡散を追跡し、膜の流動性を測定します。物質が回転する速度に基づいて、膜の流動性を定量化します。
蛍光共鳴エネルギー移動 (FRET): 膜中の異なる分子間のエネルギー転送を測定し、膜の流動性や分子間相互作用を評価します。
-
(3)膜の硬さ
AFMの機械的特性測定: AFMを使用して膜の機械的硬さを測定します。プローブが膜を押し込む力を測定し、膜の弾性率を計算します。
力学的テスト: 細胞膜の弾性や硬さを測定するための力学的試験（例えば、圧縮試験）を行います。
-
(4)膜の電気的特性
パッチクランプ法: 細胞膜の電気的特性（例えば、膜電位やイオンチャネルの電流）を測定するために使用します。
電気インピーダンス測定: 細胞膜の電気的インピーダンスを測定し、膜の状態や変化を評価します。
-
(5)膜の組成
質量分析法 (MS): 膜の脂質やタンパク質の組成を分析し、それぞれの成分の相対量を定量化します。
高性能液体クロマトグラフィー (HPLC): 膜中の特定の脂質やタンパク質を分離し、定量化します。
-
(6)膜の構造
X線結晶構造解析: 膜タンパク質や脂質の立体構造を決定します。
二次元NMR: 膜中のタンパク質の構造情報を得るために使用します。
--
例えば、これらの項目を独立した特性として数字化することができます。
こうした数字データを時系列がわからないより一般的な条件で行う事を想定します。
時系列を明らかにした条件では「待つ」必要があるため、
測定時間がそれに応じて長くなります。
従って、異なる環境の細胞群を非破壊で測定し、
初期条件からの時間長さの順に最もコストの少ない方法で並び替える事が有効です。
では、そうした「コスト」は具体的にどういうことか？
このコストとは隣り合う2点間の輸送を最適化することが
最適輸送問題の骨子ですから、
それらの数字データの座標をコンピューター上で定義する必要があります。
その座標の距離を最小化する組み合わせ、並びを定義します。
その距離は最適輸送問題では
「ユーグリッド距離(4)」「マンハッタン距離(5)」と呼びます。
こうした距離は数字の類似性を評価します。
従って、上述した細胞膜の特性であれば、
その特性が一番類似したタイムポイントを探すという事です。
ゆえに前提として、
極端に言えば、細胞膜特性の時間発展の中で
一旦、離れた特性を示した後、元の状態に戻るような事は生じないという事があります。
言い換えれば、細胞膜は時間経過とともに少しずつ不可逆的に変化していく
ということが前提としてあります。
また、こうした距離を数字化する事で、
最小コストの順序の間でのコスト量を定量化することもできます。
例えば、
A　 C D B 　 F
このように最小のコストで並び方時に
その順序間の距離を相対的に示すことができるので
その距離に応じて今度は回帰分析や時系列測定によって
初期状態を数字化するときに大切な「時間軸」の定量化に貢献します。
言い換えれば、並び替えた順序間の時間幅は一定ではないからです。
この間隔は次のプロセスで初期時間を定義する上で必須となります。
具体的に上述したマンハッタン距離(Manhattan 距離)は
各行列要素の差の全ての合計となります。
従って、基本的な四則演算で定義されます。
但し、これは時間に対する変化率が「線形」である場合を定義しており、
例えば、細胞膜のタンパク質や脂質の変化率は
時間に対して線形ではなく、自然対数の減衰過程を経るかもしれません。
そうした場合、マンハッタン距離は

　　Dm = ∑ | log Aij - log Bij |

このように距離を求めるための数式を改変する必要があります。
今述べた様に実際に多数ある測定データに基づいて
それらの時系列順列とその距離を定義する場合、
100%、一義的に定義できない場合もあります。
行列の独立した配置同士が複雑に相互作用している場合には、
個別の計算結果では現実を正しく投影しない場合があります。
従って、「確率的な」アプローチをとり、
確率的に最も可能性の高い回答を選び出す統計的な手法がとられます。
この確率分布はギブス分布で説明します。
　
　　　Tε(x) = ∑ pj(x)yj　　pj(x):ギブス分布

一般的なギブス分布は

　　　P(x) = (exp(-E(x)/kT) / Z

E(x) は状態 x のエネルギー
k はボルツマン定数
T は温度
Z は分配関数（正規化定数）

最適輸送問題では

　　　Pj(x) =　exp(-|x-y|^2 /2ε) / ∑ (exp(-|x-y|^2 /2ε)

実際のアルゴリズムで目指す解はギブス分布の和であるTε(x)の最大化です。
すなわち、最も高い確率のルート、順列を探索するということです。
--
実際に細胞は組織から無作為にルート、すなわち環境を選び出すことができません。
すぐに組織から外に出る事もあるし、血管を通る事もあるかもしれません。
実際に破壊されるまでの環境は一般的に変わるものです。
環境が変われば、細胞が受ける摂動は変わるため、
それが測定値に当然、一定割合影響を与えます。
環境の変化に伴う距離の補正や変化因子は下のモデル、数式で定義されます。

1.1. 変化因子を考慮したコスト関数

　　c adj(x,y)=α⋅c(x,y)+β⋅δ(x,y)

c(x,y) は元のコスト関数（例えば、距離）。
δ(x,y) は環境変化に応じた追加の変化因子（例えば、環境による補正項）。
α と β は補正係数で、環境の変化に応じた重みを調整します。

1.2. スケーリングと正規化
コスト関数にスケーリング因子を追加します。

c scaled(x,y)= c(x,y) / (1+γ⋅Δ)

γ はスケーリング因子の調整パラメータ。
Δ は環境の変化因子（例えば、環境変化の度合い）。

2.1. 非線形変化因子の補正

c log(x,y)=c(x,y)⋅exp(κ⋅ln(1+Δ))

κ は対数変化の影響を調整するパラメータ。
Δ は環境の変化因子。

2.2. ガウス過程を用いた補正

c GP =μ(x,y)+σ(x,y)⋅ε

μ(x,y) はガウス過程によって予測された平均コスト。
σ(x,y) はコストの分散。
εはガウス過程のノイズ項。

3. 最適輸送問題における変化因子の適用

　　min ∑ij Pij * c adj (xi ,yj)

P ijは輸送計画の変数（確率的な輸送量）。
c adj (xi ,yj) は補正されたコスト関数。

--
技術者として細胞を扱ったことがないので、
基本的かつ多くの事が欠落しているのですが、
そもそも、マルチオミックス解析をするときに
ソーターで１つ１つの細胞を区別して管理しているかは重要なはずです。
ソーターによる番地があって、
１つ１つを区別しながら、時間ポイントを変えて測定する場合と
区別しないで時間ポイントを変えて測定する場合では
組み込むアルゴリズムは変わるはずです。
後は、細胞のオミックス解析を行う場合には
基本的には生検(生きた人から組織を頂く)が多いとされていますが、
(こんな基本的なことも私は実際にやったことがないのでわからない。）
その生検が針生検か外科的生検で
サンプル数(細胞数)が全然違うし、
「どこにあるか？」という具体的な初期情報も異なります。
もっといえば、ご遺体から細胞を頂く場合には
多くの細胞は死んでいるわけですから、状況は大きく異なります。
例えば、
外科的な生検で患者様から貴重な組織を頂く場合には、
当然、肝臓なら肝臓の中の位置も特定できるはずだし、
前提としてそうすべきだと思われます。
そうしたら「空間情報を得る」という事が
どういった価値を持つのか？この前提が問われます。
空間の情報を取るとは、より細かい分布ということになりそうです。
例えば、肝臓から頂いた様々な細胞種を
セルソーターで1つ1つ区別して最後の細胞の破壊検査まで管理するとします。
セルソーターには番地があるので、それぞれ番号で管理されますが、
その空間情報を取るとは、
それぞれの細胞をコンピューター上で組織として再構築できるくらいにまで
それぞれの細胞の位置関係性を把握する事でしょうか？
この辺の「空間情報」の目指すところがはっきりわからないので、
この最適輸送理論の情報から、基本的に本質的な事を掴むことができません。
実際に手を動かして、解析した人の視点からすれば、
私のこの記事は、少し焦点がズレたことになっているかもしれません。
ただ、私の目的ははっきりしています。
それは、肝臓なら肝臓の血管の内皮細胞、平滑筋細胞、周皮細胞の
表面に発現されるたんぱく質の種類、サブタイプ
もっといえば構造を知りたいということです。
高精度な質量分析ができれば、サブタイプまではわかります。
確実に患者様から頂いた肝臓の外科的な生検によって
細胞種の特定は今の技術ならできるでしょうから、
空間的な追跡をする必要があるのか？ということになります。
その辺の感覚は、半導体と違って、
技術者としてモノを扱ったことがないので、
当然、それを長くしたことがある人に比べて鈍いということになります。
やっぱり、自分で手を動かして、現場に入ってやらないとダメですわ。

(参考文献)
(1)
Charlotte Bunne, Geoffrey Schiebinger, Andreas Krause, Aviv Regev & Marco Cuturi
Optimal transport for single-cell and spatial omics
Nature Reviews Methods Primers volume 4, Article number: 58 (2024)
(2)
Filippo Santambrogio
Optimal Transport for Applied Mathematicians
(3)
Geoffrey Schiebinger 1, Jian Shu 2, Marcin Tabaka 3, Brian Cleary 4, Vidya Subramanian 3, Aryeh Solomon 3, Joshua Gould 3, Siyan Liu 5, Stacie Lin 6, Peter Berube 3, Lia Lee 3, Jenny Chen 7, Justin Brumbaugh 8, Philippe Rigollet 9, Konrad Hochedlinger 10, Rudolf Jaenisch 11, Aviv Regev 12, Eric S Lander 13
Optimal-Transport Analysis of Single-Cell Gene Expression Identifies Developmental Trajectories in Reprogramming
Cell. 2019 Feb 7;176(4):928-943.e22.
(4)
Valentin Hartmann & Dominic Schuhmacher
Semi-discrete optimal transport: a solution procure for the unsquared Euclidean distance case
Mathematical Methods of Operations Research Volume 92, pages 133–163, (2020)
(5)
G. Li, S. D. S. Reis, A. A. Moreira, S. Havlin, H. E. Stanley, and J. S. Andrade, Jr.
Towards Design Principles for Optimal Transport Networks
Phys. Rev. Lett. 104, 018701 – Published 6 January 2010

医療の部屋

数学的時間発展による空間オミックス解析の実現

0 コメント:

コメントを投稿

General medicine

Blogger templates

人気の投稿

Blogroll

ラベル

ページ

Blog archive

自己紹介

Latest Tweets