2024年7月24日水曜日

AIアルゴリズム(RNA関連単語分析)と子どもに対する想い

自閉症スペクトラム症候群という脳神経系の機能の多少の逸脱があります。

障害の特性は生後2~3年の幼年期に明らかになることが多いですが、
知的発達の障害を伴わない場合や症状が軽い場合には、
大人になってから初めて診断されることもあります。
一般的な症状:
〇対人関係を築くことが苦手
〇一定のパターンの行動を繰り返す  
〇特定の手順を繰り返すことにこだわる
〇子どもの学習障害や言葉の遅れ
〇限られたことにしか興味を示さない
〇他人の感情に気付かない
これらがありますが、場合によっては
その子ども、大人の特定の事の顕著な才能に関わる可能性もあるため
積極的に治療しないほうがいい場合ももちろんあると思います。
しかし、この知識社会において、
学習障害や言葉の顕著な遅れがある場合には、
医療介入によって緩和させたいという需要もあります。

先日、私の娘と4年ぶりに会いました。
7月7日に会ったのですが、1か月前に元妻と約束した時には
息子しか行きませんという話でした。
「またか。」と思いましたが、
直前になって、娘も来ることになりました。
なぜか?本当のところはわかりませんが、
書店に行くと「一万円下さい。」と娘から言われました。
「理由はそれか!」と少し思いましたが、
普段、ほとんど何もしてあげられていないので、
躊躇なく、その1万円をあげました。
その1万円を何に使うかもわかっていたからです。
息子も8000円のおもちゃを買いました。
養育費を4万円支払っているとはいえ、
比較的、貧しい生活をしているのかなとも思いました。
少なくとも私は
「稼いで、もう少し養育費を上乗せせなあかんし
こうやってたまに会う時には、
これくらいのお小遣いは躊躇なく払える状態にしておかなくてはならない。
今のような収入のない状態は続けられないな。」
このように思いましたし、今も当然、思っています。
今の取り組みをスピードを上げてやらないといけません。
いつまでも今の生活を続けるわけにはいかない。

想定通り、娘は
その1万円で5000円以上の漫画や小説などの本を買っていました。
しかし、6年生になってまともに会話できるようになり、
勉強の話をしたところで、
広島県で最も難しい模試で国語で9割正答したことを
私に自慢してきました。どうやら国語が得意なようです。
それは娘が好きな読書が支えている事はすぐにわかりました。
私の母親との手紙のやり取りを見せてもらった時に
娘が読書が趣味な事がわかっていて、
手紙の文章を見ても6年生とは思えないしっかりした文章を書いていたので
そうした経緯もあり、とても父親として喜ばしいと思いました。
私はこのブログ活動で日々、文章の運用をしているので
またOpen AIによる生成系AIを日々使っているので、
国語や英語の文章によるリテラシーの重要性は肌で感じています。
日本人にとって一番大事なのは国語であり、
人工知能にはできない文章の本質を理解することが
これからのAI時代において重要なので、
親として安心している部分があります。
こういった話はもっと詳しく娘にどこかのタイミングでするつもりです。
冒頭の段落で述べましたが、
自閉症の中で言葉の遅れがある場合には、
文章の理解が特にできにくい場合には
医療介入によって緩和してあげたいよねという事があります。
これからの時代、それが一つの不利になるからです。
言葉がデータとして蓄積されている時代だからです。

先日、今の人工知能はスタンフォード大学の大学院生レベルにある
という解釈を耳にしました。
これを聞いてみなさんはどう思われるでしょうか?
例えば、AIに東京大学の入学試験を解かせる。
あるいはIQを測るといったことがあります。
これに対する私の意見は
ある指標ではAIは世界で断トツのトップの頭脳を持つし、
違う指標では私の娘に敵わないと認識しています。
そもそも人と同じ軸で勝負させること自体が誤っているという認識です。
例えば、
ある模試で出題された小説に対する要約を人工知能に書かせるとしましょう。
今の人工知能の能力で有れば、一瞬で書くことができるでしょう。
では、このように命令したらどうでしょうか?
該当する文章情報に対して
「小学校6年生が書くようなわかりやすさで要約してください。」
果たして、どうなるでしょうか?
おそらく、できないと思います。
では、どうすればできるようになるでしょうか?
人工知能が参照するデータベースを小学校6年生が出力した
文章情報に絞ればできるでしょうか?
それでも、私の推定ではおそらく無理です。
それは、なぜでしょうか?
その理由(の一つ)は私は推測できますが、ここでは秘密です。
おそらくこうした結果になることが、
「人工知能が特定の指標では言語能力のある小学校6年生に敵わない」
という理由です。

7月22日にNature methodsで発表された
主にボストン(一部、スイス)から出された
脈略によるタンパク質のネットワーク解析があります(1)。
このAIがどのように関連性の重みづけをするか?
データベースからどういったアルゴリズムで
それを可能にするかという鍵となる部分が読み取れていないのです。
しかしながら、自分の頭で考えてみる事にします。
この報告(1)と内容は逸脱するかもしれません。
しかし、これは先日発表した共起分析の発展形ではあります。

少し話を戻します。
自閉症の子どもが影響を受ける細胞種をOpen AIに聞いてみました。
錐体細胞(Pyramidal cells):
抑制性介在ニューロン(Inhibitory interneurons)
小脳のプルキンエ細胞(Purkinje cells in the cerebellum)
グリア細胞(Glial cells)
これらの細胞種が挙げられています。
自閉症はグルタミン作動性、GABA作動性の興奮、抑制系神経細胞の
神経伝達物質に作用する細胞接着分子
ニューロリギンの異常が一つ関連すると言われています。
このニューロリギンがどれくらいの数、
遺伝子的に作られるかは細胞種特異的であると言われています。
つまり、転写因子、転写効率が細胞種特異的であると報告されています。
ニューロリギンに結合するニューレキシンは
選択的スプライシングによって
もっと柔軟に詳細な構造を変える事ができます(1)。
実際にマウスの脳では
α-neurexinでは1,364種類のmRNA
β-neurexinでは37種類のmRNAを検出しています(3)。
α-neurexinのmRNAの多様性が顕著に高いのは
下述する細胞外ドメインの数が多い事です。
選択的スプライシングの際にEGFドメインを含めて
Tras-acting factor、つまりmRNAの構造に影響を与える
外部因子が様々なパターンで入り込むことが考えられます。
(参考文献(4) Fig.3)
mRNAの構造と翻訳されるたんぱく質の構造は1:1に対応するため、
原理的にα-neurexinでは1,364種類の構造を取る事になります。
これが、野特異的(1)、細胞種特異的になっている可能性があり、
シナプス形成における適切な細胞種選択に関わっている可能性があります。
神経系で様々なmRNAで観られる細胞種特異的な選択的スプライシングは
Rbfox1が関わっていると報告されています(5)。
但し、これだけで細胞種特異的なスプライシングを実現しているわけではなく、
他のスプライシング調整因子と相互作用しながら、
細胞種特異的なmRNA成熟に関与します。
Nova1/Nova2: 
PTBP1 (Polypyrimidine Tract Binding Protein 1):
nPTB (Neural Polypyrimidine Tract Binding Protein): 
SRタンパク質ファミリー:
 SRSF1 (Serine/Arginine-Rich Splicing Factor 1): 
 SRSF2: 
hnRNPファミリー (Heterogeneous Nuclear Ribonucleoproteins):
 hnRNP H: 
 hnRNP A1:
Mbnl1 (Muscleblind-Like Splicing Regulator 1): 
Quaking (QKI): 
これらが具体的にRbfox1と相互作用するスプライシング調整因子です。
従って、最後に整理しますが、
mRNAの細胞種特異的な構造の詳細を理解して、
そのmRNAを特定の細胞種に送達できれば、
細胞種特異的にニューレキシン発現を精緻に制御できる可能性があります。
--
自閉症の子どもにおいて
iPS細胞において遺伝子的形質を引き継がせた状態で
脳神経系の全ての細胞種に分化させて、
ニューロリギンの発現に関する
プロテオーム解析、トランスクリプトーム解析をします。
そうすると人の頭では処理できないほどの巨大なデータが出力されます。
ここでAIの出番になります。
Googleの検索エンジンのようなAIシステムを築きます。
例えば、上述した小脳のプルキンエ細胞というキーワードを打てば、
情報空間がこのプルキンエ細胞を中心、頂点とした
数億次元の空間に絞られるようになります。
この時、AIは一般的な情報空間と患者さん特異的な情報空間
両方を比較参照できるようなプロトコルを組めるようにしておきます。
その中でプロテオーム解析の結果とトランスクリプトーム解析の結果の
整合性を評価します。
定量であれば、数がそれぞれ評価されるわけですから、
それぞれの空間の関連性によって整合度、言い換えれば矛盾度が評価されます。
トランスクリプトーム解析は
転写因子に影響を与えるプロモーター、エンハンサー、
クロマチンアクセシビリティー、クロマチン装飾のデータを含まないので
おそらく一定の矛盾性は示されるはずです。
それをある程度、数字化するということです。
しかし、その中においても
特定のRNAに関わる転写因子の組み合わせが出力されます。
アメリカのシアトルにある
Allen Institute for Brain Scienceを主とした報告(2)の出口戦略は
ココにあると思っています。
出力されたデータが巨大なので、それを人がどう有効に扱うかが問われます。
その時に人工知能、検索システムと紐づける事が一つの提案です。

こうした細胞種特異的ない転写因子が複合的にわかれば、
細胞種特異的薬物送達システムと組み合わせて付加価値を系統的に上げることができます。
細胞種特異的なトランスクリプトーム解析を含めたマルチオミックス解析を
スーパーコンピュータの計算能力を利用した人工知能によって
この記事に草案として示したRNAネットワークに関するアルゴリズムを利用して
細胞種特異的な転写因子ネットワーク構造を明らかにするという事です。
これは
①細胞外小胞(⇒薬物キャリア(合成ナノ粒子、ウィルス、ゲルなど)
②細胞接着分子
③CAMome
④iPS細胞技術との融合(⇒多能性幹細胞技術)
⑤細胞種特異的薬物送達システム
⑥人工知能、スーパーコンピュータ、仮想空間
⑦CAM-Glycome(各細胞接着分子-糖鎖の集合)
⑧CAM-Adhesome(各細胞接着分子-アクセサリタンパク質の集合)
⑨マルチオミックスデータベース構築(CAMome,CAM-Glycome、CAM-Adhesome)
⑩過去の文献の整理
これらの系統的技術における
⑥人工知能、スーパーコンピューターの一つの具体的技術にあたります。
それに対して、必要になるのは
そうした指定されたmiRNA, SiRNA, mRNAなどの組み合わせを
細胞外小胞などの薬物送達キャリアによって
該当する細胞種に特異的に送達する事です。
脳神経系であれば、いくつかの細胞接着分子を標的にできます。
プロトカドヘリン、コネキシン、ここで述べたニューレキシンなど
様々な細胞接着分子で細胞種特異的な構造を取るので、
これらを並列して、ANDで装飾することができます。
自閉症の子どもであれば、自閉症の子供が影響を受ける
細胞種に絞って、影響している細胞接着分子がニューレキシン、
ニューロリギンであれば、
それらの発現を調整するように複数のRNAを送達させるという事です。

しかしながら、系統的技術を進めていく上で一つ問題点があります。
③CAMomeの分類の問題です。
上述したようにニューレキシンはサブタイプの分類は7種類しかありませんが、
細かい構造的な違いは選択的スプライシングにより千種類を超えます。
従って、細かい構造を含めてCAMomeをすると
ニューレキシンだけで巨大なデータとなってしまいます。
CAMomeを進める時点で、どういった分類で進めていくかは
予め明示しておく必要があります。

さて、参考文献(1)のオントロジーのおける
ネットワークの重みづけ。これがネットワークサイエンスを
コンピューターに委ねる一つの理由、価値ですが、
そもそもどのような方式に基づいて
そのネットワークの近さ、関連性の高さを評価しますか?
それが一つの本質になります。
以前の記事では、共起分析を挙げました。
この次元を上げるためには、単に1文章内だけと絞るのではなく、
双方の文字間隔を一つの次元として連続的に評価する事で
より高度な分析ができる可能性があります。
つまり、違う文で出てきても、それがカウントされるという事です。
しかし、共起分析は理解を伴なわないランダムな分析なので
一定の誤差が伴います。
では、理解に伴うどのようなアルゴリズムが考えられるか。
それは、私が日々、ブログで更新している
それぞれのタンパク質の機能の説明の中にヒントがあります。
つまり、該当する2つの物質、転写因子の
近傍に存在する英単語一つ一つを人工知能が分析します。
前述したように
「AIは私の娘よりも理解力が低いです。」
つまり、AIは本質的な理解はできません。
しかし、私を含めた人よりもはるかに優れたレベルで
周辺の文字、一つ一つの組み合わせを高次元に評価できます。
機能に関わる文は、類似する単語が多く含まれているはずです。
すなわち、miRNA123とsiRNA342の機能の関連が仮に近ければ、
その周りの英単語の共通性が高まってくるということです。
これはおそらく人工知能はできるはずです。
共起分析と近接場単語分析を組み合わせることで
対象とする転写因子の関連性の近さを評価します。
その中で、Googleの検索エンジンのように
情報空間を絞れるようにします。
すなわち、この場合「自閉症(Autism)」に絞るわけです。
この単語分析は圧倒的に英語が優れています。
なぜなら、
英語は「Metabo」と検索すれば、
代謝に関わる多くの派生語を同時に捉えられるからです。
従って、単語認識する際に、
こうした1アルファベットの解像度をもってすることも考えられます。
しかし、
こうしたアルゴリズムは繰り返しになりますが、
統計的アプローチで、本質的な理解を示すものではありません。
理解しているような結果を示すだけです。

従って、これからのAI時代において
大切になるのは「母国語」の本質的な理解をより促す事です。
それは人工知能にできないからです。
その母国語のリテラシー(運用能力)を上げるためには
自分の理解に基づいて文章を出力する能動的学習は欠かせません。
それは私の9年間のブログ活動の取り組みが証明します。
自分の文章能力だけではなく、文章に対する理解が
元々、国語は苦手でしたし、読書は嫌いですが、
段階的に確実に高まってきているからです。
人との会話の能力を高めるにしても、
その基礎の一つは自分で文章を作成する能力です。
学生さんにおいては、
早いうちからパソコンでブラインドタッチができるようにして、
パソコン上で、早く自分の文章を打てる練習をすることです。
もちろん、手でノートに書いてもいいのですが、
スピードと疲れが問題になるので、
それと両立して早い段階でパソコンで
早く文字を打てるようにスキルを上げる事です。
これからの社会において、
人工知能と高い母国語の本質的な理解があれば最強です。
生成系AIにどのような質問をするか?
また出力された文章データを理解する読解能力が必要です。
教育において
日本においては日本語(国語)、
イギリス、アメリカ、オーストラリア、カナダなどの英語圏では英語。
この読解能力を生成系AI、パソコンの力を借りながら
今まで以上に高めることは極めて重要になります。

(参考文献)
(1)
Michelle M. Li, Yepeng Huang, Marissa Sumathipala, Man Qing Liang, Alberto Valdeolivas, Ashwin N. Ananthakrishnan, Katherine Liao, Daniel Marbach & Marinka Zitnik
Contextual AI models for single-cell protein biology
Nature Methods (2024)
(2)
Zizhen Yao, Cindy T. J. van Velthoven, Michael Kunst, Meng Zhang, Delissa McMillen, Changkyu Lee, Won Jung, Jeff Goldy, Aliya Abdelhak, Matthew Aitken, Katherine Baker, Pamela Baker, Eliza Barkan, Darren Bertagnolli, Ashwin Bhandiwad, Cameron Bielstein, Prajal Bishwakarma, Jazmin Campos, Daniel Carey, Tamara Casper, Anish Bhaswanth Chakka, Rushil Chakrabarty, Sakshi Chavan, Min Chen, …Hongkui Zeng
A high-resolution transcriptomic and spatial atlas of cell types in the whole mouse brain
Nature volume 624, pages317–332 (2023)
(3)
Dietmar Schreiner 1, Thi-Minh Nguyen 1, Giancarlo Russo 2, Steffen Heber 3, Andrea Patrignani 2, Erik Ahrné 1, Peter Scheiffele 4
Targeted combinatorial alternative splicing generates brain region-specific repertoires of neurexins
Neuron. 2014 Oct 22;84(2):386-98.
(4)
Andrea M. Gomez, Lisa Traunmüller & Peter Scheiffele
Neurexins: molecular codes for shaping neuronal synapses
Nature Reviews Neuroscience volume 22, pages137–151 (2021)
(5)
Brie Wamsley 1, Xavier Hubert Jaglin 1, Emilia Favuzzi 2, Giulia Quattrocolo 3, Maximiliano José Nigro 3, Nusrath Yusuf 4, Alireza Khodadadi-Jamayran 5, Bernardo Rudy 3, Gord Fishell 6
Rbfox1 Mediates Cell-type-Specific Splicing in Cortical Interneurons
Neuro. 2018 Nov 21;100(4):846-859.e7

0 コメント:

コメントを投稿

 
;