2022年オープンキャンパス(青木・伊藤(康)研究室)
データ科学とは?

はじめに

「データ科学」という言葉をよく耳にするようになりました.データから知見を得るために,科学的な手法を用いてデータを処理したり,解析したりする学際的な分野の総称です.最近では,機械学習などを用いて膨大なデータを処理したり,解析したり,予測したりすることを指すことが多いです.データ科学の研究は,データがあればできるのでしょうか? もちろん,そんなことはなく,データに対していろいろ考えなければなりません.医用画像処理でも紹介している脳MRI画像から年齢を推定する研究を例として,どのように大規模なデータから研究をしたのかを解説します.

大規模データセット

東北大学加齢医学研究所にいらした福田寛先生(東北大学名誉教授・東北医科薬科大学教授)から1,000人を超える健常者の脳画像を解析してもらいたいという依頼がありました.「情報科学の観点から何か新しい研究ができるのではないか」ということでしたが,その当時は脳画像についての知識もなく,図1のように「脳の画像」がたくさんあるだけで,何を研究すべきかもわからないところからの研究開始でした.

brain_bigdata
図 1:大量の脳画像

データを知る

当たり前ですが,何も知らないとはじまりません.どういうデータであるかを調べるところからはじめました.脳画像は,核磁気共鳴画像法 (Magnetic Resonance Imaging: MRI) で脳を撮像した画像でした.MRIの原理を簡単に説明すると,MRIは,高周波の磁場を与えて人体内の水素原子に共鳴現象を起こさせ,そのときに発生される電波を受信コイルで取得して体内を画像化しています.「放射線を使わないので被曝しない」,「生体内の組織が鮮明に画像化される」という利点と「専用の部屋(あるいは建物)が必要である」,「ものすごくうるさい」という欠点があります.図2で確認できるように,CTに比べると脳組織が鮮明に画像化されるので,画像処理という観点からは,扱いやすそうです.以上より,

  • MRIで撮像された脳の画像である
  • 脳組織の構造が鮮明である
ということがわかりました.

ct_mri
図 2:CTで撮像された脳画像(左)とMRIで撮像された脳画像(右)

大量のデータを理解する

改めて,データを確認してみましょう.いただいたデータは,東北大学加齢医学研究所が青葉脳画像リサーチセンタープロジェクトおよび鶴ヶ谷プロジェクトで収集した脳MRI画像です.20歳~80歳の1,101名から撮像したT1強調画像(実際は1,300名以上のデータセットです)で構成されています.データセットの特徴は,

  • 全員が日本人健常者である
  • 同じ装置を使って撮像されている
  • 性別および年齢分布に偏りがあまりない
です.図3を見てわかるように,年齢と性別にかたよりがなく,きれいなデータセットです.

aoba
図 3:東北大学加齢医学研究所が青葉脳画像リサーチセンタープロジェクトおよび鶴ヶ谷プロジェクトで収集した脳MRI画像の年齢と性別の分布

灰白質 (GM),白質 (WM),脳脊髄液 (CSF) と呼ばれる脳組織の体積を年齢に従ってプロットすると図4のようになりました.正常加齢でも脳が萎縮する(灰白質が萎縮する)と言われている通りの結果となりました.

brain_age
図 4:加齢による脳組織の体積変化と年齢による脳形態の違い

データから問題を考える

ここまでの説明で想像できると思いますが,「正常加齢でも脳組織が萎縮することを利用して,入力された脳MRI画像の年齢を推定する」という問題を考えました.アルツハイマー病のように,病気によって脳の形態的な変化が正常加齢よりも早まることがあるので,脳の形態に基づいた年齢推定が病気の早期発見や治療効果の確認につながると考えたからです.

大量のデータに基づいて年齢を推定するために,機械学習を使いました.図5に機械学習を用いた2つのアプローチを示します.

ml
図 5:機械学習を用いた年齢推定のアプローチ

1つめは,典型的な機械学習のフレームワークです.入力されたデータや画像に対して前処理を施し,特徴を抽出し,特長を選択し,識別器により年齢を推定する方法です.脳科学の知見に基づいた特徴抽出,特徴選択,識別器の構築を行う方法であり,医学的な知識が必要です.医学的な知識に基づいているため,結果を解釈することが容易です.もう1つの方法は,最近の機械学習のフレームワークです.入力されたデータや画像に対して前処理を施し,畳み込みニューラルネットワークで年齢を推定する方法です.大規模な学習データを利用して自動的に特徴抽出を行う方法であり,医学的な知識が不要です.ただし,どのような特徴に基づいて年齢を推定したかが不明であるため,結果を医学的に解釈することが難しいです.

脳局所特徴量を用いた手法

典型的な機械学習のフレームワークを用いた手法です.脳MRI画像を解析する際に,Statistical Parametric Mapping というMATLABのツールボックスがよく使われています.SMP を使うことで,図6のように,脳画像(T1強調画像)を標準テンプレートに合わせる標準化 (Normalization),格納組織を抽出する分画 (Segmentation),標準化による変形を考慮する変調 (Modulation),脳の解剖学に基づいた局所領域分割 (Parcellation) の処理を行います.各局所領域において計算される灰白質,白質,脳脊髄液の体積を特徴量として使用します.この特徴量に基づいて,サポーボベクターマシン (Support Vector Machine: SVM) を学習させて,脳画像から年齢を推定します.この手法の年齢推定の誤差は約4歳でした.

ml
図 6:SPM を用いた脳局所特徴量の抽出

畳み込みニューラルネットワークを用いた手法

最近の機械学習のフレームワークを用いた手法です.畳み込みニューラルネットワークと呼ばれる画像認識用のニューラルネットワークを用いた手法です.図7のようなニューラルネットワークを用いて年齢を推定します.T1強調画像と年齢の関係のみを利用して,膨大なデータによってニューラルネットワークのパラメータを最適化しているだけで,医学的な知識を利用していません.それにも関わらず,この手法では,推定誤差が約3歳まで低下しました.

3dcnn
図 7:3D CNNを用いた年齢推定ネットワーク

まとめ

「膨大なデータがあったら研究ができるか?」・・・できます.ただし,どういうデータであるかを調べる必要があります.例えば,データの統計解析を通して,ある指標において優位なさが見られれば,それを利用する研究テーマを考えることができます.ここでは,脳組織の体積が年齢に応じて異なることを利用しました.データを知り,理解することがすごく重要です.一方で,データの量が増えると,それだけデータに付属している情報に誤りが含まれます.それを考慮して,精度を高めることもデータ科学の重要な研究テーマになっています.本内容の一部は医用画像処理の研究とも重なる部分がありますので,そちらも参照して下さい.