このように実験システムの設定が広範で、背景が色々バラツくデータを扱うには、高度な解析手法でバラツキの影響を抑えるか(生物統計的手法、実際のデータサイズはそれほど大きくない)、データマイニングやクラスタリングで性格の違う集団をはじめに分割してしまう方法(エンジニアやデータサイエンティスト的手法、いわゆるビッグデータを使う)があります。
前者の統計的手法の場合、高度で複雑なモデルでも、実際のデータを完全に捉えるのは難しいでしょう。例えば、モデルのオーバーフィッティングだったり、コンピュータのフローティング・ポイントによる誤差だったり起こってくるかもしれません。
後者の計算工学的手法の場合、データに含まれる生の情報を加工して多数の新しい指標(synthesized measurement variables、features)をつくりその指標を解析するので、加工時点でバイアスが入るでしょう。また、多数の指標を解析するということは超多次元での計算になります。多次元の計算には制約があり、高度なモデリングはできなくなります。つまり、統計的にはとてもシンプルな相関を見るものです。そこに、関係の方向性(directional relationship)、いわゆる因果関係(causal effect)を見ているわけではありません。
クラシカルな実験手法(in vitro、in vivo、臨床試験)はデータのバックグラウンドを実験条件(温度やえさ、測定時間、動物の系統、患者の選択・除外基準)によって統一し、薬などの効果(原因)を限定的でクリーンな集団にしぼってエンドポイント(結果)の観察をしようという方法です。
今のビッグデータへの関心は、この経緯においては逆戻りさせていることになります。この逆戻りは、計算工学、コンピュータ・サイエンスの発達が可能にさせていると考えることができます。
しかし、今月のIEEE SPECTRUMの記事をみると、デジタイズド・メディシンはまだ発展途上なところもあるようです。