Why OpenCausality

リシンウ

Why OpenCausality 過去10年間のデータサイエンスは行動革命によって推進された。スマートフォンとモバイルインターネットの大量普及——2007年のiPhone発売後に加速——は数十億人をオンラインにし、前例のない量の行動データを生成した。あらゆるクリック、購入、検索、位置情報がテーブルの一行となった。そのすべてのデータに対して最もコストの低い処理は、そこから予測することであった。予測的機械学習が隆盛したのは、予測が組織にとって最も必要だったからではなく、データの圧倒的な豊富さがそれを最も抵抗の少ない道としたからである。正確さ——なぜ何かが起こるかを理解すること——は決して最適化目標ではなかった。しかし予測と因果は根本的に異なるものである。予測モデルは予測に役立つ統計パターンであれば何でも学習する——偽の相関や交絡された関連を含めて——実際のデータ生成過程を表現する必要なく。相関は交絡、逆因果、または選択から生じうるが、予測モデルにはこれらを真の因果効果と区別する理由がない。AがBを予測すると知っても、Aを変えればBが変わるかどうかについては何もわからない。因果推論はデータ生成過程そのものを復元する学問である：どの変数が実際にどの変数に影響するか、どのような仮定の下で、そして介入した場合に何が起こるかを特定する。意思決定に結果が伴うとき、これこそが重要な問題である。しかし因果推論はニッチな学術スキルではない。それは最も基本的な知能の形態の一つである：言語以前の、世界との物理的相互作用に根ざした、乳児が話せるようになるずっと前から存在するものだ。子供が積み木をテーブルから押し落とすたびに、因果実験を行っている。これはAIシステムが現実世界の価値を創造するために必要な推論モードである——単なる相関のサーフィンではなく、メカニズムと介入の真の理解。ボトルネックは洞察力にあるのではない。経済学、疫学、社会科学の研究者たちは、自分たちの領域について豊かな因果的直感をすでに持っている。ボトルネックはツールにある：因果ストーリーを正式なDAGに変換し、適切な推定量を選択し、識別の失敗を診断し、再現性のためにすべての決定を文書化するという機械的なオーバーヘッド。研究者は仮説の形成と検証ではなく、ソフトウェアとの格闘に時間を費やしている。 OpenCausalityはそのボトルネックを取り除く。因果ストーリーを——YAMLまたは平文の英語で——記述すれば、フレームワークが残りを処理する：DAGの構築、推定量のディスパッチ、診断チェック、問題検出、そして監査証跡の生成。人間は人間が代替不可能な場所に留まる——因果ナラティブが妥当かどうかの判断——一方、機械は機械が得意なことを処理する：機械的で、再現可能で、監査可能な計算。これは誰のためのものか？観測データから因果的主張を行う必要があり、それらの主張が監査可能で、再現可能で、防御可能であることを必要とする研究者、データサイエンティスト、アナリストのためである。テック企業でランダム化実験を実施しているか、臨床試験で処置効果を推定しているか、政策介入を評価しているか、マクロ経済の伝達モデルを構築しているかにかかわらず、OpenCausalityはアドホックな分析を構造化された、レビュー可能なプロセスに変えるガバナンスレイヤーを提供する。 GitHub: https://github.com/LEE-CHENYU/OpenCausality