ケースワーク：Web基盤が「検証可能性」を作った歴史

Why This Page

「前進を測れない」「再現できない」「比較できない」という問題は、WBEに限らず科学史の常連です。ここでは、Web上の公開基盤がそれらをどう“解ける形”にしたかを、用途別に整理します。EEGFlowは、この型（パターン）をWBEへ移植します。

TL;DR（人間向けの要点）

5つの型

規格＋置き場：「同じ形式で置ける」だけで追試が急に可能になる（BIDS+OpenNeuro）
単一参照：“唯一の参照元”があると比較が崩れない（PDB / INSDC）
ベンチマーク運用：タスクと指標を固定して、前進を年単位で測れる（ImageNet / MLPerf）
事前登録：探索と検証を分離して、報告バイアスを減らす（OSF / PROSPERO）
相互運用標準：繋がる仕様があると、エコシステムが“割れない”（W3C / IETF / Unicode）

よく起きる事故（歴史が教える）

同じことを言っているつもりで、入力が違う

データ形式・メタデータ・前処理が揃っていないと、比較不能になります（“研究のTower of Babel”）。

指標に勝つが、目的に負ける

ベンチマークの罠（リーク、過学習、実運用との乖離）。だから“ルールと監査”が必要です。

結果が出たのに、追試できない

コード・環境・ログが残らない、ネガティブ結果が消える、という理由で“積み上がらない”状態になります。

EEGFlowが作ろうとしているのは、これらを構造的に起こしにくくするための基盤です（検証基盤）。

1) データ共有×標準化で「検証可能」にした

Protein Data Bank（PDB）

解いた問題：分子構造データが研究者ごとに分散し、再利用・比較が難しい。
Web基盤の貢献：単一の世界アーカイブを作り、公開・参照の前提を揃えた。

EEGFlowが借りる点

「唯一の提出先」と「提出時のバリデーション（品質チェック）」を用意すると、分野全体の再利用性が上がります。

GenBank / INSDC

解いた問題：塩基配列データが散在し、参照・更新・統合が困難。
Web基盤の貢献：複数機関でも“同一データ”になる同期運用を維持した。

EEGFlowが借りる点

ミラーが増えても“同じ参照”になる運用（ID、バージョン、同期ルール）があると、引用と比較が崩れません。

BIDS（標準）＋OpenNeuro（共有基盤）

解いた問題：脳計測データの形式がバラバラで、第三者が追試できない。
Web基盤の貢献：フォーマット（規格）と置き場（アーカイブ）をセットで提供した。

EEGFlowが借りる点

「規格がある」だけでは弱く、「その規格で置ける場所」「バリデータ」「メタデータの最小要件」が揃うと一気に進みます。

Gene Ontology（GO）

解いた問題：生物機能の注釈ラベルが統一されず、横断比較が難しい。
Web基盤の貢献：種をまたいで使える統制語彙（共有語彙）を整備した。

EEGFlowが借りる点

データ形式だけでなく、イベント名や状態ラベルなど“意味の規格（語彙）”が重要です。WBEは用語が割れると議論が崩れます。

Zenodo（成果物の引用可能化）

解いた問題：データやコードが散逸し、追試・再利用・クレジットが不安定。
Web基盤の貢献：DOI・バージョニングで「引用可能な成果物」を固定した。

EEGFlowが借りる点

インセンティブ（引用される、功績が残る）があると、公共財が増えます。再現性は“文化”も含めて設計します。

2) ベンチマーク／チャレンジで「進歩を測れる」にした

PhysioNet（生体信号の公開＋評価）

解いた問題：生体信号解析はデータ入手と手法比較が難しく、進歩が測りにくい。
Web基盤の貢献：公開データ＋オープンソフトで、新規アルゴリズムの評価を可能にした。

ImageNet / ILSVRC（客観ベンチマーク）

解いた問題：視覚認識の進歩が共通データ・共通評価なしで比較困難。
Web基盤の貢献：タスク定義＋評価運用（年次）で“進歩の物差し”を作った。

Netflix Prize（評価問題をコンペ化）

解いた問題：推薦精度改善を、公開データと明確指標で競える形にしたい。
学び：勝てる指標と実運用の差が出ることがある（“ベンチマークの罠”）。

Kaggle（反復可能な評価＋共有文化）

解いた問題：実データ課題を、誰でも再現可能に練習・比較できる場がない。
Web基盤の貢献：提出→スコア→順位を継続運用し、モデル・コード共有を促進した。

MLPerf（AI性能の標準ベンチ）

解いた問題：AIハード／ソフトの性能比較が各社バラバラで、公平比較が困難。
Web基盤の貢献：品質目標を固定し、速度などの比較軸を揃えた。

SPEC（計算機性能の標準評価）

解いた問題：計算機性能を各社が恣意的に示し、比較が難しい。
Web基盤の貢献：標準ベンチ＋結果公開で、比較の共通基盤を作った。

EEGFlowが借りる点

ベンチマークは「データを配る」だけではなく、ルール（禁止事項・提出形式・評価条件）と監査（リーク検査・失敗例）がセットで効きます。

3) 登録・プロトコル公開で「検証の不正確さ」を減らした

ClinicalTrials.gov（臨床試験の登録・結果報告）

解いた問題：未登録・未報告が出版バイアスや追試困難を生む。
Web基盤の貢献：制度と連動し、登録・報告を透明化する最低ラインを作った。

PROSPERO（システマティックレビューの事前登録）

解いた問題：レビュー重複や都合の良い結論だけが出やすい。
Web基盤の貢献：透明性・重複防止・バイアス低減を目的にした国際レジストリ。

OSF（Preregistration：分析計画の固定）

解いた問題：探索的分析と事前計画が混ざり、再現性が低下。
Web基盤の貢献：“計画された作業と非計画を区別する”仕組みを提供した。

EEGFlowが借りる点

WBEのような“強い主張”ほど、探索と検証を混ぜると後から何でも言えてしまいます。だから「やる前の固定（prereg）」が効きます。

4) 相互運用の標準を整備し「協調可能」にした

W3C（Web標準）

解いた問題：実装が割れると、同じWebが動かない。
Web基盤の貢献：公開標準の策定で、エコシステムを“つながる”状態に保つ。

IETF / RFC（インターネット標準文書）

解いた問題：通信プロトコルが統一されないとネットワークがつながらない。
Web基盤の貢献：RFCとして仕様を公開し、相互運用性を担保した。

Unicode（文字コードの統一）

解いた問題：文字表現が統一されないと、多言語情報の交換が壊れる。
Web基盤の貢献：普遍符号化として、交換・処理・表示の前提を揃えた。

EEGFlowが借りる点

「データ形式が揃った」だけではなく、イベント名・状態ラベル・評価ログなどの“意味論”まで揃えると、チームや施設が違っても協調できます。

5) 迅速流通で「研究の速度」を変えた（補助線）

arXiv（プレプリントの即時公開）

解いた問題：出版待ちで知識流通が遅い。
Web基盤の貢献：即時公開＋アーカイブで反復速度を上げた。

PubMed（文献検索の公共インフラ）

解いた問題：文献が探せないと、検証（再確認・比較）が進まない。
Web基盤の貢献：検索可能性を公共インフラ化した。

EEGFlowが借りる点

「探せる」だけで反復速度が上がります。EEGFlowでも、提案書や実装ノートが散逸しない索引（Proposals）が重要です。

共通する設計原理（EEGFlowが採用する）

Design Principles

達成条件（勝利条件）を固定：品質目標・評価指標・禁止事項・反証条件
再現可能な入力を揃える：データ／メタデータ／統制語彙
比較可能な出力を公開：スコア・ログ・検証手順・失敗例
インセンティブ設計：引用（DOI）・バッジ・貢献単位
継続運用：年次チャレンジ、バージョン管理、監査ログ

EEGFlowへの移植：パターン→機能の対応表（案）

PDB/INSDC型：単一参照＋同期

「WBE用データ/モデル/評価ログの単一参照」を作り、複数ミラーでも整合する運用を設計する。

BIDS+OpenNeuro型：規格＋置き場

まずフォーマットを固定し、置き場（公開先）を明示する。データが“使える形”で増える。

PhysioNet/ImageNet/MLPerf型：評価運用

タスクと指標を固定し、再現可能なベースラインを置く。年次/継続の運用で前進が見える。

OSF/PROSPERO/ClinicalTrials型：事前登録

探索と検証を分離し、変更履歴を残す。WBEの大きな主張ほど“事前固定”が効く。

W3C/IETF/Unicode型：相互運用仕様

ファイル形式だけでなく、プロトコルや意味論（語彙）まで“つながる仕様”を作る。

このケースワークを前提に、EEGFlowの「検証基盤」設計をまとめています。

検証基盤（Verification Commons）を見る

Why This Page

TL;DR（人間向けの要点）

5つの型

よく起きる事故（歴史が教える）

同じことを言っているつもりで、入力が違う

指標に勝つが、目的に負ける

結果が出たのに、追試できない

1) データ共有×標準化で「検証可能」にした

Protein Data Bank（PDB）

GenBank / INSDC

BIDS（標準）＋OpenNeuro（共有基盤）

Gene Ontology（GO）

Zenodo（成果物の引用可能化）

2) ベンチマーク／チャレンジで「進歩を測れる」にした

PhysioNet（生体信号の公開＋評価）

ImageNet / ILSVRC（客観ベンチマーク）

Netflix Prize（評価問題をコンペ化）

Kaggle（反復可能な評価＋共有文化）

MLPerf（AI性能の標準ベンチ）

SPEC（計算機性能の標準評価）

3) 登録・プロトコル公開で「検証の不正確さ」を減らした

ClinicalTrials.gov（臨床試験の登録・結果報告）

PROSPERO（システマティックレビューの事前登録）

OSF（Preregistration：分析計画の固定）

4) 相互運用の標準を整備し「協調可能」にした

W3C（Web標準）

IETF / RFC（インターネット標準文書）

Unicode（文字コードの統一）

5) 迅速流通で「研究の速度」を変えた（補助線）

arXiv（プレプリントの即時公開）

PubMed（文献検索の公共インフラ）

共通する設計原理（EEGFlowが採用する）

Design Principles

EEGFlowへの移植：パターン→機能の対応表（案）

PDB/INSDC型：単一参照＋同期

BIDS+OpenNeuro型：規格＋置き場

PhysioNet/ImageNet/MLPerf型：評価運用

OSF/PROSPERO/ClinicalTrials型：事前登録

W3C/IETF/Unicode型：相互運用仕様

Next