1. 何を測定しているのか
VC Deal Flow Signal は「エンジニアリング加速」という単一の指標に焦点を当てています。これは投資家コミュニティで広く誤解されている概念です。私たちが定義するエンジニアリング加速とは、Y Combinator や Techstars のようなアクセラレーター・プログラムを指すのではなく、企業自身の過去のベースラインに対する、コミット活動の持続的な増加を意味します。
具体的には、3 つのコアシグナルを測定しています:
- コミット速度(Commit Velocity) — 14 日間のローリングウィンドウにおけるデフォルトブランチへのコミット数。これはベースライン指標であり、絶対値だけでは投資判断には使えません。
- コミット速度変化率(Δ Velocity) — 隣接する 2 つの 14 日間ウィンドウ間のパーセント変化。これが私たちのランキングシグナルです。論文では、持続的な正の変化率が、資金調達発表の 3〜6 週間前に観測される傾向があることを示しています。
- コントリビューター増加(Contributor Growth) — 6 週間ウィンドウにおける一意のコミッター数の変化。チーム拡張の先行指標であり、資金調達後の採用バーストを予兆することがあります。
2. データソース
ソースは公開された GitHub REST API と GraphQL API のみです。プライベートリポジトリ、内部分析ツール、社内データソースは一切使用していません。これにより、外部アナリストが私たちの結果を独立に再現できます。
データセットは Hugging Face 上に CC BY 4.0 ライセンスで公開されており、誰でもダウンロード・再分析できます。引用形式は /citations を参照してください。
3. ボット除外
GitHub の活動の相当部分は人間ではなく、自動化ツールによるものです。Renovate、Dependabot、github-actions[bot]、greenkeeper[bot] などのアカウントは、コミット数を膨張させ、信号対雑音比を悪化させます。
私たちはハンドル接尾辞ベースのフィルター([bot]、-bot パターン)と、既知のボットハンドルの明示リストの両方を組み合わせて、自動化アカウントを除外しています。フィルター後のコミット数は人間のコントリビューターによる活動のみを反映します。
4. サンプル構成
本研究のパネルは 55 のベンチャー出資スタートアップから構成されています。選定基準は以下の通りです:
- 過去 24 か月以内に公表された資金調達ラウンド(シード〜シリーズ B)
- パブリック GitHub オーガニゼーションを保有
- デフォルトブランチに 100 件以上のコミット履歴
- 直近 90 日間にコミット活動あり
セクター分布は法務テクノロジーから(n=1)からデータインフラストラクチャ/サイバーセキュリティ(n=8)までで、サンプルサイズの偏りは結果の解釈において明示的に考慮しています。
5. 信号タイプの分類
合計 219 件の観測のうち、以下の 4 つのタイプに分類されました:
- フレームワーク移行 — 165 件(75%)。最も支配的な信号タイプ。「エンジニアリング速度=採用」という従来のヒューリスティックに反する重要な発見です。
- デプロイ頻度のスパイク — 26 件(12%)。リリース直前のスプリントを示します。
- エンジニアリング採用バースト — 20 件(9%)。直感に反して、最も希少な信号タイプの一つです。
- インフラストラクチャ構築 — 8 件(4%)。プラットフォームの転換やエンタープライズ向けローンチの可能性を示唆する外れ値イベントです。
6. 検証と再現性
すべての数値は、独立した第三者によって 15 分以内に再現可能です。再現キットには以下が含まれます:
- 完全なクエリパラメータを含む
curl+jqのワンライナー - すべての中間変換ステップを含むデータセット
- 公開された数値を生成する Python ノートブック
データの完全性に関する疑義がある場合は、まず /standards ページの再現プロトコルを参照してください。発見された矛盾は /corrections ページに時系列で記録されます。
7. 制約と注意事項
本研究の制約は以下の通り、論文の §6 で詳細に議論しています:
- パブリック GitHub のみ:プライベートリポジトリで開発を行うスタートアップは観測されません。
- オープンソース活動的な企業に偏ったサンプル:私たちのパネルは VC 出資企業全体ではなく、GitHub 活動が観測可能な部分集合です。
- 生存バイアス:失敗したスタートアップはサンプルから除外される傾向があります。
- 時間範囲:観測期間は限定的で、長期トレンドの議論は慎重に行うべきです。
これらの制約により、本研究の結果は「VC 出資オープンソース活動的企業」というサブセットに限定される必要があります。