import pandas as pd
import numpy as np
from scipy.stats import hypergeom
from pathlib import Path

PROJ = Path('/home/aparkin/BERIL-research-observatory/projects/caulobacter_fur_lipida_loss')
DATA = PROJ / 'data'

# Reload scoring outputs from NB02
sA = pd.read_csv(DATA / 'NB02_pathA_concordant_strong_scoring.csv')
sB = pd.read_csv(DATA / 'NB02_pathB_buffered_scoring.csv')

# Background rate from NB02 enrichment cell — recompute here for transparency
N = 3943   # total Caulobacter genes in FB
K = 1311   # phenotype-bearing in genome (|t|>4 in ≥2 envelope/iron experiments)
background_rate = K / N
print(f'Background phenotype-bearing rate: {K}/{N} = {background_rate:.4f} (33.25%)')

def verdict_table(sub, label):
    n = len(sub)
    pb = int(sub['phenotype_bearing'].sum())
    obs_rate = pb / n
    expected = (K * n) / N
    fold = (pb / expected) if expected else float('nan')
    # P(X >= pb | hypergeom(N, K, n))
    p = hypergeom.sf(pb - 1, N, K, n) if pb > 0 else 1.0

    if p < 0.05 and fold >= 1.5:
        verdict = 'SUPPORTED'
    elif p < 0.05 and fold >= 1.0:
        verdict = 'MARGINAL'
    else:
        verdict = 'NOT SUPPORTED'
    return dict(set=label, set_size=n, observed_pb=pb, expected_pb=round(expected, 2),
                observed_rate=round(obs_rate, 4), background_rate=round(background_rate, 4),
                fold_enrichment=round(fold, 2), hypergeom_p=p, verdict=verdict)

rowA = verdict_table(sA, 'Path A (concordant_strong)')
rowB = verdict_table(sB, 'Path B (SspB-buffered)')

verdict_df = pd.DataFrame([rowA, rowB])
print('\n=== H2 PRE-REGISTERED HYPERGEOMETRIC VERDICT (NB02b recalibration) ===\n')
display(verdict_df)

verdict_df.to_csv(DATA / 'NB02b_h2_hypergeometric_verdict.csv', index=False)

Background phenotype-bearing rate: 1311/3943 = 0.3325 (33.25%)

=== H2 PRE-REGISTERED HYPERGEOMETRIC VERDICT (NB02b recalibration) ===

print('Summary:')
print(f'  Path A:  fold={rowA["fold_enrichment"]}x, p={rowA["hypergeom_p"]:.3e}, verdict={rowA["verdict"]}')
print(f'  Path B:  fold={rowB["fold_enrichment"]}x, p={rowB["hypergeom_p"]:.3e}, verdict={rowB["verdict"]}')
print()
print('Saved data/NB02b_h2_hypergeometric_verdict.csv')

Summary:
  Path A:  fold=1.6x, p=1.561e-02, verdict=SUPPORTED
  Path B:  fold=1.04x, p=5.147e-01, verdict=NOT SUPPORTED

Saved data/NB02b_h2_hypergeometric_verdict.csv

02B H2 Hypergeometric Verdict

02b — H2 hypergeometric verdict (post-review threshold recalibration)¶

Purpose¶

Pre-registered NB02b verdict (added in response to adversarial review)¶

Interpretation¶

	set	set_size	observed_pb	expected_pb	observed_rate	background_rate	fold_enrichment	hypergeom_p	verdict
0	Path A (concordant_strong)	32	17	10.64	0.5312	0.3325	1.60	0.015609	SUPPORTED
1	Path B (SspB-buffered)	26	9	8.64	0.3462	0.3325	1.04	0.514686	NOT SUPPORTED