discover 정량 렌즈 아키텍처 v3 — 확률·통계 모델 기반 (S356)¶

발산 v3(수학적·프랩 실전 70개)로 재설계. 기존 대중지표 아키텍처(VP/ATR/Triple-Barrier) 폐기. 핵심: 여러 독립 에이전트가 같은 5층 결합 구조로 수렴 — 이게 설계 골격.

PM 4대 부족점: 1. 매물구조(상단저항/하단지지를 확률로) 2. 손익비(수학으로) 3. 결합(매물×자금×재료×레짐을 하나의 확률로) 4. 레짐·변동성

5층 파이프라인 (전 종목, 코드, LLM 0)¶

입력: 일봉 OHLCV 수년 · 30분봉 · 체결강도(ka10047) · 투자자수급 · 프로그램 · 베이시스 · 공매도/대차
   │
┌──▼─ L1. 레짐 엔진 (오늘이 어느 상태인가 — 모든 하위 신호의 조건) ────────┐
│  · 마르코프 레짐스위칭/HMM (#1,2,12,20) → ξ(강세확률), 전이행렬          │
│  · BOCPD 변화점 (#4,21) → 레짐 전환 시점 확률 (가짜돌파 필터)            │  목적4
│  · 통계적 점프모델 (#6) → 강건한 강세/약세 (레짐 오탐 방지)              │
│  · GJR-GARCH (#5,31) → 내일 변동성 σ_{t+1} (손익비 분모, ATR보다 forward) │
│  · DFA/Hurst (#32) → 종목별 추세 vs 평균회귀 성격 (전략 분기)            │
└──┬───────────────────────────────────────────────────────────────────┘
   │ 레짐확률 ξ, σ_{t+1}, 종목성격 → 아래 모든 층의 파라미터·가중
   │
┌──▼─ L2. 도달확률 엔진 (상단 뚫을/하단 받칠 확률 — 닫힌식) ───────────────┐
│  · GBM 이중배리어 우선도달확률 (#8) → P(목표 먼저 vs 손절 먼저)         │  목적1,2
│  · OU first-passage + 반감기 (#9,42) → 평균회귀 종목의 지지/도달        │
│  · EVT POT-GPD (#10,22) → 꼬리 손절폭 (한국 상하한가 급락 반영)          │
│  · 코퓰러 조건부도달 (#14,41) → 지수/대장 돌파 시 종목 따라줄 확률       │
└──┬───────────────────────────────────────────────────────────────────┘
   │
┌──▼─ L3. 손익비 엔진 (진입·손절·목표·RR을 한 모델에서) ──────────────────┐
│  · 분위수회귀/CAViaR (#7,11,23,46) → 내일 5%/50%/95% 분위수             │  목적2
│    = 손절(하단)·기대(중앙)·목표(상단)를 수급·추세 조건부로 직접 산출    │
│  · 거래비용: Amihud/Corwin-Schultz/Roll/제곱근충격 (#33,35,36,37)        │
│    → 실현 손익비 = 목표 - 비용 (백테스트 환상수익 제거)                  │
│  · 컨포멀 예측구간 (#67) → 보장 커버리지 손절/목표                       │
└──┬───────────────────────────────────────────────────────────────────┘
   │
┌──▼─ L4. 수급·재료 신호 (한국 데이터 고급통계) ──────────────────────────┐
│  · 칼만 매집강도 (#39) → 외인 '진짜 모으는가' θ̂_t + 기울기            │  목적3 입력
│  · 전이엔트로피 (#25,40) → 외인/기관/프로그램 중 누가 가격 선행          │
│  · Kyle's λ 일별판 (#34) → 기관 순매수가 가격 미는 강도                  │
│  · 체결강도 레짐스위칭 (#44), VPIN 일별판 (#45) → 정보비대칭             │
│  · 공매도/대차 BOCPD (#43) → 숏커버 시작 변화점                          │
│  · Hawkes 자기여기 (#24,30,47) → 돌파지속·투매군집 분기율               │
│  · BNS 점프검정 (#28), 실현 반변동성 (#29,38) → 재료성 점프 vs 노이즈    │
└──┬───────────────────────────────────────────────────────────────────┘
   │ L1~L4의 신호들
   │
┌──▼─ L5. 결합 엔진 (하나의 확률로 — PM 핵심) ────────────────────────────┐
│  · 직교화 Gram-Schmidt (#26) → 신호 중복 제거                          │  목적3
│  · 베이지안 체이닝/WOE (#49,50) → 사전 × 우도들 → 사후 P(상승)          │
│  · 최대엔트로피/코퓰러 (#54,55) → 중복 차단하며 동시정렬 보정            │
│  · Platt/Isotonic 캘리브레이션 (#51,52) → '진짜 확률'로 (Kelly 투입 가능)│
│  · Grinold IC·breadth (#27), 로지스틱 스태킹 (#53) → 최종 랭킹 점수      │
└──┬───────────────────────────────────────────────────────────────────┘
   │ P(win) + 기대R + 손절/목표 가격
   ▼
pre-gate (확률·손익비로 정량 컷) → 12~15종
   ▼
종목당 LLM (수학이 끝낸 건 재서술 안 함 → 관찰 축소)
   ▼
D7 selector (P(win)·기대R 순) → selected + 진입/손절/목표/RR (수학 산출)

검증 인프라 (별도 — 어떤 렌즈가 진짜 엣지인가)¶

Triple-Barrier/Trend-Scanning 라벨링 (#58) → 과거 후보에 결과 라벨
Deflated Sharpe + 과적합확률 (#60) → 다중검정 후 살아남는 렌즈만 채택
블록 부트스트랩 SPA/Reality Check (#61) → "복잡한 결합이 단순합을 이기나" p값
부호제약 순차교차검증 (#57) → 미래누설 차단, naive 벤치 강제

기존 v2 아키텍처 대비 — 무엇이 바뀌나¶

층	v2 (대중지표)	v3 (확률·통계)	왜 나은가
매물	Volume Profile POC/VA	분위수회귀 확률밴드 + VECM 영구-일시 (#63)	매물을 "확률"로. 지수대비 일시눌림/과열 분리
손익비	ATR 손절 + R-멀티플	GARCH σ + EVT 꼬리 + 분위수 + 거래비용	forward-looking 변동성, 꼬리 실측, 비용 차감
결합	메타라벨 + FDM	베이지안 체이닝 + 캘리브레이션 + 직교화	진짜 확률 + 중복 정확 제거
레짐	Hurst/VR	마르코프 레짐스위칭 + BOCPD + 점프모델	"상태확률" + "전환시점확률"

핵심 차별(에이전트 공통 논리): 대중지표는 (a)단일종목 가격만, 시장통제 없음 (b)임의 분포가정(2σ) (c)후행적. v3는 (a)시장·섹터·주체 통제·인과분리 (b)이론적 분포근거(OU정상성·GPD·HMM forward) (c)forward-looking(전이확률·분기율).

결정 필요 (세부 설계 전)¶

L1~L5 전체 vs 핵심만: 70개 다 구현 불가. 각 층에서 1~2개 핵심만 골라 MVP → 검증 → 확장? 어느 기법을 각 층 대표로?
결합 방식 (L5): 베이지안 체이닝(룰 기반, 해석가능) vs 로지스틱 스태킹(ML 학습). PM "코드+고정규칙" 원칙 → 베이지안 우선?
레짐 모델 (L1): 마르코프 레짐스위칭 vs HMM vs 점프모델 — 셋 다 "상태확률" 주지만 안정성 다름. 한국 단기에 무엇?
분위수회귀 입력 (L3): 어떤 공변량(수급/추세/레짐)을 x로? 과적합 위험 — 변수선택.
검증 우선: 구현 전 Triple-Barrier 라벨 + DSR로 "이 기법들이 한국 단기에 실제 엣지인가"부터 측정? (구현 낭비 방지)
MVP 범위: 한 종목·한 기간 프로토타입으로 "수치가 실제로 나오나"부터?