discover 정량 렌즈 아키텍처 v3 — 확률·통계 모델 기반 (S356)¶
발산 v3(수학적·프랩 실전 70개)로 재설계. 기존 대중지표 아키텍처(VP/ATR/Triple-Barrier) 폐기. 핵심: 여러 독립 에이전트가 같은 5층 결합 구조로 수렴 — 이게 설계 골격.
PM 4대 부족점: 1. 매물구조(상단저항/하단지지를 확률로) 2. 손익비(수학으로) 3. 결합(매물×자금×재료×레짐을 하나의 확률로) 4. 레짐·변동성
5층 파이프라인 (전 종목, 코드, LLM 0)¶
입력: 일봉 OHLCV 수년 · 30분봉 · 체결강도(ka10047) · 투자자수급 · 프로그램 · 베이시스 · 공매도/대차
│
┌──▼─ L1. 레짐 엔진 (오늘이 어느 상태인가 — 모든 하위 신호의 조건) ────────┐
│ · 마르코프 레짐스위칭/HMM (#1,2,12,20) → ξ(강세확률), 전이행렬 │
│ · BOCPD 변화점 (#4,21) → 레짐 전환 시점 확률 (가짜돌파 필터) │ 목적4
│ · 통계적 점프모델 (#6) → 강건한 강세/약세 (레짐 오탐 방지) │
│ · GJR-GARCH (#5,31) → 내일 변동성 σ_{t+1} (손익비 분모, ATR보다 forward) │
│ · DFA/Hurst (#32) → 종목별 추세 vs 평균회귀 성격 (전략 분기) │
└──┬───────────────────────────────────────────────────────────────────┘
│ 레짐확률 ξ, σ_{t+1}, 종목성격 → 아래 모든 층의 파라미터·가중
│
┌──▼─ L2. 도달확률 엔진 (상단 뚫을/하단 받칠 확률 — 닫힌식) ───────────────┐
│ · GBM 이중배리어 우선도달확률 (#8) → P(목표 먼저 vs 손절 먼저) │ 목적1,2
│ · OU first-passage + 반감기 (#9,42) → 평균회귀 종목의 지지/도달 │
│ · EVT POT-GPD (#10,22) → 꼬리 손절폭 (한국 상하한가 급락 반영) │
│ · 코퓰러 조건부도달 (#14,41) → 지수/대장 돌파 시 종목 따라줄 확률 │
└──┬───────────────────────────────────────────────────────────────────┘
│
┌──▼─ L3. 손익비 엔진 (진입·손절·목표·RR을 한 모델에서) ──────────────────┐
│ · 분위수회귀/CAViaR (#7,11,23,46) → 내일 5%/50%/95% 분위수 │ 목적2
│ = 손절(하단)·기대(중앙)·목표(상단)를 수급·추세 조건부로 직접 산출 │
│ · 거래비용: Amihud/Corwin-Schultz/Roll/제곱근충격 (#33,35,36,37) │
│ → 실현 손익비 = 목표 - 비용 (백테스트 환상수익 제거) │
│ · 컨포멀 예측구간 (#67) → 보장 커버리지 손절/목표 │
└──┬───────────────────────────────────────────────────────────────────┘
│
┌──▼─ L4. 수급·재료 신호 (한국 데이터 고급통계) ──────────────────────────┐
│ · 칼만 매집강도 (#39) → 외인 '진짜 모으는가' θ̂_t + 기울기 │ 목적3 입력
│ · 전이엔트로피 (#25,40) → 외인/기관/프로그램 중 누가 가격 선행 │
│ · Kyle's λ 일별판 (#34) → 기관 순매수가 가격 미는 강도 │
│ · 체결강도 레짐스위칭 (#44), VPIN 일별판 (#45) → 정보비대칭 │
│ · 공매도/대차 BOCPD (#43) → 숏커버 시작 변화점 │
│ · Hawkes 자기여기 (#24,30,47) → 돌파지속·투매군집 분기율 │
│ · BNS 점프검정 (#28), 실현 반변동성 (#29,38) → 재료성 점프 vs 노이즈 │
└──┬───────────────────────────────────────────────────────────────────┘
│ L1~L4의 신호들
│
┌──▼─ L5. 결합 엔진 (하나의 확률로 — PM 핵심) ────────────────────────────┐
│ · 직교화 Gram-Schmidt (#26) → 신호 중복 제거 │ 목적3
│ · 베이지안 체이닝/WOE (#49,50) → 사전 × 우도들 → 사후 P(상승) │
│ · 최대엔트로피/코퓰러 (#54,55) → 중복 차단하며 동시정렬 보정 │
│ · Platt/Isotonic 캘리브레이션 (#51,52) → '진짜 확률'로 (Kelly 투입 가능)│
│ · Grinold IC·breadth (#27), 로지스틱 스태킹 (#53) → 최종 랭킹 점수 │
└──┬───────────────────────────────────────────────────────────────────┘
│ P(win) + 기대R + 손절/목표 가격
▼
pre-gate (확률·손익비로 정량 컷) → 12~15종
▼
종목당 LLM (수학이 끝낸 건 재서술 안 함 → 관찰 축소)
▼
D7 selector (P(win)·기대R 순) → selected + 진입/손절/목표/RR (수학 산출)
검증 인프라 (별도 — 어떤 렌즈가 진짜 엣지인가)¶
- Triple-Barrier/Trend-Scanning 라벨링 (#58) → 과거 후보에 결과 라벨
- Deflated Sharpe + 과적합확률 (#60) → 다중검정 후 살아남는 렌즈만 채택
- 블록 부트스트랩 SPA/Reality Check (#61) → "복잡한 결합이 단순합을 이기나" p값
- 부호제약 순차교차검증 (#57) → 미래누설 차단, naive 벤치 강제
기존 v2 아키텍처 대비 — 무엇이 바뀌나¶
| 층 | v2 (대중지표) | v3 (확률·통계) | 왜 나은가 |
|---|---|---|---|
| 매물 | Volume Profile POC/VA | 분위수회귀 확률밴드 + VECM 영구-일시 (#63) | 매물을 "확률"로. 지수대비 일시눌림/과열 분리 |
| 손익비 | ATR 손절 + R-멀티플 | GARCH σ + EVT 꼬리 + 분위수 + 거래비용 | forward-looking 변동성, 꼬리 실측, 비용 차감 |
| 결합 | 메타라벨 + FDM | 베이지안 체이닝 + 캘리브레이션 + 직교화 | 진짜 확률 + 중복 정확 제거 |
| 레짐 | Hurst/VR | 마르코프 레짐스위칭 + BOCPD + 점프모델 | "상태확률" + "전환시점확률" |
핵심 차별(에이전트 공통 논리): 대중지표는 (a)단일종목 가격만, 시장통제 없음 (b)임의 분포가정(2σ) (c)후행적. v3는 (a)시장·섹터·주체 통제·인과분리 (b)이론적 분포근거(OU정상성·GPD·HMM forward) (c)forward-looking(전이확률·분기율).
결정 필요 (세부 설계 전)¶
- L1~L5 전체 vs 핵심만: 70개 다 구현 불가. 각 층에서 1~2개 핵심만 골라 MVP → 검증 → 확장? 어느 기법을 각 층 대표로?
- 결합 방식 (L5): 베이지안 체이닝(룰 기반, 해석가능) vs 로지스틱 스태킹(ML 학습). PM "코드+고정규칙" 원칙 → 베이지안 우선?
- 레짐 모델 (L1): 마르코프 레짐스위칭 vs HMM vs 점프모델 — 셋 다 "상태확률" 주지만 안정성 다름. 한국 단기에 무엇?
- 분위수회귀 입력 (L3): 어떤 공변량(수급/추세/레짐)을 x로? 과적합 위험 — 변수선택.
- 검증 우선: 구현 전 Triple-Barrier 라벨 + DSR로 "이 기법들이 한국 단기에 실제 엣지인가"부터 측정? (구현 낭비 방지)
- MVP 범위: 한 종목·한 기간 프로토타입으로 "수치가 실제로 나오나"부터?