70개 정량 렌즈 — 일자별 검증 계획 (S356)¶
목적: 구현 전, 70개 각각이 한국 단기 트레이딩에서 실제 엣지가 있는가를 같은 잣대로 측정. 가짜 엣지를 거르고 살아남는 것만 구현 → 낭비 차단(프랩의 'deflated Sharpe' 원칙).
검증 인프라 (확인됨)¶
- 일봉 OHLCV: 419종목 × 1,197일 (2021-07 ~ 2026-05, 5년) —
data/backtest/s303/ohlcv/ - universe_ohlcv 2,342, EA panel, 투자자수급, 30분봉 419종목
- → 일봉 기반 기법 즉시 백테스트 가능. 30분봉 기반은 419종목 한정.
공통 검증 프레임 (모든 기법 같은 잣대)¶
1. 라벨 (정답) — Triple-Barrier (다중 보유기간, PM 결정) - 각 종목·각 날짜의 진입후보에 대해: 익절(+pt·σ)/손절(−sl·σ)/시간만기 중 먼저 닿는 것 → +1/−1/0 - 수직장벽 N = 1일·5일·20일 세 개로 각각 라벨 산출 (1=초단기, 5=단기스윙, 20=중기경계). - 각 기법은 세 보유기간 중 "최고 엣지(IC/승률)를 내는 기준"으로 평가 — 기법마다 잘 맞는 보유기간이 다르므로, 그 기법의 best-horizon과 그때의 성능을 함께 기록. (예: 레짐신호는 20일에서, 점프신호는 1일에서 최고일 수 있음) - pt=sl=2σ 정도(추후 캘리브레이션). σ = getDailyVol(EWMstd). - 산출: 모든 (종목,날짜) × {1d,5d,20d} forward 결과 라벨 (3종)
2. 신호 → 예측력 측정 (같은 지표 4종) 각 기법이 산출하는 신호를 라벨과 대조: - IC (정보계수): 신호값 vs forward수익 순위상관 (Spearman). 핵심 지표. - 승률·평균R: 신호 상위분위 진입 시 Triple-Barrier 승률·평균 R-멀티플 - 단조성: 신호 분위(decile)별 forward수익이 단조 증가하는가 - 롱숏 스프레드: 신호 상위 - 하위 분위 수익차
3. 가짜 엣지 차단 (프랩 표준) - Deflated Sharpe Ratio: 70개 다중검정 → 우연히 좋아 보이는 것 할인 - 블록 부트스트랩 SPA: 무작위 후보 대비 통계적 우월성 p값 - 워크포워드: 2021-2024 학습 / 2025-2026 검증 (미래누설 차단) - naive 벤치: 단순 거래대금 상위 진입 대비 초과수익 (이걸 못 이기면 탈락)
4. 통과 기준 (사전 정의 — 사후 조정 금지) - IC > 0.03 (절대값) AND DSR 유의 AND naive 벤치 초과 AND 워크포워드 OOS에서 유지 - 통과 못 하면 "엣지 없음"으로 분류, 구현 제외
일자별 분할 (70개 → 검증 그룹)¶
5층 + 검증 인프라로 묶어 그룹별로 같은 날 검증 (같은 라벨·프레임 공유 → 효율):
| 일자 | 그룹 | 기법 (#) | 데이터 | 비고 |
|---|---|---|---|---|
| D1 | 검증 인프라 구축 | Triple-Barrier 라벨러(#58) + IC/DSR/부트스트랩(#60,61) + 워크포워드 | 일봉 | 선행 필수 — 이게 있어야 나머지 측정 |
| D2 | L1 레짐 | 마르코프스위칭(#1,12) HMM(#2) BOCPD(#4) GARCH(#5) 점프모델(#6) DFA(#32) | 일봉 | 레짐확률의 forward 예측력 |
| D3 | L2 도달확률 | GBM배리어(#8) OU(#9) EVT(#10) 코퓰러(#14) VECM(#63) | 일봉 | 도달확률 calibration(실제 도달률과 일치?) |
| D4 | L3 손익비 | 분위수회귀(#7,11,23,46) 거래비용(#33,35,36,37) 컨포멀(#67) | 일봉 | 분위수 커버리지·비용 추정 정확도 |
| D5 | L4 수급 | 칼만매집(#39) 전이엔트로피(#25,40) Kyle λ(#34) 체결강도레짐(#44) VPIN(#45) 공매도BOCPD(#43) | 수급+일봉 | 한국수급 신호의 IC |
| D6 | L4 점과정·재료 | Hawkes(#24,30,47) BNS점프(#28) 반변동성(#29,38) Amihud(#33) | 일봉+30분봉 | 점프·군집의 forward |
| D7 | L5 결합 | 직교화(#26) 베이지안체이닝(#49,50) 캘리브레이션(#51,52) Grinold(#27) 스태킹(#53) | 위 결과 | 결합이 단일 최고신호를 이기나 (SPA) |
| D8 | 통계차익·기타 | s-score(#17) Johansen(#18) 칼만헤지(#19) L1추세필터(#59) SSA(#66) MODWT(#65) | 일봉 | 잔여 기법 |
원칙: - D1 먼저(라벨·프레임 없으면 측정 불가). 이후 D2~D8은 독립이라 순서 유연. - 각 일자 = 그 그룹 기법을 IC/승률/DSR로 채점 → 통과/탈락 표 산출. - 마지막에 통과 기법만으로 5층 파이프라인 조립 → 전체 백테스트.
결정 필요¶
- Triple-Barrier 파라미터: N일(3? 5?), pt/sl 배수(2σ?) — 단기 정의에 맞춤. PM 단기 = 며칠?
- 진입후보 모집단: 419종목 전체? universe(거래대금 상위 200)? 검증 대상 종목군.
- 통과 임계 IC>0.03: 이 값이 한국 단기에 맞나(추후 naive 벤치 보고 조정).
- 일자 순서/병렬: D1 후 D2~D8을 하루씩? 아니면 며칠 묶어서?
- 검증 코드 위치: scripts/discover/research/ 신설?
산출물 (검증 완료 시)¶
70개 × {IC, 승률, 평균R, DSR, naive초과, OOS유지} 채점표통과 기법 리스트 (구현 대상)+탈락 기법 (엣지 없음, 사유)- 이걸로 5층 아키텍처를 검증된 기법만으로 확정 → 구현