v3 70개 정량 렌즈 — 전체 내용 (S356)¶
출처: S356_quant_lens_v3_advanced.json. 5층 아키텍처별 정리. ✅=백테스트가능 🔸=부분.
L1 레짐 (12개)¶
1. 마르코프 레짐스위칭 (Hamilton 1989) + Hamilton 필터 ✅¶
- 한줄: 수익률을 강세/약세 등 K개 숨은 레짐의 마르코프 전이로 보고, 매일 '오늘이 강세 레짐일 확률'과 전이행렬을 갱신한다.
- 수학분류: 마르코프 레짐스위칭 (이산 잠재상태 + 최우추정 필터) | 단위: 일
- 계산식: 관측밀도(가우시안): f(r_t|S_t=j)=(1/√(2πσ_j²))·exp(-(r_t-μ_j)²/(2σ_j²)). 전이행렬 P=[p_ij], p_ij=Pr(S_t=j|S_{t-1}=i), Σ_j p_ij=1. Hamilton 필터: (예측) ξ_{t|t-1}(j)=Σ_i p_ij·ξ_{t-1|t-1}(i). (갱신) ξ_{t|t}(j)= [f(r_t|S_t=j)·ξ_{t|t-1}(j)] / [Σ_k f(r_t|S_t=k)·ξ_{t|t-1}(k)]. 분모=로그우도 기여분, 이를 합산해 MLE로 μ_j,σ_j²,p_ij 추정.
- 설계의도: 곱(우도×사전확률)을 합(전체우도)으로 나누는 베이즈 정규화가 핵심. 분자=관측이 레짐 j를 지지하는 정도, 분모=모든 레짐 합. 나눗셈으로 확률을 [0,1]에 가둔다. 평균 μ_j와 분산 σ_j²를 레짐별로 분리하는 이유: 강세장은 +드리프트·저변동, 약세장은 -드리프트·고변동이라는 비대칭을 한 식에서 잡기 위함. 전이행렬 대각원소 p_ii가 클수록 레짐이 끈적(persistent)하다.
- 목적적합: 내일 상단돌파 확률 = ξ_{t|t}(강세)·(강세장 상승조건부확률). 레짐확률이 손익비 가중에 직접 들어감(강세 레짐일수록 목표가를 멀리, 손절을 타이트하게). 전이행렬로 '오늘 약세인데 내일 강세로 바세 확률 p_{약→강}'을 손절 완충에 반영.
- 우리데이터: 일봉 종가로 로그수익률 r_t 계산 → statsmodels MarkovRegression(k_regimes=2~3, switching_variance=True)로 수년치 적합. 체결강도·투자자수급을 외생회귀변수(exog)로 추가해 레짐 식별력 강화 가능.
- 대중지표 대비 엣지: 이동평균/RSI는 과거 N봉 고정창의 결정론적 함수라 레짐 전환을 평균지연만큼 늦게 반영. 레짐스위칭은 '오늘이 어느 상태인지'를 확률로 즉시 추정하고, 전이행렬로 상태변화의 사전확률까지 모델링한다. 대중지표가 못 주는 '확률값'과 '상태지속성'을 준다.
- 출처: T1_학술_1차문서 — Hamilton, Regime-Switching Models, Palgrave (econweb.ucsd.edu/~jhamilto/palgrav1.pdf); arXiv 2402.05272; arXiv 2010.04930(시변전이확률)
2. 은닉마르코프모델(HMM) + Baum-Welch/Viterbi (다변량 관측) ✅¶
- 한줄: 수익률뿐 아니라 거래량·체결강도를 동시에 관측해 숨은 시장상태를 추정하고, Viterbi로 가장 그럴듯한 상태경로를 복원한다.
- 수학분류: 은닉마르코프모델 (EM 학습 + 동적계획 디코딩) | 단위: 일
- 계산식: Forward: α_t(j)=[Σ_i α_{t-1}(i)·a_ij]·b_j(O_t). Backward: β_t(i)=Σ_j a_ij·b_j(O_{t+1})·β_{t+1}(j). 상태사후: γ_t(i)=α_t(i)β_t(i)/Σ_k α_t(k)β_t(k). Baum-Welch(EM) 재추정: a_ij=Σ_t ξ_t(i,j)/Σ_t γ_t(i), 여기서 ξ_t(i,j)=α_t(i)a_ij b_j(O_{t+1})β_{t+1}(j)/P(O). Viterbi: δ_t(j)=max_i[δ_{t-1}(i)a_ij]·b_j(O_t). 다변량 관측 b_j(O_t)=가우시안 N(O_t; μ_j, Σ_j).
- 설계의도: 레짐스위칭이 보통 단변량 수익률만 쓰는 반면, HMM의 b_j(O_t)를 다변량 가우시안으로 두면 [수익률, 로그거래량, 체결강도]를 공분산 Σ_j까지 묶어 한 상태로 본다. Forward-Backward의 곱셈(α·β)은 '과거증거×미래증거'를 결합—과거만 보는 필터보다 부드러운 사후확률. Viterbi의 max는 '평균상태'가 아니라 '단일 최적경로'를 뽑아, 진입 타이밍처럼 이산 결정에 맞다.
- 목적적합: 매물·자금·재료를 하나의 확률로 결합하라는 목적에 정확히 부합: 관측벡터에 가격(매물구조 프록시)·거래량(자금)·체결강도(수급)를 넣으면 γ_t(상승상태)가 결합확률이 된다. Viterbi 경로의 마지막 상태가 '내일 진입 적합 상태'인지 판정.
- 우리데이터: 일봉 [r_t, ln(거래량), 체결강도(ka10047)] 다변량 관측 → hmmlearn GaussianHMM(n_components=3, covariance_type='full'). 투자자수급·프로그램매매를 추가 차원으로. 30분봉 집계도 일 단위로 묶어 사용 가능.
- 대중지표 대비 엣지: OBV·거래량급증은 가격과 거래량을 사후 임의결합. HMM은 공분산 Σ_j로 가격-거래량-수급의 동시구조를 학습하고, EM이 데이터에서 상태 수·경계를 스스로 찾는다. '거래량 터지면 매수' 같은 룰을 확률 사후분포로 대체.
- 출처: T1_학술_1차문서 — arXiv 2310.03775(HMM stock prediction); luisdamiano rfinance17 노트북(HMM-volatility); QuantStart QSTrader regime detection
3. 상태공간/칼만필터 — 시변추세·동적베타 ✅¶
- 한줄: 관측가격을 '잠재 추세 + 잡음'으로 분해해 매일 추세·기울기(국소 모멘텀)와 시장대비 동적베타를 재귀적으로 갱신한다.
- 수학분류: 선형 상태공간 / 칼만필터 (가우시안 베이즈 재귀) | 단위: 분+일
- 계산식: 상태(국소선형추세): x_t=[level_t, slope_t]', 전이 x_t=F x_{t-1}+w_t, F=[[1,1],[0,1]], w_t~N(0,Q). 관측 y_t=H x_t+v_t, H=[1,0], v_t~N(0,R). 예측: x̂{t|t-1}=F x̂{t-1}, P_{t|t-1}=F P_{t-1} F'+Q. 갱신: 칼만이득 K_t=P_{t|t-1}H'(H P_{t|t-1}H'+R)^{-1}; x̂t=x̂{t|t-1}+K_t(y_t-H x̂{t|t-1}); P_t=(I-K_t H)P{t|t-1}. 동적베타판은 H_t=[1, r_mkt,t], 상태=[α_t,β_t].
- 설계의도: 칼만이득 K_t=신호분산/(신호분산+잡음분산)이 핵심 나눗셈: 잡음 R이 크면 K↓(관측 덜 믿고 추세 유지), 신호변동 Q가 크면 K↑(관측 빨리 반영). 이동평균의 고정가중과 달리 K_t가 데이터로 자동 조정되는 적응형 평활. slope_t가 양수→추세상승 진행, 부호반전→추세꺾임 조기경보.
- 목적적합: 지지/저항을 잠재 level_t의 신뢰구간(±√P_t)으로 정의 가능—'추세선 ± 1σ'가 동적 지지저항대. 동적베타는 시장이 빠질 때 이 종목이 얼마나 따라빠질지(손절폭 산정)에 직결. slope_t 부호·크기가 단기 진입신호.
- 우리데이터: 일봉 종가로 국소선형추세 칼만(pykalman 또는 statsmodels UnobservedComponents 'local linear trend'). 동적베타는 종목수익률 vs KOSPI수익률 회귀를 칼만으로 시변추정. 30분봉에도 동일 적용.
- 대중지표 대비 엣지: 이동평균·볼린저는 고정창·고정배수라 추세전환 후에야 반응. 칼만은 잡음/신호비로 가중을 매봉 최적화하고, 추세를 '점추정+불확실성(P_t)'으로 줘 지지저항을 확률대역으로 표현. 볼린저밴드가 못 주는 '추세 자체의 신뢰구간'을 제공.
- 출처: T2_프랩_퀀트_공개자료 — arXiv 2310.04125(시변AR 확장칼만); letianzj.github.io Kalman regression; statsmodels UnobservedComponents 문서; arXiv 2107.07678(hidden states 거래량)
4. 베이지안 온라인 변화점 탐지 (BOCPD, Adams-MacKay 2007) 🔸¶
- 한줄: '마지막 레짐전환 이후 경과시간(run length)'의 사후분포를 매일 갱신해, 레짐이 방금 바뀌었을 확률을 실시간으로 낸다.
- 수학분류: 베이지안 변화점 탐지 (run-length 사후 재귀, 메시지전달) | 단위: 일
- 계산식: run length r_t의 결합사후 재귀: 성장(변화없음) P(r_t=r_{t-1}+1, x_{1:t}) = P(r_{t-1}, x_{1:t-1})·π(x_t|x_{(r)})·(1-H(r_{t-1})); 변화점 P(r_t=0, x_{1:t}) = Σ_{r_{t-1}} P(r_{t-1}, x_{1:t-1})·π(x_t|x_{(r)})·H(r_{t-1}). 정규화: P(r_t|x_{1:t})=P(r_t,x_{1:t})/Σ_r P(r_t,x_{1:t}). 위험함수(상수) H(r)=1/λ. 예측사후 π는 켤레사전(정규-역감마)로 해석해(closed-form).
- 설계의도: 곱셈항 (1-H)는 '레짐 지속'에 가중, H는 '리셋'에 가중—두 갈래를 매일 곱해 더한다. 켤레사전(정규-역감마)을 쓰는 설계의도: 적분을 닫힌형으로 풀어 매일 1회 갱신만으로 변화점확률을 얻는 온라인성. r_t=0의 사후질량이 솟구치면 '오늘 레짐이 깨졌다'는 확률신호.
- 목적적합: 레짐스위칭이 '어느 상태냐'를 준다면 BOCPD는 '언제 바뀌었냐/바뀌는 중이냐'를 준다. 돌파 직후 변화점확률 급등=추세 신뢰도↑(진입), 보유 중 변화점확률 급등=레짐붕괴 손절신호. 손절 트리거를 ATR 같은 임의배수가 아니라 통계적 구조변화 확률로 대체.
- 우리데이터: 일봉 로그수익률 스트림에 정규-역감마 켤레로 BOCPD 구현(짧은 numpy, ~50줄). 입력을 수익률·거래량·베이시스 등으로 바꿔 각각의 변화점도 별도 추적.
- 대중지표 대비 엣지: 이동평균크로스는 '전환'을 두 선의 교차라는 결정론적 사건으로 보지만 지연·휩쏘가 심하다. BOCPD는 전환을 run-length 사후라는 확률분포로 줘 '아직 불확실/확실' 정도를 정량화. 단순 거래량급증·돌파룰이 못 주는 변화점 확신도를 제공.
- 출처: T1_학술_1차문서 — Adams & MacKay 2007; arXiv 2307.02375(order flow BOCPD); ACM 3795154.3795291(financial BOCPD, S&P/CSI300 일간); arXiv 2407.16376(시변파라미터 AR-BOCPD)
5. GJR-GARCH / EGARCH — 비대칭 조건부변동성 예측 ✅¶
- 한줄: 변동성 클러스터링과 '하락충격이 변동성을 더 키운다'는 레버리지효과를 반영해 내일의 조건부변동성 σ_{t+1}을 예측한다.
- 수학분류: 조건부 이분산 (비대칭 GARCH족, QMLE) | 단위: 일
- 계산식: GJR-GARCH(1,1): σ_t² = ω + α·ε_{t-1}² + γ·I_{t-1}·ε_{t-1}² + β·σ_{t-1}², I_{t-1}=1 if ε_{t-1}<0 else 0 (하락충격에 γ 추가가중). EGARCH(1,1): ln σ_t² = ω + β·ln σ_{t-1}² + α(|z_{t-1}|-E|z|) + θ·z_{t-1}, z_{t-1}=ε_{t-1}/σ_{t-1} (부호항 θ가 비대칭). 다단예측: E[σ_{t+h}²]은 위 식 반복대입.
- 설계의도: 더하기 구조 ω+...의 각 항이 변동성의 출처: ω=장기수준, β·σ²=어제변동성의 관성(클러스터링), α·ε²=새충격. GJR의 핵심은 지시함수 I·곱셈으로 '음의 충격일 때만 γ를 더하는' 비대칭. EGARCH는 ln을 써서 σ²>0을 자동보장하고 θ·z로 부호효과를 선형 분리. 둘 다 '하락이 더 무섭다'는 시장 관성을 수식화.
- 목적적합: 손절폭·목표폭·손익비를 수학으로 산정하는 핵심: 손절폭 = k·σ_{t+1|t}(예측변동성 기반, ATR보다 forward-looking). 포지션크기 ∝ 1/σ_{t+1}²(변동성 타게팅). 상단돌파 확률 = Φ((목표-현재)/σ_{t+1})—정규(또는 t)분포 가정 하 도달확률.
- 우리데이터: 일봉 로그수익률에 arch 패키지 arch_model(dist='t', vol='GARCH', p=1,o=1,q=1=GJR / 'EGARCH'). 수년치로 적합 후 forecast(horizon=1~5)로 내일~며칠 σ 예측. 종목별 개별적합.
- 대중지표 대비 엣지: ATR은 과거 N봉 변동폭의 단순평균이라 후행적·고정창. GJR/EGARCH는 변동성의 관성(β)·신규충격(α)·하락비대칭(γ,θ)을 분리추정해 '내일 변동성'을 예측한다. 볼린저밴드(과거표준편차)와 달리 조건부·forward-looking·비대칭. 손익비 계산에 쓸 예측 σ를 직접 산출.
- 출처: T1_학술_1차문서 — Glosten-Jagannathan-Runkle 1993; Nelson 1991(EGARCH); ScienceDirect S1062940824000731(하이브리드 GARCH); SITMO GJR-GARCH turbulence; arch 패키지 문서
6. 통계적 점프모델 (Statistical Jump Model, Nystrup/Bulla) ✅¶
- 한줄: 레짐스위칭의 잦은 휩쏘를 막기 위해 '상태전환마다 점프 페널티 λ'를 부과해 끈적한(persistent) 레짐을 강건하게 추정한다.
- 수학분류: 레짐탐지 (페널티 클러스터링, 마르코프스위칭의 강건 대안) | 단위: 일
- 계산식: 목적함수 최소화: min_{Θ,S} Σ_t ||f_t - μ_{S_t}||² + λ·Σ_t 1{S_t ≠ S_{t-1}}. 앞항=각 시점 특징벡터 f_t를 배정상태 중심 μ에 맞추는 적합오차, 뒷항=상태가 바뀐 횟수×λ(점프 페널티). 동적계획으로 최적 상태경로 S 풀고 μ 갱신을 교대(coordinate descent). 특징 f_t=수익률·하방편차·EWMA변동성 등 return-only 측도.
- 설계의도: λ·(전환횟수) 덧셈항이 설계 핵심: λ를 키우면 전환비용이 비싸져 레짐이 끈적해진다(휩쏘 억제), λ=0이면 매시점 독립 클러스터링(k-means). HMM이 우도최대화로 전이확률을 '추정'하는 대신, 점프모델은 지속성을 '페널티로 직접 부과'해 추정안정성↑·과적합↓. λ는 시계열 CV로 전략성과 직접최적화.
- 목적적합: 단기 진입에서 가장 큰 적은 레짐 오탐(거짓전환). 점프모델은 강건한 강세/약세 판정을 줘 '진짜 강세장에서만 공격적 진입'을 가능케 한다. 0/1 노출전략(강세=풀매수, 약세=현금)의 스위치로 직결—exposure 결정에 바로 매핑.
- 우리데이터: 일봉에서 특징 f_t=[하방편차, EWMA수익률, EWMA변동성] 구성 → jumpmodels 패키지(파이썬, Nystrup 그룹 공개) 또는 직접 DP 구현. λ를 워크포워드 CV로 선택.
- 대중지표 대비 엣지: 이동평균크로스·ADX는 추세장에서 휩쏘가 심하고 파라미터 임의. 점프모델은 '전환에 비용을 매기는' 명시적 정규화로 마르코프스위칭보다 안정적이고, return-only 특징이라 과적합 위험이 낮다(arXiv 2402.05272 out-of-sample 1990-2023 검증). 대중 추세지표가 못 주는 강건 레짐 라벨.
- 출처: T1_학술_1차문서 — arXiv 2402.05272(Downside Risk, Statistical Jump Model); Nystrup-Lindström-Madsen 'persistent states penalizing jumps'; Nystrup-Kolm-Lindström 'Feature selection in jump models'; Springer s41260-024-00376-x
12. 2-state 마르코프 레짐스위칭(Hamilton) — 레짐별 drift·변동성 ✅¶
- 한줄: 장세를 저변동/고변동 은닉상태로 보고 현재 레짐 사후확률·전이확률로 내일 기대수익 분기
- 수학분류: 마르코프 레짐스위칭 / 은닉마르코프 / Hamilton filter | 단위: 일
- 계산식: r_t|S_t=i ~ N(μ_i,σ_i²), i∈{1,2}. 전이행렬 P=[[p11,p12],[p21,p22]]. Hamilton 필터: ξ_{t|t}(i)=η_i(r_t)·Σ_j p_ji ξ_{t-1|t-1}(j) / 정규화. η_i=정규밀도. 내일 기대수익=Σ_i ξ_{t|t}(i)·Σ_j p_ij μ_j. 식 확인됨(Hamilton 1989, Stata MS-models).
- 설계의도: 왜 은닉상태+전이행렬인가: 변동성클러스터(고변동이 고변동을 부른다)를 '상태지속확률 p11,p22'로 명시 모델링. 강세=고수익저변동, 약세=저수익고변동(검색결과). 베이즈필터로 매일 사후 레짐확률을 갱신 — 추세지표처럼 후행하지 않고 '지금 어느 레짐일 확률'을 직접. drift가 레짐마다 달라 '상승확률'이 상태조건부.
- 목적적합: PM의 '레짐을 하나의 확률로 결합'에 직접 대응. 현재 강세레짐 사후확률이 높으면 상단돌파 베팅 비중↑, 고변동레짐이면 손절폭↑·비중↓. First-passage확률·분위수예측을 레짐별 µ,σ로 조건화 — 모든 모델의 입력파라미터를 레짐화.
- 우리데이터: 일봉 수익률 수년으로 EM/MLE 적합(statsmodels MarkovRegression). 지수(코스피/코스닥) 또는 종목 단위. 설명변수로 수급·베이시스 추가한 MS-regression 가능.
- 대중지표 대비 엣지: ADX/이동평균은 추세를 후행 판정. 레짐스위칭은 전이확률로 '레짐이 바뀔 확률'까지 확률화하고, 레짐별 µ·σ를 다른 모델에 주입해 전체를 상태조건부로 결합 — 단일지표가 못 하는 파라미터 동적화.
- 출처: T1_학술_1차문서 — Hamilton 1989 Regime-Switching(econweb.ucsd.edu/~jhamilto/palgrav1), Stata MS-models, ScienceDirect 2-state MS with regressors(S0927539812000382). 필터식 확인.
13. 베이지안 온라인 변화점탐지(BOCPD) 🔸¶
- 한줄: 내일 통계적 성질(평균·변동성)이 바뀔(레짐변화) 사후확률을 실시간 갱신
- 수학분류: 베이지안 변화점탐지 / run-length 사후분포 / Adams-MacKay | 단위: 일
- 계산식: run-length r_t(마지막변화 후 경과). P(r_t|x_{1:t}) ∝ Σ_{r_{t-1}} P(x_t|r_{t-1})·[성장 (1-H) or 변화 H(r_{t-1})]·P(r_{t-1}|x_{1:t-1}). H=hazard율(1/기대레짐길이). 켤레사전(정규-감마)로 P(x_t|run) 닫힌식. 식 확인됨(Adams&MacKay BOCPD, arxiv 2307.02375).
- 설계의도: 왜 run-length 사후인가: HMM처럼 레짐 수를 미리 안 정하고, '마지막 변화 후 며칠 지났나'의 분포를 매일 갱신. hazard H가 변화빈도 사전. 변화점 직후엔 과거데이터를 버려 추정이 빨리 적응. '돌파가 새 레짐의 시작인지 노이즈인지'를 사후확률로 — 단기진입의 핵심 질문.
- 목적적합: 박스권 돌파/이탈이 '진짜 레짐전환'일 확률을 정량화 → 가짜돌파(되돌림) 필터. 변화점확률이 높으면서 상단돌파면 추세진입, 낮으면 평균회귀(OU) 적용. 매물구조 변화(저항이 지지로) 시점 포착.
- 우리데이터: 일봉 수익률 또는 (수급계열: 외국인 순매수, 체결강도)에 BOCPD 적용. 정규-감마 켤레로 종가/거래량/수급의 평균·분산 변화 동시감시. 종목별 hazard 캘리브레이션.
- 대중지표 대비 엣지: 거래량급증·이동평균은 변화를 '사후 확인'만. BOCPD는 변화점 사후확률을 매일 베이즈갱신해 '지금 레짐이 바뀌는 중일 확률'을 선제적으로 — 가짜돌파를 확률로 거른다. 단순지표엔 없는 불확실성 정량화.
- 출처: T1_학술_1차문서 — Adams&MacKay 2007 BOCPD, arxiv 2307.02375(order flow BOCPD), arxiv 2407.16376(AR online changepoint). 백테스트는 hazard 튜닝 필요로 부분.
20. Markov 레짐스위칭 / 가우시안 HMM 상태확률 (Hamilton) ✅¶
- 한줄: 일수익률을 숨은 상태(저변동 상승/고변동 하락 등)의 혼합으로 보고, 베이즈 필터로 '오늘이 어느 레짐일 확률'과 '내일 레짐 전이확률'을 계산해 베팅 강도를 조절한다.
- 수학분류: 마르코프 레짐스위칭(은닉마르코프 + Baum-Welch/Viterbi) | 단위: 일
- 계산식: 상태 S_t in {1..K}, 전이행렬 A_ij=P(S_t=j|S_{t-1}=i). 각 상태에서 r_t ~ N(mu_k, sigma_k^2). EM(Baum-Welch)로 (A, mu_k, sigma_k) 추정. Forward 재귀로 필터확률 P(S_t=k | r_1..t). 예측: P(S_{t+1}=j)=sum_i P(S_t=i)*A_ij. 베팅: E[r_{t+1}]=sum_k P(S_{t+1}=k) mu_k, 노출 ~ E[r]/sum_k P_k sigma_k^2.
- 설계의도: 수익률을 단일 정규가 아니라 정규 혼합(상태별 mu,sigma)으로 보는 이유: 시장은 조용한 상승과 급락이 번갈아 와 두꺼운꼬리·변동성군집을 만드는데, 하나의 평균/분산으론 설명 불가. 전이행렬 곱(A^n)으로 미래를 외삽하는 이유: 마르코프 성질이 '현재 레짐 지속/전환 확률'을 닫힌형으로 줌. 확률가중으로 mu를 합치는 이유: 레짐을 단정하지 않고 불확실성을 반영해 과신을 방지.
- 목적적합: 레짐결합(목적4)의 핵심 엔진: 모든 다른 신호를 '현재 레짐확률'로 조건부 가중(고변동하락 레짐이면 매수신호 디스카운트). 단기진입(목적3): P(상승레짐 지속)이 곧 '내일 상단 뚫을 확률'의 베이스레이트. 손익비: 상태별 sigma_k가 레짐맞춤 손절폭.
- 우리데이터: 지수/개별 일수익률 수년치로 2~3상태 HMM 학습. 입력을 수익률+체결강도+수급 다변량으로 확장하면 '수급레짐'까지 분리. 30분봉으로 일중 변동성레짐 보조.
- 대중지표 대비 엣지: ADX/이동평균 같은 추세지표는 '추세/횡보'를 임의 임계로 이분하지만 HMM은 데이터가 상태수·경계·전이확률을 스스로 추정하고 확률(0~1)로 부드럽게 출력 -> 휩쏘 감소. Hamilton 이후 학계 표준이며 전이확률이라는 forward-looking 정보를 줌(지표는 후행).
- 출처: T1_학술_1차문서 — Hamilton (1989) regime-switching; 구현·실증 MDPI J.Risk Financial Mgmt 13(12):311 'Regime-Switching Factor Investing with HMM', QuantStart HMM regime detection, QuantConnect HMM 문서. 2-state 가우시안 HMM on daily log returns 표준 셋업 확인.
32. DFA 추세제거 변동분석 (Detrended Fluctuation Analysis, Hurst 대체) ✅¶
- 한줄: 비정상 가격시계열에서 추세를 제거하며 장기상관(지속/반지속)을 척도지수 α로 측정 -> 종목이 추세추종형인지 평균회귀형인지 강건하게 판별
- 수학분류: 프랙탈 척도분석 / 장기상관 (Hurst 강건판) | 단위: 일
- 계산식: 누적합 Y(k)=Σ_{i=1}^k (r_i − r̄). 구간길이 l로 분할, 각 구간서 다항추세 제거 후 잔차. F(l)=sqrt( (1/N)Σ (Y(k)−추세)^2 ). F(l)∝l^α. α=log F vs log l 회귀기울기. α<0.5 반지속(평균회귀), α=0.5 랜덤워크, α>0.5 지속(추세). H≈α.
- 설계의도: 구간별 추세제거가 핵심: 단순 분산은 비정상 추세를 장기상관으로 오인하지만, DFA는 각 구간 다항추세를 빼내 '진짜 상관'만 본다 -> Hurst R/S보다 비정상·노이즈에 강건. 척도 l을 키우며 변동의 거듭제곱 증가율(α)을 측정해 기억구조를 한 수로.
- 목적적합: 전략선택: α>0.5 종목엔 추세추종(상단돌파 진입 유리), α<0.5엔 역추세(하단받침 매수). 진입논리를 종목 성격에 맞춤. PM이 이미 Hurst/Variance Ratio 검토했으나 DFA는 비정상에 강건한 별도 추정량(재수집 아님, 보완).
- 우리데이터: 일봉 종가 로그수익률 수년치로 α 추정(구간 l=10~250일). 30분봉으로 일중 DFA도 가능. 종목별 α 시계열로 레짐 변화 추적.
- 대중지표 대비 엣지: 이동평균 기울기·ADX는 추세를 사후적 눈대중. DFA는 척도지수 α로 추세/평균회귀를 단일 수치로 객관 측정하고 비정상에 강건 -> 전략(추세 vs 역추세) 선택을 수학적으로 근거.
- 출처: T1_학술_1차문서 — Peng et al. (1994) DFA 원논문; 금융적용 다수 (arXiv:2509.19663 Long-Range Dependence in Financial Markets; arXiv:1601.04188 Hurst/DFA 버블 비교). PM 명시: Hurst 너머 ARFIMA·DFA 권장.
43. 공매도/대차 잔고 베이지안 온라인 변화점 탐지 (BOCPD) ✅¶
- 한줄: 숏 누적→숏커버 전환점(레짐 브레이크)을 실시간 run-length 사후분포로 탐지
- 수학분류: 베이지안 변화점 (Adams-MacKay BOCPD, run-length 사후분포) | 단위: 일
- 계산식: run-length r_t = 마지막 변화점 이후 경과일. 재귀: P(r_t,x_{1:t}) = Σ_{r_{t-1}} P(r_t|r_{t-1})·π(x_t|r_{t-1})·P(r_{t-1},x_{1:t-1}). 성장확률 ∝(1−h)·예측우도, 변화확률 ∝ h·예측우도 합. 해저드 h=1/λ(상수). π는 켤레사전(정규-감마)로 폐형 예측분포. 변화점 신호 = P(r_t=0)가 임계 초과. 입력 x_t=일별 공매도비중 또는 대차잔고 변화.
- 설계의도: 공매도·대차는 '서서히 누적되다 어느 날 급격히 커버'되는 구조 — 평균이 계단형으로 바뀜(변화점). z-score는 점진적 추세는 잡아도 '구조 전환'을 못 짚는다. BOCPD는 각 시점에 '지금 레짐이 며칠째인가'의 분포를 베이지안으로 갱신 → 전환을 확률로 출력. 가감승제 핵심: 예측우도×해저드의 재귀곱으로 run-length 분포를 매일 업데이트.
- 목적적합: 재료/하단방어 축: 대차잔고 급감(=숏커버 시작) 변화점은 단기 강한 상승압력 신호 → 진입 트리거. 공매도 누적 변화점은 하방위험 경고. 변화점 확률을 BUY 확률에 가산.
- 우리데이터: 공매도 일별(비중/거래량), 대차 잔고/체결 일별. 수년치. 정규-감마 켤레로 폐형 구현(외부패키지 불요, ~50줄).
- 대중지표 대비 엣지: z-score/단순급증 대비: (1)점진추세와 구조전환을 구분, (2)전환의 '확률'과 '레짐연령'을 동시 출력, (3)온라인(매일 1스텝)이라 지연 최소. 단순 '대차 급감' 룰이 못 주는 통계적 전환확신도.
- 출처: T1_학술_1차문서 — Adams & MacKay 2007 arXiv 0710.3742; tandfonline 10.1080/14697688.2024.2337300 'Online learning of order flow and market impact with Bayesian change-point detection'. run-length 재귀·켤레예측 확인.
44. 체결강도(ka10047) 2상태 마르코프 레짐스위칭 ✅¶
- 한줄: 체결강도 시계열을 '매수우위 레짐 vs 매도우위 레짐'으로 분리하고 매일 레짐 소속확률을 필터링
- 수학분류: 마르코프 레짐스위칭 / 은닉마르코프 (Hamilton 필터, 2상태) | 단위: 일
- 계산식: 관측 s_t(체결강도)가 상태 S_t∈{1,2}에 따라 s_t~N(μ_{S_t},σ²_{S_t}). 전이행렬 P=[[p11,1−p11],[1−p22,p22]]. Hamilton 필터: 예측 ξ_{t|t-1}=P'ξ_{t-1}; 갱신 ξ_t = (ξ_{t|t-1}⊙f_t)/(1'(ξ_{t|t-1}⊙f_t)), f_t=상태별 정규밀도. μ,σ,P는 EM(Baum-Welch)로 적합. 출력=P(S_t=매수레짐).
- 설계의도: 체결강도 100선 단순임계는 잡음에 취약하고 지속성(레짐 persistence)을 무시. 레짐스위칭은 (a)각 레짐의 평균·분산을 데이터가 정하고 (b)전이확률 p11,p22로 '한번 매수레짐이면 지속'하는 관성을 모델링. 가감승제 핵심: 전이행렬×상태밀도의 베이즈갱신으로 소속확률을 매일 산출 → 임의 임계 제거. 지속성 추정이 단타 진입의 핵심(레짐이 막 전환했고 지속성 높으면 추격).
- 목적적합: 단기 진입확률 축: '매수레짐 진입 직후 + 높은 p11(지속성)' = 며칠 보유 시 상단돌파 우위. P(매수레짐)을 칼만 매집강도·BOCPD와 함께 최종 확률에 결합.
- 우리데이터: ka10047 체결강도 일별 시계열(종목별 수년치). 2상태 HMM EM 적합(hmmlearn 또는 자체 ~80줄). 거래대금 정규화 권장.
- 대중지표 대비 엣지: 체결강도 100 임계/단순 이평 대비: (1)레짐 평균을 데이터가 결정(종목별 적응), (2)지속성 p11으로 '추세 유지될까'를 정량 — 단순 임계엔 없는 정보, (3)소속확률(0~1)로 부드러운 가중 가능. RSI식 고정밴드가 못 주는 상태지속 모델.
- 출처: T2_프랩_퀀트_공개자료 — Hamilton(1989) 레짐스위칭; arXiv 1003.2981 'Hidden Markov models of large order splitting in equity market'; MDPI 'Regime-Switching Factor Investing with HMM'. 2상태 HMM·Hamilton 필터·EM 표준 절차.
L2 도달확률 (7개)¶
8. GBM 이중배리어 우선도달확률 (Up-before-Down hitting probability) ✅¶
- 한줄: 내일 상단(목표가)을 하단(손절가)보다 먼저 칠 확률을 닫힌식으로 직접 계산
- 수학분류: 확률과정 / 브라운운동 first-passage / 도박꾼 파산문제(drift 포함) | 단위: 일
- 계산식: 로그가격 X=ln(S). drift µ=(일평균로그수익 - 0.5σ²), 변동성 σ. 상단 b=ln(U/S0)>0, 하단 -a=ln(L/S0)<0. 무드리프트 근사 P(상단먼저)=a/(a+b). 드리프트 포함: λ=2µ/σ² 일 때 P(상단먼저)=(1-e^{λa})/(1-e^{-λb}) ... wait 정식: P(up first)=(e^{λa}-1)/(e^{λa}-e^{-λb}) where λ=-2µ/σ². 마틴게일 e^{λX}로 optional stopping 적용. 식 확인됨(columbia IEOR4701, cfrm17).
- 설계의도: 왜 비율 a/(a+b)인가: 무드리프트 BM은 도달확률이 시작점에서 각 배리어까지의 '거리에 반비례'(조화함수). 곱셈이 아니라 거리비율로 답이 나오는 이유는 BM이 마틴게일이라 기대값이 보존되기 때문. 드리프트가 있으면 지수가중 e^{λX}로 보정 — 추세가 양이면 상단쪽 확률이 비선형으로 증폭. PM의 '상단뚫을/하단받칠 확률'에 정확히 대응하는 유일한 닫힌식.
- 목적적합: 손익비와 도달확률을 한 식에서 동시 산출: 목표가/손절가를 넣으면 우선도달확률 p가 나오고, 기대값 = p이익 - (1-p)손실. p가 손익비의 역수보다 크면 진입. 단기 진입확률을 분포가 아닌 '레벨 도달 게임'으로 환산.
- 우리데이터: 일봉 OHLCV 수년에서 일평균 로그수익 µ와 일변동성 σ(또는 EWMA σ) 추정. S0=현재가, U=저항(매물 상단), L=지지(매물 하단). 보유일수 H면 시간배리어 추가시 σ√H 스케일.
- 대중지표 대비 엣지: ATR손절은 손절폭만 정하고 '맞을 확률'을 안 준다. 이 식은 목표·손절을 동시에 넣어 우선도달확률 p를 닫힌식으로 산출 — 손익비(R)와 승률(p)을 같은 프레임에서 결합. 볼린저는 ±2σ를 정적으로 그릴 뿐 '먼저 어디 닿나'의 비대칭 확률을 못 준다.
- 출처: T1_학술_1차문서 — Columbia IEOR4701 Notes on Brownian Motion (ww2040/4701), cfrm17.github.io/barrierProb, 도박꾼파산 drift martingale. 마틴게일 e^{αX} optional stopping은 표준.
9. OU 평균회귀 first-passage + 반감기 진입타이밍 ✅¶
- 한줄: 30분봉/일봉 스프레드의 회귀속도(θ)·반감기로 평균선 복귀까지의 도달확률·시간 계산
- 수학분류: Ornstein-Uhlenbeck 평균회귀 / first hitting time / AR(1) 이산추정 | 단위: 분+일
- 계산식: dX=θ(μ-X)dt+σdW. 이산추정: ΔX_t = α + β·X_{t-1} + ε 회귀 → θ=-ln(1+β) (또는 -β근사). 반감기 = ln(2)/θ. 정상분포 분산 = σ²/(2θ). z-score=(X-μ)/√(σ²/2θ). 식 확인됨(arbitragelab, marcoagd half-life).
- 설계의도: 왜 ΔX를 X_{t-1}에 회귀하나: OU의 이산판이 정확히 AR(1)이고, 기울기 β가 '평균에서 멀수록 얼마나 강하게 당겨지나'를 준다. 반감기 ln(2)/θ는 '지금 벗어난 폭의 절반이 메워지는 시간' — 보유기간(내일~며칠)과 직접 매칭. 추세추종이 아니라 '얼마나 벌어졌고 며칠이면 복귀하나'를 시간으로 답.
- 목적적합: 지지·저항을 '평균회귀 균형선'으로 재정의. 가격이 정상분포 z=-2(하단)에 있으면 받칠 확률 높음 → 진입. 반감기가 보유기간보다 짧아야 며칠 안에 목표 도달 기대. 진입(과편차)·목표(평균μ)·시간(반감기)을 한 모델로.
- 우리데이터: 30분봉(매수매도 미구분이어도 종가 사용 가능) 또는 일봉 종가로 X. 종목-지수 스프레드, 종목-동종 스프레드, 또는 가격-이동평균 편차에 적용. β·θ는 OLS로 즉시 추정.
- 대중지표 대비 엣지: 이동평균 크로스는 '복귀할지'와 '며칠 걸릴지'를 못 답한다. OU는 회귀속도θ로 도달시간(반감기)을 정량화하고, 정상분포로 현재 편차의 통계적 극단성(z)을 준다 — RSI의 임의 70/30 대신 과정-기반 확률.
- 출처: T2_프랩_퀀트_공개자료 — Hudson&Thames arbitragelab OU model 문서, marcoagd.usuarios.rdc.puc-rio.br/half-life, flare9x OU half-life. 일부 정상분포 도달확률은 식 미확인(반감기·z는 확인).
10. EVT Peaks-Over-Threshold (GPD) 꼬리 손절폭 ✅¶
- 한줄: 수익률 꼬리를 일반파레토분포로 적합해 극단 하락폭(손절)과 꼬리위험을 추정
- 수학분류: 극단값이론(EVT) / Peaks-Over-Threshold / 일반파레토분포(GPD) | 단위: 일
- 계산식: 임계 u 초과분 Y=X-u. P(X>x|X>u) ≈ (1+ξ(x-u)/β)^{-1/ξ} (GPD). VaR_p = u + (β/ξ)[((n/N_u)(1-p))^{-ξ} - 1]. ES(꼬리기대)=VaR/(1-ξ)+(β-ξu)/(1-ξ). ξ=꼬리지수, β=스케일. 식 확인됨(AnalystPrep FRM, ScienceDirect GPD).
- 설계의도: 왜 정규분포 아닌 GPD인가: Pickands-Balkema-de Haan 정리 — 임계 초과분은 분포 종류와 무관하게 GPD로 수렴. 주가 수익률은 fat-tail이라 정규 ±2σ는 극단손실을 과소평가. ξ>0이면 멱법칙 꼬리 — 외삽 가능. '관측 안 된 극단'까지 안전하게 추정하는 유일한 정당화된 방법.
- 목적적합: 손절폭을 ATR(평균변동)이 아닌 꼬리분위수(예 1% VaR)로 설정 → 정상범위 노이즈엔 안 걸리고 진짜 붕괴만 손절. 손익비 계산의 분모(최대허용손실)를 꼬리분포로 정밀화. 갭하락 잦은 한국장에 적합.
- 우리데이터: 일봉 수년 로그수익률에서 하위 꼬리(예 상위10% 손실)를 임계 u로 잡고 GPD 적합(MLE). 종목별 ξ,β 추정. N_u/n로 초과율 계산.
- 대중지표 대비 엣지: ATR/볼린저는 정규·등분산 가정으로 fat-tail을 무시 — 한국장 상한가·갭에서 손절폭이 체계적으로 빗나간다. EVT는 꼬리만 따로 적합해 1%·0.1% 극단을 외삽, 손절을 '평균변동'이 아닌 '극단분포'로 결정.
- 출처: T1_학술_1차문서 — AnalystPrep FRM Part2 EVT, ScienceDirect 'Estimating extreme tail risk measures with GPD'(S0167947315003163). Pickands-Balkema-de Haan 표준정리.
14. 코퓰러 조건부 도달확률(종목-지수 꼬리의존) ✅¶
- 한줄: 지수/동종이 오를 때 이 종목이 따라오를 조건부확률을 꼬리의존 코퓰러로 계산
- 수학분류: 코퓰러(Student-t/Clayton) / 꼬리의존계수 / 조건부분포 | 단위: 일
- 계산식: 주변분포 F_X,F_Y(경험분포). 결합 C(u,v) 적합. 조건부확률 P(X≤x|Y=y)=∂C(u,v)/∂v |{u=F_X(x),v=F_Y(y)}. 하단꼬리의존 λ_L=lim{q→0}C(q,q)/q (Clayton>0). 오미스프라이싱지수 MI=P(R_X<r_x|R_Y=r_y). 식 확인됨(Hudson&Thames copula, arbitragelab MI strategy).
- 설계의도: 왜 상관계수 아닌 코퓰러인가: 선형상관은 '평균적 동조'만, 정규결합은 꼬리의존=0이라 폭락동반을 못 잡는다. 코퓰러는 주변분포와 의존구조를 분리 — Student-t는 대칭꼬리, Clayton은 하락쪽 강한 동조(주식 실측 특성). 조건부 미분 ∂C/∂v가 'Y가 이만큼일 때 X분포'를 정확히.
- 목적적합: 지수/대장주가 상단돌파할 때 후발종목이 따라줄 조건부확률 → 동조매수 진입 타이밍. MI<임계면 종목이 지수대비 저평가(받칠 자리). 매크로→종목 연결을 확률로. 하단꼬리의존 높으면 지수급락 시 동반붕괴 위험 → 손절 강화.
- 우리데이터: 종목·지수(또는 종목·동종대장) 일봉 수익률로 경험주변분포→코퓰러 MLE 적합. KOSPI/섹터지수 vs 종목. 베이시스·프로그램매매를 추가변수로 vine copula 확장 가능.
- 대중지표 대비 엣지: 상관계수·베타는 평균동조만 주고 '지수가 +3%일 때 종목분포'를 못 준다. 코퓰러는 조건부 전체분포와 꼬리의존을 분리 산출 — 정상장 동조와 폭락장 동반붕괴를 다른 파라미터로. 단순상관엔 없는 비선형·비대칭.
- 출처: T2_프랩_퀀트_공개자료 — Hudson&Thames copula pairs trading, arbitragelab Mispricing Index strategy, MDPI 2025 copula pairs(18/9/506). ∂C/∂v 조건부식 확인.
55. 조건부 코퓰러 (신호 간 결합의존 모델링) 🔸¶
- 한줄: 각 신호의 주변분포와 의존구조(코퓰러)를 분리, 레짐 조건부로 코퓰러를 바꿔 신호 동시발생의 비선형·꼬리의존을 반영.
- 수학분류: 코퓰러 / 조건부 결합분포 | 단위: 일
- 계산식: Sklar: F(x1,..,xd)=C(F1(x1),..,Fd(xd)). 조건부: C_t(u1,..,ud | 레짐_t). P(모든 신호 동시 강세 | 레짐) = C의 상측 꼬리의존 λ_U = lim_{u→1} P(U2>u|U1>u). 우도=c(u)·Πf_i.
- 설계의도: 신호들은 평소엔 약상관이지만 급변시 함께 움직인다(꼬리의존). 선형상관(피어슨)은 이걸 못 잡는다. 코퓰러는 주변분포(각 신호의 강세 정도)와 의존구조(동시발생 경향)를 분리해, '신호들이 동시에 정렬될 확률'을 꼬리까지 정확히 산출. 레짐 조건부로 의존이 강해지는 국면을 모델링.
- 목적적합: 매물돌파+수급유입+재료가 동시정렬할 때 단순곱(독립가정)은 과소평가. 코퓰러로 동시정렬 확률을 상향보정 → '내일 상단 뚫을 확률'의 결합부분.
- 우리데이터: 각 신호를 경험누적분포로 [0,1]변환(pseudo-obs). 일별 다변량 의존을 Gaussian/Clayton/t-코퓰러로 적합, 레짐별(변동성분위) 분리 추정. 꼬리의존 λ_U 산출.
- 대중지표 대비 엣지: OBV·거래량급증 같은 단일축 신호와 차원이 다르다. 신호들의 '동시정렬 경향'을 꼬리까지 모델링 — 평상시 약상관이 급변시 강상관으로 바뀌는 비선형 의존을 선형상관/단순곱은 놓치지만 코퓰러는 포착.
- 출처: T1_학술_1차문서 — Patton 'Copula-Based Models for Financial Time Series'(Duke), COPAR vine copula(ScienceDirect S1544612316000076), 조건부 코퓰러 VaR(jds-online.org). 시변 조건부 의존 명시.
63. VECM 영구-일시 분해 / Gonzalo-Granger 가격발견 (지수·섹터 대비 종목) ✅¶
- 한줄: 종목과 지수(또는 선도주)의 공적분 VECM에서 영구(추세)·일시(되돌림) 성분을 분해 — 종목이 과/저평가로 벌어진 일시성분이 곧 단기 되돌림 기대
- 수학분류: 다변량 상태공간 / 공적분 VECM (영구-일시 분해, 정보비중) | 단위: 일
- 계산식: ΔY_t = αβ'Y_{t-1} + Σ Γ_i ΔY_{t-i} + ε_t; Gonzalo-Granger 영구성분 f_t = γ'⊥ Y_t (γ⊥ ⊥ α), 일시성분 = Y_t - 공통추세 적재. 정보비중 = α_⊥ 성분의 기여비율. 종목의 일시성분(잔차) = 단기 평균회귀 신호.
- 설계의도: 종목·지수가 장기균형(β'Y)을 공유하면, 단기 괴리는 일시성분으로 분리됨. α(조정속도)·γ_⊥(공통추세 방향)의 행렬연산이 '어느 쪽이 끌고(영구) 어느 쪽이 따라가는지(일시)'를 분해 — 일시성분 부호가 내일 되돌림 방향.
- 목적적합: 상하단 확률(목적1,2): 종목이 지수 대비 일시적으로 눌렸으면 하단 받침(반등) 확률↑, 과열이면 상단 저항. 매물구조를 '상대가치'로 보강.
- 우리데이터: 종목·KOSPI/섹터지수 일별 로그가격으로 Johansen VECM 추정, 일시성분 시계열 산출.
- 대중지표 대비 엣지: 상대강도(대중)는 비율일 뿐 균형·조정속도를 모델링 못 함. VECM 영구-일시 분해는 공통추세를 통계적으로 분리하고 조정속도 α로 되돌림 강도를 수치화 — Engle-Granger 2변수의 상위 다변량판. (출처: Gonzalo & Granger 1995)
- 출처: T1_학술_1차문서 — Gonzalo & Granger (1995) Permanent-Transitory decomposition; Hasbrouck (1995) Information Share. https://economia.uc3m.es/jgonzalo/teaching/AppliedEconomics/PriceDiscovery.pdf
70. 몬테카를로 시나리오 (블록 부트스트랩 경로 + 배리어 동시확률) ✅¶
- 한줄: 과거 수익 블록을 재추출해 내일~N일 가격경로 수천 개를 생성 — 상단도달·하단도달·동시확률·기대손익비를 경험분포로 직접 산출
- 수학분류: 몬테카를로 / 경로 시뮬레이션 (블록 부트스트랩, 경험분포) | 단위: 일
- 계산식: 블록(길이 b) 재추출로 경로 {P_t^(m)} M개 생성. P(상단 먼저) = (1/M)Σ 1[τ_up^(m) < τ_down^(m)]; 기대손익비 = E[목표도달 이익]/E[손절 손실]; VaR/CVaR = 경험분위수. GBM/OU 모수 시뮬도 병행.
- 설계의도: 닫힌해(GBM 배리어)는 정규·일정변동성 가정. 블록 부트스트랩 경로는 실제 수익의 꼬리·자기상관·군집성을 보존해 시뮬 — 1[ ] 지시함수 평균이 곧 도달확률, 모형오류 없이 경험적으로. first-passage 닫힌해의 비모수 보강.
- 목적적합: 손익비·상하단 결합(목적1,2,3,4): 진입가·손절·목표를 넣으면 도달확률·기대손익비·CVaR을 한 번에. 여러 신호로 조건부 블록을 골라 시나리오 분기.
- 우리데이터: 종목 일별 수익 시계열을 블록 부트스트랩, 진입/손절/목표 입력해 경로 시뮬. numpy 즉시.
- 대중지표 대비 엣지: ATR 손절·고정 R:R(대중)은 단일추정·꼬리무시. MC 블록부트스트랩은 실제 분포의 꼬리·의존성을 보존해 도달확률·손익비를 분포로 산출 — first-passage 닫힌해의 강건 보완. (출처: Politis-Romano 블록부트스트랩 + 경로시뮬)
- 출처: T2_프랩_퀀트_공개자료 — 블록 부트스트랩(Politis-Romano) + first-passage 경험추정. 프랩 시나리오 분석 표준 기법.
L3 손익비 (9개)¶
7. 조건부 분위수회귀 (Quantile Regression) — 확률적 지지/저항·손익비 ✅¶
- 한줄: 내일 수익률 분포의 5%/50%/95% 분위수를 직접 예측해, 하단(지지=하방 분위수)·상단(저항=상방 분위수)과 비대칭 손익비를 확률로 그린다.
- 수학분류: 분위수회귀 (체크손실 최소화, 분포·꼬리 직접추정) | 단위: 분+일
- 계산식: 분위수 τ 추정: min_β Σ_t ρ_τ(r_t - x_t'β_τ), 체크손실 ρ_τ(u)=u·(τ - 1{u<0}) = max(τu, (τ-1)u). 즉 양의오차는 τ로, 음의오차는 (1-τ)로 비대칭 가중. 예측: Q_τ(r_{t+1}|x_t)=x_t'β̂_τ. 예측변수 x_t=과거수익률·체결강도·수급·변동성. VaR_τ = Q_τ.
- 설계의도: 체크손실의 비대칭 가중(τ vs 1-τ)이 핵심: τ=0.05면 음의 오차에 0.95, 양에 0.05를 곱해 최소화 → 추정선이 데이터의 하위 5% 경계로 끌려간다. 평균회귀(OLS, 제곱손실)와 달리 절대값·비대칭 손실이라 꼬리(극단 지지/저항)를 robust하게 추정. 분포 전체를 한 가정 없이(비모수적으로) 그린다.
- 목적적합: 목적의 핵심 4요소를 한 모델로: (1)상단돌파확률≈1-τ where Q_{τ}=목표가, (2)하단받침=Q_{0.05}(확률적 지지선=손절 후보), (3)손익비=(Q_{0.95}-진입)/(진입-Q_{0.05}) 직접계산, (4)예측변수에 수급·체결강도·재료더미를 넣어 결합. ATR손절 대신 '5% 분위수 손절'이라는 확률보장 손절.
- 우리데이터: 일봉 r_{t+1}을 종속, x_t=[전일수익률, 체결강도, 투자자순매수, 프로그램, EWMA변동성]로 statsmodels QuantReg를 τ∈{0.05,0.25,0.5,0.75,0.95}에 각각 적합. 30분봉에도 적용해 일중 분위수밴드 생성.
- 대중지표 대비 엣지: 볼린저밴드는 '평균±2σ'로 대칭·정규가정. 분위수회귀는 분포가 비대칭·두꺼운꼬리여도 상·하단을 따로, 예측변수 조건부로 추정한다. 게다가 상단/하단이 '도달확률 1-τ'라는 명시적 확률을 달고 나와 손익비 계산에 바로 투입. 대칭 밴드가 못 주는 비대칭 지지저항·확률라벨을 제공.
- 출처: T1_학술_1차문서 — Koenker-Bassett 1978; ScienceDirect S1544612315001385(parsimonious QR day-ahead VaR); arXiv 2108.01967(conditional quantile realized GARCH); arXiv 2408.07497(quantile NN 분포예측)
11. 분위수회귀 / CAViaR 조건부 상하단 분위수 예측 ✅¶
- 한줄: 수익률 분포의 상위·하위 분위수를 수급·추세변수로 직접 조건부 예측(평균 아닌 분포끝)
- 수학분류: 분위수회귀(Koenker) / CAViaR(Engle-Manganelli) 동적 조건부분위수 | 단위: 일
- 계산식: 분위수회귀: Q_τ(r|X)=Xβ_τ, β_τ=argmin Σ ρ_τ(r-Xβ), ρ_τ(u)=u(τ-1{u<0}) (pinball loss). CAViaR(자기회귀): VaR_t(τ)=β0+β1·VaR_{t-1}+β2·f(r_{t-1}) (예 |r_{t-1}|). 식 확인됨(Koenker pinball, Engle-Manganelli NBER w7341).
- 설계의도: 왜 비대칭 핀볼손실인가: τ=0.9면 과소예측에 0.9, 과대예측에 0.1 가중 → 추정선이 정확히 90% 분위수를 통과. 평균회귀(OLS)는 분포중앙만 보지만, PM이 원하는 건 '상단 어디까지/하단 어디까지'의 분포 양끝. 상위분위수는 음의 자기상관, 하위분위수는 양의 자기상관(검색결과) — 한 모델로 비대칭 포착.
- 목적적합: 내일의 90%분위 수익률 = 현실적 상단목표, 10%분위 = 현실적 손절폭을 수급(투자자순매수·체결강도)·추세로 조건부 산출. 목표·손절을 분포끝에서 직접 읽어 손익비 계산. '평균상승'이 아닌 '상단돌파폭의 분포'에 답.
- 우리데이터: 일봉 수익률을 종속변수, 설명변수로 투자자수급(ka10047 체결강도, 기관/외국인 순매수), 프로그램매매, 전일 변동성, 베이시스. τ=0.1,0.5,0.9 각각 회귀. CAViaR는 자기회귀 VaR로 변동성클러스터 반영.
- 대중지표 대비 엣지: RSI·볼린저는 분포가정 없이 임의밴드를 그린다. 분위수회귀는 수급변수가 '상단꼬리'와 '하단꼬리'에 미치는 영향을 따로 추정 — 평균엔 안 보이는 비대칭(상승장악/하락취약)을 분리. CAViaR는 정규·iid 가정 없이 분위수만 동적 추적.
- 출처: T1_학술_1차문서 — Engle&Manganelli CAViaR NBER w7341, Koenker 분위수회귀, arxiv 2408.07497 quantile neural nets for return distribution. pinball loss·CAViaR 식 확인.
23. 분위수회귀 조건부수익분포 (Koenker, 비대칭 RR) ✅¶
- 한줄: 평균이 아니라 수익분포의 5%/50%/95% 분위수를 설명변수(수급·체결강도·잔차)로 직접 예측해, 내일 하단(손절)·중앙(기대)·상단(목표)을 한 모델로 산출한다.
- 수학분류: 분위수회귀(비대칭 pinball loss 최적화) | 단위: 일
- 계산식: 분위수 tau에 대해 Q_tau(r_{t+1}|x_t)=x_t' * beta(tau)를 pinball loss 최소화로 추정: min sum rho_tau(r - x'beta), rho_tau(u)=u(tau - 1{u<0}). tau=0.05,0.5,0.95 각각 적합. x_t=[잔차 s-score, 체결강도, 수급순매수, 레짐확률]. 손절목표=Q_0.05, 기대=Q_0.5, 상단목표=Q_0.95. RR=(Q_0.95-진입)/(진입-Q_0.05).
- 설계의도: 평균회귀(OLS) 대신 분위수별 beta(tau)를 따로 추정하는 이유: 같은 수급증가가 상승장(상단)과 하락장(하단)에 비대칭 영향을 줄 수 있는데 OLS는 평균효과 하나만 줌. pinball loss를 쓰는 이유: 과대/과소예측에 비대칭 벌점을 줘 특정 분위수를 정확히 맞추도록 설계. 분포 가정 불필요(비모수적).
- 목적적합: 손익비를 '한 모델에서' 직접(목적3): 상단목표·하단손절·중앙기대를 분위수로 동시 산출 -> RR이 곧 모델출력. 단기진입확률: P(r>0)을 분위수 보간으로. 결합(목적): 매물구조 s-score·수급·레짐을 설명변수로 넣어 모든 신호를 '내일 분위수'라는 하나의 분포예측으로 융합.
- 우리데이터: 일봉 다음날 수익률을 y로, 당일 s-score/체결강도(ka10047)/투자자순매수/프로그램/레짐확률을 x로 분위수회귀. 수년치 일봉이면 충분. 30분봉으로 일중 분위수 확장.
- 대중지표 대비 엣지: RSI/스토캐스틱은 분포 무시한 단일 오실레이터지만 분위수회귀는 내일 수익의 '전체 조건부분포'를 비대칭으로 예측 -> 손익비를 가정 없이 데이터로 산출. 평균예측 모델과 달리 꼬리(5%/95%)를 직접 다뤄 한국증시 비대칭에 적합.
- 출처: T1_학술_1차문서 — Koenker & Bassett (1978) quantile regression; 금융 VaR/분포예측 적용 arXiv 1308.4276, ScienceDirect S1544612315001385(day-ahead VaR), arXiv 2408.07497(stock return distribution quantile nets). pinball loss·tau별 beta 확인.
33. Amihud 비유동성 (ILLIQ, 일별 가격충격 근사) ✅¶
- 한줄: 절대수익률/거래대금으로 '1원 거래가 가격을 얼마나 움직이나'를 일별 측정 -> 비유동 종목의 충격민감도·되돌림·프리미엄 포착
- 수학분류: 마이크로구조 일집계 / 가격충격 | 단위: 일
- 계산식: ILLIQ_t = |r_t| / (거래대금_t) (일별). 기간평균 ILLIQ = (1/D)Σ |r_d|/Vol_d. 단위: 가격변화%/원. 클수록 비유동(소액에도 크게 움직임). 로그·윈저화로 분포보정.
- 설계의도: 나눗셈 |r|/대금: 같은 수익률이라도 적은 거래대금으로 났으면 충격민감(분모 작음->ILLIQ 큼). '가격이 얼마나 쉽게 밀리나'를 OHLCV만으로 근사. 절대값으로 방향 무관 충격크기만.
- 목적적합: 상단돌파 신뢰도: ILLIQ 낮은(유동) 종목의 돌파가 더 견고, 높은 종목은 얇은 호가로 가짜돌파·되돌림 위험. 진입 슬리피지 사전추정(손익비 비용항). 비유동 프리미엄으로 며칠보유 수익기대 보정.
- 우리데이터: 일봉 수익률 + 거래대금(종가×거래량 또는 직접 거래대금)으로 즉시 계산. 베이시스·수급과 결합. 수년치 일별 ILLIQ.
- 대중지표 대비 엣지: 단순 거래량은 '많다/적다'만. Amihud는 거래량 대비 가격반응을 비율로 -> 같은 거래량이라도 가격이 쉽게 밀리는지(충격민감도)를 측정. 돌파 견고성·슬리피지 비용을 정량화하는 비대중 충격지표.
- 출처: T1_학술_1차문서 — Amihud (2002) 'Illiquidity and Stock Returns: Cross-Section and Time-Series Effects' (JFM, UPenn 공개 PDF); Odegaard 강의노트 구현. https://www.cis.upenn.edu/~mkearns/finread/amihud.pdf
35. 제곱근 충격법칙 (Square-Root Law of Market Impact) 🔸¶
- 한줄: 메타오더 크기 Q를 체결할 때 가격충격이 sqrt(Q)·변동성에 비례한다는 프랩 경험칙 -> 내 진입물량의 충격·슬리피지를 일변동성으로 추정
- 수학분류: 마이크로구조 / 비선형 충격 (멱법칙) | 단위: 일
- 계산식: ΔP/P ≈ Y · σ_daily · sqrt(Q / V_daily). Y=상수(≈0.5~1, 시장별 보정), σ_daily=일변동성, Q=주문물량, V_daily=일거래량. 충격은 참여율 η=Q/V의 ~0.5승. Zarinelli 등 실증: 듀레이션·참여율 각 지수 δ≈0.52~0.54.
- 설계의도: sqrt(Q/V): 충격이 물량에 선형이 아니라 제곱근으로 둔화(유동성 공급의 잠재성·되돌림 때문). σ를 곱해 변동성 큰 종목일수록 같은 참여율에 충격 큼. 곱셈구조로 '물량·변동성·유동성' 세 요인을 하나의 충격예측식에.
- 목적적합: 손익비 비용항: 진입·청산 슬리피지를 사전 추정 -> 목표/손절폭에서 비용 차감해 실현 손익비 계산. 내 주문이 V_daily 대비 클수록(소형주) 충격 큼->포지션 크기 상한. 며칠보유 분할매수 설계.
- 우리데이터: 일봉 σ(고저종 기반 또는 RV) + 일거래량 V + 내 계획물량 Q로 즉시 계산. Y는 한국시장 데이터로 사후 보정(체결가 대비 검증).
- 대중지표 대비 엣지: 대중지표엔 '내 주문이 가격을 얼마 밀까'라는 비용모델 자체가 없다. SQRT법칙은 프랩·집행데스크가 실제 쓰는 충격공식 -> 손익비를 '실현 가능' 수준으로 보정. 백테스트 환상수익 제거.
- 출처: T2_프랩_퀀트_공개자료 — Bouchaud 등 'Square-Root Law of Market Impact' (bouchaud.substack.com); Zarinelli et al. (2015) (arXiv:1412.2152); '두 제곱근 법칙' (arXiv:2311.18283). 프랩 집행 표준.
36. Corwin-Schultz 고저 스프레드 추정 (일봉 고가/저가) ✅¶
- 한줄: 일봉 고가·저가 비율의 1일/2일 분산구조 차이로 호가스프레드를 역산 -> 호가데이터 없이 거래비용·유동성을 일봉만으로 추정
- 수학분류: 마이크로구조 / 고저변동 기반 스프레드 | 단위: 일
- 계산식: β=E[(ln(H_t/L_t))^2 + (ln(H_{t+1}/L_{t+1}))^2], γ=(ln(H_{t,t+1}/L_{t,t+1}))^2 (2일 통합 고저). α=(sqrt(2β)−sqrt(β))/(3−2sqrt2) − sqrt(γ/(3−2sqrt2)). 스프레드 S=2(e^α−1)/(1+e^α).
- 설계의도: 고저폭은 '변동성+스프레드' 둘로 구성. 변동성은 기간에 비례(2일=2배)하지만 스프레드는 기간 무관(상수). 1일·2일 고저폭을 비교해 기간비례 안 하는 성분(스프레드)을 대수적으로 분리 -> 호가 없이 거래비용 추출. 고가=매수체결·저가=매도체결 가정.
- 목적적합: 거래비용 정밀화: 종목별 일별 실효스프레드 -> 손익비 비용항(SQRT법칙과 결합). 스프레드 급확대일은 유동성 악화(돌파 가짜위험). 비유동 종목 진입회피 필터.
- 우리데이터: 일봉 고가/저가만으로 직접 계산(수급·거래량 불필요). 수년치 일별 스프레드 시계열. 음수보정(α<0이면 0처리).
- 대중지표 대비 엣지: 대중지표는 거래비용을 무시하거나 고정값 가정. Corwin-Schultz는 매일 변하는 실효스프레드를 고저폭 분산분해로 추정 -> 손익비에 종목·시점별 실제비용 반영. 호가데이터 불필요한 비대중 추정량.
- 출처: T1_학술_1차문서 — Corwin & Schultz (2012) 'A Simple Way to Estimate Bid-Ask Spreads from Daily High and Low Prices' (Journal of Finance; NBER PDF). http://users.nber.org/~confer/2009/mms09/Corwin_Schultz.pdf
37. Roll 실효스프레드 (가격변화 음의 자기공분산) ✅¶
- 한줄: 연속 가격변화의 음의 1차 자기공분산에서 실효스프레드를 역산 -> 매수-매도 호가 튕김(bid-ask bounce)으로 인한 비용을 종가만으로 추정
- 수학분류: 마이크로구조 / 직렬공분산 스프레드 | 단위: 일
- 계산식: S_Roll = 2·sqrt(−Cov(Δp_t, Δp_{t-1})), Cov<0일 때만(>=0이면 0 또는 결측). p=로그종가. 비례스프레드 s=2sqrt(−E[Δp_t·Δp_{t-1}]).
- 설계의도: 효율적 시장서 진짜 가격은 랜덤워크(공분산 0)지만, 체결이 매수호가/매도호가를 번갈아 튕기면 가격변화에 음의 자기상관이 생긴다(올랐다 내렸다 반복). 그 음의 공분산 크기가 스프레드 제곱에 비례 -> sqrt로 역산. 인접 가격변화 곱의 부호로 거래비용을 추출.
- 목적적합: 거래비용 교차검증: Corwin-Schultz와 독립적으로 스프레드 추정 -> 둘 일치하면 신뢰. 음공분산이 양수로 뒤집히는 종목은 추세성(자기상관 양)=돌파지속 신호로도 해석. 손익비 비용항 보조.
- 우리데이터: 일봉 로그종가 수익률의 1차 자기공분산을 롤링윈도(예 20일)로 계산. 단일 데이터(종가)만. 음수일 때만 스프레드 유효.
- 대중지표 대비 엣지: 대중지표 어디에도 '가격변화 자기공분산->비용' 발상 없음. Roll은 종가만으로 거래비용과 동시에 가격의 자기상관 부호(추세성)를 드러냄 -> 비용추정+추세진단 이중용도. 단, 한국시장 양공분산 빈발(검증필요).
- 출처: T1_학술_1차문서 — Roll (1984) 'A Simple Implicit Measure of the Effective Bid-Ask Spread' (Journal of Finance); Odegaard 'Roll Spread Estimator' 강의노트. https://www.ba-odegaard.no/teach/notes/liquidity_estimators/roll_spread_estimator/roll_lectures.pdf
46. 조건부 일중 고저 분위수회귀 (지지·저항 확률밴드) ✅¶
- 한줄: 내일 종가/저가/고가의 조건부 분위수를 직접 회귀해 '하단 받칠 확률·상단 뚫을 확률'을 분포로 산출
- 수학분류: 분위수회귀 (Koenker, pinball loss, 비교차 다분위 동시추정) | 단위: 일
- 계산식: 분위수 τ에 대해 Q_τ(y|x)=x'β_τ, β_τ=argmin Σ ρ_τ(y_i−x'β), ρ_τ(u)=u(τ−1{u<0}) (pinball loss). y=내일 저가(또는 고가/수익), x=오늘의 칼만 매집강도·VPIN·체결강도레짐·OU베이시스·변동성. τ={0.05,0.1,...,0.95} 동시추정(비교차 제약). P(내일 저가 > 지지선 S) = 분위수 곡선에서 보간.
- 설계의도: OLS는 평균만 — 트레이딩은 '하단이 어디서 받치나(하위분위수)'와 '상단 돌파확률(상위분위수)'이 핵심. pinball loss는 비대칭 가중으로 특정 분위수를 직접 적합 — 평균·정규성 가정 불요. 가감승제 핵심: ρ_τ의 비대칭 가중(τ vs 1−τ)이 분포의 특정 백분위를 겨냥. 다분위 동시추정으로 내일 가격의 전체 조건부 분포를 비모수적으로 구성.
- 목적적합: 지지저항/손익비/단기진입확률을 하나로: 모든 수급·미시구조 인자를 x로 받아 → P(상단돌파), P(하단지지), 기대손익비를 분위수곡선에서 직접 읽음. 이것이 '4가지를 하나의 확률로 결합'하는 통합 레이어.
- 우리데이터: 입력 x = 위 기법들의 출력(칼만θ̂, VPIN, 레짐확률, OU z, λ_L) + 일봉 변동성. 타깃 y = 내일 저가/고가/수익. 수년치 일봉 패널로 종목풀 적합.
- 대중지표 대비 엣지: 고정 지지/저항선·ATR밴드 대비: (1)지지/저항을 '확률밴드'로(점이 아닌 분포), (2)수급·미시구조 조건을 반영한 조건부 — 시장상태별로 밴드 이동, (3)손익비를 분포에서 직접 계산. 피보나치/볼린저의 무조건·고정밴드를 비모수 조건부 분포로 대체.
- 출처: T1_학술_1차문서 — Koenker & Bassett 1978 분위수회귀; arXiv 1909.12122 비교차 복합분위수; Nature s41598-021-90063-3 분위수회귀 확률예측. pinball loss·비교차 제약 확인.
67. 컨포멀 예측구간 (Conformal Prediction, 시계열판 SPCI/EnbPI) ✅¶
- 한줄: 분포가정 없이 보정된 예측구간을 산출 — 내일 가격의 상·하단을 명목 커버리지(예 90%) 보장으로 직접 추정
- 수학분류: 분포무관 불확실성정량화 (적합도점수 분위수, 시계열 적응) | 단위: 일
- 계산식: 비적합도점수 s_i = |y_i - ŷ_i| (또는 정규화). 분할컨포멀: 보정집합 점수의 (1-α)(1+1/n) 분위수 q̂ → 구간 [ŷ ± q̂]. 시계열판 SPCI: 조건부 분위수 Q_{1-α}(s) 를 점수의 자기상관으로 적응 재추정 → 비교환성 보정.
- 설계의도: 분위수회귀/EVT는 분포·모형 가정이 필요하지만 컨포멀은 점수 분위수만으로 '유한표본 커버리지'를 보장(교환성 가정). 시계열판은 점수의 시간의존을 적응 분위수로 흡수 — 나눗셈(정규화)·분위수 연산으로 꼬리불확실성을 모형무관하게.
- 목적적합: 손익비·상하단(목적1,2,3): 내일 종가의 90% 예측구간 하단=손절 후보, 상단=목표 후보를 보장커버리지로 산출. 어떤 점예측(ML·회귀) 위에도 래핑 가능.
- 우리데이터: 일봉으로 점예측 모형(회귀/ML) 잔차→보정집합 분위수. 우리 다른 신호의 예측을 컨포멀로 구간화.
- 대중지표 대비 엣지: 볼린저밴드(대중)는 정규·고정배수 가정으로 커버리지 보장 없음. 컨포멀은 분포무관·유한표본 커버리지 보장, 시계열판은 의존성까지 적응 — 모든 예측기를 보정구간으로 감쌈. (출처: SPCI arXiv 2212.03463; EnbPI)
- 출처: T1_학술_1차문서 — Xu & Xie SPCI (2022); EnbPI; 금융 conformal. https://arxiv.org/pdf/2212.03463
L4 수급·점과정 (15개)¶
15. Hawkes 자기여기과정 — 점프클러스터/돌파지속 확률 🔸¶
- 한줄: 큰 변동(점프) 후 추가 점프 강도가 자기여기로 증폭되는 정도로 돌파지속 확률 추정
- 수학분류: 점과정(self-exciting) / Hawkes intensity / 분기율(branching ratio) | 단위: 분+일
- 계산식: 강도 λ(t)=μ + Σ_{t_i<t} α·e^{-β(t-t_i)}. 분기율 n=α/β (점프1개가 낳는 평균후속점프, n<1 안정). 점프 후 강도점프 +α, β로 감쇠. 군집지속시간 ~1/β. 식 확인됨(arxiv Hawkes calibration, marked Hawkes JFEC).
- 설계의도: 왜 강도가 과거점프에 의존하나: 변동성클러스터(큰 변동이 큰 변동을 부른다)를 강도의 자기여기로 직접 인코딩 — 등강도 푸아송(상수율)이 못 하는 것. α/β(분기율)가 '내생성' 측정: 1에 가까울수록 돌파가 자기강화로 지속. PM의 '돌파 후 오를 확률'을 점프전염으로.
- 목적적합: 상단돌파(큰 양봉) 직후 분기율 높으면 추세지속 확률↑ → 돌파매수 유지. 분기율 낮으면 1회성 → 되돌림 대비. 일내 점프강도를 30분봉 큰변동 카운트로 집계해 '오늘 돌파가 며칠 갈지' 추정. 군집지속 1/β로 보유기간 가늠.
- 우리데이터: 일봉/30분봉에서 |수익률|>임계(예 2σ)를 점프이벤트로 정의 → 발생시각열로 Hawkes MLE 적합(μ,α,β). 일별 점프카운트 또는 30분봉 집계로 틱불요. 종목별 분기율 추정.
- 대중지표 대비 엣지: 단순 거래량급증은 '지금 컸다'만 알려주고 '계속될 확률'을 못 준다. Hawkes는 분기율 α/β로 점프의 자기전염 강도를 정량화 — 돌파가 자기강화 레짐인지 1회성인지 분리. 등강도 가정을 깨는 유일한 점과정 프레임.
- 출처: T1_학술_1차문서 — marked Hawkes JFEC(22/3/743) price/variance jump clustering, arxiv Hawkes fast calibration/trade clustering. 분기율 n=α/β 확인. 점프임계 정의에 따라 백테스트 부분.
16. 조건부 주문흐름불균형(OFI) 일별 가격충격 회귀 ✅¶
- 한줄: 일별 순매수압력(부호화 거래량)으로 내일 방향성 확률을 선형충격모델로 예측
- 수학분류: 통계차익 / 가격충격 선형모델 / 부호화 주문흐름 | 단위: 일
- 계산식: OFI_t = (매수성 거래량 - 매도성 거래량) 또는 수급순매수 합. 가격충격 ΔP_t = β·OFI_t (단기 선형). 일별: r_{t+1} = α + β·OFI_t + ε (시차회귀). 부호일치 확률 P(r_{t+1}>0|OFI_t>0) 추정. 식 확인됨(arxiv 2004.08290, Chordia order imbalance).
- 설계의도: 왜 부호화 합산인가: 매수주도/매도주도를 +/-로 합치면 '순수요압력'이 되고, 단기 가격충격은 OFI에 거의 선형(검색결과 ΔP=β·OFI). 평균회귀 잔차와 달리 '수급이 가격을 미는 강도' β를 직접 추정. 전일 OFI가 익일 수익에 양의 시차효과(Chordia) — 단기진입 신호.
- 목적적합: PM의 '자금(수급)을 확률로 결합'에 직접. 전일 순매수(외국인·기관) 양이면 익일 상승확률↑를 회귀계수로 정량화. 다른 모델(분위수회귀·레짐)의 핵심 입력. 매물소화(매도압력 소진) 후 OFI 반전 = 받칠 자리.
- 우리데이터: 투자자수급 일별(외국인/기관/개인 순매수금액), 체결강도 일별(ka10047), 프로그램매매 순매수를 OFI 프록시로. 30분봉 종가변화 부호×거래량으로 일내 OFI 재구성(매수매도 미구분이므로 종가틱-룰 근사). r_{t+1} 시차회귀.
- 대중지표 대비 엣지: OBV·단순거래량급증은 부호만 누적하고 가격충격 계수β를 추정 안 한다. OFI회귀는 수급압력→수익의 탄성β와 익일 방향확률을 직접 산출 — 한국장 고유의 투자자별 수급데이터를 부호화해 단기 알파로. 거래량지표 대비 인과방향 명시.
- 출처: T2_프랩_퀀트_공개자료 — arxiv 2004.08290 market impact conditional on OFI, Chordia 'Order imbalance liquidity and market returns'(upenn finread). 30분봉 매수매도미구분→틱룰 근사는 추정.
24. Hawkes 자기여기 점과정 (일/분 집계 거래·점프 군집) 🔸¶
- 한줄: 큰 거래량/가격점프가 다음 점프를 자기여기(self-excite)로 끌어오는 강도를 추정해, '매수 군집이 지속될 확률(상단돌파)'을 점과정 강도로 수치화한다.
- 수학분류: 점과정(자기여기 Hawkes intensity) | 단위: 분+일
- 계산식: 이벤트(임계초과 거래/점프) 강도 lambda(t)=mu + sum_{t_i
n->1이면 임계(군집 폭발). 매수/매도 이벤트 분리해 이변량 Hawkes로 방향성. - 설계의도: 이전 이벤트들의 지수감쇠 합을 강도에 더하는 이유: 거래/점프는 독립(포아송)이 아니라 한 번 터지면 연쇄(주문분할·추종매수)되는 군집성을 가짐 -> 자기여기항이 이 클러스터링을 직접 모델. 지수커널 exp(-beta dt)인 이유: 최근 이벤트일수록 다음을 더 강하게 유발(시간감쇠). 분기율 n으로 '연쇄가 얼마나 자기지속적인가'를 한 수로 요약.
- 목적적합: 상단돌파/단기진입(목적1,3): 매수이벤트 강도 lambda가 높고 분기율 n이 1에 가까우면 '매수군집 지속 -> 돌파 확률 상승'. 매물구조(목적): 점프 군집이 매물대 돌파의 동역학. 결합: lambda를 다른 신호의 확률가중 부스터로.
- 우리데이터: 30분봉 거래량/수익률에서 임계초과(점프·대량) 이벤트를 일/분 집계로 재구성해 Hawkes 적합(틱 불필요, 집계판). 체결강도 일별·프로그램매매 급증일을 이벤트 마크로. 매수/매도 미구분이면 절대수익률 점프로 단변량, 체결강도로 방향보정.
- 대중지표 대비 엣지: 단순 거래량급증(게이트0 금지)은 '터졌다/안터졌다' 이진이지만 Hawkes는 '터진 뒤 얼마나 더 터질지'를 강도함수로 예측하고 분기율로 내생성(reflexivity)을 정량화 -> 플래시크래시/군집의 선행지표. 포아송 가정 모델이 못 잡는 장기기억·군집을 명시 모델.
- 출처: T1_학술_1차문서 — Hawkes (1971) self-exciting; 금융 reflexivity·분기율 Filimonov-Sornette, arXiv 1201.3572(flash crash reflexivity), arXiv 2408.03594(order flow imbalance Hawkes). 일집계 재구성은 ACD-Hawkes 매핑 arXiv 1306.2245. 마크/이변량 확장 MDPI Risks 8(1):28.
25. 전이엔트로피 투자자유형 정보흐름 (Schreiber, 한국증시 실증) ✅¶
- 한줄: 외국인->기관->개인 등 투자자유형 순매수 시계열 간 '방향성 정보흐름(transfer entropy)'을 측정해, 어느 주체가 내일 가격을 선도(lead)하는지 비선형 인과로 잡는다.
- 수학분류: 정보이론(전이엔트로피 / 비선형 인과) | 단위: 일
- 계산식: TE_{X->Y} = sum p(y_{t+1}, y_t, x_t) log [ p(y_{t+1}|y_t,x_t) / p(y_{t+1}|y_t) ]. X의 과거가 Y미래에 주는 '추가 정보'(비트). 이산화(분위수 binning) 후 추정, 부트스트랩으로 유의성. 비대칭: TE_{X->Y} != TE_{Y->X}로 선도/추종 판별. 신호: TE_{외국인순매수->수익률}>0 & 유의 -> 외국인이 선행.
- 설계의도: 조건부확률의 로그비(나누기 후 log)를 쓰는 이유: 'Y자신의 과거만으로 설명되는 부분'을 빼고 X가 추가로 주는 정보만 격리 -> 자기상관에 속지 않음. 선형 상관/Granger와 달리 분포 전체(비선형)를 봄. 비대칭이라 '누가 누구를 끄는가' 방향을 직접 줌.
- 목적적합: 자금/수급결합(목적4): 어느 주체가 가격선행인지 확인 후 그 주체 순매수를 진입신호로 우선 가중. 상단돌파(목적1): 선행주체의 매수전이가 강해지면 돌파확률 상승. 결합: TE로 '신호 소스의 신뢰도 가중치'를 데이터로 산정.
- 우리데이터: 투자자수급 일별(외국인/기관/개인 순매수)·체결강도·프로그램매매와 일수익률 간 전이엔트로피. 한국증시 투자자유형 TE 네트워크 실증 존재(arXiv 2603.20271). 수년 일봉이면 충분.
- 대중지표 대비 엣지: OBV·단순 수급방향은 '얼마 샀나'만 보지만 TE는 '그 매수가 내일 가격을 실제로 끄는가'를 비선형 인과로 검증 -> 후행적 수급(가격 따라간 매수)을 선행적 수급과 구분. Granger가 놓치는 비선형·시장스트레스기 인과를 포착(emergentmind 정리).
- 출처: T1_학술_1차문서 — Schreiber (2000) transfer entropy; 한국증시 투자자유형 적용 arXiv 2603.20271 'Information Propagation Across Investor Types: Transfer Entropy Networks in the Korean Equity Market'. 비대칭·EMH검정 해석 arXiv 2511.16339 Financial Information Theory.
28. BNS 점프검정 (Barndorff-Nielsen-Shephard bipower variation jump test) ✅¶
- 한줄: 실현변동성(RV)을 연속변동성(BV)과 점프성분으로 분리해, 어제 일중 가격움직임이 '추세성 점프'였는지 '연속적 변동'이었는지 통계검정으로 판별
- 수학분류: 점프확산 분리 / 비모수 실현측도 검정 | 단위: 분+일
- 계산식: RV_t=Σ r_i^2 (30분봉 일중수익률 제곱합). BV_t=(π/2)·Σ|r_i||r_{i-1}| (인접 절대수익률 곱의 합, π/2≈1.5708 보정). 점프성분 J_t=max(RV_t−BV_t, 0). 점프비율 RJ_t=(RV_t−BV_t)/RV_t. 검정통계량 z=(RV_t−BV_t)/sqrt((θ·TQ_t)/n), θ≈0.6090, TQ는 tripower quarticity. z가 임계치(예 1.96~3) 초과면 그날 점프 유의.
- 설계의도: 곱(|r_i||r_{i-1}|)을 쓰는 이유: 점프는 한 봉에만 큰 값이 튀므로 인접 두 봉을 곱하면 점프봉×정상봉=한쪽이 작아져 점프 기여가 상쇄된다 -> BV는 점프에 강건한 연속변동성만 남는다. RV(제곱합)은 점프까지 다 포함. 둘의 차가 곧 점프. 뺄셈으로 '연속 vs 불연속'을 수학적으로 분해.
- 목적적합: 레짐/재료 판별: 어제 상승이 점프(재료성 갭·세력 진입=추세 지속 가능성)인지 연속변동(노이즈)인지 구분. 점프 유의일 다음날 추세지속/되돌림 통계를 백테스트해 진입확률에 결합. 상단돌파 신뢰도 필터.
- 우리데이터: 30분봉(매수매도 미구분이어도 수익률 제곱·절대값엔 무관)으로 일별 RV/BV 계산. 일봉 종가로 보완. 일별 RJ 시계열을 수년치 만들어 다음날 수익률과 회귀.
- 대중지표 대비 엣지: 단순 거래량급증·갭은 '크기'만 본다. BNS는 변동을 연속/점프로 수학적으로 분해해 '재료성 추세 점프'와 '단순 변동성 확대'를 구분 -> 대중지표가 못 잡는 사건 질(質) 식별.
- 출처: T1_학술_1차문서 — Barndorff-Nielsen & Shephard (2004) 'Power and Bipower Variation with Stochastic Volatility and Jumps' (Duke 공개 PDF); Andersen-Bollerslev-Diebold tripower quarticity 검정 확장. https://public.econ.duke.edu/~get/browse/courses/883/Spr16/COURSE-MATERIALS/Z_Papers/BNSJFEC2004.pdf
29. 실현 반변동성 (Realized Semivariance, 상방/하방 분해) ✅¶
- 한줄: 일중 변동성을 양수수익률 부분(RS+)과 음수수익률 부분(RS-)으로 쪼개 상방/하방 변동성 비대칭을 측정 -> 다음 기간 수익률·하방위험 예측
- 수학분류: 실현측도 부호분해 / 비대칭 변동성 | 단위: 분+일
- 계산식: RS-_t = Σ r_i^2 · 1{r_i<0} (음수봉 수익률 제곱합). RS+_t = Σ r_i^2 · 1{r_i>0}. 항등식 RV=RS+ + RS-. 비대칭지표 SK_t=(RS+ − RS-)/RV (-1~+1). 부호점프변동 도 BNS 점프를 부호별로 분해 가능.
- 설계의도: 지표함수 1{r_i<0}로 수익률 부호를 곱해 제곱합을 둘로 가른다. 같은 RV라도 하락쪽 변동이 주(主)면 RS-가 크다 -> 단순 분산이 못 보는 '하방 쏠림'을 분리. 뺄셈 SK로 비대칭을 한 숫자로.
- 목적적합: 하단받침 판단: RS-가 급증한 종목은 하방위험 큼(지지 약함). RS+ 우세는 매수압력 우위(상단돌파 후보). 손익비 설계 시 하방분산만 따로 써서 손절폭 산정. 학술적으로 RS-가 다음주 수익률과 유의관계(하방쏠림->되돌림 프리미엄).
- 우리데이터: 30분봉 일중수익률을 부호별로 제곱합(매수매도 미구분 무관, 부호는 가격변화에서 나옴). 일별 RS+/RS-/SK 시계열 수년치 구축.
- 대중지표 대비 엣지: 볼린저/ATR은 상하 대칭 변동폭만 본다. 반변동성은 상방·하방을 수학적으로 분리해 '지지 강도'와 '돌파 압력'을 비대칭으로 측정 -> 손익비 설계에 직접 투입 가능한 비대칭 정보.
- 출처: T1_학술_1차문서 — Barndorff-Nielsen, Kinnebrock & Shephard (2008) 'Measuring Downside Risk: Realised Semivariance' (Duke/Oxford 공개 PDF). https://public.econ.duke.edu/~get/browse/courses/201/spr08/DOWNLOADS/New_Methods_and_JumpTests/BNKS-semivariance-2008.pdf
30. 일별 집계 Hawkes 자기여기 점과정 (Hawkes self-exciting on daily jump events) ✅¶
- 한줄: 급등·급락 '사건' 발생이 후속 사건확률을 끌어올리는 자기여기 강도를 추정 -> 어제 급등이 오늘 추가 급등을 부르는 군집·전염 확률 정량화
- 수학분류: 점과정 / 자기여기(Hawkes) 마르코프 외 기억 | 단위: 일
- 계산식: 강도 λ(t)=μ + Σ_{t_i<t} α·exp(−β(t−t_i)). μ=배경강도, α=한 사건이 강도에 더하는 점프(여기강도), β=감쇠속도(반감기 ln2/β). 분기율 n=α/β (<1이어야 안정; n클수록 군집 강함). 사건정의: 일수익률 |r_t|>θ(예 +5%/한계값) 또는 BNS 점프유의일. 추정: 로그우도 MLE 또는 EM.
- 설계의도: exp(−β·Δt) 지수커널: 최근 사건일수록 영향 크고 시간이 지나면 기하급수 감쇠. 합(Σ)으로 과거 모든 사건의 잔여여기를 누적. α/β 비율로 '한 번 급등이 평균 몇 개의 후속 급등을 낳는가'를 수학적으로 표현 -> 군집성을 하나의 분기율로.
- 목적적합: 단기진입 확률: 급등 다음날 추가 급등확률(λ 상승분)을 직접 확률로 산출. 테마 전염(한 종목 급등->동종 강도 상승, 다변량 Hawkes로 종목간 교차여기). 레짐: 현재 λ가 μ대비 높으면 '흥분 국면'. 보유기간 동안 추가사건 기대수 = 적분된 λ.
- 우리데이터: 일봉 수익률로 '사건 시점' 추출(임계 초과일)->점 데이터. 수년치 일봉으로 종목별/테마별 μ,α,β MLE 추정. 베이시스·수급 급변도 사건으로 정의 가능.
- 대중지표 대비 엣지: 단순 거래량급증은 사건의 '여파·전염·감쇠'를 모델링 못한다. Hawkes는 사건의 시간적 의존구조(군집·반감기·분기율)를 명시 모델 -> 급등의 지속성·전염성을 확률로. 대중지표엔 없는 점과정 기반 엣지.
- 출처: T1_학술_1차문서 — Hawkes (1971) 원논문; Bacry-Mastromatteo-Muzy (2015) 'Hawkes Processes in Finance' (arXiv:1502.04592); Ait-Sahalia-Cacho-Diaz-Laeven 'Modeling Financial Contagion Using Mutually Exciting Jump Processes' (NBER w15850). 일별 적용: 中 증시 Hawkes (arXiv:2512.08000).
34. Kyle's lambda 일별판 (가격충격 계수, 부호화 거래대금 회귀) ✅¶
- 한줄: 가격변화를 부호화 거래대금에 회귀한 기울기 λ로 '순매수 한 단위가 가격을 얼마 미나'를 추정 -> 정보거래 강도·충격 정량화
- 수학분류: 마이크로구조 / 선형 가격충격 회귀 (Kyle 모형) | 단위: 일
- 계산식: Δp_t = λ · SignedVol_t + ε. 일별판(Hasbrouck): r_t = λ · sign(r_t)·sqrt(거래대금_t) + ε, λ=회귀기울기. 부호화 거래량은 우리 수급데이터(투자자별 순매수=기관/외인 방향)로 직접 구성 가능. λ 클수록 충격 큼(비유동·정보거래 우세).
- 설계의도: 기울기 λ가 곧 충격탄력성: 순주문흐름(부호화 거래량) 대비 가격반응의 선형계수. sqrt(대금)는 충격이 거래량의 제곱근에 비례한다는 경험칙(아래 SQRT법칙) 반영. 회귀로 종목별 충격민감도를 하나의 λ로 추정.
- 목적적합: 자금/세력 진입 판별: 우리 투자자수급(기관·외인 순매수)을 부호로 써서 '기관 순매수가 가격을 실제로 미는 강도(λ)' 측정 -> 수급이 가격에 먹히는지 확인. λ 높은 날 돌파는 정보성. 진입 시 내 주문 충격 예측.
- 우리데이터: 일봉 수익률 + 투자자수급 일별(기관/외인 순매수 부호·금액) + 거래대금. 우리 데이터가 부호화 거래량을 직접 제공(ka10047 체결강도도 보조). 종목별 롤링 회귀로 λ_t.
- 대중지표 대비 엣지: OBV·단순수급은 순매수 '양'만 누적. Kyle λ는 순매수 대비 '가격이 실제 얼마 밀렸나'의 회귀계수 -> 수급이 가격에 미치는 효율(충격탄력성)을 측정. 우리 투자자수급 데이터를 가장 직접 활용하는 비대중 기법.
- 출처: T1_학술_1차문서 — Kyle (1985) 원모형; Hasbrouck (2009) 부호화 sqrt-대금 회귀; Odegaard 'Liquidity Estimators' 강의노트; frds.io/measures/kyle_lambda 구현. https://ba-odegaard.no/teach/notes/liquidity_estimators/lecture_liquidity_estimators.pdf
38. 실현왜도/첨도 단기 수익률예측 (Realized Skewness from intraday) ✅¶
- 한줄: 일중 고빈도 수익률로 주간 실현왜도를 계산 -> 왜도가 음(좌측꼬리)인 종목이 다음주 더 오르는 음의 왜도-수익률 관계를 단기 진입신호로
- 수학분류: 실현 고차모멘트 / 횡단면 예측 | 단위: 분+일
- 계산식: RSkew_t = (sqrt(N)·Σ r_i^3) / (RV_t)^{3/2}, RV_t=Σ r_i^2 (N=일중봉수). 주간집계. 음의 RSkew->고복권성 직전->다음주 수익 높음(Amaya 등 실증: 최저10분위 매수-최고 매도 +19bp/주, t=3.70).
- 설계의도: 3제곱(r_i^3)으로 분포 비대칭(꼬리방향)을 측정, RV^{3/2}로 표준화(스케일제거). 양수봉이 크면 +왜도(우꼬리), 음수봉이 크면 −왜도. 투자자가 복권형(우왜도)에 과지불->그 종목 미래수익 낮음 -> 음왜도 종목이 저평가->반등. 3차모멘트로 '꼬리 비대칭'을 한 수치로.
- 목적적합: 단기진입 확률: 음의 실현왜도 종목=하방쏠림 후 반등기대(하단받침 매수 후보). 양의 왜도=과열 가능. 진입확률의 횡단면 랭킹 인자. 며칠보유 수익기대에 직접 결합.
- 우리데이터: 30분봉 일중수익률 3제곱·제곱 합으로 일/주별 RSkew 계산(매수매도 미구분 무관). 수년치로 다음주 수익률과 횡단면 회귀 검증.
- 대중지표 대비 엣지: 스토캐스틱·RSI는 1·2차 정보(수준·변동)만. 실현왜도는 3차모멘트(꼬리 비대칭)로 '복권성·반등잠재'를 측정 -> 대중지표가 못 보는 분포형태 기반 단기수익 예측. 학술적으로 Fama-French·모멘텀에 안 잡히는 독립 알파.
- 출처: T1_학술_1차문서 — Amaya, Christoffersen, Jacobs, Vasquez 'Does Realized Skewness Predict the Cross-Section of Equity Returns?' (Journal of Financial Economics; Duke PDF). https://public.econ.duke.edu/~ap172/ACJV_26Dec2011.pdf
39. 수급 '잠재 매집강도' 칼만필터 (Local-Level State-Space) ✅¶
- 한줄: 외인/기관 일별 순매수의 노이즈를 제거하고 관측 불가능한 '진짜 매집강도' 잠재상태를 재귀추정
- 수학분류: 상태공간/칼만필터 (local-level 모델, MLE로 분산 추정) | 단위: 일
- 계산식: 관측식: y_t = θ_t + ε_t (ε_t~N(0,R)). 상태식: θ_t = θ_{t-1} + η_t (η_t~N(0,Q)). y_t = 당일 외인순매수/시총(또는 거래대금)으로 정규화한 값. 칼만 재귀: 예측 θ̂{t|t-1}=θ̂{t-1}, P_{t|t-1}=P_{t-1}+Q; 칼만이득 K_t=P_{t|t-1}/(P_{t|t-1}+R); 갱신 θ̂t=θ̂{t|t-1}+K_t(y_t−θ̂{t|t-1}), P_t=(1−K_t)P{t|t-1}. 신호=θ̂_t 부호·기울기. Q/R은 로그우도 최대화로 적합.
- 설계의도: 단순 5일/20일 순매수 합은 (a)윈도우 경계에서 계단형으로 튀고 (b)모든 날을 동일가중한다. 칼만은 신호대잡음비(Q/R)에 따라 적응적으로 가중 — Q/R이 크면 최근값 반영(추세전환 민감), 작으면 평활(노이즈 무시). 가감승제 핵심은 K_t라는 '적응 가중치'로 과거 추정과 신규 관측을 가중평균하는 것. 매집은 본질적으로 관측 불가(체결은 노이즈 포함)이므로 잠재상태로 모델링하는 것이 자연스럽다.
- 목적적합: 매물구조/자금 축: '외인이 지금 진짜로 모으고 있나'를 한 숫자(θ̂_t)와 그 기울기(Δθ̂)로 압축 → BUY 확률 결합에 직접 투입. 평활된 θ̂가 상승전환하는 시점이 단기 진입 트리거.
- 우리데이터: flow_series/{code}.json의 daily_flow.foreign_net, inst_net (수년치 가능하면 더 길게). 각 종목 시총 또는 거래대금으로 나눠 스케일 통일 후 칼만 적용. Q/R은 종목별 또는 유니버스 풀링 MLE.
- 대중지표 대비 엣지: 대중적 '5일 순매수 합' 대비: (1)윈도우 길이 임의선택 제거 — 데이터가 평활강도를 스스로 정함, (2)노이즈 분리로 추세전환 시점이 더 빠르고 안정적, (3)불확실성 P_t를 동반 출력해 신뢰도 가중 가능. OBV/단순누적이 못 주는 '상태+불확실성'을 준다.
- 출처: T2_프랩_퀀트_공개자료 — QuantStart 'State Space Models and the Kalman Filter'; arXiv 2601.05716 'Adaptive Signal Extraction via Kalman Filtering and Markov-Switching'. 페어트레이딩 헤지비 추정이 가장 흔한 용례이나 local-level은 단일 시계열 잠재추세 추출 표준.
40. 투자주체 전이엔트로피 (Effective Symbolic Transfer Entropy) ✅¶
- 한줄: 외인/기관/프로그램 중 누가 가격(또는 다른 주체)을 비선형·방향성으로 선행하는지 정보량(bit)으로 정량
- 수학분류: 정보이론 (Schreiber 전이엔트로피, 분위수 심볼화, 블록순열 유의성) | 단위: 일
- 계산식: TE(Y→X)=Σ p(x_{t+1},x_t,y_t)·log[ p(x_{t+1}|x_t,y_t) / p(x_{t+1}|x_t) ]. 연속신호를 5분위 심볼로 이산화(5×5×5=125 상태), 시차 k=l=1. 유효TE = TE_관측 − 평균(TE_셔플): 블록(20일)순열 200회로 surrogate 분포 생성, 95퍼센타일 초과+BH-FDR로 유의 판정. X=종목 일수익 심볼, Y=외인/기관/프로그램 순매수 심볼.
- 설계의도: 상관·그레인저는 선형·가우시안 가정. 수급→가격 관계는 비선형(극단 수급에서만 작동)이라 선형도구가 놓친다. TE는 조건부확률 비의 로그(=정보량)로 '주체Y의 과거가 X의 미래 불확실성을 얼마나 줄이나'를 분포수준에서 측정 — 가정 없는 방향성 인과 프록시. 셔플 차감은 유한표본 편향 제거(설계의도: 우연히 생기는 가짜 정보흐름 빼기).
- 목적적합: 레짐/주체 축: 종목별로 '이 종목은 외인이 선행한다 vs 기관이 선행한다'를 분류 → 어느 주체 신호에 가중할지 결정. 선행주체의 칼만 매집강도에 더 큰 가중을 주는 메타가중치로 결합.
- 우리데이터: flow_series/{code}.json 일별 외인·기관·프로그램 순매수 + 일수익(close). 수년치 일봉이면 125상태 빈도추정에 충분(최소 ~250+ 관측 권장).
- 대중지표 대비 엣지: 대중지표는 '수급=가격선행'을 무비판 가정. TE는 (1)선행 여부를 검정으로 확인, (2)비선형 꼬리 의존 포착, (3)종목·시기별 선행주체 변화를 추적. 주의: 한국시장 일별 주체간 TE가 0에 가깝다는 실증(arXiv 2603.20271)도 있어 — 가짜 엣지를 거르는 '음성 필터'로도 가치. 가설은 검정 후 채택.
- 출처: T1_학술_1차문서 — Schreiber(2000); arXiv 2603.20271 'Information Propagation Across Investor Types: Transfer Entropy Networks in the Korean Equity Market' — 5분위 심볼·125상태·블록순열·BH-FDR 정확 절차. 단 동 논문은 일별 주체↔수익 MI≈0 보고(중요 한계).
41. 수급-수익 하방 꼬리의존계수 (Copula λ_L) ✅¶
- 한줄: 극단 외인매도와 극단 음(-)수익이 '동시에' 터지는 조건부확률을 코퓰러로 추정(선형상관 너머)
- 수학분류: 코퓰러 / 극단값 (하·상방 꼬리의존계수 λ_L, λ_U) | 단위: 일
- 계산식: 경험적 추정: λ̂_U(u)=P(V>u | U>u) = #{공동초과}/#{한계초과}, u→1. U=수급의 경험누적확률순위(rank/(n+1)), V=수익의 순위. 하방 λ̂_L(u)=P(V<u|U<u), u→0. 모수적: Gumbel(상방 λ_U=2−2^{1/α}), Clayton(하방 λ_L=2^{−1/α}), Student-t(대칭 꼬리). 부트스트랩으로 신뢰구간.
- 설계의도: 피어슨 상관은 중앙부 평균관계만 잡고 꼬리(폭락·급등)에서의 동조를 과소평가한다. 트레이딩에서 손실은 꼬리에서 난다. 코퓰러는 한계분포(각 변수 형태)와 의존구조를 분리 → 의존의 '꼬리'만 따로 측정. 가감승제 핵심은 순위변환(rank)으로 한계분포 영향 제거 후 공동초과 빈도비를 세는 것. 비대칭(λ_L≠λ_U) 포착이 핵심 설계.
- 목적적합: 손익비/하단방어 축: λ_L이 높은 종목은 '외인이 던지면 같이 폭락' → 손절을 타이트하게. λ_L 낮으면 외인매도에도 하단이 받친다(지지). 상방 λ_U 높으면 외인매수 시 동반급등 기대 → 손익비 비대칭 추정에 직접 투입.
- 우리데이터: flow_series/{code}.json 일별 외인·기관 순매수(정규화) vs 일수익. 수년치 일봉 권장(꼬리추정은 표본 많을수록 안정 — 최소 ~500관측, 유니버스 풀링 가능).
- 대중지표 대비 엣지: 단순상관/베타 대비: (1)폭락·급등 구간의 동조를 직접 측정, (2)비대칭(하방>상방 등) 포착 — 손익비 설계의 정확한 입력, (3)한계분포 왜곡 제거. 볼린저/ATR이 못 주는 '꼬리에서의 수급-가격 결합확률'.
- 출처: T1_학술_1차문서 — ScienceDirect S1544612309000403 'Extreme return–volume dependence in East-Asian stock markets: A copula approach'; S0165176516302300 'Tail relation between return and volume (EVT)'. 경험적 λ̂ 추정·부트스트랩 절차 확인.
42. 베이시스/차익잔고 OU 평균회귀 + 최적 임계 트리거 (Leung-Li) ✅¶
- 한줄: 선물-현물 베이시스를 OU로 적합해 반감기·정상범위를 얻고, 최적정지이론으로 진입/청산/손절 임계를 수학으로 도출
- 수학분류: 확률과정 OU + 최적정지(variational inequality, Leung-Li 2015) | 단위: 일
- 계산식: OU: dX_t=κ(θ−X_t)dt+σdW_t. 이산 AR(1) 회귀 X_t=a+bX_{t-1}+e_t로 적합 → κ=−ln(b)/Δt, θ=a/(1−b), 반감기 H=ln2/κ. 정규화 z=(X−θ)/σ_eq, σ_eq=σ/√(2κ). 진입은 단순 z<−1이 아니라 Leung-Li 최적정지: 가치함수 V가 손절L 위 유계구간 [b, d]에서 진입영역. 빠른회귀(κ↑)→매수·매도레벨 근접, 변동성↑→레벨 이격(더 넓은 스프레드 대기).
- 설계의도: 베이시스·차익잔고는 구조적으로 평균회귀(차익거래가 강제) → OU가 자연모델. 단순 z-임계는 '얼마나 벗어나야 진입하나'를 임의로 정하지만, Leung-Li는 거래비용·손절제약 하에서 기대가치를 최대화하는 임계를 변분부등식으로 푼다. 가감승제 핵심: 반감기 H가 보유기간(내일~며칠)과 맞아야 트레이드 성립 — H가 보유지평보다 길면 신호 무효.
- 목적적합: 진입·손절·목표 축 + 레짐: 베이시스 극단(백워데이션 등)은 단기 수급 왜곡 신호. OU z-점수와 반감기로 '회귀까지 며칠' 추정 → 보유기간 적합성 게이트. 종목보다 시장 전체 수급긴장(프로그램 차익) 레짐 입력으로 활용.
- 우리데이터: macro_series.json의 basis(선물-현물), 프로그램 차익/비차익 잔고, KRX 베이시스. 일별 수년치. AR(1) 회귀로 κ,θ,H 즉시 산출.
- 대중지표 대비 엣지: 볼린저밴드(고정 2σ)는 평균회귀 속도를 무시. OU는 (1)반감기로 '며칠 안에 회귀하나'를 정량 → 보유지평 매칭, (2)Leung-Li로 손절·목표를 임의가 아닌 최적화로 산출(손익비를 수학으로), (3)정상성 검정(ADF/b<1)으로 회귀 가정 자체를 검증.
- 출처: T1_학술_1차문서 — Leung & Li 2015 arXiv 1411.5062 'Optimal Mean Reversion Trading with Transaction Costs and Stop-Loss Exit'; arbitragelab OU half-life 문서. 반감기 H=ln2/κ, 최적 b·d 도출 확인.
45. 일별 재구성 VPIN (Bulk Volume Classification) ✅¶
- 한줄: 매수매도 미구분 30분봉을 표준화수익으로 BVC 분해해 '주문흐름 독성/정보비대칭'을 일별 산출
- 수학분류: 시장미시구조 (Easley-LdP-O'Hara VPIN, BVC, 정규CDF 분해) | 단위: 분+일
- 계산식: 각 30분봉 buckets에서 매수량 V_b^B = V_b·Φ( ΔP_b / σ_ΔP ), 매도량 V_b^S=V_b−V_b^B. Φ=표준정규CDF, ΔP=봉 종가변화, σ_ΔP=ΔP 표준편차. VPIN = Σ|V_b^B−V_b^S| / Σ V_b (롤링 n버킷, 보통 50). 일단위 집계는 당일 30분봉들로 한 버킷셋 구성 또는 등량버킷 재샘플.
- 설계의도: 우리 30분봉은 매수/매도 미구분 — BVC가 정확히 이 문제를 푼다: 거래를 일일이 부호화하지 않고 '표준화 가격변화'로 매수비율을 추론(가격이 오르며 거래되면 매수주도). 가감승제 핵심: Φ(표준화수익)이라는 연속 비율로 한 봉의 거래량을 매수/매도로 분배 → 미구분 데이터의 한계를 통계적으로 우회. VPIN=절대불균형의 평균은 '정보거래자 활동확률'의 프록시.
- 목적적합: 단기 진입/매물구조 축: VPIN 급등은 정보비대칭 상승(누군가 알고 있음) → 큰 움직임 임박 신호. 방향은 BVC 순불균형 부호로 보강. 칼만 매집강도와 교차확인.
- 우리데이터: 30분봉 OHLCV(매수매도 미구분) — BVC가 미구분을 처리. ΔP=봉간 종가변화, σ는 롤링. 일/종목별 VPIN 시계열 산출.
- 대중지표 대비 엣지: 단순 거래량급증 대비: (1)거래량을 매수/매도 압력으로 분해(방향성), (2)정보비대칭이라는 미시구조 개념 포착, (3)미구분 데이터에서도 작동. 한계(메타노트): VPIN은 변동성·거래량과 강상관이라 증분예측력 약함 — 단독신호 아닌 결합인자로만 사용.
- 출처: T1_학술_1차문서 — Easley, López de Prado, O'Hara 2012 (quantresearch.org/VPIN.pdf); BVC=Φ(표준화수익). 비판(메타): microalphas/Medium — 거래량·변동성과 기계적 상관, 증분력 약함.
47. 공매도/체결 자기여기 호크스 과정 (군집·전염 강도) 🔸¶
- 한줄: 공매도(또는 대량 순매도) 발생이 후속 발생확률을 높이는 자기여기 강도를 추정해 '투매 군집'을 정량
- 수학분류: 점과정 (Hawkes 자기·교차여기, 강도 λ(t)) | 단위: 일
- 계산식: 강도 λ(t)=μ+Σ_{t_i<t} α·e^{−β(t−t_i)}. μ=기저강도, α=여기크기, β=감쇠속도. 분기율 n=α/β(<1이면 정상). 교차여기 2변량: λ^B,λ^S로 매수/매도 클러스터 상호작용. MLE로 (μ,α,β) 적합. 사건=일별 공매도 임계초과일 또는 대량 순매도일.
- 설계의도: 투매·숏은 독립적으로 안 일어남 — 한 번 터지면 연쇄(허딩). 포아송(독립)은 부적합. 호크스는 각 사건이 미래 강도를 α만큼 올리고 β로 감쇠 → 군집을 자연모델. 가감승제 핵심: 과거사건들의 지수감쇠 합이 현재 강도를 구성(self-excitation). 분기율 n=α/β가 '내생성'(시장 스스로 만든 매도 vs 외생충격) 측정 — 단타에서 '연쇄투매 지속될까'의 핵심.
- 목적적합: 하단방어/레짐 축: 매도 호크스강도 급등+높은 분기율 = 투매 군집 진행중 → 진입 회피 또는 손절 타이트. 강도 감쇠(λ→μ) = 투매 소진, 반등 진입창. 매수측 호크스강도 상승 = 추격매수 군집(상단돌파 동력).
- 우리데이터: 공매도 일별, 투자자수급 일별 순매도 — 임계초과일을 사건시각으로. 또는 30분봉 대량거래봉을 사건으로(분단위 호크스). MLE 적합(tick 패키지 또는 자체).
- 대중지표 대비 엣지: 단순 거래량급증/공매도비중 대비: (1)사건의 '군집·연쇄'를 명시 모델, (2)분기율로 내생/외생 구분, (3)감쇠로 '언제 소진되나' 추정. 단순 카운트가 못 주는 군집 동역학. 단(backtestable=부분): 일별 빈도가 낮으면 추정 불안정 — 30분봉 집계나 유니버스 풀링 필요.
- 출처: T1_학술_1차문서 — Hawkes 1971; arXiv 2408.03594 'Forecasting order flow imbalance using Hawkes'; arXiv 1811.08076 'aggressive market orders with Hawkes factor models'. λ(t)=μ+Σα·e^{−β(t−t_i)}, 분기율 α/β 확인.
L5 결합 (10개)¶
26. 팩터 직교화·중립화 (Gram-Schmidt / Lowdin 대칭직교화) ✅¶
- 한줄: 여러 알파신호에서 시장베타·섹터·상호중복을 직교화로 제거해, 정말 독립적인(서로 안 겹치는) 신호만 남겨 Grinold breadth를 키운다.
- 수학분류: 선형대수 직교화(Gram-Schmidt / Lowdin) | 단위: 일
- 계산식: 신호행렬 X(열=각 알파). Gram-Schmidt: u_1=x_1, u_k=x_k - sum_{j
동일가중 합성. - 설계의도: 투영을 빼는(x_k - proj) 이유: 신호 간 중복정보를 제거해야 '독립 베팅 수(breadth)'가 진짜로 늘어 IR=IC*sqrt(BR)이 부풀지 않음. Lowdin (X'X)^(-1/2)을 쓰는 이유: Gram-Schmidt는 순서에 따라 결과가 달라지지만 대칭직교화는 모든 신호를 평등·동시 처리해 원신호와의 왜곡 최소(basis-invariant). 시장회귀 잔차화는 공통베타 제거.
- 목적적합: 결합(목적4)의 수학적 기반: 매물(s-score)·수급(TE가중)·레짐(HMM)·점프(Hawkes) 신호가 서로 겹치면 합산이 과신을 부름 -> 직교화로 중복 제거 후 결합해야 확률이 정직. Grinold 법칙과 직결: 독립신호 N개면 IR이 sqrt(N) 개선.
- 우리데이터: 위 기법들이 산출한 일별 신호값(s-score, TE가중수급, 레짐확률, Hawkes강도, 분위수기대)을 열로 쌓아 Lowdin 직교화. 시장중립화는 KOSPI 수익률 회귀잔차. 추가 데이터 결손 없음(파생 신호만 사용).
- 대중지표 대비 엣지: 대중지표를 그냥 더하면(예: RSI+MACD) 둘 다 모멘텀이라 중복가중되어 '독립신호 수'를 착각 -> 직교화는 이 중복을 수학적으로 제거. Lowdin은 순서편의 없는 유일직교화로 신호의 경제적 의미 보존. 프랩 멀티알파 결합의 표준 전처리.
- 출처: T2_프랩_퀀트_공개자료 — Gram-Schmidt / Lowdin 대칭직교화(arXiv 2508.12949, 1105.3571 centrality of Lowdin). 시장중립화·신호결합 맥락 Grinold-Kahn Active Portfolio Management. 비교(순서의존 vs basis-invariant) 확인.
27. Grinold 'Fundamental Law' 기반 신호결합·가중 최적화 ✅¶
- 한줄: 직교화된 각 신호의 정보계수(IC)에 비례해 가중치를 주고, sqrt(breadth)로 기대 정보비율(IR)을 추정해 '몇 개 신호를 어떻게 섞을지'를 식으로 결정한다.
- 수학분류: 정보이론·능동운용(IC, IR, breadth 최적화) | 단위: 일
- 계산식: 각 신호 i의 IC_i=corr(signal_i,t, return_{t+1}) (rank IC). 결합신호 가중 w_i ~ IC_i / sigma_i (또는 IC가중). IR = IC_combined * sqrt(BR), BR=독립신호수*거래빈도. 기대알파 = IC * sigma_return * z_score(표준화신호). 최적조합: 신호공분산 Omega로 w = Omega^(-1) * IC벡터(다신호 일반화).
- 설계의도: IC로 가중(나누기 sigma)하는 이유: 예측력 높은 신호에 더 큰 비중, 변동성 큰 신호엔 작은 비중 -> 신호당 위험조정 기여 최대화. sqrt(BR)을 곱하는 이유: 독립 베팅이 많을수록 노이즈가 평균화되어 IR이 sqrt로 증가(대수의 법칙). Omega^(-1)을 쓰는 이유: 신호 간 잔여상관까지 반영해 중복신호 비중을 자동 축소.
- 목적적합: 최종 결합(목적4)의 의사결정층: 앞 10개 기법의 신호를 IC로 채점하고 sqrt(breadth)로 '결합 후 기대 적중'을 산출 -> 단일 확률스코어로 종목 랭킹. 단기진입확률(목적3): 결합신호 z를 표준정규로 P(상승) 매핑.
- 우리데이터: 각 파생신호의 과거 IC를 일봉으로 백테스트 측정(rank IC 시계열). 신호공분산 Omega는 신호행렬에서 추정. 수년 일봉으로 IC 안정추정 가능.
- 대중지표 대비 엣지: 대중지표 결합은 '느낌으로 합의'하지만 Fundamental Law는 각 신호의 IC를 측정하고 독립성(breadth)을 정량화해 '결합이 실제로 IR을 올리는지'를 식으로 검증 -> 무의미신호 추가를 차단. 프랩/퀀트 멀티팩터 운용의 이론적 기둥(Grinold-Kahn).
- 출처: T1_학술_1차문서 — Grinold (1989) Fundamental Law; Grinold & Kahn 'Active Portfolio Management'. IR=ICsqrt(BR), 일반화 IR=ICsqrt(BR)*TC(transfer coef) AnalystPrep CFA L2, Robeco, blankcapitalresearch. 다신호 Omega^-1 최적화 표준 확장.
49. Weight-of-Evidence(WOE) 합산 + Naive Bayes 로그오즈 결합 ✅¶
- 한줄: 각 신호(매물·수급·재료·레짐)를 로그오즈 증거값으로 변환해 단순 덧셈으로 사후 로그오즈를 만들고 시그모이드로 P(상승) 산출.
- 수학분류: 베이지안 / 정보이론 (로그오즈 가법성) | 단위: 일
- 계산식: WOE_i(bin) = ln( P(x_i=bin | 상승) / P(x_i=bin | 하락) ). 사후 로그오즈 = ln(prior_up/prior_down) + Σ_i WOE_i. P(상승) = 1/(1+exp(-사후로그오즈)). IV_i = Σ_bin (P(bin|상승)-P(bin|하락))·WOE_i (신호별 정보가치).
- 설계의도: 곱셈(베이즈)을 로그로 펴면 가법이 된다(I.J.Good의 가법성 정리). 신호가 독립이라는 naive 가정 하에 사후오즈=사전오즈×ΠLR_i → 로그를 취해 ΣWOE_i. 덧셈이라 신호 추가/제거가 모듈식이고, 각 신호의 기여(WOE 부호·크기)와 변별력(IV)을 분리해 해석 가능. PM의 '매물×자금×재료를 하나의 확률로' 곱셈구조를 수치적으로 안정한 덧셈으로 구현.
- 목적적합: 매물구조(30분봉 가격대별 체결), 수급(투자자별 순매수), 재료(공시/뉴스 더미), 레짐(변동성국면)을 각각 bin화→WOE→합산. 단기 진입확률을 하나의 보정 전 점수로 통합. 손익비는 P(상승)을 켈리/기대값 식에 투입.
- 우리데이터: 일봉 OHLCV로 다음날 상승/하락 라벨 생성. 각 신호(체결강도 ka10047, 투자자수급, 프로그램매매, 공매도잔고, 30분봉 매물대)를 5~10분위 bin화. 각 bin에서 상승/하락 조건부도수로 WOE 추정(라플라스 보정 +0.5). IV로 약신호 사전 탈락.
- 대중지표 대비 엣지: RSI/MACD 같은 단일지표 임계치와 달리, 여러 신호를 '실제 상승/하락 도수'로 학습한 증거량으로 변환해 합산한다. 부호·크기가 데이터에서 나오므로 임의 가중 없음. IV로 무엇이 진짜 변별력 있는지 정량화 → 대중지표 나열이 아니라 증거기반 선별.
- 출처: T2_프랩_퀀트_공개자료 — Good 'Weight of Evidence: A Brief Survey'(cs.tufts.edu), Stitch Fix WOE/IV blog(multithreaded.stitchfix.com), CRAN Information vignette. WOE=naive Bayes 조건부 로그오즈 합 = logistic 계수 추정 대상.
50. 순차적 베이즈 사후확률 체이닝 (prior→posterior 갱신 루프) ✅¶
- 한줄: 전일 사후확률을 당일 사전확률로 넘기며 새 신호 우도를 곱해 P(상승)을 연속 갱신, 정보누적을 시계열로 반영.
- 수학분류: 베이지안 (재귀적 belief 갱신) | 단위: 일
- 계산식: posterior_up(t) = prior_up(t)·L_up(t) / [ prior_up(t)·L_up(t) + prior_down(t)·L_down(t) ]. 단 prior_up(t)=posterior_up(t-1)에 망각계수 적용: prior_up(t)= λ·posterior_up(t-1)+(1-λ)·base_rate. L_up(t)=Π_i P(신호_i(t)|상승).
- 설계의도: 어제까지의 증거를 오늘의 사전으로 이월(belief가 데이터와 함께 진화). 망각계수 λ로 오래된 증거를 감쇠시켜 레짐 변화에 적응. 단일 스냅샷이 아니라 '신호가 며칠째 축적/소멸 중인가'를 확률 한 숫자에 담음 — 내일~며칠 보유 호라이즌에 정합.
- 목적적합: 수급이 며칠 누적되는지, 매물소화가 진행 중인지 같은 '누적 프레임'을 확률화. 단기 진입 타이밍을 '사후확률이 임계 돌파하는 날'로 정의.
- 우리데이터: 일별 투자자수급·체결강도·프로그램매매를 우도(상승조건부 분포)로 추정. 매 거래일 갱신 루프 실행. base_rate는 전체 상승일 비율.
- 대중지표 대비 엣지: 이동평균 크로스 같은 상태없는(stateless) 신호와 달리, 과거 증거를 명시적 확률로 이월·감쇠시켜 '며칠째 진행 중'을 모델링. 대중지표는 매일 0에서 재계산하지만 이 방법은 belief를 누적·소멸시킨다.
- 출처: T2_프랩_퀀트_공개자료 — QuantInsti 'Introduction to Bayesian Statistics in Finance'(blog.quantinsti.com), Stefan Jansen ML4T ch.10 Bayesian ML(stefan-jansen.github.io). posterior가 다음 prior가 되는 연속 갱신 루프 명시.
51. Platt 스케일링 (시그모이드 확률 캘리브레이션) ✅¶
- 한줄: 결합점수 s를 시그모이드 1/(1+exp(A·s+B))로 변환, A·B를 실제 적중도수에 맞춰 학습해 '진짜 확률'로 보정.
- 수학분류: 확률 캘리브레이션 (모수적 시그모이드 회귀) | 단위: 일
- 계산식: P(상승|s) = 1 / (1 + exp(A·s + B)). A,B는 별도 캘리브레이션셋에서 음의 로그우도 최소화로 적합. 타깃 라벨 평활화(t+=(N++1)/(N++2), t-=1/(N-+2))로 과적합 방지.
- 설계의도: WOE합·로지스틱·스태킹 점수는 순서는 맞아도 절대수준이 실제 확률과 어긋난다(예: 점수 0.8인데 실제 적중 60%). 단조 시그모이드 1개(2모수)로 점수→확률 왜곡을 보정. 모수 2개라 캘리브레이션 데이터가 적어도 안정. 손익비·켈리 계산은 '진짜 확률'을 요구하므로 필수 후처리.
- 목적적합: 어떤 결합신호든 출력을 베팅사이즈로 쓰려면 calibrated P가 필요. P(상승)=0.62를 신뢰하고 켈리분율·기대손익비에 투입.
- 우리데이터: 신호결합모델을 과거구간서 학습→이후 별도 구간(out-of-fold)서 점수 vs 실제 상승률로 A,B 적합. 시간순 분할(누설 방지).
- 대중지표 대비 엣지: 대중지표는 '신호 발생/미발생'의 이진이거나 보정 안 된 점수다. 이 기법은 점수를 검증가능한 확률(신뢰도 다이어그램으로 측정)로 만들어 베팅사이징·손익비 계산에 직접 투입 가능 — 확률을 '실제로 맞는' 수준으로 만드는 게 엣지.
- 출처: T1_학술_1차문서 — Platt(1999) sigmoid, Niculescu-Mizil&Caruana 'Predicting Good Probabilities'(cs.cornell.edu), Platt scaling Wikipedia. 라벨평활화 식 포함.
52. Isotonic 회귀 캘리브레이션 (비모수 단조 보정) ✅¶
- 한줄: 점수→확률 매핑을 단조증가·구간상수 계단함수로 비모수 적합(PAVA), 시그모이드 가정 없이 임의 왜곡 보정.
- 수학분류: 확률 캘리브레이션 (비모수 단조회귀, PAVA) | 단위: 일
- 계산식: min Σ (y_i - f(s_i))^2 s.t. s_i≤s_j ⇒ f(s_i)≤f(s_j). Pool-Adjacent-Violators 알고리즘으로 풀어 구간상수 단조함수 f 산출. P(상승)=f(s).
- 설계의도: Platt은 왜곡이 시그모이드형일 때만 맞다. Isotonic은 '점수 클수록 확률 크다'는 단조성만 가정하고 형태는 데이터가 정한다. 신호결합 점수의 비선형 왜곡(예: 양극단서 과신)을 더 유연하게 교정. 단 데이터가 적으면 과적합 → 충분 표본 필요.
- 목적적합: 결합점수가 시그모이드로 안 펴지는 경우(매물·수급 상호작용으로 중간구간 비선형) 정밀 확률화. Platt과 신뢰도곡선 비교해 더 잘 보정되는 쪽 채택.
- 우리데이터: out-of-fold 점수-라벨 쌍 수천개 이상 확보(수년 일봉×종목). PAVA로 매핑 학습. 표본 부족 종목군은 Platt로 폴백.
- 대중지표 대비 엣지: 대중지표엔 캘리브레이션 개념 자체가 없다. 비모수라 어떤 형태의 점수왜곡도 교정 — 시그모이드 형태강제(Platt)보다 적합도 높을 수 있어, 두 방법을 신뢰도 다이어그램으로 경쟁시켜 선택하는 것이 정석 프랩 절차.
- 출처: T1_학술_1차문서 — Niculescu-Mizil&Caruana(ICML2005), FastML 'Classifier calibration with Platt scaling and isotonic regression', Rohan Paul ML interview series. '충분 데이터시 isotonic이 Platt보다 우수' 명시.
53. 로지스틱 스태킹 (메타러너 약신호 결합) ✅¶
- 한줄: 여러 1차 신호의 out-of-fold 예측을 입력으로 2차 로지스틱회귀를 학습, 신호별 가중과 상호보완을 데이터로 최적화.
- 수학분류: 앙상블 스태킹 (2단계 일반화) | 단위: 일
- 계산식: 1단계: 각 신호 모델 m_k가 oof 확률 p_k 산출. 2단계: logit(P) = β0 + Σ_k β_k·p_k. β는 최대우도로 추정, β_k≥0 비음 제약 가능. 점수=Σβ_k·p_k.
- 설계의도: 단순 평균은 신호 신뢰도 차이를 무시. 스태킹은 메타모델이 '어느 신호가 언제 맞나'의 가중을 데이터에서 학습. WOE합(독립가정)과 달리 로지스틱 메타러너는 신호 간 상관을 부분 흡수(중복정보 다운웨이팅). 1단계 oof 예측을 써야 누설 없이 일반화.
- 목적적합: 매물·수급·재료·레짐 각각의 약신호를 최적가중 결합. PM의 'Markowitz 신호버전'을 분류문제로 구현(비음·합제약 가능).
- 우리데이터: 각 신호를 별도 모델로 만들어 시간순 oof 예측 생성→메타 로지스틱 학습. 종목·기간 교차분할로 일반화 검증.
- 대중지표 대비 엣지: 이동평균·RSI를 눈으로 합치는 대신, 메타러너가 신호별 가중을 데이터로 최적화하고 신호 간 중복을 통계적으로 흡수. 단순평균 대비 상관 높은 신호의 과대계상을 자동 보정.
- 출처: T2_프랩_퀀트_공개자료 — arXiv:1908.05287 'Optimizing Ensemble Weights', arXiv:2202.10817 'Canonical Portfolios: Optimal Asset and Signal Combination', Macrosynergy signal optimization. SLSQP/비음제약 가중 명시.
54. 최대엔트로피 / 최소교차엔트로피 예측 결합 🔸¶
- 한줄: 개별 신호확률들을 제약(관측 일치)으로 두고 KL발산 최소 분포를 선택, 중복정보 없이 가장 보수적인 결합확률 산출.
- 수학분류: 정보이론 (최대엔트로피·KL 최소화) | 단위: 일
- 계산식: min_q KL(q || prior) = Σ q ln(q/prior) s.t. E_q[g_i]=관측모멘트_i. 해: q*(x) ∝ prior(x)·exp(Σ_i λ_i g_i(x)). λ_i는 제약 충족하도록 풂(지수족). 신호=제약 g_i, prior=사전믿음.
- 설계의도: 여러 신호가 서로 다른 정보를 줄 때, '제약을 만족하면서 그 외엔 가장 무지(엔트로피 최대)한' 분포를 택하면 과신·이중계상을 피한다. KL최소화는 사전 대비 꼭 필요한 만큼만 정보를 추가 → 중복신호가 들어와도 확률을 과도하게 밀지 않음. 지수족 해 q*∝prior·exp(Σλg)는 로지스틱/WOE합과 동형으로, 이론적 기반 제공.
- 목적적합: 매물·수급·재료가 부분 중복일 때(예: 프로그램매매와 외국인수급) 정보 이중계상 방지. PM의 '중복정보 제거하며 합성' 요구의 직접 수학.
- 우리데이터: 각 신호를 모멘트제약 g_i(과거 상승조건부 평균)로 정의. 라그랑주 λ를 수치최적화(뉴턴)로 풀어 결합확률 q* 산출. prior는 베이스레이트.
- 대중지표 대비 엣지: 대중지표는 신호를 더할 뿐 중복을 다루지 않는다. MaxEnt는 '제약 외엔 최대무지' 원칙으로 중복정보의 과대계상을 원리적으로 차단 — 상관 높은 신호 여러 개를 넣어도 확률이 비합리적으로 극단화되지 않는다.
- 출처: T1_학술_1차문서 — Moreno(2013) 'Combining Economic Forecasts by Maximum Entropy'(Wiley J.Forecasting), MDPI Entropy 'Entropy-Based ML for Combining Macroeconomic Forecasts', MDPI 'KL View of MaxEnt'. 회귀 불가시 결합 대안으로 제시.
56. 이중기계학습(DML)으로 재료의 순수 인과효과 추정 🔸¶
- 한줄: 재료(공시·뉴스)가 가격에 미치는 효과를 교란변수(레짐·수급·섹터)를 ML로 통제한 잔차회귀로 분리, 상관 아닌 인과 추정.
- 수학분류: 인과추론 (Neyman직교·이중강건 DML, 조건부처리효과) | 단위: 일
- 계산식: Y=θ·D + g(X)+ε, D=m(X)+ν. 잔차화: Ỹ=Y-ĝ(X), D̃=D-m̂(X). θ̂ = (Σ D̃·Ỹ)/(Σ D̃^2). g,m은 ML로 추정, cross-fitting으로 정규화편향 제거. CATE: θ(X)=재료효과의 종목/레짐별 이질성.
- 설계의도: '재료 뜬 날 올랐다'는 교란(그 종목이 원래 강했다, 시장이 좋았다) 때문일 수 있다. DML은 처리(재료 D)와 결과(수익 Y) 양쪽에서 교란 X의 ML예측을 빼낸 잔차로 회귀 → Neyman직교성으로 ML오차에 1차둔감(이중강건). 재료의 '순수 가격효과'를 분리해 신호 가중에 반영.
- 목적적합: 재료신호가 진짜 알파인지 교란인지 판별. CATE로 '어떤 레짐·어떤 종목군에서 재료효과가 큰가'를 추정해 조건부 가중. PM의 '교란 통제 후 재료효과 추정' 직접 구현.
- 우리데이터: D=재료더미(공시/뉴스). X=수급·프로그램·베이시스·변동성레짐·섹터. Y=익일~수일 수익. cross-fitting으로 ĝ,m̂ 학습→잔차회귀로 θ̂. 표본은 수년 일봉 패널.
- 대중지표 대비 엣지: 대중지표엔 인과/교란 개념이 없다 — 단순 '재료=상승' 상관을 그대로 믿는다. DML은 시장·수급·섹터를 통제해 재료의 순수효과만 분리하고, ML오차에 1차둔감해 과적합 교란 통제에도 강건. 가짜 재료신호를 걸러내는 게 엣지.
- 출처: T1_학술_1차문서 — arXiv:2403.14385 'Estimating Causal Effects with DML', ScienceDirect S0275531924004616 'Registration reform & stock mispricing via DML', Chernozhukov DML. cross-fitting·잔차직교화 명시.
69. 베이지안 계층 수축추정 (Hierarchical Shrinkage, James-Stein/empirical Bayes) ✅¶
- 한줄: 종목별 추정치(기대수익·베타·신호강도)를 그룹(섹터·테마) 평균으로 수축 — 표본 적은 종목의 잡음을 줄여 횡단면 안정화
- 수학분류: 베이지안 계층모델 (경험베이즈 수축, James-Stein) | 단위: 일
- 계산식: 종목 i 추정 θ_i, 그룹평균 μ, 그룹분산 τ^2, 관측분산 σ_i^2. 사후평균 θ̂_i = w_i·θ_i + (1-w_i)·μ, w_i = τ^2/(τ^2 + σ_i^2). James-Stein: θ̂ = μ + (1 - (k-2)σ^2/Σ(θ_i-μ)^2)·(θ_i - μ).
- 설계의도: 개별 종목 추정치는 표본이 적어 잡음↑. 그룹정보로 수축하면 평균제곱오차 감소(Stein 역설). w_i가 '관측이 정밀할수록 개별값, 잡음 클수록 그룹평균' — 가중평균이 신뢰도에 비례해 정보를 빌림.
- 목적적합: 결합(목적4): 여러 종목·신호의 추정치를 안정화해 횡단면 비교 신뢰도↑. 테마 내 약신호 종목의 기대수익을 그룹으로 보정.
- 우리데이터: 섹터/테마 그룹별로 종목 기대수익·베타·신호 추정→τ^2,σ_i^2 추정→수축. 일별.
- 대중지표 대비 엣지: 종목별 단순 통계(대중)는 소표본 잡음에 취약. 계층수축은 그룹정보로 MSE를 줄이는 통계적 최적(Stein) — 횡단면 신호 안정화의 정석. (출처: Efron-Morris empirical Bayes; James-Stein 1961)
- 출처: T1_학술_1차문서 — James & Stein (1961); Efron & Morris empirical Bayes. 횡단면 추정 수축의 표준.
L6 통계차익·분해 (8개)¶
17. Avellaneda-Lee PCA 고유포트폴리오 s-score (잔차 OU 평균회귀) ✅¶
- 한줄: 종목수익률을 PCA 시장/섹터 팩터로 회귀하고, 남은 idiosyncratic 잔차를 OU 평균회귀로 모델링해 s-score(표준화 평형이탈)로 진입/청산을 확률화한다.
- 수학분류: 통계차익(PCA 팩터분해 + Ornstein-Uhlenbeck 평균회귀) | 단위: 일
- 계산식: 1) 252일 수익률행렬에서 상관행렬 PCA -> 상위 k개 고유벡터로 고유포트폴리오 팩터 F_j 구성. 2) 60일 윈도우로 r_i = beta_i0 + sum_j beta_ij F_j + e_i 회귀, 잔차 누적 X_i(t)=sum e_i. 3) X_i를 OU 추정: X(t+1)=a+bX(t)+zeta -> kappa=-ln(b)252(평균회귀속도), m=a/(1-b)(평형), sigma_eq=sqrt(var(zeta)/(1-b^2)). 4) s_i=(X_i - m_i)/sigma_eq_i. 진입: s_i<-1.25 매수개시, s_i>+1.25 매도개시; 청산: 롱은 s_i>-0.5, 숏은 s_i<+0.75. 거래조건: 회귀반감기 ln2/kappa < 윈도우의 1/2(=약 30일).
- 설계의도: 수익률을 빼기(잔차화)하는 이유: 시장/섹터 공통변동(beta_ij F_j)을 제거해야 '종목 고유의 비정상 이탈'만 남는다. 나누기(/sigma_eq)하는 이유: 종목마다 변동성이 다르므로 이탈을 표준편차 단위로 무차원화해야 종목 간 비교·랭킹이 가능. kappa로 거르는 이유: 평균회귀가 느린(반감기>30일) 종목은 '되돌아오기 전에 윈도우가 끝나' 베팅 근거가 사라짐.
- 목적적합: 단기진입 확률(목적3): s-score가 정규근사이므로 P(되돌림)=Phi(-s) 형태로 '하단받침/상단돌파 확률'을 직접 수치화. 매물구조(목적): 잔차 X는 시장과 무관한 종목 고유 매집/투매 누적의 프록시. 결합(목적): s-score는 -3~+3 표준화 스칼라라 다른 신호와 가중합하기 쉬움.
- 우리데이터: 일봉 OHLCV 수년치로 일별 수익률행렬 구성 -> 동일 섹터/유니버스 30~100종목 PCA. 섹터 고유포트폴리오 대신 KODEX 섹터ETF 수익률을 팩터로 써도 동등(논문의 ETF 버전, Sharpe 1.1~1.5). 투자자수급/체결강도를 추가 설명변수로 넣어 잔차를 더 순수하게 정제 가능.
- 대중지표 대비 엣지: Volume Profile/볼린저는 '한 종목 가격'만 보지만 이 기법은 '시장·섹터를 통제한 후의 순수 종목이탈'을 본다 -> 코스피 전체가 빠질 때 같이 빠진 종목을 '저평가'로 오인하지 않음. s-score는 OU 정상분포 기반이라 통계적 유의성(p-value)을 줄 수 있는 반면 볼린저 2sigma는 분포가정 없는 임의 임계.
- 출처: T1_학술_1차문서 — Avellaneda & Lee (2010), 'Statistical Arbitrage in the U.S. Equities Market', SSRN 1153505 / Quantitative Finance. s-score 식 s=(X-m)/sigma_eq, sigma_eq=sigma/sqrt(2k), 임계 -1.25/+1.25, -0.5/+0.75 확인. arbitragelab(hudson-and-thames) 구현 문서 교차확인. 한국시장 적용은 KOSPI 상관행렬 RMT 연구(arXiv 1010.2048)로 고유구조 존재 확인.
18. Johansen 공적분 바스켓 + OU 반감기 z-score (Engle-Granger 상위판) ✅¶
- 한줄: 두 종목 이상의 로그가격 선형결합이 공적분(장기균형)인지 Johansen trace 검정으로 찾고, 균형이탈 스프레드를 OU 반감기로 시간정규화해 z-score 진입한다.
- 수학분류: 통계차익(공적분 Johansen MLE + OU 반감기) | 단위: 일
- 계산식: 1) 로그가격 벡터 P_t에 Johansen trace test -> 공적분 벡터 w(고유벡터). 스프레드 S_t = w' * log(P_t). 2) S_t에 OU 회귀 dS=kappa(theta-S)dt+sigma dW -> 반감기 h=ln2/kappa. 3) z_t=(S_t - mean_h)/std_h (mean/std는 반감기 비례 윈도우). 진입 |z|>2, 청산 z->0, 손절 |z|>3. 포지션 크기 ~ -z (z에 비례 역방향).
- 설계의도: 선형결합(w' log P)을 만드는 이유: 단일종목은 비정상(random walk)이라 평균이 없지만, 공적분된 결합은 정상(stationary)이라 '되돌아올 평균'이 수학적으로 존재. Johansen을 Engle-Granger 대신 쓰는 이유: 2종목 초과 바스켓에서 공적분 관계를 동시추정(MLE)해 종속변수 선택 편의를 제거. 반감기로 윈도우를 정하는 이유: 회귀속도가 빠른 쌍은 짧은 창, 느린 쌍은 긴 창이라야 z 분산이 안정.
- 목적적합: 손익비(목적3): theta가 수학적 목표가, sigma/sqrt(2kappa)가 정지폭 -> 진입 z에서 (목표까지 거리)/(손절까지 거리)로 RR을 식으로 산출. 하단받침(목적): 페어가 음의 이탈일 때 통계적으로 '받칠 확률' = z의 정규꼬리. 단기진입: 반감기가 곧 예상 보유기간(며칠).
- 우리데이터: 동일 테마/지주-자회사/원자재연동 종목쌍의 일봉 종가 수년치로 Johansen 검정. 베이시스(현선)·대차잔고를 공적분 잔차의 보조변수로. KOSPI100 페어트레이딩 수익성은 보수적 거래비용 가정에도 존재(SSRN 1913707).
- 대중지표 대비 엣지: 단순 가격비율/상관계수 페어와 달리 공적분은 '겉보기 상관(spurious)'을 통계검정으로 배제(p-value) -> 잠깐 같이 움직인 우연쌍을 거름. 반감기 기반 동적 윈도우는 고정 20일 볼린저보다 쌍별 회귀속도에 적응.
- 출처: T1_학술_1차문서 — Johansen (1991) trace test; OU 반감기 h=ln2/kappa 표준식. 구현·검정절차는 arbitragelab 및 portfoliooptimizationbook.com pairs-trading 슬라이드, Kinlay(2018) cointegration statarb. KOSPI100 적용 SSRN 1913707.
19. Kalman 필터 시변 헤지비율(상태공간 동적 베타) ✅¶
- 한줄: 공적분 헤지비율을 고정 OLS가 아니라 random walk 상태로 두고 Kalman 필터로 매일 갱신해, 관계가 변해도 더 정상적인 스프레드를 얻는다.
- 수학분류: 상태공간/칼만 필터(시변 회귀계수) | 단위: 일
- 계산식: 관측식: y_t = beta_t * x_t + eps_t (eps~N(0,R)). 상태식: beta_t = beta_{t-1} + w_t (w~N(0,Q)). Kalman 재귀: 예측 P_t^- = P_{t-1}+Q; 칼만이득 K_t = P_t^- x_t /(x_t^2 P_t^- + R); 갱신 beta_t = beta_t^- + K_t(y_t - beta_t^- x_t); 잔차 e_t = y_t - beta_t^- x_t, 표준화하여 z. Q/R 비율이 적응속도 결정.
- 설계의도: beta를 random walk으로 더하는 이유: 헤지비율은 고정이 아니라 펀더멘털/수급 변화로 서서히 표류 -> 더하기(상태전이)로 표류를 허용. 칼만이득 K로 가중평균하는 이유: 새 관측과 기존추정을 불확실성(P, R) 역가중으로 섞어 노이즈에 과민반응하지 않으면서 추세변화는 따라감. 롤링OLS의 '창 경계 점프'를 제거.
- 목적적합: 위 공적분 기법의 정밀판 -> 손절/목표를 더 안정적 스프레드 위에서 설정(목적3). 시변 beta 자체가 '관계 약화 경보'(목적4 레짐): beta가 급변하면 페어 붕괴 신호. 결합: 칼만 잔차 z를 다른 z-score들과 같은 척도로 합산.
- 우리데이터: 페어/지수-종목 일봉 종가로 동적 헤지비율 추정. 프로그램매매·베이시스로 x를 지수선물 대용 가능. 30분봉으로 일중 beta까지 확장 가능(일집계 재구성판).
- 대중지표 대비 엣지: 고정 베타·롤링회귀 대비 스프레드가 더 정상·평균회귀적이라는 실증(quantstart, palomar book). 이동평균크로스 같은 후행지표와 달리 칼만은 베이지안 최적 필터로 '관측오차 대비 신호'를 명시적으로 가중 -> 노이즈 환경에서 lag 최소.
- 출처: T2_프랩_퀀트_공개자료 — QuantStart 'Dynamic Hedge Ratio Between ETF Pairs Using the Kalman Filter'; Palomar, Portfolio Optimization book 15.6; kalman-filter.com pairs-trading. 상태식 beta_t=beta_{t-1}+w_t 표준 random-walk 설정 확인.
58. 트렌드스캐닝 라벨링 (Trend-Scanning, Lopez de Prado) ✅¶
- 한줄: 여러 look-forward 창에 회귀선을 적합해 기울기 t값이 최대인 창으로 추세 방향·강도를 라벨링 (고정 손절/목표 없이 추세존속까지 보유)
- 수학분류: 머신러닝 라벨링 (회귀 기울기 유의성 기반 라벨) | 단위: 일
- 계산식: 각 시점 t에서 L=L_min..L_max에 대해 y_{t..t+L} = a + b·(0..L) + e 적합 → t_b(L)=b_hat/SE(b_hat) 계산 → L = argmax_L |t_b(L)| → label = sign(b_hat(L)) if |t_b|>임계, else 0; 추세강도 = t_b(L*) 값 자체. SE(b)=sqrt(sigma_e^2 / Σ(x_i-x̄)^2)
- 설계의도: 고정창 수익률 라벨(triple-barrier 너머)의 약점인 '창 길이 자의성'을 제거. t값 최대화는 '통계적으로 가장 또렷한 추세'를 데이터가 스스로 고르게 함 — 곱셈(기울기×표본분산 역수)이 노이즈 구간을 자동 페널티. 라벨이 곧 추세지속확률의 대리.
- 목적적합: 단기진입 확률(목적3): '내일 사면 추세가 며칠 이어질 t값이 충분한가'를 라벨로 직접 산출. 0 라벨은 진입 회피(횡보) 필터. 손익비 설정 없이 추세존속 기반 청산.
- 우리데이터: 일봉 종가 수년치로 각 종목 시점마다 L=2..10일 회귀, t_b 최대창 선택. 분봉(30분)으로 일중판도 가능.
- 대중지표 대비 엣지: 이동평균 크로스/추세선(대중)은 임계·기간이 자의적이고 후행. 트렌드스캐닝은 창 길이를 t값으로 데이터가 선택하고 추세 '유의성'을 수치화 — 백테스트 라벨로 직접 쓰여 ML 파이프라인에 연결. (출처: mlfinlab Trend Scanning, Lopez de Prado MLAM)
- 출처: T1_학술_1차문서 — Lopez de Prado, Machine Learning for Asset Managers (2018); mlfinlab labeling.trend_scanning 문서. https://random-docs.readthedocs.io/en/latest/implementations/labeling_trend_scanning.html
59. L1 추세필터 (ℓ1 Trend Filtering, Kim-Koh-Boyd) ✅¶
- 한줄: 2차차분의 L1 페널티 볼록최적화로 가격을 '구간선형(piecewise-linear) 추세 + 노이즈'로 분해 — 추세 꺾임점(knot)이 자동으로 지지·저항 전환점
- 수학분류: 볼록최적화 / 구간선형 추세추정 (L1 정규화, HP필터의 sparse 대안) | 단위: 일
- 계산식: min_x (1/2)·Σ(y_t - x_t)^2 + λ·Σ|x_{t-1} - 2·x_t + x_{t+1}| (D는 2차차분 행렬). HP필터는 같은 식에서 L1 대신 L2(제곱). 해 x는 구간선형, 기울기 변화(knot) 개수는 λ가 통제.
- 설계의도: 2차차분에 L1(절댓값) 페널티를 걸면 해가 sparse → 추세 기울기가 '몇 개의 또렷한 구간'으로만 바뀜. HP필터(L2)는 항상 매끄러워 급변점을 못 잡음. 절댓값 합 최소화가 '최소 개수의 구조변화'를 강제 — knot이 추세전환 신호.
- 목적적합: 상단돌파/하단지지(목적1,2): knot이 추세 가속/둔화 전환점이라 최근 knot 이후 기울기 부호·크기로 '내일 방향' 판단. 추세선을 눈대중이 아닌 최적화로 객관화.
- 우리데이터: 일봉 종가 수년치에 cvxpy/scipy로 λ 그리드 적용. 분봉도 동일.
- 대중지표 대비 엣지: 피보나치·추세선(대중)은 수작업·자의적. L1필터는 볼록최적화로 유일해를 주고 knot 위치가 객관적 추세전환점. HP필터보다 급변 포착 우수. (출처: Kim, Koh, Boyd, Gorinevsky, SIAM Review 2009)
- 출처: T1_학술_1차문서 — Kim-Koh-Boyd-Gorinevsky, 'ℓ1 Trend Filtering', SIAM Review 51(2), 2009. https://web.stanford.edu/~boyd/papers/pdf/l1_trend_filter.pdf
64. 오버나잇/인트라데이 수익 분해 예측 (Tug-of-War, Lou-Polk-Skouras) ✅¶
- 한줄: 종가-종가 수익을 오버나잇(종가→시가)·인트라데이(시가→종가)로 분해 — 두 성분이 부호반대·주체상이로 단기 반전·모멘텀을 따로 예측
- 수학분류: 일중 계절성 / 수익성분 분해 (횡단면 예측회귀) | 단위: 분+일
- 계산식: r_overnight,t = ln(Open_t / Close_{t-1}), r_intraday,t = ln(Close_t / Open_t), r_cc = r_on + r_id. 신호: 평활화한 (r_on - r_id) 스프레드가 차기 종가-종가 성과 시변예측. 종목별 과거 r_on/r_id 평균·자기상관이 차기 성분 예측.
- 설계의도: 개인(주로 오버나잇)·기관/차익거래자(주로 인트라데이)의 수요가 달라 두 성분의 예측구조가 상반됨. 분해는 close-to-close가 상쇄해 숨긴 정보를 드러냄 — 뺄셈(r_on-r_id)이 '주체 줄다리기'를 신호화.
- 목적적합: 단기진입 타이밍(목적3): 갭(오버나잇) 강한 종목은 시가 매수 후 인트라데이 약세 주의, 또는 반대. 내일 '시가에 사서 종가에 팔까/홀딩할까'를 성분예측으로.
- 우리데이터: 일봉 OHLC로 r_on/r_id 즉시 분해(수년치). 30분봉으로 일중 패턴 정밀화. 수급(개인/기관 일별)과 결합해 주체 검증.
- 대중지표 대비 엣지: 단순 갭상승/거래량(대중)은 성분 분리를 안 해 상쇄효과를 놓침. 오버나잇/인트라데이 분해는 투자주체 구조를 수익성분으로 직접 연결 — 한국시장 개인/기관 수급 데이터와 결합 시 실증력. (출처: Lou-Polk-Skouras, A Tug of War, 2019)
- 출처: T1_학술_1차문서 — Lou, Polk, Skouras, 'A Tug of War: Overnight vs Intraday Expected Returns', JFE 2019. http://www.econ.yale.edu/~shiller/behfin/2015-04-11/lou_polk_skouras.pdf
65. MODWT 다중스케일 웨이블릿 분해 ✅¶
- 한줄: 이동불변 웨이블릿으로 가격을 여러 시간스케일(단기노이즈~중기추세)로 직교 분해 — 스케일별 에너지·상관으로 추세/노이즈를 분리
- 수학분류: 주파수/시간분해 (최대중첩 이산웨이블릿, 다중해상도) | 단위: 분+일
- 계산식: X = Σ_{j=1}^J D_j + S_J (D_j=레벨 j 세부, S_J=평활). MODWT 계수 W̃{j,t} = Σ_l h̃{j,l} X_{t-l mod N} (다운샘플 없음, shift-invariant). 스케일별 분산 ν_X^2(τ_j) = (1/N)Σ W̃_{j,t}^2. 신호 = 노이즈스케일(D1~D2) 제거 후 추세스케일 재구성.
- 설계의도: 가격은 여러 주기(일내·주간·월간)가 겹친 비정상 신호. MODWT는 다운샘플을 안 해 임의 길이·이동불변이라 각 시점 추세를 왜곡 없이 추정. 스케일별 직교분해가 '어느 주기에 에너지가 쏠렸나'로 레짐을 드러냄(곱셈적 에너지 집계).
- 목적적합: 상하단(목적1,2): 단기노이즈 D1~D2를 제거한 평활 S_J로 '진짜 추세선'을 그어 지지·저항 판정. 스케일별 변동성으로 돌파 임박 여부.
- 우리데이터: 일봉 종가(LA8/Haar 필터, J=4~5)로 분해, 분봉도 동일. pywavelets로 즉시 계산.
- 대중지표 대비 엣지: 이동평균(대중)은 단일스케일·후행·이동불변 아님. MODWT는 다중스케일 직교분해 + 이동불변이라 시점별 추세를 위상왜곡 없이 추정하고 스케일별 변동성을 분리. (출처: Percival & Walden, Wavelet Methods; MODWT 금융 응용)
- 출처: T1_학술_1차문서 — Percival & Walden, Wavelet Methods for Time Series Analysis; MODWT 금융 denoising 다수. https://smac-group.github.io/wv/reference/modwt.html
66. 특이스펙트럼분석 SSA (Singular Spectrum Analysis) ✅¶
- 한줄: 가격을 궤적행렬로 임베딩→SVD→그룹핑·대각평균으로 추세·주기·노이즈 비모수 분해 및 단기예측
- 수학분류: 비모수 분해/예측 (궤적행렬 SVD, 부분공간) | 단위: 일
- 계산식: 임베딩: 길이 L 윈도로 궤적행렬 X (Hankel); SVD: X = Σ sqrt(λ_i) U_i V_i'; 그룹핑: 고유삼중항을 추세/주기/노이즈로 분류; 대각평균(Hankelization)으로 성분 시계열 복원. 예측: 선형순환식 R-forecast로 추세·주기 외삽.
- 설계의도: 궤적행렬의 SVD는 데이터가 스스로 '주성분 = 추세/주기'를 찾게 함(모형 가정 없음). 고유값 크기 순서가 성분 중요도, 인접 고유쌍이 주기성분 — 행렬분해가 비정상·복합주기를 분리. λ_i 비중으로 노이즈 절단.
- 목적적합: 상하단·타이밍(목적1,2,3): 추세성분 외삽으로 내일 방향, 주기성분으로 단기 변곡 타이밍. 노이즈 제거 후 깨끗한 지지·저항.
- 우리데이터: 일봉 종가(L≈종목별 20~60일)로 궤적행렬 구성·SVD. pyts/numpy 즉시.
- 대중지표 대비 엣지: 이동평균·일목(대중)은 고정형. SSA는 데이터적응 SVD로 추세·복합주기를 비모수 분리하고 단기 외삽까지 — 비정상·비정규 시계열에 강건. (출처: Golyandina SSA; 금융 SSA 실증)
- 출처: T1_학술_1차문서 — Golyandina et al., Singular Spectrum Analysis; SSA 금융예측 실증. https://pmc.ncbi.nlm.nih.gov/articles/PMC7516519/
L7 검증·실행 (5개)¶
57. 부호제약 순차교차검증 신호최적화 (Macrosynergy식) ✅¶
- 한줄: 신호→수익 관계를 부호제약 회귀로 결합하되, 확장윈도우 순차 교차검증으로 미래누설 없이 가중 학습, naive 동일가중을 벤치마크로 강제.
- 수학분류: 통계학습 (부호제약 회귀 + 순차 OOS 검증) | 단위: 일
- 계산식: signal_t = Σ_k w_k·z_k,t, w_k≥0(사전부호 강제). 가중은 확장윈도우 [1..t]서 학습→t+1 예측만 사용(panel time-series split). 평가: OOS Sharpe / 누적 PnL vs naive(동일가중 z_k). z_k=섹션별 표준화 신호.
- 설계의도: 신호결합의 진짜 적은 미래누설과 과적합. 확장윈도우 순차검증은 매 시점 과거만으로 가중을 학습해 실거래 조건을 복제. 부호제약(w_k≥0, 이론부호 강제)은 표본잡음으로 가중이 뒤집히는 과적합을 차단. naive 동일가중을 항상 벤치마크로 둬 '복잡한 결합이 단순합을 이기는지' 검증 — 못 이기면 단순합 채택.
- 목적적합: 매물·수급·재료·레짐 신호의 결합가중을 실거래 가능한 방식으로 산출·검증. PM의 '프랩 실제 방법론' 요구에 직결(공개 퀀트샵 절차).
- 우리데이터: 각 신호 z-점수화(종목단면 표준화)→확장윈도우로 부호제약회귀/단순합 가중 학습→익일 OOS 적용. 누설없는 panel split. naive 벤치 대비 OOS Sharpe 비교.
- 대중지표 대비 엣지: 대중지표 백테스트는 전구간 최적화(누설)로 과대평가된다. 이 절차는 확장윈도우 순차검증으로 실거래를 복제하고, 부호제약으로 과적합을 막고, naive 동일가중을 못 이기면 버린다 — '복잡함이 단순함을 실제로 이기는가'를 강제 검증하는 것이 핵심 엣지.
- 출처: T2_프랩_퀀트_공개자료 — Macrosynergy 'Macro trading signal optimization: basic statistical learning methods'(macrosynergy.com, 본문 403이나 검색요약·후속글서 sequential CV·sign-restriction·naive benchmark 확인). 공개 퀀트연구사의 실제 신호최적화 절차.
60. Deflated Sharpe Ratio + 백테스트 과적합확률 (Bailey-Lopez de Prado) ✅¶
- 한줄: 여러 신호를 시험할 때 다중검정·비정규성·표본길이를 보정해 '진짜 엣지일 확률'을 계산 — 선택편향으로 부풀려진 가짜 신호 제거
- 수학분류: 다중검정 / 선택편향 보정 (확률적 Sharpe, 극값분포) | 단위: 일
- 계산식: PSR(SR) = Φ[ (SR_hat - SR)·sqrt(T-1) / sqrt(1 - γ3·SR_hat + (γ4-1)/4·SR_hat^2) ]; DSR은 SR 자리에 다중검정 기대최대값 SR_0 = sqrt(V[SR])·((1-e)·Z^{-1}[1-1/N] + e·Z^{-1}[1-1/(N·e)]) 대입 (N=시험횟수, γ3/γ4=왜도/첨도, e=오일러상수).
- 설계의도: 여러 후보신호를 백테스트하면 최대 Sharpe는 운만으로도 커짐(선택편향). 기대최대값을 극값분포로 빼주고(deflate), 비정규(왜도·첨도)·짧은 표본을 분모에서 보정 — 곱·나눗셈 구조가 꼬리위험과 시행횟수를 동시 페널티.
- 목적적합: 결합(목적4)의 메타검증: 우리가 수집한 수십 기법 중 어느 것이 다중검정 후에도 살아남는지를 확률로 판정. 가짜 엣지 채택 방지 — 전체 파이프라인 신뢰도 게이트.
- 우리데이터: 각 후보신호의 일별 수익 시계열로 SR_hat·γ3·γ4·T 계산, N=시험한 신호 수 입력.
- 대중지표 대비 엣지: 단순 Sharpe/승률(대중)은 다중검정·꼬리·표본길이를 무시해 과적합 신호를 통과시킴. DSR은 이 셋을 동시 보정하는 1차문서 표준 — 수집한 기법들을 거르는 상위 심판. (출처: Bailey & Lopez de Prado 2014)
- 출처: T1_학술_1차문서 — Bailey & Lopez de Prado, 'The Deflated Sharpe Ratio', 2014. https://www.davidhbailey.com/dhbpapers/deflated-sharpe.pdf
61. 정상 블록 부트스트랩 + SPA/Reality Check (Politis-Romano / White / Hansen) ✅¶
- 한줄: 시계열 의존성을 보존하는 무작위길이 블록 재추출로 신호 수익의 유의성을 데이터스누핑 보정하며 검정
- 수학분류: 리샘플링 유의성검정 (블록 부트스트랩 + 다중비교 SPA) | 단위: 일
- 계산식: 정상부트스트랩: 블록길이 ~ Geometric(p), 평균길이 1/p; 블록을 이어붙여 의사시계열 생성·재추출. White Reality Check 통계: V = max_k sqrt(T)·f̄_k (f_k=벤치마크 대비 초과성과); Hansen SPA: t_k^SPA = sqrt(T)·f̄_k / ω̂_k 의 최대값, 귀무분포는 부트스트랩으로.
- 설계의도: 수익률은 자기상관·군집성이 있어 IID 부트스트랩이 무효. 기하분포 블록길이는 어디서 끊어도 정상성을 유지(Politis-Romano 핵심). max 통계 + 부트스트랩 귀무분포가 '여러 신호 중 최고가 운인지'를 검정 — 다중비교를 분포로 흡수.
- 목적적합: 결합(목적4) 검증: 우리 신호가 매수후보 무작위 대비 통계적으로 우월한가를 p값으로. DSR과 상보 — DSR은 모수적, SPA는 비모수 부트스트랩.
- 우리데이터: 각 신호의 일별 초과수익 벡터를 블록 부트스트랩(B=5000) 재추출해 귀무분포 구성.
- 대중지표 대비 엣지: t검정/단순 p값(대중)은 의존성·다중비교로 무효. 블록 부트스트랩+SPA는 시계열 의존성을 보존하고 데이터스누핑을 직접 보정 — 프랩 룰 검증 표준. (출처: Politis-Romano 1994; White 2000; Hansen 2005)
- 출처: T1_학술_1차문서 — Politis & Romano (1994) Stationary Bootstrap; White (2000) Reality Check; Hansen (2005) SPA. http://www-stat.wharton.upenn.edu/~steele/Courses/956/Resource/MultipleComparision/RomanoWolf05.pdf
62. Almgren-Chriss 최적실행/청산 궤적 🔸¶
- 한줄: 영구·일시 시장충격과 변동성 위험을 동시 최소화하는 닫힌해 매매 스케줄 — 진입/청산을 며칠에 나눠 충격을 줄이는 수학적 분할
- 수학분류: 최적실행 (이차계획 / 효율적 매매 프론티어) | 단위: 분+일
- 계산식: min E[비용] + λ·Var[비용]; E = Σ permanent·(매매량) + Σ temporary·(매매속도)^2, Var = σ^2·Σ x_t^2 (잔여보유). 선형충격 가정시 최적 잔여보유 x_t = X·sinh(κ(T-t))/sinh(κT), κ = sqrt(λσ^2/η) (η=일시충격계수).
- 설계의도: 빨리 사면 충격비용↑, 천천히 사면 가격위험(변동성)↑. λ가 둘의 트레이드오프. sinh 궤적은 위험회피가 클수록 앞당겨 체결(앞쏠림), 작을수록 균등(VWAP 근사) — 닫힌해라 며칠 분할매수 스케줄을 즉시 산출.
- 목적적합: 진입·실행(목적3): 후보종목을 내일~며칠 매집할 때 일별 분할량·예상 충격비용을 수학으로. 손익비 계산에 실행비용을 포함시켜 현실적 목표가 보정.
- 우리데이터: 일별 거래대금·변동성(σ)으로 η(일시충격) 추정(Amihud/Kyle 람다 활용), 30분봉으로 일중 분할.
- 대중지표 대비 엣지: 분할매수 '감'(대중)은 비용·위험 트레이드오프를 무시. Almgren-Chriss는 충격과 변동성위험을 닫힌해로 균형 — 기관 실행알고(IS)의 표준 골격. (출처: Almgren & Chriss 2000)
- 출처: T1_학술_1차문서 — Almgren & Chriss, 'Optimal Execution of Portfolio Transactions', J. Risk 2000. https://www.smallake.kr/wp-content/uploads/2016/03/optliq.pdf
68. Q-러닝 최적실행/청산 알파 (강화학습 실행) 🔸¶
- 한줄: 상태(잔여보유·시간·스프레드·OFI)에서 분할매수/청산 행동을 보상(체결가-도착가)으로 학습 — Almgren-Chriss를 데이터로 적응 보강
- 수학분류: 강화학습 실행 (마르코프결정과정, Q-러닝/Double-DQN) | 단위: 분+일
- 계산식: 상태 s=(잔여 q, 잔여시간 τ, 스프레드, OFI, 변동성); 행동 a=이번 슬라이스 매매량; 보상 r = -(체결가 - 도착가)·수량 - λ·위험. Q(s,a) ← Q(s,a) + η[r + γ·max_a' Q(s',a') - Q(s,a)]. 정책 π(s)=argmax_a Q.
- 설계의도: Almgren-Chriss 닫힌해는 충격선형·정상성 가정. RL은 가정 없이 보상으로 최적정책을 학습 — 벨만 최적식의 max·기댓값 연산이 비선형충격·레짐변화를 데이터로 흡수. 일/분 집계 상태로 틱 비의존 구현.
- 목적적합: 실행·청산알파(목적3): 후보종목을 며칠 매집/청산할 때 학습된 정책으로 슬라이스. 실행비용 절감이 손익비를 직접 개선.
- 우리데이터: 30분봉·체결강도·OFI·수급으로 상태 구성, 과거 일/분 데이터로 오프라인 RL 학습(역설계).
- 대중지표 대비 엣지: VWAP 분할(대중)은 고정스케줄로 시장상태 무시. RL 실행은 상태의존 적응정책을 보상최대화로 학습 — 기관 실행데스크가 쓰는 비공개 알파의 공개 역설계판. (출처: Nevmyvaka-Feng-Kearns 2006 RL execution)
- 출처: T2_프랩_퀀트_공개자료 — Nevmyvaka, Feng, Kearns, 'Reinforcement Learning for Optimized Trade Execution', ICML 2006. 비공개 데스크 알파의 공개 역설계.
L8 기타 (4개)¶
21. Bayesian Online Changepoint Detection (Adams-MacKay run-length) ✅¶
- 한줄: 매일 '마지막 구조변화 이후 경과일(run length)'의 사후분포를 갱신해, 추세·변동성 체제가 방금 깨졌는지를 실시간 확률로 경보한다.
- 수학분류: 베이지안 변화점 탐지(run-length 사후 재귀) | 단위: 일
- 계산식: run length r_t. 매 관측 x_t에 대해: 성장확률 P(r_t=r_{t-1}+1) ~ P(r_{t-1}) * pred(x_t|r_{t-1}) * (1-H); 변화확률 P(r_t=0) ~ sum_r P(r) * pred(x_t|r) * H. H=hazard(1/기대구간길이). pred는 켤레사전분포(정규-역감마)로 닫힌형. 정규화 후 P(r_t | x_1..t). 변화경보 = P(r_t=0) 급등 또는 E[r_t] 급락.
- 설계의도: run length를 상태로 두는 이유: '얼마나 오래 같은 체제였나'가 곧 현재 추정의 신뢰도(긴 run=안정 통계). hazard로 곱하는 이유: 매 시점 일정확률로 체제가 깨질 수 있음을 사전에 반영. 켤레사전으로 pred를 닫힌형 적분하는 이유: 매일 O(t) 갱신으로 온라인 실시간 운용 가능(재학습 불필요).
- 목적적합: 레짐(목적4): HMM이 '어느 상태'라면 BOCPD는 '방금 상태가 바뀌었나'를 봄 -> 추세전환 직후 진입/기존포지션 청산 타이밍. 하단받침(목적): 변화점 직후엔 과거 지지선이 무효임을 경고해 잘못된 받침매수 방지. 단기진입: P(r=0)이 낮을 때만(체제 안정) 평균회귀/추세 베팅 신뢰.
- 우리데이터: 지수/종목 일수익률·체결강도·수급 시계열에 각각 BOCPD -> '수급 변화점'도 탐지. 추가 데이터 결손 없이 OHLCV만으로 즉시 적용.
- 대중지표 대비 엣지: 이동평균/볼린저는 변화를 '사후에 평균이 따라잡은 뒤' 알지만 BOCPD는 변화 발생 시점을 베이지안 사후확률로 명시하고 불확실성까지 정량화. PELT/CUSUM 같은 사후(retrospective) 기법과 달리 strictly online이라 실거래 의사결정에 직접 사용 가능.
- 출처: T1_학술_1차문서 — Adams & MacKay (2007) 'Bayesian Online Changepoint Detection', arXiv 0710.3742 (DJIA 일수익률 1972-1975 실증). 재귀식·hazard·run-length 사후 확인. metricgate.com BOCPD 문서 교차확인.
22. 극단값이론 POT-GPD 기반 손절·꼬리목표 (Pickands-Balkema-de Haan) ✅¶
- 한줄: 손절폭/목표폭을 정규가정이 아니라, 임계초과분이 따르는 일반화파레토분포(GPD)로 추정해 한국증시의 두꺼운 꼬리를 반영한 손익비를 계산한다.
- 수학분류: 극단값이론(Peaks-Over-Threshold + GPD) | 단위: 일
- 계산식: 일수익률(또는 잔차)의 음의꼬리에서 임계 u 설정, 초과분 Y=u-r (r<-u). PBdH 정리로 Y ~ GPD(xi, beta): F(y)=1-(1+xiy/beta)^(-1/xi). MLE로 xi,beta 추정. VaR_p = u + (beta/xi)[((n/N_u)(1-p))^(-xi) - 1]; ES(평균초과손실)=VaR/(1-xi)+(beta-xiu)/(1-xi). 손절=동적 VaR_0.99, 꼬리목표=상단 GPD로 대칭 추정.
- 설계의도: 임계초과분만 모델링(빼기 u)하는 이유: 분포의 중심이 아니라 손실을 결정하는 꼬리만 정확히 적합. GPD를 쓰는 이유: PBdH 정리가 '어떤 분포든 초과분은 점근적으로 GPD'임을 보장 -> 분포 무지 상태에서도 꼬리추정의 이론적 근거. xi(꼬리지수)로 나누는 구조: xi>0이면 멱법칙 두꺼운꼬리라 정규대비 손절을 넓혀야 함을 식이 자동 반영.
- 목적적합: 손익비(목적3)의 정밀화: ATR/표준편차 손절은 정규를 가정해 한국증시 급락(상하한가)에서 과소설정 -> POT는 꼬리실측으로 손절을 보정. 하단받침 확률: P(loss>x)를 GPD 꼬리로 계산해 '버틸 수 있는 손절'인지 검증. 결합: ES를 포지션사이징 분모로.
- 우리데이터: 종목/지수 일수익률 수년치(꼬리 표본 위해 길수록 좋음)로 POT-GPD 적합. 30분봉으로 일중 극단변동 GPD 보조. 공매도/대차 급증일을 꼬리표본 보강에 활용.
- 대중지표 대비 엣지: ATR·볼린저는 정규/대칭을 암묵가정해 한국증시 비대칭 폭락꼬리를 과소평가 -> 손절이 너무 타이트해 휩쏘 또는 너무 느슨해 큰손실. POT-GPD는 꼬리지수 xi를 실측해 멱법칙 꼬리를 명시 모델링, VaR/ES를 이론적으로 정당화(Basel·FRM 표준).
- 출처: T1_학술_1차문서 — Pickands-Balkema-de Haan 정리; POT-GPD VaR/ES 식 AnalystPrep FRM Part2, MDPI Symmetry 16(3):365, arXiv 2407.05933(tail risk mixture). 변화점결합판 arXiv 1902.09205.
31. ARFIMA 장기기억 실현변동성 모형 (fractional integration) ✅¶
- 한줄: 실현변동성의 '느린 감쇠(장기기억)'를 분수차분 d로 모델링 -> 변동성이 며칠~몇주 지속되는 정도를 정량화해 보유기간 변동성 예측
- 수학분류: 장기기억 시계열 / 분수적분 ARFIMA | 단위: 일
- 계산식: (1−L)^d (Φ(L) RV_t − μ)=Θ(L)ε_t. (1−L)^d=Σ_{k} [Γ(k−d)/(Γ(−d)Γ(k+1))] L^k (분수차분 이항전개). 0<d<0.5면 정상 장기기억. d 추정: GPH 로그주기도 회귀(예 d≈0.40). 실무 대안 HAR-RV: RV_t+1=β0+β_d·RV_t(일)+β_w·RV_{t-5:t}(주평균)+β_m·RV_{t-22:t}(월평균)+ε.
- 설계의도: 분수차분 (1−L)^d: 정수차분(d=1, 과대차분)과 무차분(d=0, 너무 끈질김) 사이의 연속스펙트럼. 자기상관이 지수가 아니라 거듭제곱 k^{2d-1}으로 느리게 감쇠 -> 변동성의 장기지속을 한 파라미터로. HAR은 이를 일/주/월 합으로 근사(이종투자자 시간대 합산).
- 목적적합: 보유기간(내일~며칠) 변동성을 정확히 예측 -> 손절폭·목표폭을 변동성에 비례해 동적 설정(손익비 분모). 변동성 지속국면 식별(레짐). 진입시점 변동성 대비 예상변동성 비교로 과열/안정 판단.
- 우리데이터: 30분봉으로 일별 RV 계산->수년 RV 시계열. HAR-RV는 일봉 고저종으로 Parkinson/Garman-Klass RV 대용 가능. GPH로 d 추정, OLS로 HAR 계수.
- 대중지표 대비 엣지: 이동평균·볼린저는 변동성 기억을 지수가중(단기)으로만 본다. ARFIMA/HAR는 거듭제곱 감쇠(장기기억)를 명시 -> 변동성 지속성을 수학적으로 정확히 예측. RV 예측에서 GARCH·이동평균 대비 우월(Corsi 2009 실증).
- 출처: T1_학술_1차문서 — Corsi (2009) 'A Simple Approximate Long-Memory Model of Realized Volatility' (HAR-RV); Andersen-Bollerslev-Diebold-Labys 'Modeling and Forecasting Realized Volatility' (BIS PDF). https://statmath.wu.ac.at/~hauser/LVs/FinEtricsQF/References/Corsi2009JFinEtrics_LMmodelRealizedVola.pdf
48. 돌파까지의 시간 Cox 비례위험 (생존분석) ✅¶
- 한줄: 현재 수급·미시구조 상태가 주어졌을 때 '저항선 돌파까지 걸리는 시간'의 위험률을 모델링
- 수학분류: 생존분석 (Cox 비례위험, 부분우도) | 단위: 일
- 계산식: 위험률 h(t|x)=h_0(t)·exp(x'β). x=칼만 매집강도, VPIN, 체결강도레짐확률, λ_U, OU z. β는 부분우도 L(β)=Π_i [exp(x_i'β)/Σ_{j∈R(t_i)} exp(x_j'β)] 최대화. 사건='저항선(또는 +X%) 돌파'. 검열=관측종료까지 미돌파. P(돌파 ≤ d일 | x)=1−S(d|x), S=exp(−∫h).
- 설계의도: '며칠 안에 돌파하나'는 시간-사건 문제 — 회귀/분류는 검열(아직 안 뚫린 종목)을 못 다룬다. Cox는 (a)기저위험 h_0를 비모수로 두고 (b)공변량 효과를 exp(x'β)로 곱셈모델링. 가감승제 핵심: 위험률의 로그가 x에 선형(exp으로 곱) — '매집강도가 1σ 높으면 돌파위험 e^β배'. 검열처리가 핵심 설계(미돌파 종목 정보도 활용).
- 목적적합: 단기 진입확률+보유기간 축: 'D+1~D+5 내 돌파확률'을 공변량별로 산출 → 보유지평 매칭. 손익비의 '시간차원'(목표 도달 속도)을 제공 — 분위수회귀(가격분포)와 상보적(시간분포).
- 우리데이터: 수년치 일봉으로 각 종목의 저항선(전고점/POC) 정의 → 돌파 이벤트·검열 라벨링. 공변량=위 기법 출력. lifelines 패키지 적합.
- 대중지표 대비 엣지: 단순 '돌파하면 매수' 대비: (1)돌파 '확률+소요시간'을 정량, (2)검열로 미돌파 표본까지 활용(편향 제거), (3)공변량별 위험비로 어떤 수급조건이 돌파를 앞당기나 해석. 차트 패턴매칭이 못 주는 시간-사건 확률.
- 출처: T2_프랩_퀀트_공개자료 — Cox 1972 비례위험; StatsDirect Cox regression 문서. 부분우도·위험비 표준. 주식 time-to-breakout 적용은 역설계(직접 1차문헌은 미확인, 방법론 자체는 T1).