정량 렌즈 — 수식 배경 & 구현 불가 사유 (S356)¶

구현 전 정리: (A) 구현 대상이 왜 그 수식을 쓰는가(설계의도) (B) 구현 못 하는 것은 왜 못 하는가(원천 한계). 근거: 발산 v1/v2 수집 계산식·설계의도 + 키움 API 실측.

A. 구현 대상 — 왜 이 수식인가¶

① 매물구조: Volume Profile / Market Profile¶

수식 - POC = 거래량 최대 가격빈. VA(Value Area) = POC에서 위·아래 인접빈 거래량 합을 비교해 큰 쪽 누적, 총거래량×70% 도달까지 → 상단=VAH, 하단=VAL. - HVN(고거래량노드)=히스토그램 봉우리=지지/저항. LVN(저거래량노드)=골짜기=빠르게 통과하는 공백.

왜 이 수식인가 (설계의도) - "가격은 거래가 많았던 곳으로 회귀한다" — Steidlmayer Market Profile의 전제. 거래량이 쌓인 가격대(HVN)는 많은 참여자의 평단가가 몰린 곳이라, 그 가격에서 매수/매도가 다시 나옴 → 지지·저항. - 70%를 VA로 잡는 이유: 정규분포 ±1σ ≈ 68% — 거래의 "정상 범위". 그 밖(VA 위/아래)은 이례적 가격이라 되돌림 또는 추세의 신호. - LVN이 중요한 이유: 거래가 적었던 가격대 = 아무도 그 가격을 방어 안 함 → 진입하면 빠르게 통과(손익비 좋은 구간). PM이 말한 "손절자리와 진입자리가 가까울수록 좋다"가 LVN 사이 진입. - 현재 우리 overhang 스칼라의 한계를 메우는 이유: overhang_below_pct는 "위에 매물이 몇 %"라는 비율 1개. VP는 "어느 가격에 얼마나"라는 분포. 손절(가까운 아래 HVN)·목표(가까운 위 HVN)를 가격으로 찍으려면 분포가 필요.

② 레짐: Hurst / Variance Ratio / 반감기 / 효율비(ER)¶

수식 - Hurst: Var(z(t+τ)−z(t)) ∝ τ^(2H). log-log 회귀 기울기/2 = H. H>0.5 추세지속, <0.5 평균회귀. - VR(q) = Var(q봉수익률) / (q·Var(1봉수익률)). =1 랜덤워크, <1 평균회귀, >1 모멘텀. z통계로 유의성. - 반감기 = −ln(2)/λ, λ=Δy를 y(t−1)에 회귀한 기울기. "몇 봉이면 절반 되돌리나". - ER = |close_t − close_{t−n}| / Σ|일간변화|. 0~1, 1=완전직진 추세.

왜 이 수식인가 - 랜덤워크 분산은 시간에 선형(Var∝t) — 이게 기준점. 추세장은 한 방향 누적이라 분산이 t보다 빨리 커지고(H>0.5, VR>1), 평균회귀장은 되돌림이 분산을 억눌러 t보다 느리게 커진다(H<0.5, VR<1). 즉 "분산이 시간에 어떻게 커지나"로 추세/회귀를 가른다 — 가격을 직접 안 보고 분산의 스케일링만 본 게 설계의 핵심. - 왜 필요한가(PM 결합): 같은 "머리 위 매물벽"이라도 추세 레짐이면 뚫고(돌파 전략), 평균회귀 레짐이면 막힌다(지지반등 전략). 매물의 의미가 레짐에 따라 뒤집힌다 → 레짐이 매물 해석의 조건. - 반감기가 보유기간을 정하는 이유: 평균회귀의 절반 되돌림 시간 = 눌림목 진입 후 반등까지 기대 봉수. 단기 보유(내일~며칠)가 반감기와 맞아야 승산.

③ 손익비: Triple-Barrier + ATR R-멀티플 + σ√t¶

수식 - Triple-Barrier: 상단=close·(1+pt·σ), 하단=close·(1−sl·σ), 수직=진입+N봉. 먼저 닿는 것으로 +1/−1/0 라벨. - ATR R-멀티플: 손절=진입−m·ATR, 1R=m·ATR, 목표=k·ATR → R:R=k/m. 수량=계좌위험%/1R. - σ√t 기대이동: 1σ이동 = 가격×σ×√(t/252). 레벨 도달확률 ≈ 정규CDF. 반사원리: 터치확률 ≈ 2×마감초과확률.

왜 이 수식인가 - Triple-Barrier가 "라벨"인 이유: 단기매매 결과는 "익절 닿음/손절 닿음/시간 만료" 셋뿐. 이걸 과거 모든 진입후보에 적용하면 "이 셋업의 승률·평균R"이 분포로 측정된다. PM이 "진입가/손절가/목표가는 말을 지어낸 것"이라 한 것을, 과거 데이터로 검증된 숫자로 바꾸는 게 이 라벨의 의미. - 왜 ATR(변동성)로 손절폭을 잡나: 고정 % 손절(예 -3%)은 변동성 큰 종목엔 너무 좁아 노이즈에 털리고, 작은 종목엔 너무 넓다. ATR 배수로 잡으면 모든 종목이 "같은 1R 위험"으로 통일 → 종목 간 손익비 직접 비교 가능. PM의 "매수자리와 손절자리가 가까울수록(R 작을수록) 좋다"를 종목 무관하게 잰다. - σ√t가 확률을 주는 이유: 가격은 변동성×√시간으로 퍼진다(브라운운동). 목표가 진입가에서 2σ 위면 도달확률이 낮고, 0.5σ면 높다 → "목표 도달확률 × 목표폭"으로 기대값(EV) 을 계산. 손익비를 확률가중. 반사원리(2×)는 "끝에 도달"이 아니라 "도중 한번이라도 터치"를 재서 손절 당할 확률을 정확히 본다.

④ 결합: 메타라벨링 + Carver FDM¶

수식 - 메타라벨링: 1차 모델=방향(side), Triple-Barrier를 side 방향으로 적용해 meta-label y∈{0,1}(이겼나). 2차 모델이 P(win) 예측 → bet size ∝ P(win). - FDM = 1/√(W'·C·W). W=가중치, C=신호 상관행렬. final = 결합점수 × FDM.

왜 이 수식인가 - 메타라벨링이 분절을 푸는 이유: 차트·수급·재료를 각자 verdict 내고 단순 합치면(현 Borda), "이 신호들이 오늘 시장에서 실제로 맞을 확률"을 못 본다. 메타라벨은 1차 신호는 방향만, 2차가 "지금 시장자금·재료크기·가격반영도 조건에서 실행할까/말까(P(win))" 를 학습 → PM이 말한 "매물 의미를 자금·재료와 결합"이 정확히 이 2차층. - FDM이 필요한 이유: 매물점수·수급점수·추세점수가 서로 양의 상관이면 단순 합산은 같은 정보를 중복 계산해 과대평가. FDM은 상관행렬로 "중복분"을 정확히 빼서 결합 진폭을 정상화. 현 score_compose의 Borda 랭크 합산보다 정밀.

B. 구현 불가 — 왜 못 하는가¶

B-1. 틱·호가 의존 기법 (OFI/OBI/Microprice/VPIN틱판/Hawkes/ClusterLOB/Lee-Ready)¶

왜 못 하나 — 3중 차단: 1. 과거 데이터 없음 (검증 불가): 키움 ka10079 틱차트 실측 결과 = 직전 1거래일만 제공(삼성 30틱 22,500개가 전부 6/26 하루). 실시간 호가(TR 0D)는 스냅샷이라 과거 호가창 시계열 없음. → 백테스트(과거에 맞았나)가 구조적으로 불가능. 2. 후보 매일 바뀜 (적재로도 안 됨): "매일 적재해 N일 쌓으면" 논리는 후보가 매일 달라져 같은 종목 호가 시계열이 안 쌓임. 일관된 과거 패널 형성 불가. 3. 천 종목 수집 불가 (rate limit): 요청당 1초 × 종목당 다수 페이지 → 전 종목 틱·호가 적재 = 3~7시간/일. 비현실적.

결론: 이 기법들은 검증된 선정 렌즈로 못 씀. 데이터 원천(키움)은 제공하나, "과거 검증 + 전 종목 + 후보변동"의 3제약을 못 넘음. 쓴다면 "최종 선정된 소수의 그날 실시간 보조신호"뿐(검증 없이). → PM 원칙(분/일 단위, 검증 가능)에 따라 선정 렌즈에서 제외.

B-2. 진짜 Volume Profile / Footprint (매수·매도 체결 분리)¶

왜 부분만 되나: 진짜 footprint는 가격대별 매수체결량 vs 매도체결량을 분리해야 하는데, 우리 30분봉은 OHLCV만(매수/매도 구분 없음). → 종가위치(CLV) 근사로만 매수압 추정. "방향 있는 매물맵"은 근사. (체결강도 ka10047로 일부 보완)

B-3. 옵션 IV 기반 기대이동 (Expected Move 원식)¶

왜 치환하나: σ√t 원식은 옵션 내재변동성(IV)을 쓰는데 우리 데이터에 IV 없음. → 실현(역사적)변동성으로 치환. 옵션시장의 미래 기대와는 다를 수 있음(한계 명시).

B-4. ML 파이프라인 전제 기법 (메타라벨링 2차 모델, FFD 피처)¶

왜 조건부인가: 메타라벨링·FFD는 머신러닝 분류기를 전제. 단독 지표가 아니라 "우리 멀티팩터 점수의 보정층"으로만 의미. PM 원칙("코드 준비 데이터 + 고정 규칙, LLM 자유서술 아님")에 맞추려면 2차 모델을 ML이 아니라 룰 기반(가중합/임계)으로 시작하는 게 안전 — 데이터 쌓이면 ML로 승급. (미해결 결정3)

B-5. 프로그램매매 예측 가중식 (비공개)¶

왜 역설계인가: 증권사·기관의 프로그램매매 "예측 결합 가중식"은 개념만 공개, 정량 결합은 비공개. → 우리 백테스트로 직접 도출해야 함(차용 불가, 역설계추정).

요약표¶

묶음	핵심 수식의 한 줄 배경	상태
① VP 과학화	"가격은 거래 많은 곳으로 회귀" → 두께가 지지/저항	구현 (30분봉 근사)
② 레짐	"분산이 시간에 어떻게 커지나"로 추세/회귀 판별	구현 (일봉)
③ 손익비	변동성으로 손절을 통일(1R) + 과거 라벨로 승률·R 실측	구현 (일봉)
④ 결합	1차 방향 + 2차 실행확률(자금·재료 조건) + 중복 교정	구현 (룰 기반 시작)
OFI/OBI/VPIN틱	호가 큐·틱 부호화	불가 (과거데이터·전종목·후보변동 3제약)
진짜 Footprint	매수/매도 체결 분리	부분 (30분봉 매수매도 미구분 → CLV 근사)
옵션 IV 기대이동	내재변동성	치환 (실현변동성으로)