콘텐츠로 이동

퀀트 종목·테마 발굴 funnel 리서치 (Round 4)

작성: 2026-05-22 | 선행: Round 1~3 (LLM 트레이딩 / 해석 방법론 / 차트·수급 구조화) 주제: 퀀트 방법론으로 종목·테마를 어떻게 발굴·선별·랭킹하는가 목적: 발굴 시스템의 앞단 funnel 설계 — 수천 종목·전체 테마 → 후보 수십 개로 압축. 이후 Round 3 분석레이어 → Round 1·2 LLM 종합으로 연결.


0. 한 줄 결론

발굴 funnel은 다단계 깔때기 — "싼 필터 먼저, 무거운 계산 나중", 절대 임계가 아닌 상대 랭킹(시장 상황 무관하게 후보 수 안정). 종목 트랙과 테마 트랙이 병렬로 돌아 합류한다. 그러나 결정적 경고: 기계적 퀀트 팩터(모멘텀)는 크라우딩으로 빠르게 죽는다(2025 여름 quant unwind가 실증). 퀀트는 후보를 압축하는 funnel일 뿐, edge 자체는 아니다 — edge는 Round 1·2의 LLM 해석에서 나온다. 이 역할 분리가 Round 4의 핵심 교훈.


1. 핵심 발견 (영역 횡단)

CF1. funnel = "싼 필터 먼저" + 상대 랭킹

QuantConnect 표준: coarse(가격·거래대금 가벼운 컷) → fundamental(팩터 무거운 컷) 2단. 확장하면 5단계. 각 단계는 절대 임계가 아닌 percentile cut — 시장이 약해도 후보 수십 개가 항상 남는다.

CF2. 종목 트랙 ⊥ 테마 트랙 — 병렬 후 합류

종목 발굴(팩터·모멘텀·이상탐지)과 테마 발굴(로테이션·RRG·클러스터링)은 다른 파이프라인. 마지막에 "부상 테마 ∩ 강한 종목"으로 합류 = 주도테마의 주도주.

CF3. 정규화는 여기서도 강제 결론

팩터 결합(z-score 표준화 후 합산), 거래량 이상(log-volume z-score), RS(1~99 백분위) — 전부 정규화. Round 3과 동일 — look-ahead 방어 + 종목 간 비교.

CF4. 기계적 팩터는 크라우딩으로 죽는다 — 퀀트는 funnel일 뿐, edge가 아니다

  • "Not All Factors Crowd Equally"(arXiv:2512.11913): 알파 감쇠 α(t)=K/(1+λt). 기계적 팩터(모멘텀·리버설)는 빠르게 decay, 판단 기반 팩터(밸류·퀄리티)는 끈질김. 크라우딩된 리버설 팩터는 크래시 확률 1.7~1.8배.
  • 2025 여름 실증: 정교한 롱숏 퀀트 펀드들이 6~7월 미국 포트폴리오에서 GS 추산 4.2% 손실(레버리지 감안 자본 대비 16~25%). 모두 같은 팩터·같은 종목에 쏠려 있었다. → 퀀트 funnel은 후보를 압축할 뿐, "이 종목이 오른다"는 edge를 주지 않는다. Edge는 Round 1·2 LLM 해석(재료·차트·심리)에서. 이게 PM이 말한 "퀀트로 발굴, LLM으로 해석"의 실증적 근거.

CF5. 검증 — walk-forward + DSR + 다중검정 보정 + base rate 대조

  • Deflated Sharpe Ratio(Bailey·López de Prado): 전통 Sharpe는 다중검정 선택편향·팻테일·짧은 표본으로 부풀려짐. 개발 중 돌린 모든 백테스트 수를 기록해야 보정 가능.
  • Walk-forward + WFE(out-of-sample 수익 / in-sample 수익): WFE 낮으면(예 <0.5) 커브피팅.
  • 다중검정: Harvey-Liu — 발표 팩터 대부분이 거짓일 수 있음. FDR 통제. 함정은 "검정 수"보다 "선택적 보고"에.
  • base rate 대조: 시그널 적중률 vs "아무거나 샀을 때 기저율". 우위 없으면 시그널 아님. → Round 3 base-rate 엔진과 동일.

CF6. 한국 특수성 — retail 테마 사이클 3~5세션

한국 KOSDAQ 소형주 테마는 사이클이 압축됨 → 모든 지표를 일봉/일중 기준 산출. 한국 전용 RRG·테마 클러스터링 상용 사례 없음 → 글로벌 방법론을 한국 데이터로 이식 + 임계 재보정.


2. 통합 발굴 funnel (제안)

종목 트랙

Stage 0  시장 게이트   : market breadth(A/D선, %>MA, 신고가수) + 변동성 레짐
                         → 약하면 후보 수 축소 / 공격성 하향
Stage 1  유동성·가격컷 : 일평균 거래대금 하한 + 동전주 제외   ← 가장 가벼움, 최다 제거
Stage 2  멀티팩터 랭킹 : 스윙용 composite = 단기모멘텀(3-1/6-1) + SUE + 매출서프라이즈
                         + RS Rating  → z-score 합산 → 상위 percentile(~20%) 통과
Stage 3  이상·돌파 트리거: log-volume z-score≥2 AND RVOL≥2, 또는 검증된 박스돌파
                         (박스폭 ATR대비 좁음 + 돌파봉 거래량 z-score)
Stage 4  outlier 보완  : Isolation Forest anomaly score 상위 → 룰 누락분 복원

테마 트랙 (병렬)

① 듀얼 ROC 모멘텀 랭킹(20일·60일) → 상위 분위
② RRG: 테마 인덱스를 KOSPI 대비 플롯 → "Improving 4분면 진입 + 시계방향 회전"
③ 거래대금 점유율 + breadth 확산율 z-score ≥2 동시 급등 → 신테마 부상 알림
④ MST + 계층 클러스터링(60일 상관) → 공식 섹터 외 신규 동조 클러스터 보강
⑤ 생명주기 라벨(RRG 4분면 + breadth 기울기 + 거래대금 점유율 미분) → "부상"만 통과

합류

테마 트랙의 '부상' 테마종목 트랙 통과 종목주도테마의 주도주 후보 → Round 3 분석레이어로 전달.


3. 영역별 핵심 (구현)

3-1. 멀티팩터 (f1)

  • 주요 팩터: Value(B/M), Momentum(2~12M, 1M 제외), Quality(ROE·부채), Low-Vol(수익률 σ), Size.
  • 결합: 횡단면 z-score 표준화 → equal-weight composite(1/N이 견고한 벤치마크) → decile 랭킹.
  • 검증: Rank IC(Spearman), 월 IC 5~6%면 강함, ICIR>0.5 양호.
  • 스윙용: 단기 모멘텀(3-1/6-1) + SUE=(실제EPS−기대EPS)/서프라이즈σ + 매출 서프라이즈. PEAD 윈도우(발표 후 60~90일) 가점.
  • 출처: AQR Multi-Factor, Combining factors, Brandeis SUE/PEAD

3-2. 모멘텀·상대강도 (f2)

  • IBD RS Rating: 0.4·ROC(63) + 0.2·ROC(126) + 0.2·ROC(189) + 0.2·ROC(252) → 1~99 백분위. (RS Line은 별개 — 종목/지수 비율 시계열)
  • 횡단면 모멘텀 = 랭킹용 / 시계열 모멘텀 = 시장 게이트용. (CS = TS − 횡단면평균)
  • 12-1 모멘텀(최근 1M 제외, 단기 반전 회피). 스윙은 6-1/3-1로 단축.
  • 52주 신고가 모멘텀(George-Hwang): 현재가/52주최고가, 0.85+ 트리거.
  • 모멘텀 크래시: 패닉+고변동 국면 급락(2009.3 −45.6%). Dynamic momentum으로 비중 자동 축소.
  • 출처: IBD RS skyte, Momentum Crashes NBER, 52주 신고가 George-Hwang

3-3. 테마·섹터 발굴 (f3)

  • 섹터 로테이션: 3·6·12M(스윙은 20·60일 ROC) 모멘텀 랭킹 → 상위 분위.
  • RRG: JdK RS-Ratio(상대성과 추세) × RS-Momentum(그 ROC), 100 교차로 4분면. Improving→Leading 시계방향. RS-Momentum이 선행.
  • 상관 클러스터링(Mantegna 1999): 수익률 상관 ρ → 거리 d=√(2(1−ρ)) → MST + 계층 클러스터링 → 공식 섹터에 없는 신테마 자동 발견.
  • 테마 바스켓: 동일가중(시총가중은 대형주 쏠림). 강도 = 상대수익 + RS-Ratio + breadth.
  • 출처: RRG StockCharts, Mantegna MST

3-4. 스크리닝·이상탐지 (f4)

  • 거래량 이상: RVOL(현재/10일평균, ≥1.5 상승·≥3 주요촉매), log-volume z-score(±2~3σ, 시각대 정규화).
  • 돌파: Darvas Box — 횡보 박스 자동식별 + 거래량 동반 돌파. 박스 age + 변동성조정 높이로 검증.
  • Isolation Forest: 다차원 피처(수익률·거래량 z·변동성·수급)로 outlier 종목 추출 (KOSPI200 적용 사례 정확도 +4.77%).
  • breadth: A/D선, New High−Low, %>MA — 테마 바스켓 단위로도 산출.
  • 출처: RVOL StockCharts, Isolation Forest Springer 2025

3-5. 검증·한계 (f5)

  • 팩터 decay: 기계적 팩터 쌍곡선 감쇠, 2015년 이후 ETF 크라우딩 가속.
  • 2025 여름 quant unwind: 롱숏 퀀트 GS 추산 4.2% 손실 — 팩터 쏠림 실증.
  • 검증: DSR, walk-forward + WFE, 다중검정 FDR 보정, base rate 대조.
  • 하이브리드(Quantamental): 퀀트=후보 압축 필터, LLM/사람=인과·맥락·크라우딩 검증.
  • 출처: Not All Factors Crowd Equally 2512.11913, MSCI 2025 Quant Wobble, DSR Bailey-López de Prado

4. 설계 시사점

# 시사점
Q1 funnel = 5단계 깔때기, "싼 필터 먼저", 절대 임계 아닌 상대 percentile cut (후보 수 안정)
Q2 종목 트랙 + 테마 트랙 병렬 → "부상 테마 ∩ 강한 종목"으로 합류 = 주도주 후보
Q3 모든 팩터·지표 정규화(z-score·백분위). 스윙용 팩터 = 단기모멘텀·SUE·서프라이즈·RS
Q4 퀀트 funnel은 edge가 아니라 후보 압축이다. 기계적 팩터는 크라우딩으로 죽음 → edge는 LLM 해석에서
Q5 검증: DSR + walk-forward(WFE) + 다중검정 보정 + base rate 대조. 시험 횟수 기록 의무
Q6 한국 테마 사이클 3~5세션 → 일봉/일중 기준. 글로벌 방법론 한국 이식 + 임계 재보정
Q7 크라우딩 점검 — 발굴 후보가 "이미 모두 아는" 종목인지(공매도 잔고·팩터 노출 중복) 확인

5. 4라운드 리서치 종합 — 발굴 시스템 전체 그림

단계 리서치 역할
① 발굴 funnel Round 4 (본 문서) 수천 종목·전체 테마 → 후보 수십 개 압축 (퀀트, 상대 랭킹)
② 분석기법 레이어 Round 3 후보의 차트·수급 → 정규화·구조화·확률화 사실 (Layer A/B/C)
③ LLM 에이전트 종합 Round 1·2 구조화 사실 종합 → D+N verdict (제약된 포맷, 게으름 차단)
④ base-rate 엔진 + 검증 Round 3·4 과거 데이터로 확률 측정 + walk-forward 검증

외부 방법론 조사는 4라운드로 종료. 발굴 시스템의 모든 층(funnel·분석레이어·에이전트·검증)의 방법론 근거가 확보됐다.

다음 (주말 작업): ① funnel 각 단계를 한국 데이터 가용성에 매핑(키움 REST/기존 수집기) → ② Round 3 통합 스키마 + base-rate 엔진 설계 → ③ 첫 백테스트("큰 상승 다음날"). 모든 설계에 look-ahead 차단·다중검정 보정·정규화를 1일차부터 못박는다.


부록: 전체 출처

멀티팩터: AQR · Fama-French · Combining factors · factor zoo · IC/ICIR · SUE/PEAD 모멘텀/RS: IBD RS · CS vs TS momentum · Jegadeesh-Titman · Momentum Crashes · 52주 신고가 테마/섹터: RRG building blocks · RRG StockCharts · Sector Momentum Quantpedia · Mantegna MST · co-trading networks · Bloomberg Thematic Indices · WISDOM emerging detection 스크리닝/이상탐지: QuantConnect Universe · Swing Universe · RVOL · Volume Z-Score · Darvas Box · Isolation Forest Springer · Schwab Breadth 검증/한계: Not All Factors Crowd Equally · MSCI 2025 Quant Wobble · Resonanz 2025 Unwind · Deflated Sharpe Ratio · Walk-Forward · Harvey-Liu False Discoveries · Replication Crisis in Finance · AlphaAgent · Quantamental