차트 선행 가설 재구축 + 추가 상관관계 탐색 (A/B/C/D)¶
- 작성일: 2026-06-05
- 배경: 어제 "재료(호재) 공개 전에 차트가 먼저 만들어진다" 리서치의 후속. PM 질문 = "공시에서 더 사모으는 행동(내부자 지분매입) 외에 다른 상관관계가 더 있는가?"
- 재구축 사유: 어제 산출물(
backtest_precede.py,pre_event.parquet등)이 작업트리·전체 파일시스템 어디에도 없음 → 현 프로젝트 데이터로 처음부터 재구축. - 데이터: 코스닥 1,822종목 × 246거래일(2025-06-02 ~ 2026-06-05) = 437,684관측. FDR
DataReader종목별 수집(pykrx는 KRX 직결 차단 상태). - 이벤트 정의: 어떤 날 t에서 향후 40일 내 종가 +30%↑ = '이륙'. base rate = 19.0%.
0. 한 줄 결론¶
공시(서류 매집) 외에 발견된 가장 강한 추가 선행 상관관계 =
gap_cum(상방 갭 누적, AUC 0.652). 공시가 문서에 남긴 매집을, 갭 누적은 호가창에 남긴다 — DART에 아무것도 안 떠도, 이륙 전 2~3주간 매일 시가가 전일 종가 위에서 출발하는 종목이 통계적으로 터진다. 신호를 결합하면 정밀도가 단조 상승(무작위 19% → 3신호 35% → 4신호 38.5%). 단, "매일 고가 근처 마감(clv)"은 PM 직관과 반대로 음의 신호(분배 함정).공시 유형별로 보면(D), 내부자 지분매입(lift 1.22)은 오히려 약한 축. 무상증자(2.68)·유상증자(1.50)·공급계약(1.35)이 더 강하다. 가장 의미 있는 건 내부자매집 × 공급계약 동반(1.57) — 정보와 실체가 겹칠 때.
단, 주체는 못 밝힌다(PM 지적): 투자자별 라벨(외국인/기관)은 실체와 분리돼 있어 "누가"는 데이터 한계. 이 연구는 "행동의 흔적"까지만.
A. gap_cum × DART 공시 교차 — 갭이 공시보다 먼저인가?¶
표본: 이륙 이벤트 1,799건 중 랜덤 600건(corp_code 매칭 599). 조회창 = t0(이륙시작)-90일 ~ +5일. 지분매입성 공시 = 임원·주요주주 특정증권 소유보고 / 5%대량보유 / 최대주주변경.
(1) 이륙 종목의 매집 흔적
| 측정 | 비율 |
|---|---|
| 이륙 전 공시 1건+ 보유 | 100% (거래 종목 전수) |
| 이륙 전 내부자/지분 공시 보유 | 57.6% |
| 이륙 전 실질공시(공급계약/수주) | 18.7% |
| 이륙 전 유증/CB | 21.7% |
→ 어제 42.6%(내부자/특수관계자)와 같은 결. 기간창이 넓어(90일) 더 높게 측정.
(2) 갭(호가창 매집) vs 내부자공시(서류 매집) 선후 — 핵심 (n=156)
| 선후 | 비율 |
|---|---|
| 갭이 공시보다 먼저 | 58.3% |
| 동시(±5일) | 17.3% |
| 갭이 공시보다 뒤 | 37.2% |
| median(갭 - 공시) | -4일 (갭이 4일 빠름) |
→ 호가창에 찍힌 매집(상방 갭 누적)이 서류상 매집 신고(공시)보다 평균 먼저 나타난다. 갭 이전+동시 합 = 75.6%. 공시는 사후 확인 도장에 가깝고, 가격은 그 전에 이미 움직인다.
(3) 리드타임 & 갭-공시 동반성
- 내부자 공시 → 이륙(t0) median 62일 전 (공시 후 ~두 달 뒤 터짐 = PEAD/지연반응).
- 갭 강도별 내부자공시 보유율: high_gap 이륙 66.3% > 무갭 이륙 56.2%. → 갭이 강한 종목일수록 내부자 매집 공시도 더 자주 동반. 갭과 공시는 같은 실체(매집)의 두 얼굴.
A 결론: PM 직관("공시에서 더 사모은다")은 맞다(57.6%). 그런데 그 매집은 공시로 신고되기 전에 이미 호가창(갭)에 먼저 새어나온다(58.3%, 평균 4일 선행). gap_cum이 공시의 선행 지표 역할을 한다.
B. 3신호 결합룰 정밀도/수익성 백테스트¶
신호(t시점 관측, 룩어헤드 차단): gap_cum·pv_corr·amt_pctile (+비교군 vol_20). 임계 = 각 변수 Q80. 진입 = t종가, 측정 = t+1~t+40. 같은종목 30일내 재진입 1회 압축.
| 룰 | n | 정밀도(이륙적중) | lift | 40일평균 | 중앙값 | 승률 | p90 |
|---|---|---|---|---|---|---|---|
| 무작위(기준) | — | 0.190 | 1.00 | +4.1% | — | — | — |
| vol_20 단독(어제최강) | 2220 | 0.327 | 1.72 | +9.5% | -2.2% | 47% | +53% |
| gap_cum 단독(신규최강) | 2342 | 0.265 | 1.40 | +5.3% | -4.3% | 41% | +43% |
| gap & amt | 1291 | 0.330 | 1.74 | +9.5% | -3.3% | 44% | +58% |
| gap & vol | 1710 | 0.335 | 1.77 | +9.5% | -2.9% | 46% | +55% |
| gap & pv & amt (신규3) | 865 | 0.350 | 1.85 | +9.1% | -4.4% | 42% | +58% |
| gap & pv & amt & vol (4신호) | 703 | 0.385 | 2.03 | +10.5% | -5.2% | 43% | +65% |
해석: - 결합할수록 정밀도 단조 상승. 4신호 시 이륙적중 38.5%(무작위 2.03배). - 단, 중앙값은 음수 — 적중(이륙)은 늘지만 절반 이상은 손실. 우상향 분포(p90 +65%)에 의존하는 비대칭 수익구조. 손절 없이는 위험. 어제 "정밀도 9%, 분산 동반" 한계와 같은 결. - vol_20(변동성) 단독이 gap_cum 단독보다 정밀도는 높으나, 둘은 상호보완(결합 시 추가 상승).
C. 오늘(2026-06-05) 코스닥 신규신호 상위 종목¶
3신호(gap & pv & amt) 동시충족 = 31종목. n_sig≥2 = 182종목.
3신호 충족 상위 (gap_cum 순):
| Code | 종목 | 종가 | gap_cum | pv_corr | amt_pctile |
|---|---|---|---|---|---|
| 290690 | 소룩스 | 4,515 | 1.04 | 0.64 | 0.98 |
| 319400 | 현대무벡스 | 32,150 | 0.49 | 0.65 | 0.93 |
| 108490 | 로보티즈 | 310,000 | 0.49 | 0.68 | 0.97 |
| 058970 | 엠로 | 22,500 | 0.48 | 0.73 | 0.97 |
| 066430 | 아이로보틱스 | 3,285 | 0.47 | 0.67 | 0.98 |
| 049070 | 인탑스 | 17,620 | 0.45 | 0.71 | 0.98 |
| 417860 | 오브젠 | 12,070 | 0.45 | 0.79 | 0.98 |
| 347850 | 디앤디파마텍 | 89,700 | 0.36 | 0.75 | 0.98 |
| 455900 | 엔젤로보틱스 | 25,500 | 0.37 | 0.80 | 0.93 |
| 381620 | 제닉스로보틱스 | 9,140 | 0.24 | 0.67 | 0.92 |
패턴: 로봇 테마(로보티즈·아이로보틱스·엔젤로보틱스·제닉스로보틱스) 다수 = 어제 4단계 "관통적 사례(테마 전체 동반 시 터짐)"와 일치. 주의: 이 신호는 정밀도 35%(=65%는 안 터지거나 손실). 단독 매수신호 아닌 후보 필터로만.
D. 공시 "유형"별 주가상승 상관관계 (내부자 지분매입 外)¶
전종목 1년치 DART 공시 28,159건 수집 → 16개 유형 분류 → 중복제거 11,104건. 각 공시일 이후 첫 거래일 기준 40일 내 +30% 이륙률 측정. base=19.0%. 이항검정 p값.
| 순위 | 공시 유형 | n | 이륙률 | lift | 40일최대수익 | 유의 |
|---|---|---|---|---|---|---|
| 1 | 무상증자 | 61 | 50.8% | 2.68 | +41% | p=2e-08 |
| 2 | 분할 | 70 | 30.0% | 1.58 | +36% | p=0.03 |
| 3 | 유상증자 | 561 | 28.5% | 1.50 | +28% | p=5e-08 |
| 4 | 시설투자 | 177 | 27.1% | 1.43 | +23% | p=0.009 |
| 5 | 공급계약 | 1036 | 25.6% | 1.35 | +26% | p=2e-07 |
| 6 | CB/BW | 846 | 24.2% | 1.28 | +25% | p=2e-04 |
| 7 | 자사주처분 | 445 | 23.8% | 1.25 | +21% | p=0.01 |
| 8 | 내부자지분 | 3763 | 23.1% | 1.22 | +23% | p=4e-10 |
| - | 타법인출자 | 452 | 22.1% | 1.17 | - | p=0.09 |
| - | 자사주취득 | 268 | 22.0% | 1.16 | - | p=0.21(무의미) |
| - | 실적 | 1966 | 21.2% | 1.11 | - | 약함 |
| - | 최대주주변경 | 463 | 20.5% | 1.08 | - | p=0.41(무의미) |
| - | 합병 | 270 | 20.4% | 1.07 | - | p=0.54(무의미) |
| - | 감자 | 106 | 19.8% | 1.04 | - | 무의미 |
| ↓ | 기타계약 | 393 | 14.8% | 0.78 | - | 음(-) |
| ↓ | 관리악재 | 226 | 11.9% | 0.63 | +10% | p=0.006 (악재확인) |
핵심 (PM 질문 직답): 1. 내부자 지분매입(lift 1.22)은 오히려 약한 축. 더 강한 게 여럿 있다. 2. 무상증자(2.68)가 압도적 1위 — 무증 종목 절반이 이륙. (표본 61로 작음, 한국 무증테마 전형) 3. 자금조달(유상증자 1.50 / CB 1.28)이 의외로 강함 — 통념(희석=악재)과 반대. "조달→신사업" 기대 선반영. 조달 참여자가 정보우위일 수 있는 지점. 4. 공급계약(1.35) = 실체 재료의 정직한 반영. 5. 실적(1.11)은 거의 무력 — "좋은 실적=상승" 코스닥 이륙엔 약함(선반영/재료가 만든다). 6. 최대주주변경·합병(~1.0) 무의미 — 경영권 변동이 이륙을 못 만든다. 7. 관리악재(0.63) = 정상적으로 음의 신호(분류 타당성 검증).
내부자 + X 조합 (시너지):
| 조합 | n | 이륙률 | lift |
|---|---|---|---|
| 내부자 + 공급계약 | 464 | 29.7% | 1.57 |
| 내부자 + CB | 491 | 26.1% | 1.37 |
| 내부자 + 실적 | 855 | 25.8% | 1.36 |
| 내부자 + 유상증자 | 391 | 24.3% | 1.28 |
| 내부자 + 자사주취득 | 115 | 18.3% | 0.96 (시너지X) |
→ 내부자가 사 모으는 동시에 공급계약이 뜨면 lift 1.57 (내부자 단독 1.22 초과). "정보우위자가 실체 재료를 알고 미리 산다"는 가설에 가장 부합하는 조합.
D 결론: PM 질문에 답 — 내부자 지분매입은 여러 상관 공시 중 하나일 뿐이고, 무상증자·자금조달(유증/CB)·공급계약이 더 강하다. 다만 무증을 빼면 lift는 모두 1.2~1.5 수준(단독 매매신호로는 약함). 가장 의미 있는 건 내부자매집 × 공급계약 동반(1.57) — 정보와 실체가 겹칠 때.
한계 (정직하게)¶
- 수익 비대칭: 정밀도↑여도 중앙값 음수. 손절·분산 없이는 손실. (B표 중앙값 칼럼)
- 거래대금 근사: amt = Close×Volume (정확한 체결대금 아님).
- 기간 의존: 2025~2026 1년. 장세(로봇 테마 강세 구간) 편향 가능.
- gap_cum 인과 미확정: A에서 갭이 공시보다 median 4일 먼저(58.3%)임을 봤으나, 이는 선후·동반이지 인과 증명 아님. "갭→공시" 정보유출인지, 둘 다 제3의 매집행위 결과인지는 미구분. 또 선후 표본 n=156(갭·공시 둘 다 있는 경우만)이라 작음.
- 재현 한계: 어제 원본 코드 부재로 변수 정의가 어제와 1:1 동일하지 않을 수 있음(섹터동반은 시장동조로 근사).
- D 표본 편차: 무상증자 n=61, 분할 n=70 등 소표본 유형은 lift 변동 큼. 무증 2.68은 강하나 표본 작아 단정 주의.
- D 인과 아님: "공시→이륙"은 시간순 연관이지 인과 아님. 공시가 이륙을 일으킨 건지, 둘 다 제3원인(매집/테마)의 결과인지 미구분.
- 주체 미특정(PM 지적 반영): 투자자별 수급(외국인/기관/개인)으로도 "누가 샀나"는 못 밝힘 — 기관≈ETF/패시브, 외국인≈국적라벨일 뿐, 정보매집은 차명으로 분산돼 '개인'으로 위장됨. 따라서 본 연구는 "주체"가 아닌 "행동의 흔적(가격·공시)"까지만 입증.