LLM 해석 방법론 심화 리서치 (Round 2)¶
작성: 2026-05-22 | 선행: 20260522_llm_trading_discovery_research.md (Round 1)
범위 재조정 (PM 결정): LLM의 실시간 매매·룰베이스 하이브리드는 승산 없음 → 제외. LLM의 해석 우위(뉴스·차트·심리)를 스윙(수일~수주) 종목 선별에 쓰는 방법으로 집중.
확정 시스템 정체성: 일~주 단위 체계적 종목 선별 엔진 / 알파의 원천 = LLM의 해석 / 속도 경쟁 안 함 / 코드는 측정 계기, LLM은 판단.
0. Round 2 한 줄 결론¶
5개 영역(뉴스해석·차트해석·심리분석·재료소화·발굴검증)을 깊이 조사한 결과, 모든 영역이 같은 설계 원칙 하나로 수렴한다 — "코드가 구조를 측정해 텍스트로 만들고, LLM은 그 위에서 해석만 한다." 이는 PM이 Round 1에서 확정한 시스템 정체성과 정확히 일치하며, 우연이 아니라 검증된 연구들이 독립적으로 같은 결론에 도달했다.
1. 핵심 발견 (영역 횡단)¶
F1. 차트는 이미지로 던지면 안 된다 — LLM은 "읽는 척"만 한다¶
- ChartHal(arXiv:2509.17481): 차트 QA에서 GPT-5 34.5%, o4-mini 22.8%. 차트에 없는 정보를 물으면 환각 폭발.
- "Do VLMs Truly Read Candlesticks?"(arXiv:2604.12659, 2026-04): VLM은 지속 추세에서만 작동, 횡보장(관측의 68%)에서 무력. HS300 정확도 49~53%(동전던지기). 최고 Claude-Sonnet-4-5(thinking) 53.5%.
- → 차트 이미지를 LLM에 던져 "방향 예측"시키는 것은 알파 원천으로 부적합. 코드가 OHLCV·거래량·지지/저항·추세·패턴을 수치로 계산 → 구조화 텍스트로 LLM 전달 → LLM은 해석만. 일봉이 시간봉보다 정확(ElliottAgents) — 스윙에 정합.
F2. 재료 해석은 sentiment 점수가 아니라 factor + 인과 사슬이다¶
- LLMFactor(arXiv:2406.10811, ACL 2024): 감성 라벨링을 건너뛰고 주가를 움직인 구체적 factor 자체를 텍스트로 추출(SKGP — 종목 배경지식 먼저 생성 → 그 조건으로 영향 요인 식별).
- FinCoT(arXiv:2506.16123): 전문가 추론 절차를 구조화 CoT 블루프린트(Mermaid 다이어그램)로 프롬프트에 주입 → Qwen3-8B 정확도 63%→81%, 출력 8.9배 단축, 감사 가능.
- 인과 마이닝(Springer 2025): 단순 동시언급(상관)과 실제 인과를 구분 → 인과 사슬이 안 그려지는 뉴스는 소음으로 강등하는 게이트.
- → 재료 카드의 "촉매" 필드를 감성점수가 아니라 factor 추출 + 인과 사슬로 채운다. 절차를 우리 고유 블루프린트 CoT로 박으면 매번 같은 렌즈로 해석 + 검증 가능.
F3. 재료 "소화" 판정은 미개척이 아니다 — 이벤트 스터디 골격이 있다¶
Round 1 F8 수정: Round 1은 "재료 대비 가격반응 정합성 사전 판정 = 미개척"이라 했으나, Round 2 심층 조사 결과 구현 청사진이 존재한다: 1. 재료 강도축 산출 — SUE(실적 서프라이즈 표준화, 정량) + LLM 텍스트 점수(PEAD.txt 방식, 정성) + 확산 폭(FinGPT arXiv:2412.10823 — 같은 재료라도 얼마나 퍼졌느냐가 선반영을 좌우). 2. 기대 반응선 추정 — 강도 → 기대 CAR. 3. 실제 반응 측정 — 이벤트 스터디(Brown-Warner): 재료일 t=0, 시장모형으로 정상수익률 제거 → CAR. 4. 갭 판정 — 실제 CAR ≪ 기대 + 거래량 잔존 → 과소반응(진입) / 실제 CAR ≥ 기대 + 거래량 급속 정상화 → 선반영(회피). 5. 윈도우 — PEAD 근거상 재료 후 1~10거래일. - PEAD는 소형주·저유동성·저관심주에 집중(대형주는 효과 약함, Subrahmanyam 재현 시 마이크로캡 제외하면 유의성 소멸) → 한국 중소형주 스윙에 오히려 정합.
F4. 심리 분석은 절대값이 아니라 극단의 분포 위치다¶
- 센티먼트의 누적 백분위가 극단(상하위 10%)일 때 contrarian 트리거. S&P500 LLM 센티먼트 전략은 시장팩터에 일관된 음(-) 로딩 = contrarian beta(arXiv:2507.09739).
- 이벤트 라벨 × 1~7일 forward return(arXiv:2508.07408, ICML 2025) — 우리 스윙 호라이즌과 정확히 일치, 특정 군중반응 유형이 곧 역신호.
- 경고: 베이스라인 LLM은 herding을 인간(캐스케이드 실험 65~75%)보다 둔감하게 표현(arXiv:2602.01022) → 군중 심리를 LLM에 그대로 맡기면 실제보다 둔감. 캘리브레이션/인간 벤치마크 보정 필요.
- 레짐 라벨(risk-on/off)은 노출 비중 입력으로만 — LLM 전략은 강세장 과소·약세장 과대 결함(arXiv:2505.07078).
F5. 발굴·선별의 1차 산출물은 점수가 아니라 검증 가능한 논리 사슬이다¶
- MarketSenseAI 2.0(arXiv:2502.00415): 랭킹 기준이 점수가 아니라 추론 품질 — 설명의 깊이·관련성을 다시 채점.
- Trading-R1(arXiv:2509.11420): 거래 결정 전 명시적 추론 체인 강제, 주장을 구체적 시장 데이터에 grounding. 데이터 인용 없는 주장은 자동 reject.
- 촉매→수혜주 = 지식그래프 multi-hop(arXiv:2601.11528) — 종목·공급망·지분 네트워크 위에서 "촉매 → 1차 수혜 → 2차 수혜" 전파. 한국은 DART 사업보고서 "주요 매출처/원재료"로 그래프 구축 가능.
- 신규 테마 조기 감지 = 테마 키워드별 뉴스 빈도·논조 변화율 추적 → 가속 신호 시 LLM이 "새 테마 vs 노이즈" 성숙도 판정(arXiv:2602.20939).
F6. 검증 — 수익률과 해석 품질을 분리 채점, 단발 호출 금지¶
- 수익률 ≠ 해석 품질: Trading-R1은 이중 보상(실제 수익 + 추론 품질)으로 "논리 없이 수익만" reward hacking 차단.
- 작은 종목 풀의 한계: 월 ~10종목에서는 통계 유의성 미달 → Monte Carlo 랜덤 포트폴리오 대조(arXiv:2604.17327, MarketSenseAI를 1만회 시뮬레이션 대조해 99.7 백분위 확인).
- 일관성은 공짜가 아니다: deterministic 설정에서도 동일 입력 반복 시 정확도 최대 10% 변동(Atil 2024). 핵심 종목 판정은 단발 호출 금지 → 3~5회 샘플 + 신뢰도 가중 다수결(CISC, arXiv:2502.06233). 결론 갈리면 "낮은 합의" 플래그.
- 최대 리스크 = narrative bias: LLM이 그럴듯한 스토리에 끌려 재료를 과대평가(arXiv:2602.14233). 대응 = Bull/Bear 토론에서 Bear가 "이미 알려진 얘기/스토리 과장" 반박을 의무화.
2. 설계 시사점 종합¶
| # | 시사점 | 근거 | 적용 위치 |
|---|---|---|---|
| I1 | 차트는 코드가 수치화 → LLM 해석. 이미지 직접투입 금지. 일봉 기준 | F1 | 차트 분석 단계 (mtf_chart_profiler + 해석 에이전트) |
| I2 | 재료 해석 = factor 추출 + 인과 사슬. 인과 안 그려지면 소음 | F2 | news-radar 게이트 + 재료 카드 스키마 |
| I3 | 재료 해석 절차를 블루프린트 CoT로 프롬프트에 고정 | F2 | material-grader 등 재료 에이전트 |
| I4 | 재료 소화 = 강도축(SUE+LLM텍스트+확산폭) → 기대 CAR → 실제 CAR 갭 | F3 | 신규: 소화 판정 모듈 (이벤트 스터디 코드 + LLM) |
| I5 | 과소반응 윈도우 1~10일, 소형·저관심주 가중 | F3 | 후보 랭킹 가중치 |
| I6 | 심리 = 센티먼트 누적 백분위 극단 → contrarian. 레짐은 노출비중 입력만 | F4 | 심리 분석 에이전트 + exposure-coach |
| I7 | LLM herding 둔감 보정 — 군중 심리는 캘리브레이션 후 사용 | F4 | 심리 에이전트 프롬프트 |
| I8 | 종목 카드에 "선정 논리 사슬" 필수 필드, 데이터 인용 없으면 reject | F5 | 종목 선별 산출 스키마 |
| I9 | 촉매→수혜주 = DART 기반 종목 KG multi-hop | F5 | 신규: 종목 관계 지식그래프 |
| I10 | 신규 테마 = 뉴스 빈도·논조 변화율 + LLM 성숙도 판정 | F5 | news-radar 뒤단 |
| I11 | 검증 = 수익률·해석품질 분리 채점 + Monte Carlo 랜덤 대조 | F6 | postmortem |
| I12 | 핵심 판정 단발 호출 금지 — 멀티샘플 신뢰도 가중, 낮은 합의 플래그 | F6 | 모든 핵심 판정 에이전트 |
| I13 | narrative bias 대응 — Bull/Bear 토론 의무화 | F6 | candidate-pipeline |
3. 영역별 요약¶
3-1. 뉴스·재료 해석 (감성 점수 너머)¶
LLMFactor(factor 추출), FinCoT(블루프린트 CoT), 멀티에이전트 Bull-Bear 토론(다출처 종합), 인과 마이닝(노이즈 게이트), RAG+decay(novelty/staleness 정량화), 실적·공시 행간 읽기("경영진 직답 여부 / 가이던스 표현 변화"). 최대 리스크 = narrative bias. 출처: LLMFactor 2406.10811 · FinCoT 2506.16123 · AD-FCoT 2509.12611 · Causality Mining · Finance Bias 2602.14233
3-2. 차트 해석 (멀티모달 & 가격행동)¶
차트 이미지 직접투입은 동전던지기·횡보장 무력·환각. 검증된 패턴 = "코드가 구조 추출 → LLM 해석" (QuantAgent의 패턴 텍스트 라이브러리, ElliottAgents의 수치 전용 처리). 일봉이 시간봉보다 정확. VSA는 코드가 스프레드/거래량/종가위치 수치화 → LLM이 신호 사전과 대조. 프롬프트 기법 = "묘사 먼저 → 해석", "사실 블록에 없는 수치 만들지 말 것". 출처: ChartHal 2509.17481 · VLM Candlesticks 2604.12659 · QuantAgent 2509.09995 · ElliottAgents 2506.16813 · Korean OHLCV 2504.02249
3-3. 시장 심리·군중 행동¶
프롬프트에 감정 정의 명시(+9% 정확도). 센티먼트 극단의 누적 백분위 → contrarian. 이벤트 라벨 × 1~7일 forward return. LLM은 herding 둔감 → 캘리브레이션. 레짐 라벨은 노출비중 입력만. 모든 심리 출력에 불확실성 점수 + 재질의 일관성 체크. 출처: Event-Aware Sentiment 2508.07408 · InvestAlign 2507.06528 · Behavioral Calibration 2602.01022 · S&P500 Sentiment 2507.09739 · LLM Long Run 2505.07078
3-4. 재료 소화 판정 (선반영 vs 과소반응)¶
이벤트 스터디 + CAR(Brown-Warner)로 재료 효과 분리. SUE로 재료 강도 정량화. PEAD = 과소반응 윈도우의 실증(소형주 집중). 텍스트 기반 PEAD(PEAD.txt, FinBERT). 정보 확산 속도(거래량 잔존율)로 선반영/모멘텀 판정. LLM 확산 폭 측정(FinGPT)으로 기대 CAR 추정 → 실제 CAR 갭으로 랭킹. 출처: Kothari-Warner Event Study · PEAD.txt JFQA · PEAD with LLMs · FinGPT 2412.10823 · Info Diffusion Momentum
3-5. 해석 기반 발굴 + 품질 검증¶
촉매→수혜주 = 종목 KG multi-hop. 신규 테마 = 빈도/논조 변화율 + LLM 성숙도 판정. 종목 선별 = 점수 아닌 논리 사슬(MarketSenseAI, Trading-R1), 데이터 인용 없으면 reject. 검증 = 수익률·해석품질 분리 채점, 작은 풀은 Monte Carlo 대조, 단발 호출 금지(CISC 신뢰도 가중), Bull/Bear 토론으로 편향 축소. 출처: MarketSenseAI 2.0 2502.00415 · Trading-R1 2509.11420 · Stock KG 2601.11528 · Emergent Narratives 2602.20939 · Signal or Noise 2604.17327 · CISC 2502.06233 · TradingAgents 2412.20138
4. Round 1 → Round 2 갱신점¶
| 항목 | Round 1 판정 | Round 2 갱신 |
|---|---|---|
| 재료-소화 정합성 사전 판정 | "미개척, 선행사례 없음 (F8)" | 수정 — 이벤트 스터디 + SUE + 확산폭(FinGPT)으로 구현 청사진 존재. 완전 미개척 아님 |
| 차트 해석 | "멀티모달 차트 읽기" 일반론 | 구체화 — 이미지 직접투입은 부적합 입증. 코드 수치화 → LLM 해석만 |
| 호가/체결 공격성 LLM 판정 | "미개척 (F8)" | 유지 — 여전히 직접 사례 없음. 단 "코드가 수치화 → LLM 해석" 패턴을 VSA·OFI에 적용하는 경로는 차트 연구로 방법론 확인 |
5. 다음 단계¶
Round 1 + Round 2 리서치로 외부 방법론 조사는 충분. 다음은 이 13개 시사점(I1~I13)을 근거로 Topic system_redesign의 다음 Phase 설계 명세 작성 — 종목 선별 엔진의 입력(재료·차트·심리·소화)·처리(에이전트 구조)·산출(논리 사슬 카드)·검증(분리 채점)을 명세화.