LLM 기반 트레이딩 시스템 — 테마·종목 발굴과 자동화 리서치¶
작성: 2026-05-22 | 목적: ATS CPT 시스템 재설계(Topic system_redesign) 사전 외부 방법론 조사 범위: LLM/AI 에이전트가 퀀트·실시간·스윙 매매에서 테마·종목 발굴과 자동화를 어떻게 하는가 (2024~2026) 방법: 6개 각도 병렬 WebSearch 리서치 → 종합
0. 왜 이 리서치를 했나¶
ATS CPT의 현재 한계(PM 진단, 2026-05-22):
- 시스템 전체가 "시황 정리 리포트 생산"에 멈춰 있다. 매일의 리포트가 본체이고, 추적은 부산물.
- 원하는 것: 오를 종목을 미리 선별하는 시스템. 측정 1차 단위 = 재료(촉매) 존재 × 시장이 그 재료를 소화하는 방식. 소화의 측정자 = 매수·매도자의 공격성·시급성. 가격이 확인하기 전에 잡는다. 주도테마·주도주를 연속 추적.
이 설계에 이식할 외부 방법론을 확인하기 위해 LLM 트레이딩 시스템 6개 영역을 조사했다.
1. 핵심 발견 (종합)¶
F1. 수익성은 LLM 모델 백본이 아니라 에이전트 아키텍처가 좌우한다¶
Agent Market Arena("When Agents Trade", arXiv:2510.11695)가 2025-08부터 2개월 라이브 평가에서 내린 결론: LLM 백본(GPT/Claude/Gemini)보다 에이전트 구조 설계가 수익성을 결정한다. → ATS는 이미 수십 개 멀티에이전트 구조. 모델 업그레이드보다 파이프라인 구조 설계에 투자해야 한다는 직접 근거.
F2. LLM 멀티에이전트 트레이딩의 표준 구조가 수렴했다¶
TradingAgents(arXiv:2412.20138) 기준 3계층: 1. Analyst 팀 병렬 fan-out — 펀더멘털·뉴스·감성·기술 데이터 동시 수집 2. Researcher 디베이트 — Bull vs Bear 연구자가 n라운드 토론, Facilitator가 우세 관점 채택 3. Trader 결정 → Risk 게이트 → 포트폴리오 매니저 승인 — 승인 시에만 주문 전송
→ ATS의 재료 × 소화 측정에 직접 매핑: Analyst = 재료 탐지 / Researcher 디베이트 = 소화 판정 / Risk 게이트 = 진입 승인.
F3. LLM은 실시간이 아니다 → 2-tier가 필수¶
QuantAgent(arXiv:2509.09995)가 자인: LLM 추론 사이클이 1분봉 기회 윈도우를 초과한다. 표준 해법은 빠른 룰베이스(트리거·임계 감시) + 느린 LLM(해석·구조 판단)의 역할 분담. 결정론적 수치연산(지표·손절 임계)은 코드, 구조 해석·다중신호 종합은 LLM.
→ ATS의 leader_trigger_scan.py(트리거 4종 → 트리거된 것만 정밀해석)가 이미 이 패턴의 맹아. 이를 시스템 전체 원칙으로 격상해야 한다.
F4. 테마 발굴 = 임베딩 클러스터링 + LLM 해석, 그리고 LLM 단독은 실패한다¶
- 테마 탐지 표준: 뉴스 임베딩 → HDBSCAN/UMAP 클러스터링 → LLM이 클러스터를 읽고 테마명·분류체계 생성 (BERTopic, arXiv:2406.10552, 2509.19125).
- 결정적 경고: FinRipple(arXiv:2505.23826, ACL 2025)은 LLM 단독 적용이 "구조적 시장 무지(market unawareness)"로 실패한다고 입증 — LLM에 시장 구조 지식이 없다. 시변(time-varying) 금융 지식그래프가 필수 보조물.
F5. 촉매→수혜주 추론의 정석 = 지식그래프 multi-hop¶
"Knowledge Graph Construction for Stock Markets"(arXiv:2601.11528, 2026-01): 회사·재무·주가·섹터를 GraphDB로 통합 → LLM이 그래프 위에서 multi-hop 추론으로 "사건 X → 1차 수혜 → 2차 수혜"를 설명 가능하게 도출. → ATS의 재료 → 수혜주 추론(theme_stock_selection_logic의 대장→2등주)을 형식화하는 가장 직접적인 모델.
F6. "재료 × 소화" 철학은 학술적 근거가 있다 — PEAD / 뉴스 과소반응¶
- 2025년 다수 논문이 PEAD(실적발표 후 표류)는 죽지 않았다고 재확인(UCLA Anderson). 드리프트는 뉴스 해석이 어렵고 주의가 분산되고 차익거래 비용이 클 때 가장 크다.
- GPT-4 뉴스 예측(arXiv:2304.07619): 시장이 뉴스를 천천히 반영(underreaction)하며 그 창이 수익 기회. 부정 뉴스의 드리프트 예측력이 긍정보다 강하다 → 청산 룰에 비대칭 반영.
- 단, LLM이 "재료 대비 가격/거래 반응의 정합성"을 사전 능동 판정하는 시스템은 미발견 (F8 참조).
F7. 검증에는 LLM 고유의 함정이 있다¶
- Lookahead bias: LLM 학습 코퍼스에 과거 뉴스·주가가 들어 있어 "몰랐어야 할 정보"를 안다(arXiv:2512.23847 LAP 지표). → 백테스트는 모델 학습 컷오프(Opus 4.7 = 2026-01) 이후 데이터로만, 또는 종목명·티커·날짜 익명화("Blindfolded LLMs", arXiv:2603.17692).
- 라이브 성과 ≠ 일반 능력: LiveTradeBench(arXiv:2511.03628, 21개 LLM 50일 라이브)는 "전통 LLM 벤치마크 점수가 실전 트레이딩 능력을 예측하지 못한다"고 결론. 모델 선택 시 일반 벤치 점수를 트레이딩 지표로 쓰지 말 것.
- 시스템 단위 불안정: TradeTrap(arXiv:2512.02261) — 한 컴포넌트의 작은 교란이 루프를 타고 전파돼 종목 과집중·폭주 익스포저 유발. → 포지션 한도·집중도 가드레일을 코드 레벨로 강제.
- reflection 주의: 잘 튜닝된 시스템에서는 반성 기반 추론이 오히려 성과를 떨어뜨릴 수 있음 → 켜기 전 A/B 검증.
F8. 우리의 잠재적 차별점이자 미개척 리스크 영역¶
6개 리서치 전체에서 확인되지 않은 것: - LLM이 호가/체결 공격성(order-flow aggression)을 직접 판정하는 시스템 — 현재 표준은 LLM(전략) + RL/규칙(미시구조 실행)의 역할 분리. - LLM이 "재료 대비 가격반응 정합성(선반영 vs 과소반응)"을 사전 능동 판정하는 시스템 — PEAD·뉴스드리프트 연구는 모두 가격반응을 사후 측정할 뿐.
→ ATS가 지향하는 "공격성으로 소화를 측정"은 선행 연구에 직접 사례가 없다. 차별점이 될 수 있으나, 검증 부담을 우리가 전부 진다는 리스크를 명확히 인지해야 한다. 현실적 경로: OFI·체결강도를 구조화 텍스트("3호가 누적매수잔량 감소, 체결강도 하락")로 변환해 LLM 입력으로 넣는 방식.
F9. 상용 시장은 "자율 매매"가 아니라 "리서치 코파일럿"으로 수렴¶
AlphaSense(2025-10 ARR $5억, 2026-01 Generative Search 리서치 에이전트), Bloomberg, 헤지펀드 Alpha Assistant 모두 LLM을 체결이 아니라 리서치·복기 가속에 쓴다. AlphaSense는 단일 LLM이 아니라 오케스트레이터로 Claude/Gemini/OpenAI를 과제별 동적 선택. → ATS의 "리포트를 view로 강등, 로스터를 척추로" 방향과 정합. LLM은 발굴·시나리오·복기에, 체결은 결정론 룰로 게이팅.
2. ATS CPT 설계 시사점¶
| # | 시사점 | 근거 | 적용 |
|---|---|---|---|
| D1 | 멀티에이전트 구조 설계에 투자 (모델 업글 아님) | F1 | Topic redesign 척추 설계의 1순위 |
| D2 | Analyst 병렬 → Researcher 디베이트 → Risk 게이트 3계층 채택 |
F2 | 재료탐지 / 소화판정(Bull-Bear 디베이트) / 진입승인 노드 |
| D3 | 2-tier 명시 — 룰베이스 트리거 + LLM 해석, 추론비용 예산 | F3 | leader_trigger_scan 패턴을 시스템 원칙으로 격상 |
| D4 | 테마 발굴에 임베딩 클러스터링 디스커버리 레이어 추가 | F4 | news-radar 뒤단 — 큐레이션 밖 신규 테마 포착 |
| D5 | 종목 관계 지식그래프 구축 (납품/지분/경쟁) | F4·F5 | 촉매→1·2차 수혜주 multi-hop 추론 |
| D6 | 공격성 측정 = OFI/체결강도를 구조화 텍스트로 변환 후 LLM 입력 | F8 | 미개척 — 데이터 수집기(체결·호가·분봉) 신설 선행 필요 |
| D7 | 재료 신선도 = 계층형 시간감쇠 메모리 | F6, FinMem | ISSUE_LOG를 생애주기 추적기로 진화 |
| D8 | 신념 누적 — 복기 결과를 언어적 강화신호로 선택 전파 | FinCon CVR | postmortem 스킬과 연결 |
| D9 | 백테스트 = 컷오프 이후 데이터 + 익명화 + 다회실행 + 페이퍼트레이딩 별도 테스트창 | F7 | 검증 프로토콜 명세에 포함 |
| D10 | 포지션 한도·집중도를 코드 가드레일로 강제 | F7 | RiskAgent 노드 + 주문 직전 단일 차단점 |
3. 영역별 리서치 요약¶
3-1. LLM 멀티에이전트 트레이딩 아키텍처¶
- TradingAgents(arXiv:2412.20138): 7역할, 3계층 hybrid 오케스트레이션(병렬 fan-out → 순차 디베이트 → Risk 게이트). 자연어 대화는 디베이트 구간만, 나머지는 구조화 문서 + 공유 global state → 메시지 손상 방지.
- FinCon(arXiv:2407.06567): manager-analyst 위계로 통신비용 절감. CVR(개념적 언어 강화) — 투자 신념을 자기비판으로 갱신, 필요 노드로만 선택 전파.
- FinMem(arXiv:2311.13743): 계층형 메모리(단/중/장기) — hallucination 완화 + 신호 신선도 관리.
- FinAgent(arXiv:2402.18485): 멀티모달(뉴스+가격+차트 이미지). Dual-level reflection(즉각 적응 / 패턴 학습).
- FinRobot(arXiv:2405.14767, 2411.08804): Financial CoT + 태스크별 LLM 동적 라우팅.
- 오케스트레이션 3패턴: 병렬 fan-out / 순차 파이프라인 / 토론·경쟁(debate·contest, ContestTrade arXiv:2508.00554).
3-2. LLM 테마/내러티브 발굴¶
- 테마 탐지 = 임베딩 → UMAP/HDBSCAN 클러스터링 → LLM 해석 (arXiv:2406.10552). 분류체계 자동생성(arXiv:2509.19125 — 35토픽을 7상위·20서브로 조직).
- 내러티브 트래킹: 부상→성숙→소멸 생애주기 추적. agency·event sequencing·causal relations·rhetorical purpose를 측정 차원으로 분해(arXiv:2602.15851). Claude 3.5로 인플레 내러티브 추출(arXiv:2506.15041).
- 테마 로테이션: 정량 ML(언제/어디로) + 정성 LLM(왜) 분업이 정석.
- FinRipple(arXiv:2505.23826): 사건 ripple effect 예측 — 시변 금융 지식그래프 + 자산가격 이론 + RL 정렬. LLM 단독은 시장 무지로 실패.
3-3. LLM 개별 종목 발굴·선별¶
- MarketSenseAI 2.0(arXiv:2502.00415): 5에이전트(News/Fundamentals/Dynamics/Macro/Signal). News Agent의 "progressive narrative"(일별 요약 누적)가 ATS market-interpretation 누적 프레임과 일치. S&P 100 2년 누적 125.9% vs 지수 73.5%.
- AlphaAgents(BlackRock, arXiv:2508.11152): 역할별 에이전트 협의 + 리스크 허용도별 차등 선별 → ATS exposure-coach와 연결.
- GPT 헤드라인 예측(arXiv:2304.07619): 컷오프 이후 헤드라인만 투입, drift 예측, 부정뉴스·소형주에서 강함.
- 재무제표 분석(arXiv:2407.17866, Chicago Booth): 익명화 재무제표만으로 CoT 이익방향 예측 — 애널리스트 컨센서스 대등/우월.
- 주식 KG + multi-hop(arXiv:2601.11528): 촉매→수혜주 explainable 추론.
- 경고: "Is the Human Factor Required?"(arXiv:2603.19944) — LLM 단독 추천은 reasoning failure, 인간 감독 하에서만 초과수익.
3-4. LLM 실시간 매매 자동화¶
- 표준 폐쇄루프: 분석→예측→의사결정→실행. 주문 직전 포트폴리오 매니저/RiskAgent 승인 게이트.
- 2-tier 필수: QuantAgent(arXiv:2509.09995) — LLM은 1분 윈도우 못 따라잡음. IndicatorAgent가 OHLC를 지표로 압축, TrendAgent가 회귀로 지지·저항 계산(코드), LLM은 해석만.
- FPX(arXiv:2505.19481): 지연 적응형 — 모델 크기·양자화 동적 선택.
- 가드레일: hallucination 3중(모델 제어 + RAG 그라운딩 + 출력 검증), TrustTrade(arXiv:2603.22567) 선택적 합의.
- Agent Market Arena(arXiv:2510.11695): 라이브 결과 — 아키텍처가 백본보다 수익성 좌우, LLM 에이전트가 buy&hold 상회.
3-5. LLM 스윙·뉴스·촉매 드리븐 운용¶
- 스윙: TradingAgents·FinMem·FinCon·ATLAS(arXiv:2510.15949) — 일단위 의견 → 토론 → 신호.
- PEAD: FinBERT가 PEAD 탐지 최고 정확도(arXiv 2025.finnlp-2.13). "PEAD.txt"(Cambridge JFQA) 텍스트로 드리프트 측정.
- 감성 한계: 대형주·기술주 사전학습 편향(확인편향 유발), 레짐 의존성, LLM은 인간 트레이더 행동 미복제(arXiv:2502.15800).
- 소화 판정: GPT-4 과소반응 연구가 ATS "소화" 철학에 가장 근접하나 모두 사후 측정. 사전 능동 판정 시스템 미발견.
- 주문흐름: 멀티레벨 OFI(arXiv:1907.06230)가 단일레벨 대비 설명력 우위. LLM-RL 하이브리드(arXiv:2508.02366) — LLM 전략, RL 미시구조. LLM이 공격성을 직접 판정한 사례 미확인.
3-6. 검증·한계·실전 성과 + 상용 제품¶
- Lookahead bias: LAP 지표(arXiv:2512.23847), 익명화(arXiv:2603.17692), 오염신호 탐지 MemGuard-Alpha(arXiv:2603.26797).
- 실패 모드: 프롬프트 민감성(완화로 환각 53→23%), 레짐 취약성(arXiv:2604.10996), 시스템 불안정(TradeTrap).
- 실전 성과: LiveTradeBench — 일반 벤치 점수와 트레이딩 수익률 무상관. 초기 시스템 방향예측 정확도 45~53%(동전던지기 수준).
- 상용: AlphaSense(ARR $5억, 리서치 에이전트), Bloomberg, 헤지펀드 Alpha Assistant — 모두 코파일럿 지향. 오픈소스 ai-hedge-fund(virattt).
- 검증 베스트프랙티스: 워크포워드 블록(학습/검증/테스트창 분리), 누출 차단(UUID 격리), 다회실행 분산 보고.
4. 결론 — 설계로 넘어가기 전 정리¶
- ATS는 방향이 맞다. 멀티에이전트 + 재료중심 + 연속추적은 2024~2026 LLM 트레이딩 연구의 주류와 정합한다. 부족한 것은 구현이지 방향이 아니다.
- 즉시 이식 가능: 3계층 오케스트레이션(D2), 2-tier(D3), 계층 메모리(D7), 신념 누적(D8) — 대부분 ATS에 부분 구현돼 있어 재배선 수준.
- 신규 구축 필요: 종목 관계 지식그래프(D5), 임베딩 클러스터링 디스커버리 레이어(D4).
- 미개척 = 차별점이자 리스크: "공격성으로 소화 측정"(D6)은 선행 사례가 없다. 데이터 수집기(체결·호가·분봉) 신설이 선행 조건이고, 검증 부담을 전부 우리가 진다.
- 검증 규율을 설계 단계에서 못박을 것(D9·D10): lookahead bias 차단, 코드 가드레일, 페이퍼트레이딩 — 나중에 붙이면 늦는다.
→ 다음 단계: 본 리서치를 근거로 Topic system_redesign의 다음 Phase 설계 명세 작성.
부록: 전체 출처¶
아키텍처: TradingAgents 2412.20138 · FinCon 2407.06567 · FinMem 2311.13743 · FinAgent 2402.18485 · FinRobot 2405.14767 / 2411.08804 · StockAgent 2407.18957 · ContestTrade 2508.00554 · StockSim 2507.09255 테마 발굴: News Event Clustering 2406.10552 · Hierarchical Taxonomy 2509.19125 · Narrative Theory Survey 2602.15851 · Inflation Narratives 2506.15041 · FinRipple 2505.23826 · ARK Big Ideas 2026 · AlphaSense 2025 Releases 종목 발굴: MarketSenseAI 2.0 2502.00415 · AlphaAgents 2508.11152 · ChatGPT Forecast 2304.07619 · Financial Statement Analysis 2407.17866 · Stock KG 2601.11528 · Human Factor Required 2603.19944 실시간 자동화: QuantAgent 2509.09995 · FPX 2505.19481 · Agent Market Arena 2510.11695 · HedgeAgents 2502.13165 · TrustTrade 2603.22567 · MountainLion 2507.20474 · End-to-End LLM Trading 2502.01574 스윙·촉매: ATLAS 2510.15949 · PEAD with LLMs · PEAD.txt · FinDPO 2507.18417 · Sentiment+RL 2510.10526 · LLM≠Human Traders 2502.15800 · Multi-Level OFI 1907.06230 · LLM-RL Quant 2508.02366 검증·한계: Lookahead Bias 2512.23847 · Bias Consideration 2602.14233 · MemGuard-Alpha 2603.26797 · Blindfolded LLMs 2603.17692 · Regime Boundaries 2604.10996 · TradeTrap 2512.02261 · TraderBench 2603.00285 · LiveTradeBench 2511.03628 · STOCKBENCH · ai-hedge-fund