방법론 (Methodology)
MacroPulse는 공개된 데이터와 검증 가능한 방법으로 거시경제·금융 정보를 분석합니다.
핵심 원칙: 모든 분석은 공개된 데이터 소스에서 시작하며, 교차검증을 거친 후 발행됩니다. 데이터 출처와 방법론을 투명하게 공개하여 이용자가 직접 검증할 수 있도록 합니다.
1. 데이터 수집 (Ingestion)
국내외 공개 RSS·뉴스 API에서 매 5~15분 단위로 헤드라인을 수집합니다. URL 정규화 + content hash로 중복을 제거하고, raw_news 테이블에 적재합니다.
주요 데이터 출처
- 국내 통신사: 연합뉴스, 한국경제, 매일경제, 조선비즈 등 RSS
- 해외: Reuters, Bloomberg 공개 피드, AP 등
- 시장 데이터: 한국거래소(KRX), DART 전자공시, 한국은행 경제통계
- 일일 평균 수집량: 약 100건/일
2. 분류 (Classification)
키워드 기반 1차 분류기(topic_quick_classify.py)가 7분야 중 하나로 즉시 라벨링합니다. 미분류 또는 모호한 기사는 LLM 보조 분류기(news_topic_classifier.py)가 재분류합니다.
분류 카테고리 (7분야)
- 정치: 대통령, 국회, 선거, 외교, 정당
- 경제: 금리, CPI, GDP, 재정, 고용
- 시장: 코스피, 환율, 채권, 유가, ETF
- IT: 반도체, 빅테크, 스타트업, 클라우드
- 국제: 미국, 중국, EU, 지정학, 무역
- 사회: 인구, 교육, 노동, 복지
- 과학: 연구, 우주, 기후, 바이오
분류 결과는 news_topic_cache 테이블에 저장되며, topic_slug ∈ {정치, 경제, 시장, 국제, IT, 사회, 과학, 문화, 스포츠, 오피니언, 기타}.
3. 랭킹 및 영향도 점수 (Ranking & Impact Score)
각 헤드라인은 기본 중요도(1~10점)를 부여받으며, 최신성 감쇠(Recency Decay) 알고리즘이 적용된 유효 점수(Effective Score)로 정렬됩니다.
기본 점수 계산 요소: 출처 신뢰도 · 시장 연관 키워드 · 감성 극성 · 종목 매핑 수.
시간 감쇠 모델: effective_score = base_score × exp(-age_hours / 36) (반감기 36시간).
이를 통해 오래된 고점수 기사보다 최신 발생 기사가 우선순위를 갖도록 조정됩니다. 교차 검증 샘플 100건 기준 토픽 정합률 약 87% (2026-05-28 기준).
4. 교차검증 및 분석 생성
raw_news 수집 → topic 분류 → 24h 헤드라인 30건 선별
↓
초안 생성 → 교차 검증 → news_editorials 저장
↓
news-site / stock-site cross-link → R2 배포 5. 일일 분석 생성 (Editor's Take)
매일 06:00 KST에 7분야 분석 인사이트를 자동 생성합니다.
- 입력: 분야별 24시간 헤드라인 30건 (impact_score DESC)
- 검증: 듀얼 에이전트 교차 확인 (초안 + 검증)
- 출력: 제목 + 본문 1,000~1,500자 + 요약 200자 + 관련 종목
- 저장:
news_editorials테이블
6. 갱신 주기
뉴스 수집
5~15분 간격
일일 분석
매일 06:00 KST
속보 피드
60초 실시간 감지
7. 종목 매핑
헤드라인·분석에서 한국 종목명·티커를 추출해 종목 페이지(stock.macropulseai.net)와 양방향 cross-link합니다.
8. 한계 및 면책
본 사이트의 분석 결과는 데이터 수집과 규칙 기반 파이프라인(일부 LLM 기반 재분류 포함)을 통해 자동 생성됩니다. 자동 분석 특성상 사실 오류·편향을 포함할 수 있으며, 모든 콘텐츠는 정보 제공 목적입니다.
- 투자 자문이 아니며, 최종 판단은 이용자의 책임입니다
- 과거 분석 기록이 미래 성과를 보장하지 않습니다
- 데이터 소스의 오류·지연이 분석에 반영될 수 있습니다
자세한 내용은 이용 약관을 참조하세요.
최종 갱신: 2026-05-31 (v22)