Chapter 1. 들어가며
1) 카프카의 탄생
- LinkedIn → Confluent
- 소스 애플리케이션 → 타겟 애플리케이션
- 대규모 데이터 전송 파이프라인의 아키텍처 복잡, 유지 보수성 저하
- 브로커 : 중앙 집중화, Decoupling(소스와 타겟 사이의 의존도 최소화)
- 기존에는 소스와 타겟 간에 1:1 매핑이었으나 (End-to-End)
카프카에서는 소스와 타겟이 서로를 알지 못함
- 파티션에 FIFO 큐잉
- 분산 브로커에 복제(Replica) → 가용성(일부 브로커가 죽어도 문제 없음)
- 배치 전송 → 성능
- 엄청난 양의 데이터를 안전하고 빠르게 처리
- 이미지/비디오 같은 큰 용량의 데이터가 아닌
텍스트/메타정보와 같이 작은 용량의 데이터만 지원
- SK, 삼성, 카카오, 네이버, 넷플릭스, 우버, 월마트, 에어비엔비
2) 빅데이터 파이프라인에서 카프카의 역할
- Raw Data → 가공/변형/연산 → 정보 추출
- 빅데이터