Untitled

Chapter 1. 들어가며

1) 카프카의 탄생

LinkedIn → Confluent
소스 애플리케이션 → 타겟 애플리케이션
대규모 데이터 전송 파이프라인의 아키텍처 복잡, 유지 보수성 저하

Untitled

Untitled

브로커 : 중앙 집중화, Decoupling(소스와 타겟 사이의 의존도 최소화)
기존에는 소스와 타겟 간에 1:1 매핑이었으나 (End-to-End) 카프카에서는 소스와 타겟이 서로를 알지 못함

Untitled

파티션에 FIFO 큐잉
분산 브로커에 복제(Replica) → 가용성(일부 브로커가 죽어도 문제 없음)
배치 전송 → 성능
엄청난 양의 데이터를 안전하고 빠르게 처리
이미지/비디오 같은 큰 용량의 데이터가 아닌 텍스트/메타정보와 같이 작은 용량의 데이터만 지원
SK, 삼성, 카카오, 네이버, 넷플릭스, 우버, 월마트, 에어비엔비

2) 빅데이터 파이프라인에서 카프카의 역할

Raw Data → 가공/변형/연산 → 정보 추출
빅데이터