[요약 정리] 2-2. 열 지향 스토리지에 의한 고속화

dashwood 2022. 6. 12. 18:42

2-2. 열 지향 스토리지에 의한 고속화

데이터 처리의 지연 - 지연이 적은 데이터 마트 작성을 위한 기초 지식

데이터 처리의 응답이 빠르다 == 대기시간(latency)이 적다 == 지연이 적다
지연이 적은 데이터 베이스
- 모든 데이터를 메모리에 올림
- 5GB 정도의 데이터양이라면 MySQL이나 PostgreSQL 등의 일반적인 RDB가 데이터 마트에 적합
  - RDB는 원래 지연이 적고, 많은 수의 클라이언트가 동시 접속해도 성능이 나빠지지 않으므로 실제 운영환경의 데이터 마트로도 우수
  - RDB는 메모리가 부족하면 급격히 성능 저하 → 항상 디바이스 I/O가 발생한다고 가정

'압축'과 '분산'에 의해 지연 줄이기 - MPP 기술

MPP(대규모 병렬 처리)
- 멀티 코어를 활용하면서 디스크 I/O를 병렬 처리
- Amazon Redshift, Google BigQuery
- 데이터의 집계에 최적화

데이터 처리 성능
- 처리량(throughput) - 일정 시간에 처리할 수 있는 데이터의 양, 배치 처리 등의 대규모 데이터에서 중요시
- 지연 - 데이터 처리가 끝날 때까지의 대기 시간, 애드 혹 분석에서 중요시

행 지향 데이터베이스 - 각 행이 디스크 상에 일련의 데이터로 기록됨

열 지향 데이터베이스 - 칼럼마다 데이터 모아두기

MPP 데이터베이스와 대화형 쿼리 엔진

[출처]

빅데이터를 지탱하는 기술, 니시다 케이스케