Data Enginerring/빅데이터를 지탱하는 기술

[요약 정리] 1-1. 빅데이터의 정착

dashwood 2022. 6. 9. 21:59

1-1. 빅데이터의 정착

분산 시스템에 의한 데이터 처리의 고속화

- 빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술

  • 빅데이터 취급이 어려운 이유
    • 데이터의 분석 방법을 모름
    • 데이터 처리에 수고와 시간이 걸림

   → 이 책에서는 알고 싶은 정보가 이미 있다는 전제하에서 그것을 '어떻게 효율적으로 실행할 것인가'를 생각하는 것이 목적

 

빅데이터 기술의 요구

  • Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리
  • NoSQL - 빈번한 읽기/쓰기 및 분산 처리가 강점
    • 키 밸류 스토어 - 다수의 키와 값을 관련지어 저장
    • 도큐멘트 스토어 - JSON과 같은 복잡한 데이터 구조를 저장
    • 와이드 칼럼 스토어 - 여러 키를 사용하여 높은 확장성 제공

 

Hadoop과 NoSQL 데이터 베이스의 조합

현실적인 비용으로 대규모 데이터 처리 실현

 

분산 시스템의 비즈니스 이용 개척

- 데이터 웨어하우스와의 공존

데이터 웨어하우스는 나중에 확장하기가 어려움

가속도적으로 늘어나는 데이터의 처리는 Hadoop에 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분

 

직접 할 수 있는 데이터 분석 폭 확대

- 클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용

  • 데이터 디스커버리
    • 대화형으로 데이터를 시각화하여 가치있는 정보를 찾으려고 하는 프로세스
    • 셀프서비스용 BI 도구

 

[출처]

빅데이터를 지탱하는 기술, 니시다 케이스케