1-1. 빅데이터의 정착
분산 시스템에 의한 데이터 처리의 고속화
- 빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술
- 빅데이터 취급이 어려운 이유
- 데이터의 분석 방법을 모름
- 데이터 처리에 수고와 시간이 걸림
→ 이 책에서는 알고 싶은 정보가 이미 있다는 전제하에서 그것을 '어떻게 효율적으로 실행할 것인가'를 생각하는 것이 목적
빅데이터 기술의 요구
- Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리
- NoSQL - 빈번한 읽기/쓰기 및 분산 처리가 강점
- 키 밸류 스토어 - 다수의 키와 값을 관련지어 저장
- 도큐멘트 스토어 - JSON과 같은 복잡한 데이터 구조를 저장
- 와이드 칼럼 스토어 - 여러 키를 사용하여 높은 확장성 제공
Hadoop과 NoSQL 데이터 베이스의 조합
현실적인 비용으로 대규모 데이터 처리 실현
분산 시스템의 비즈니스 이용 개척
- 데이터 웨어하우스와의 공존
데이터 웨어하우스는 나중에 확장하기가 어려움
가속도적으로 늘어나는 데이터의 처리는 Hadoop에 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분
직접 할 수 있는 데이터 분석 폭 확대
- 클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용
- 데이터 디스커버리
- 대화형으로 데이터를 시각화하여 가치있는 정보를 찾으려고 하는 프로세스
- 셀프서비스용 BI 도구
[출처]
빅데이터를 지탱하는 기술, 니시다 케이스케
'Data Enginerring > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[요약 정리] 3-2. 쿼리 엔진 (0) | 2022.06.15 |
---|---|
[요약 정리] 3-1. 대규모 분산 처리의 프레임워크 (0) | 2022.06.14 |
[요약 정리] 2-4. 데이터 마트의 기본 구조 (0) | 2022.06.12 |
[요약 정리] 2-2. 열 지향 스토리지에 의한 고속화 (0) | 2022.06.12 |
[요약 정리] 1-2. 빅데이터 시대의 데이터 분석 기반 (0) | 2022.06.09 |