도서) 빅데이터를 지원하는 기술 - 1장 요약

1장.

– “빅데이터 기초” 지식은 입문 부분으로, 빅데이터 기술 탄생의 역사적 배경부터 시작하여 기본 용어를 정리한다.

– 빅데이터와 대비되는 기존의 “스몰데이터 기술”에 대해 설명하시오.

– 간단한 Python 스크립트를 통해 데이터 처리 및 데이터 검색 개념 이해

1-1.빅데이터 정산

1) 분산 시스템의 고속 데이터 처리

i) Hadoop은 “여러 컴퓨터에서 많은 양의 데이터를 처리”하기 위한 시스템입니다.

– 수천 대의 컴퓨터를 관리하기 위한 프레임워크

ii) NoSQL 데이터베이스

a) 키-값 저장소

b) 문서 저장(JSON)

c) 와이드 컬럼 저장

iii) Hadoop과 NoSQL 데이터베이스의 결합(현실적인 비용으로 대규모 데이터 처리)

– NoSQL 데이터베이스에 로그인하고 처리를 Hadoop에 분산

2) 분산 시스템의 비즈니스 활용 개척

– 데이터 웨어하우스와의 공존

3) 직접 수행할 수 있는 데이터 분석 범위 확대

– 클라우드 서비스 및 데이터 디스커버리를 통한 빅데이터 활용 가속화

1-2.빅데이터 시대 기반의 데이터 분석

1) (재시험) 빅데이터 기술

– 분산 시스템을 이용한 데이터 구조 작업

i) 데이터 파이프라인

– 데이터 수집부터 워크플로우 관리까지

ii) 데이터 수집

– 벌크 타입 및 스트리밍 데이터 전송

iii) 스트림 처리 및 일괄 처리

– 시계열 데이터베이스와 같은 실시간 처리를 위한 데이터베이스를 자주 사용합니다.

iv) 분산 저장

– 오브젝트 스토리지, NoSQL 데이터베이스

a) 분산 스토리지는 여러 대의 컴퓨터와 디스크로 구성된 스토리지 시스템입니다.

b) 오브젝트 스토리지는 수집된 데이터에 이름을 붙여 파일로 저장합니다. ex) 클라우드 서비스인 Amazon s3

v) 분산 데이터 처리(쿼리 엔진, ETL 프로세스)

– 분산 데이터 처리 프레임워크 필요

vi) 워크플로 관리

– 전체 데이터 파이프라인의 동작 관리

1) ETL

벨트

2) 데이터 웨어하우스 및 데이터 마트

– 데이터 파이프라인의 기본 유형

3) 데이터 레이크

i) 데이터를 있는 그대로 축적(일반적으로 CSV 또는 JSON)

ii) Data Lake 및 Data Mart(필요한 데이터는 Data Mart에 정리되어 있음)

4) 점차적으로 데이터 분석을 위한 견고한 기반을 마련합니다.

i) 팀과 역할 분담, 작은 시작과 확장

ii) 임시 분석 및 대시보드 도구

iii) 데이터 마트 및 작업 흐름 관리

5) 데이터 수집 목적

i) 데이터 검색

ii) 데이터 처리

iii) 데이터 시각화

6) 확인 및 탐색적 데이터 분석

1-3. (속성 학습) 스크립팅 언어를 통한 특수 분석 및 데이터 프레임

1) 데이터 처리 및 스크립팅 언어

– 인기 언어 Python 및 데이터 프레임

2) 데이터 프레임, 베이스의 베이스

– “배열의 배열”에서 생성

3) 웹 서버 접속 로그 예시

– pandas 데이터 프레임을 이용한 간단한 처리

– 데이터 전처리에 사용할 수 있는 Pandas 기능

4) 시계열 데이터의 대화형 집계

– 데이터 집계를 위해 데이터 프레임을 있는 그대로 사용

5) SQL 결과를 데이터 프레임으로 사용

– 실행 결과를 확인하는 부분에 데이터 프레임 사용

1-4. BI 도구 및 모니터링

1) 스프레드시트 모니터링

– 프로젝트의 현재 상태를 알고

2) 데이터 기반 의사결정

i) KPI 모니터링(KPI 모니터링은 “운영” 여부에 주의를 기울여야 합니다.

ii) 자신의 행동을 결정하기 위해 직감에 의존하기보다는 객관적인 데이터를 기반으로 판단을 내립니다.

이를 “데이터 기반 의사 결정”이라고 합니다.

iii) 월별 보고(스프레드시트를 통한 보고 및 제한 사항)

3) 변경 사항을 발견하고 세부 사항을 이해합니다.

i) BI 도구 사용

ii) 모니터링을 위한 기본 전략 및 BI 도구(정기 보고서를 통한 변경 사항 식별 및 재집계)

4) 인간과 자동화의 경계선 결정

i) 수동으로 수행할 수 있는 작업 수행

ii) 자동화하려면 데이터 마트를 만드십시오.

a) BI 도구에서 직접 데이터 소스에 액세스

– 장점: 간단한 시스템 구성.

– 단점 : BI 도구에서 지원하지 않는 데이터 소스에 접근할 수 없음.

b) 데이터 마트를 준비하고 BI 도구에서 엽니다.

– 장점: 어떤 양식이든 자유롭게 만들 수 있습니다.

– 단점: 데이터마트를 설치하고 실행하는데 시간이 걸린다.

c) CSV 파일 업로드를 위한 웹 기반 BI 도구 도입

– 장점: 스크립트를 사용하여 데이터를 자유롭게 처리할 수 있습니다.

– 단점: 데이터 생성 및 업로드를 위한 프로그래밍이 필요합니다.