도서) 빅데이터를 지원하는 기술 – 1장 요약

1장.

– “빅데이터 기초” 지식은 입문 부분으로, 빅데이터 기술 탄생의 역사적 배경부터 시작하여 기본 용어를 정리한다.

– 빅데이터와 대비되는 기존의 “스몰데이터 기술”에 대해 설명하시오.

– 간단한 Python 스크립트를 통해 데이터 처리 및 데이터 검색 개념 이해

1-1.빅데이터 정산

1) 분산 시스템의 고속 데이터 처리

i) Hadoop은 “여러 컴퓨터에서 많은 양의 데이터를 처리”하기 위한 시스템입니다.

– 수천 대의 컴퓨터를 관리하기 위한 프레임워크

ii) NoSQL 데이터베이스

a) 키-값 저장소

b) 문서 저장(JSON)

c) 와이드 컬럼 저장

iii) Hadoop과 NoSQL 데이터베이스의 결합(현실적인 비용으로 대규모 데이터 처리)

– NoSQL 데이터베이스에 로그인하고 처리를 Hadoop에 분산

2) 분산 시스템의 비즈니스 활용 개척

– 데이터 웨어하우스와의 공존

3) 직접 수행할 수 있는 데이터 분석 범위 확대

– 클라우드 서비스 및 데이터 디스커버리를 통한 빅데이터 활용 가속화

1-2.빅데이터 시대 기반의 데이터 분석

1) (재시험) 빅데이터 기술

– 분산 시스템을 이용한 데이터 구조 작업

i) 데이터 파이프라인

– 데이터 수집부터 워크플로우 관리까지

ii) 데이터 수집

– 벌크 타입 및 스트리밍 데이터 전송

iii) 스트림 처리 및 일괄 처리

– 시계열 데이터베이스와 같은 실시간 처리를 위한 데이터베이스를 자주 사용합니다.

iv) 분산 저장

– 오브젝트 스토리지, NoSQL 데이터베이스

a) 분산 스토리지는 여러 대의 컴퓨터와 디스크로 구성된 스토리지 시스템입니다.

b) 오브젝트 스토리지는 수집된 데이터에 이름을 붙여 파일로 저장합니다. ex) 클라우드 서비스인 Amazon s3

v) 분산 데이터 처리(쿼리 엔진, ETL 프로세스)

– 분산 데이터 처리 프레임워크 필요

vi) 워크플로 관리

– 전체 데이터 파이프라인의 동작 관리

1) ETL

벨트

2) 데이터 웨어하우스 및 데이터 마트

– 데이터 파이프라인의 기본 유형

3) 데이터 레이크

i) 데이터를 있는 그대로 축적(일반적으로 CSV 또는 JSON)

ii) Data Lake 및 Data Mart(필요한 데이터는 Data Mart에 정리되어 있음)

4) 점차적으로 데이터 분석을 위한 견고한 기반을 마련합니다.

i) 팀과 역할 분담, 작은 시작과 확장

ii) 임시 분석 및 대시보드 도구

iii) 데이터 마트 및 작업 흐름 관리

5) 데이터 수집 목적

i) 데이터 검색

ii) 데이터 처리

iii) 데이터 시각화

6) 확인 및 탐색적 데이터 분석

1-3. (속성 학습) 스크립팅 언어를 통한 특수 분석 및 데이터 프레임

1) 데이터 처리 및 스크립팅 언어

– 인기 언어 Python 및 데이터 프레임

2) 데이터 프레임, 베이스의 베이스

– “배열의 배열”에서 생성

3) 웹 서버 접속 로그 예시

– pandas 데이터 프레임을 이용한 간단한 처리

– 데이터 전처리에 사용할 수 있는 Pandas 기능

4) 시계열 데이터의 대화형 집계

– 데이터 집계를 위해 데이터 프레임을 있는 그대로 사용

5) SQL 결과를 데이터 프레임으로 사용

– 실행 결과를 확인하는 부분에 데이터 프레임 사용

1-4. BI 도구 및 모니터링

1) 스프레드시트 모니터링

– 프로젝트의 현재 상태를 알고

2) 데이터 기반 의사결정

i) KPI 모니터링(KPI 모니터링은 “운영” 여부에 주의를 기울여야 합니다.

ii) 자신의 행동을 결정하기 위해 직감에 의존하기보다는 객관적인 데이터를 기반으로 판단을 내립니다.

이를 “데이터 기반 의사 결정”이라고 합니다.

iii) 월별 보고(스프레드시트를 통한 보고 및 제한 사항)

3) 변경 사항을 발견하고 세부 사항을 이해합니다.

i) BI 도구 사용

ii) 모니터링을 위한 기본 전략 및 BI 도구(정기 보고서를 통한 변경 사항 식별 및 재집계)

4) 인간과 자동화의 경계선 결정

i) 수동으로 수행할 수 있는 작업 수행

ii) 자동화하려면 데이터 마트를 만드십시오.

a) BI 도구에서 직접 데이터 소스에 액세스

– 장점: 간단한 시스템 구성.

– 단점 : BI 도구에서 지원하지 않는 데이터 소스에 접근할 수 없음.

b) 데이터 마트를 준비하고 BI 도구에서 엽니다.

– 장점: 어떤 양식이든 자유롭게 만들 수 있습니다.

– 단점: 데이터마트를 설치하고 실행하는데 시간이 걸린다.

c) CSV 파일 업로드를 위한 웹 기반 BI 도구 도입

– 장점: 스크립트를 사용하여 데이터를 자유롭게 처리할 수 있습니다.

– 단점: 데이터 생성 및 업로드를 위한 프로그래밍이 필요합니다.

Similar Posts

  • 전기기사 원격연수원

    누군가 원격 평생 교육 센터를 통해 전기 공학 프로그램을 선택하는 데는 여러 가지 이유가 있습니다. 유연성: 원격 학습 과정은 높은 수준의 유연성과 편의성을 제공하여 학생들이 집에서나 인터넷 연결이 가능한 곳이면 어디에서나 공부할 수 있도록 합니다. 이것은 풀타임으로 일하거나 대면 수업에 참석하기 어려운 다른 약속이 있는 개인에게 특히 매력적입니다. 편의성: 원격 학습 프로그램을 통해 학생들은 실제…

  • YouTube 수입을 확인하는 방법

    YouTube 수익을 확인하는 방법이 궁금한 YouTube 동영상 크리에이터이신가요? 그렇다면 잘 찾아오셨습니다. 여기에서 YouTube 수입을 확인하는 방법과 지급에 대한 몇 가지 도움말을 확인할 수 있습니다. YouTube 란 무엇입니까? YouTube는 사용자가 동영상을 업로드하고 보고 공유할 수 있는 동영상 공유 웹사이트입니다. YouTube는 YouTube가 동영상 제작자에게 비용을 지불하는 데 사용하는 서비스인 Google Adsense도 소유하고 있는 Google이 소유하고 있습니다. YouTube…

  • 하림 닭가슴살 오리지널 / 880g 14860원 / 내집마련 / 나쁘지 않아

    하림 닭가슴살 오리지널 내돈내산 안녕하세요~ 오늘은 하림닭가슴살 오리지널 리뷰 임당~^^냉장고에 닭가슴살 통통~!! 떨어져서 급하게 쿠팡에 주문. 지금은 880g에 14860원인데 저는 15080원에 구입했어요.100g당 1689원.1700원 정도네요.사실 하림 닭가슴살 블랙페퍼 맛을 사려고 했는데 생각없이 구매하다 실수로 오리지널을 사버렸어요. ^^;; 다음날 아침 쿠팡 배송 냉동이 아니라 냉장 닭가슴살입니다. 국내산 닭고기 96.78%, 한 조각 110g당 : 125kcal 단백질 28g 나트륨…

  • 허벅지 살빼기, 효과적인 방법과 팁

    허벅지 살빼기는 많은 사람들이 고민하는 문제입니다. 특히, 여름철이나 수영복을 입기 전에는 더욱 신경 쓰이기 마련입니다. 이번 글에서는 허벅지 살빼기를 위한 효과적인 방법과 운동, 식단 조절에 대해 알아보겠습니다. 허벅지 살빼기를 위한 운동 허벅지 살을 빼기 위해서는 꾸준한 운동이 반드시 필요합니다. 특히, 허벅지를 집중적으로 단련할 수 있는 운동을 선택하는 것이 좋습니다. 1. 스쿼트 스쿼트는 허벅지와 엉덩이를 동시에…

  • 반려견 관절염 대비 펫보험 메리츠화재 페퍼민트 준비

    저희 강아지들은 이제 14살, 12살로 나이가 많아요. 노령견이 되어 강아지 관절염도 생기고 치주염도 생기고 기관지 협착도 생겼다고 합니다. 이렇게 병이 생기고 나서 드는 비용이 정말 만만치 않아요. 남들과 달리 병원마다 검사비용도 치료비용도 천차만별이거든요. 예전에 로니가 뼈 간식을 먹다가 목에 걸려서 새벽 24시에 동물병원을 방문한 적이 있습니다. 그때 200만원이 넘는 병원비가 나오거나 곰팡이 피부염으로 장기간 병원에…

  • 루나코인, 테라폼랩스 권도형 대표와 김앤장

    Terraform Labs CEO, 파산하기 전에 법률 회사에 수백만 달러 제공 테라폼랩스의 도권 대표가 테라 생태계 붕괴 직전 김앤장 법률사무소에 90억원을 송금한 사실이 검찰에서 확인됐다. 검찰이 고의로 판단한 권씨의 행보는 임박한 붕괴에 대한 인식과 법적 문제를 예견한 것이다. Terraform Labs는 2018년 블록체인 기반 결제 플랫폼인 Terra Ecosystem을 출시했습니다. 이 회사의 암호화폐인 루나는 2021년 11월 사상 최고치를…