본문 바로가기
도전기/빅분기

혼공_DAY_01_빅데이터 분석 기획

by Qookoo 2024. 9. 3.
반응형

 

맵리듀스 패턴 조인패턴
파일전송 FTP 네트워크 공유  여러 호스트 컴퓨터의 데이터에 접근 방식
외부데이터 이용시 장점 다양한 데이터의 선택권
(내부 데이터 : 비용 저렴, 보안 우수, 소유권 취득)
데이터 정제 유형 이상치 처리
노이즈 처리
결측치 처리
(분석 방법 유형: 데이터 전처리, 변환, 마이닝)
빅데이터 시대의 위기 요인 사생활 침해     > 동의에서 책임으로
책임원칙 훼손 > 결과 기반 책임 원칙 고수
데이터 오용     > 알고리즘 접근 허용

데이터 분석 수준진단 결과 정착형 / 준비도 낮음
준비형 / 준비 필요
도입형 / 분석업무, 기법 등 부족, 조직의 준비도 높음
확산형 / 6가지 분석 구성 요소 갖춤, 확산이 필요한 경우
분석 준비도의 진단영역 데이터, 인력, 조직 , 분석업무, 분석 기법
빅데이터의 특성 다양성( 반정형, 비정형, 정형)
데이터 전처리 수행단계 데이터 준비
데이터 사이언스 설명 의학, 공학 등 다양한 분야 적용
처리시점 사전처리 > 사후처리
데이터 가치 질 보다 양
이론적 인과관계에서 상관관계 중심으로 변화 경

 

 

데이터 거버넌스 구성요소 원칙 조직 프로세스
데이터산업 설명 인간 상호작용 낮아짐
SW 영역
DATA 제공, 가공 정보 제공
인프라 영역과 서비스 영
빅데이터 플랫폼 계층구조 SW
플랫폼
인프라스트럭쳐
분석 마스터 플랜 기획의 특성 고려
과제의 중요도, 난이도 고려
중장기적 관점의 수행 계획 수립
목적이나 목표에 따라 전체적인 방향성 제시
데이터 분석 통한 개선사항 도출 도메인 이슈 도출
데이터 분석 조직 기능형) 현업 부서에 국한되 협소한 분석 수행 가능성 
집중형) 중복되며, 이원화 됨, DSCoE 등 전단 조직 존재
분산형) 본석 전문인력의 현업 배치, 신속 수행
데이터 추출 저장 기술 ETL -- 추출, 변환, 저장
OLAP
Hadoop
DataMart
탐색적 데이터 분석(EDA) 구조 파악
시각화 도구 이용
분석 모델 선정 및 구성 위한 절차 
분산 파일 시스템 네트워크로 공유하는 파일 시스템,
데이터를 분산 저장, 추출, 가공시 빠르게 처리
GFS, HDFS 존재  
네트워크 저장 시스템 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리하는 시스템
병렬 DBMS 설명 분산 아키텍쳐, 파티셔닝과 병렬처리로 고성능제공
데이터 복제, 분산한 관계로 데이터 변경에 따른 관리 비용 발생

 

반응형