데이터 이해
데이터
데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 (주문수량)
정보 : 데이터로부터 가공된 자료 (베스트 셀러)
데이터의 유형
(1) 정성적, 정량적
- 정성적 데이터 : 자료의 특징을 풀어 설명 - 언어, 문자 (기상특보, 주관식 설문응답)
- 정량적 데이터 : 자료를 수치화 - 수치, 기호 (온도, 풍속)
(2) 정형 , 반정형, 비정형
- 정형 데이터 : 정보 형태가 정해짐 ( 관계형 DB, 엑셀 스프리드시트, CSV)
- 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함( 로그, HTML, XML ,JSON)
- 비정형데이터 : 형태가 정해지지 않음 (SNS , 유튜브 , 음원)
암묵지, 형식지간 상호작용
-암묵지 : 개인에게 습득되고 겉으로 드러나지 않음
-형식지 : 문서, 매뉴얼 등의 형상화된 지식
1) 공통화 : 암묵지 지식을 다른 사람에게 알려줌
2) 표출화 : 암묵지 지식을 매뉴얼이나 문서로 전환
3) 연결화 : 교재, 매뉴얼에 새로운 지식 추가
4) 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득
DIKW 피라미드
(1) 데이터 : 있는 그대로의 사실 (A 대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
(2) 정보 : Data를 통해 패턴 인식 (A대리점이 핸드폰이 싸다)
(3) 지식 : 패턴을 통해 예측 (A에서 핸드폰을 사면 이득을 보겠다)
(4) 지혜 : 창의적인 산물 (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)
데이터 단위
KB < MB < GB < TB < PB < EB < ZB < YB ( Pea < Exa < Zetta < Yotta )
데이터 베이스의 정의와 특징
데이터베이스의 정의
(1) DB : 일정 구조에 맞게 조직화된 데이터의 집합
스키마 : DB 구조와 제약조건에 관한 전반적 명세
인스턴스 : 정의된 스키마에 따라 저장된 값
(2)DBMS : DB 를 관리, 접근 환경 제공하는 소프트 웨어
1) 관계형 DBMS : 테이블 (표)로 정리
(오라클, MSSQL, MYSQL , MARIA DB)
2) 객체지향 DBMS : 정보를 객체형태로 정리
3) NoSQL DBMS : 비정형 데이터를 저장하고 처리
(HBASE, Mongo DB, Dynamo DB, Casandra)
(3) SQL : 데이터 베이스에 접근할 수 있는 하부 언어
정의언어 (DDL) : CREATE, ALTER, DROP
조작언어(DML) : SELECT, INSERT, DELETE, UPDATE
제어언어(DCL): COMMIT,ROLLBACK, GRANT, REVOKE
데이터베이스의 특징
(1) 공용데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용
(2) 통합된 데이터 : 동일한 데이터 중복되어 있지 않음
(3) 저장된 데이터 : 저장매체에 저장
(4) 변화되는 데이터 : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지 (무결성)
데이터베이스의 구성요소
메타 데이터 : 데이터를 설명하는 데이터
인덱스 : 정렬 , 탐색을 위한 데이터의 이름
데이터베이스 설계절차
(1) 요구조건분석
(2) 개념적설계 : 개념적 스키마 생성
(3) 논리적설계: ERD 설계
(4) 물리적설계 : 저장구조 설계
데이터베이스 활용
기업 활용 데이터 베이스
- OLTP : 데이터를 수시로 갱신 (거래단위)
-OLAP : 다차원 데이터를 대화식으로 분석
-CRM : 고괙과 관련 자료 분석, 마케팅 활용
-SCM : 공급망 연결 최적화
-ERP : 기업 경영 자원을 효율화
-BI : 기업 보유 데이터 정리 , 분석하여 리포트 중심 도구
-BA : 통계 기반 비즈니스 통찰력
-Block Chain : 네트워크 참여한 모든 사용자가 정보를 분산, 저장
-KMS : 기업의 모든 지식을 포함
Data Ware House(DW)
(1) 특징
주제지향적 : 분석목적 설정이 중요
데이터통합 : 일관화 된 형식으로 저장
시계열성 : 히스토리를 가진 데이터
비휘발성 : 읽기 전용 - 수시로 변하지 않음
(2) ETL (Extraction, Transformation , Load)
ETL을 통하여 DW와 DM 등의 DB 시스템에 데이터 적재
Data Lake
비정형 데이터를 저장하여 하둡과 연계하여 처리
하둡 : 병렬처리 오픈소스 프레임워크
1) HDFS : 분산형 파일 저장 시스템
2) MapReduce : 분산된 데이터를 병렬로 처리
2. 데이터의 가치와 미래
- 빅데이터의 이해
빅데이터 출현 배경
인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하라, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산
빅데이터의 3V (가트너 정의)
1) Volume(규모) : 데이터 양 증가 (구글 번역 서비스)
2) Variety(다양성) : 데이터 유형 증가
3) Velocity(속도): 데이터 생성, 처리 속도 증가
4) 그 외 5 V에 포함되는 요소
-Value (가치)
-Veracity(신뢰성)
빅데이터에 대한 비유
(1) 산업 혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할
(2) 원유 : 정보제공으로 생산성 향상
(3) 렌즈 : 현미경이 생물학 발전 영향 , 산업 전반에 영향 ( 구글 Ngram Viewer)
(4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비지니스에 활용 ( 페이스 북)
*써드파티 : 원천기술을 활용한 파생상품 만드는 회사
빅데이터가 만들어내는 변화
(1) 표본조사 -> 전수조사
(2) 사전처리 -> 사후처리
(3) 질 -> 양
(4) 인과관계 -> 상관관계
빅데이터의 가치와 영향
빅데이터 가치 산정이 어려운 이유
(1) 특정 데이터를 언제, 어디서 누가 활용할 지 알 수 없음
(2) 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출
비즈니스 모델
빅데이터를 활용 위한 3대 요소
-인력, 자원(데이터) , 기술
빅데이터의 주요 분석기법
-회귀분석 : 독립변수와 종속변수 관계 X가 Y에 어떤 영향을 미치는가?
(고객 만족도가 높은 사람은 재방문할 확률 높은가?)
-유형분석 : A와 B는 어디에 속하는 범주 (같은 패턴을 보이는 동물)
-연관규칙 : 여러 요소들간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)
-유전자 알고리즘 : 최적화 필요한 문제의 해결책
(택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송?)
-기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)
-감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로 원하는 것 발견)
-소셜 네트워크 분석 : 사람간의 관계 SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
위기 요인과 통제 방안
위기 요인과 통제방안
(1) 사생활침해 : SNS 올린 데이터가 사생활 침해
-> 제공자에서 사용자 책임으로 전환
(2) 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제
-> 결과에 대해서만 책임
(3) 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님
-> 알고리즘을 해석 가능한 알고리즈미스트 필요
개인정보 비식별화
(1) 데이터 마스킹 : 홍길동 -> 홍 xx
(2) 가명처리 : 홍길동 -> 임꺽정
(3) 총계처리 : A ; 165, B : 170, C : 175 -> 합 : 510, 평균 : 170
(4) 범주화 : 홍길동 35세 -> 홍길동 30 ~ 40 세
미래의 빅데이터
미래의 빅데이터
(1) 서비타이제이션 (Servitization) : 서비스와 제품의 결합, 기존 -신규 서비스의 결합
(2) 마이데이터 : 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받음
(3) 딥 러닝 : 사람의 뇌 구조를 모방한 인공신경망을 활용하여 기계학습(머닝러닝) 기법
2. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
-빅데이터분석과 전략 인사이트
전략 인사이트
- 집중과 선택 ( 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
- 경영진의 전략적 인사이트에 기여
👉🏻 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
👉🏻 사업 상황들을 확인할 떄는 넓은 시야
데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 정형 / 비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)
데이터 사이언스 핵심 구성요소
(1) Analytics : 이론적 지식
(2) IT : 프로그래밍적 지식
(3) 비즈니스 분석 : 비즈니스적 능력
전략 인사이트 도출을 위한 필요 역량
데이터 사이언티스트의 필요역량
(1) 하드 스킬 : 이론적 지식 (수학 , 통계학, 가설검정 등) 가트너 제시 역량에 미포함
(2) 소프트 스킬 : 스토리텔링, 리더십, 창의력, 분석 등
👉🏻 하드스킬은 이과적, 소프트스킬은 문과적인 느낌
빅데이터 그리고 데이터 사이언스의 미래
빅데이터 가치 패러다임 변화
- Digitalization -> Connection > Agency
(1) Digitalization : 아날로그 세상을 디지털화
(2) Connection : 디지털화된 정보들의 연결
(3) Agency : 연결을 효과적으로 관리