카테고리 없음

ADsP 1과목 데이터 이해

이응 2024. 10. 10. 21:16

데이터 이해

 

데이터

데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 (주문수량)

정보 : 데이터로부터 가공된 자료 (베스트 셀러)

 

 

데이터의 유형

 

(1) 정성적, 정량적

- 정성적 데이터 : 자료의 특징을 풀어 설명 - 언어, 문자 (기상특보, 주관식 설문응답)

- 정량적 데이터 : 자료를 수치화 - 수치, 기호 (온도, 풍속)

 

(2) 정형 , 반정형, 비정형

- 정형 데이터 : 정보 형태가 정해짐 ( 관계형 DB, 엑셀 스프리드시트, CSV)

- 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함( 로그, HTML, XML ,JSON)

- 비정형데이터 : 형태가 정해지지 않음 (SNS , 유튜브 , 음원)

 

암묵지, 형식지간 상호작용

-암묵지 : 개인에게 습득되고 겉으로 드러나지 않음

-형식지 : 문서, 매뉴얼 등의 형상화된 지식

1) 공통화 : 암묵지 지식을 다른 사람에게 알려줌

2) 표출화 : 암묵지 지식을 매뉴얼이나 문서로 전환

3) 연결화 : 교재, 매뉴얼에 새로운 지식 추가

4) 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

 

DIKW 피라미드

(1) 데이터 : 있는 그대로의 사실 (A 대리점 핸드폰 100만원, B대리점 핸드폰 200만원)

(2) 정보 : Data를 통해 패턴 인식 (A대리점이 핸드폰이 싸다)

(3) 지식 : 패턴을 통해 예측 (A에서 핸드폰을 사면 이득을 보겠다)

(4) 지혜 : 창의적인 산물 (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)

 

데이터 단위

KB < MB < GB < TB < PB < EB < ZB < YB ( Pea < Exa < Zetta < Yotta )

 

 

데이터 베이스의 정의와 특징

 

데이터베이스의 정의

(1) DB : 일정 구조에 맞게 조직화된 데이터의 집합

스키마 : DB 구조와 제약조건에 관한 전반적 명세

인스턴스 : 정의된 스키마에 따라 저장된 값

 

(2)DBMS : DB 를 관리, 접근 환경 제공하는 소프트 웨어

1) 관계형 DBMS : 테이블 (표)로 정리

(오라클, MSSQL, MYSQL , MARIA DB)

2) 객체지향 DBMS : 정보를 객체형태로 정리

3) NoSQL DBMS : 비정형 데이터를 저장하고 처리

(HBASE, Mongo DB, Dynamo DB, Casandra)

 

(3) SQL : 데이터 베이스에 접근할 수 있는 하부 언어

정의언어 (DDL) : CREATE, ALTER, DROP

조작언어(DML) : SELECT, INSERT, DELETE, UPDATE

제어언어(DCL): COMMIT,ROLLBACK, GRANT, REVOKE

 

데이터베이스의 특징

(1) 공용데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용

(2) 통합된 데이터 : 동일한 데이터 중복되어 있지 않음

(3) 저장된 데이터 : 저장매체에 저장

(4) 변화되는 데이터  : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지 (무결성)

 

 

데이터베이스의 구성요소

메타 데이터 : 데이터를 설명하는 데이터

인덱스 : 정렬 , 탐색을 위한 데이터의 이름

 

데이터베이스 설계절차

(1) 요구조건분석

(2) 개념적설계 : 개념적 스키마 생성

(3) 논리적설계: ERD 설계

(4) 물리적설계 : 저장구조 설계

 

데이터베이스 활용

 

기업 활용 데이터 베이스

- OLTP : 데이터를 수시로 갱신 (거래단위)

-OLAP : 다차원 데이터를 대화식으로 분석

-CRM : 고괙과 관련 자료 분석, 마케팅 활용

-SCM : 공급망 연결 최적화

-ERP : 기업 경영 자원을 효율화

-BI : 기업 보유 데이터 정리 , 분석하여 리포트 중심 도구

-BA : 통계 기반 비즈니스 통찰력

-Block Chain : 네트워크 참여한 모든 사용자가 정보를 분산, 저장

-KMS : 기업의 모든 지식을 포함

 

 

Data Ware House(DW)

(1) 특징 

주제지향적 : 분석목적 설정이 중요

데이터통합 : 일관화 된 형식으로 저장

시계열성 : 히스토리를 가진 데이터

비휘발성 : 읽기 전용 - 수시로 변하지 않음

(2) ETL (Extraction, Transformation , Load)

ETL을 통하여 DW와 DM 등의 DB 시스템에 데이터 적재

 

Data Lake

비정형 데이터를 저장하여 하둡과 연계하여 처리

하둡 : 병렬처리 오픈소스 프레임워크

1) HDFS : 분산형 파일 저장 시스템

2) MapReduce : 분산된 데이터를 병렬로 처리

 

 

2. 데이터의 가치와 미래

- 빅데이터의 이해

 

빅데이터 출현 배경

인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하라, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산

 

빅데이터의 3V (가트너 정의)

1) Volume(규모) : 데이터 양 증가 (구글 번역 서비스)

2) Variety(다양성) : 데이터 유형 증가

3) Velocity(속도): 데이터 생성, 처리 속도 증가

4) 그 외 5 V에 포함되는 요소

-Value (가치)

-Veracity(신뢰성)

 

빅데이터에 대한 비유

(1) 산업 혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할

(2) 원유 : 정보제공으로 생산성 향상

(3) 렌즈 : 현미경이 생물학 발전 영향 , 산업 전반에 영향 ( 구글 Ngram Viewer)

(4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비지니스에 활용 ( 페이스 북)

*써드파티 : 원천기술을 활용한 파생상품 만드는 회사

 

 

빅데이터가 만들어내는 변화 

(1) 표본조사 -> 전수조사

(2) 사전처리 -> 사후처리

(3) 질 -> 양

(4) 인과관계 -> 상관관계

 

 

빅데이터의 가치와 영향

 

빅데이터 가치 산정이 어려운 이유

(1) 특정 데이터를 언제, 어디서 누가 활용할 지 알 수 없음

(2) 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

 

비즈니스 모델

빅데이터를 활용 위한 3대 요소

-인력, 자원(데이터) , 기술

 

 

빅데이터의 주요 분석기법

-회귀분석 : 독립변수와 종속변수 관계 X가 Y에 어떤 영향을 미치는가?

(고객 만족도가 높은 사람은 재방문할 확률 높은가?)

-유형분석 : A와 B는 어디에 속하는 범주 (같은 패턴을 보이는 동물)

-연관규칙 : 여러 요소들간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)

-유전자 알고리즘 : 최적화 필요한 문제의 해결책

(택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송?)

-기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)

-감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로 원하는 것 발견)

-소셜 네트워크 분석 : 사람간의 관계 SNS상 사용자들 관계 속 영향력 높은 사람 찾기)

 

위기 요인과 통제 방안

위기 요인과 통제방안

(1) 사생활침해 : SNS 올린 데이터가 사생활 침해

-> 제공자에서 사용자 책임으로 전환

(2) 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제

-> 결과에 대해서만 책임

(3) 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님

-> 알고리즘을 해석 가능한 알고리즈미스트 필요

 

 

개인정보 비식별화

(1) 데이터 마스킹 : 홍길동 -> 홍 xx

(2) 가명처리 : 홍길동 -> 임꺽정

(3) 총계처리 : A ; 165, B : 170, C : 175 -> 합 : 510, 평균 : 170

(4) 범주화 : 홍길동 35세 -> 홍길동 30 ~ 40 세

 

 

미래의 빅데이터

미래의 빅데이터

(1) 서비타이제이션 (Servitization) : 서비스와 제품의 결합, 기존 -신규 서비스의 결합

(2) 마이데이터 : 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받음

(3) 딥 러닝 :  사람의 뇌 구조를 모방한 인공신경망을 활용하여 기계학습(머닝러닝) 기법

 

2. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

-빅데이터분석과 전략 인사이트

 

전략 인사이트

- 집중과 선택 ( 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)

- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함

- 경영진의 전략적 인사이트에 기여

👉🏻 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

👉🏻 사업 상황들을 확인할 떄는 넓은 시야

 

 

데이터 사이언스

- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문

- 정형 / 비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

 

데이터 사이언스 핵심 구성요소

(1) Analytics : 이론적 지식

(2) IT : 프로그래밍적 지식

(3) 비즈니스 분석 : 비즈니스적 능력

 

 

전략 인사이트 도출을 위한 필요 역량

 

데이터 사이언티스트의 필요역량

(1) 하드 스킬 : 이론적 지식 (수학 , 통계학, 가설검정 등) 가트너 제시 역량에 미포함

(2) 소프트 스킬 : 스토리텔링, 리더십, 창의력, 분석 등

👉🏻  하드스킬은 이과적, 소프트스킬은 문과적인 느낌

 

빅데이터 그리고 데이터 사이언스의 미래

빅데이터 가치 패러다임 변화

- Digitalization  -> Connection > Agency

(1) Digitalization : 아날로그 세상을 디지털화

(2) Connection : 디지털화된 정보들의 연결

(3) Agency : 연결을 효과적으로 관리