[1과목] 데이터의 이해

1. 데이터 이해

데이터의 정의와 특징

데이터 : 추론과 추정의 근거를 이루는 사실

  • 존재적 특성 : 객관적 사실
  • 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거

데이터의 유형

  형태 특징
정성적 데이터 언어, 문자 회사 매출이 증가함 저장/검색/분석에 많은 비용
비정형 데이터
주관적 내용
통계분석 어려움
정량적 데이터 수치, 도형, 기호 나이, 몸무게, 주가 비용 적음
정형 데이터
객관적 내용
통계분석 용이

암묵지 vs 형식지

  의미 특징 상호작용
암묵지 가지고 있지만 겉으로 드러나지 않는 지식 다른 사람과 공유가 어려움 공통화, 내면화
내면의 지식을 조직의 지식으로 공통화
자전거 타기
형식지 문서나 매뉴얼처럼 형식화된 지식 전달과 공유 용이 표출화, 연결화
표출된 지식을 개인의 지식으로 연결화
교과서

DIKW

  • 데이터(data): 객관적인 사실
    ex) A마트는 100원, B마트는 200원에 연필을 판매
  • 정보(information): 데이터의 이해를 통해 의미가 도출된 것
    ex) A마트의 연필이 더 싸다
  • 지식(knowledge): 정보를 통해 고유의 지식으로 내재화된 것
    ex) 이제 A마트에서 연필을 사야겠다
  • 지혜(wisdom): 지식을 바탕으로 도출되는 창의적인 아이디어
    ex) A마트의 다른 상품들도 B마트보다 쌀 것 같다

데이터베이스의 정의와 특징

데이터베이스: 다양한 방법으로 이용할 수 있도록 일정한 구조에 따라서 정리된 데이터의 집합

  • 통합된 데이터: 동일한 내용의 데이터는 없음 (데이터의 중복은 관리상 부작용을 초래)
  • 저장된 데이터: 컴퓨터가 접근할 수 있는 저장 매체에 저장됨 (기본적으로 컴퓨터 기술을 바탕으로 함)
  • 공용 데이터: 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 사용함 (대용량화되고 구조가 복잡함)
  • 변화되는 데이터: 데이터는 삽입, 삭제, 갱신으로 항상 변화함

기업내부 데이터베이스

  • OLTP(On-Line Transaction Processing): 테이터베이스의 데이터를 수시로 갱신하는 기술
  • OLAP(On-Line Analytical Processing): 데이터의 조회를 통해 의사결정에 활용할 수 있는 정보를 얻는 기술
  • CRM(Customer Relationship Management): 고객 자료를 분석해 고객 특성에 맞게 ㅁ나케팅 활동을 하는 과정
  • SCM(Supply Chain Management):원재료의 생산부터 소비자에게 전달될때까지 IT를 이용해 수요자들의 요구에 기민하게 대응토록 지원하는 것

2. 데이터의 가치와 미래

빅데이터의 정의

  • 양(Volume) : 데이터의 양이 많음
  • 다양성(Variety) : 데이터의 종류가 다양함
  • 속도(Velocity) : 데이터가 생기는 속도가 빠름

여기에 가치(Value), 시각화(Visualization), 정확성(Veracity)을 포함한 4V의 개념이 생성되고 있다.

빅데이터의 범주

빅데이터의 범주가 데이터의 변화 -> 기술 변화 -> 인재, 조직의 변화 로 점점 확대되고 있다.

  • 데이터 변화 : 3V (규모, 형태, 속도)
  • 기술 변화 : 데이터 처리/저장/분석 기술, 클라우드 컴퓨팅 활용
  • 인재, 조직 변화 : 데이터 사이언티스트 같은 새로운 인재 필요, 데이터 중식 조직

빅데이터의 기능

  • 산업혁명의 석탄, 철: 사회, 경제, 문화, 생활 전반에 혁명적인 변화를 가져올 것으로 기대됨
  • 21세기의 원유: 경제 성장에 필요한 정보를 제공하여 산업 전반의 생산성 향상, 새로운 범주의 산업을 만들어낼 것임
  • 렌즈: 렌즈를 통해 현미경이 생물학 발전에 영향을 미친것 처럼 데이터가 산업 발전에 영향을 미칠 것임
  • 플랫폼: 공동 활용의 목적으로 구축된 구조물로 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것임 ex) 카카오톡, 페이스북

빅데이터가 만들어 내는 변화

  • 사전처리 -> 사후처리: 필요한 정보를 수집하는 것 -> 가능한 많은 데이터를 모아서 숨은 정보를 찾아냄
  • 표본조사 -> 전수조사: 데이터 처리 비용의 감소로 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견함
  • 질 -> 양: 데이터가 많으면 양질의 정보가 오류정보보다 많아 전체적으로 좋은 결과 산출이 가능함
  • 인과관계 -> 상관관계: 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 맞는 행동을 하도록 추천되는 일이 늘어남

빅데이터의 가치 산정이 어려운 이유

  • 특정 데이터를 언제, 어디서, 누가 활용했는지 알 수 없기 때문
  • 기존에 없던 가치를 창출함에 따라 가치를 측정하기 어려움
  • 새로운 분석 기법이 등장하면 거대한 가치를 지닌 데이터가 될 수도 있기 때문

빅데이터를 활용한 기본 테크닉

  • 연관규칙학습: 변인들 간의 상관관계 찾기
    ex) 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
  • 유형분석: 문서 분류, 조직을 그룹으로 나눌 때 사용
    ex) 이 사용자는 어떤 특성을 가진 집단에 속하는가?
  • 유전자 알고리즘: 자연선택, 돌연변이 메커니즘을 이용해 최적화시키는 방법
    ex) 최대의 시청률을 위해 어떤 시간에 방송해야 하는가?
  • 기계학습: 훈련데이터로부터 학습한 특성을 활용해 예측하는 방법
    ex) 기존의 시청기록을 바탕으로 현재 가장 보고 싶어한는 영화는?
  • 회귀분석: 독립변수의 변화에 따라 종속변수가 어떻게 변하는지 두 변수 사이의 관계를 파악
    ex) 구매자의 나이가 구매 차량의 타입에 어떤 영향?
  • 감정분석: 사람의 감정을 분석
    ex) 새로운 정책에 대한 고객의 평가는?
  • 소셜네트워크분석: 사람들 사이의 관계를 파악하고 영향력 있는 사람을 찾아낼 때 사용
    ex) 고객들 간 관계망은 어떻게 구성되어 있나?

빅데이터 시대의 위기요인과 통제방안

  • 사생활 침해: 개인정보가 포함된 데이터를 목적 외로 활용함
    ex) 여행 사실을 올린 사람의 집을 강도가 노림
    -> 동의에서 책임으로: 개인정보 사용 동의가 아닌 개인정보 사용자의 책임으로 변경해 발생하는 피해에 대해 사용자가 책임을 지게함
  • 책임 원칙 훼손: 예측기술의 정확도가 증가해 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가함
    ex) 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포됨
    -> 결과 기반 책임 원칙 고수: 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치 마련 필요
  • 데이터 오용: 데이터에 의존하기 때문에 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있음
    ex) 적군 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용
    -> 알고리즘 접근 허용: 예측 알고리즘의 부당함을 반증할 수 있는 방법을 공개하여 불이익을 당한 사람들을 대변할 전문가가 필요하게 됨

빅데이터 활용의 3요소

  • 데이터: 모든 것의 데이터화
  • 기술: 진화하는 알고리즘, 인공지능
  • 인력: 데이터 사이언티스트, 알고리즈미스트

데이터 사이언티스트: 데이터의 분석을 통해 인사이트를 도출하고 전략 방향을 제시함

알고리즈미스트: 알고리즘 코딩 해석을 통해 데이터 사이언티스트가 한 일로 인해 부당하게 피해를 입은 사람을 구제하는 전문인력


3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

산업별 일차원적 분석 애플리케이션

  • 금융: 신용점수, 사기탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객 수익성분석
  • 병원: 가격 책정, 고객 로열티, 수익 관리
  • 에너지: 공급/수요 예측, 트레이딩
  • 정부: 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화
  • 소매업: 판촉, 매대 관리, 수요예측, 재고 보충, 가격 최적화
  • 제조업: 수요예측, 재고 보충, 보증서 부석, 맞춤형 상품개발, 신상품 개발
  • 운송업: 일정관리, 노선 배정, 수익 관리
  • 헬스케어: 약품 거래, 예비 진단, 질병 관리
  • 커뮤니테이션: 고객 보유, 생산능력 계획, 고객 수익성 관리
  • 서비스: 콜센터 직원관리 ,서비스-수익 사슬 관리

일차적인 분석의 문제점과 전략 도출 가치기반 분석의 특징

일차적인 분석은 환경변화와 같은 큰 변화에 제대로 대응하거나 고객환경의 변화를 파악하고 새로운 기회를 포착하기 어렵다.

  • 전략적인 통찰력 창출에 포커스를 뒀을 때, 분석은 해당 사업에 중요한 기회를 발굴하고 주요 경영진의 지원을 얻어낼 수 있다.
  • 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야 한다.
  • 전략적 인사이트를 주는 가치기반 분석 단계로 나아가야 한다.

데이터사이언스

데이터사이언스는 다양한 유형의 데이터를 분석, 구현, 전달 하는 과정까지를 포함한 포괄적 개념이다.

데이터 사이언티스트는 비즈니스의 성과를 좌우하는 핵심이슈에 답을 하고, 사업의 성과를 견인해 나갈 수 있어야 한다.

데이터 사인언스의 구성요소

  • 분석적 영역: 수학, 확률모델, 머신러닝, 패턴인식, 분석학
  • 데이터 처리와 관련된 IT 영역: 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
  • 비즈니스 컨설팅 영역: 커뮤니케이션, 프레젠테이션, 스토릴텔링, 시각화

데이터 사이언티스트의 역할

데이터 사이언티스트는 데이터를 구조화, 불완전한 데이터를 서로 연결해야 한다.

데이터 사이언티스트는 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력 등을 갖춰야 한다.

  • Hard Skill

  • 빅데이터 이론 지식: 관련 기법에 대한 이해 및 습득
  • 분석 기술 숙련: 최적의 분석 설계 및 노하우 축적

  • Soft Skill
    • 통찰력 있는 분석: 창의력, 호기심, 논리적 비판
    • 설득력 있는 전달: 스토리텔링, 비주얼라이제이션
    • 다분야간 협력: 커뮤니케이션

데이터 사이언스의 한계와 인문학

  • 분석과정에서 가정 등 인간의 해석이 개입된다.
  • 사람에 따라 분석결과를 다르게 해석할 수 있다.
  • 모든 분석은 가정에 근거한다.

따라서 인문학을 이용해 새로운 기회를 찾아야 한다. 인문한은 비즈니스의 핵심가치를 이해하고 고객의 내면적인 요구를 이해하는 능력이다.


4. 기타

DBMS(Data Base Management System)

DBMS는 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어이다. 효율적인 데이터 검색과 저장 기능 등을 제공한다. ex) 오라클, 액세스

  • 관계형 DBMS: 데이터를 행과 열을 이루는 하나 이상의 테이블로 정이하며 고유키가 각 행을 식별한다.
  • 객체지향 DBMS: 정보를 객체 향태로 표현한다.
  • 네트워크 DBMS: 노드와 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델이다.
  • 계층형 DBMS: 트리 구조를 기반으로 하는 계층 데이터베이스 모델이다.

SQL(Structed Query Language)

SQL은 데이터베이스를 사용할 때 데이터베이스에 접근할 수 있는 데이터 베이스의 하부 언어로 완전한 데이터의 정의와 조작 기능을 갖추고 있다. 테이블을 단위로 연산을 수행한다.

★ AVG, SUM, STDDEV는 수치 데이터에만 사용가능, COUNT는 어떠한 데이터 타입에서도 사용 가능

데이터 관련 기술들

  • 개인정보 비식별 기술 : 개인을 식별할 수 있는 요소를 삭제하거나 다른 값으로 대체하여 개인을 알아볼 수 없도록 하는 기술
    • 데이터 마스킹: 데이터의 길이, 유형, 형식을 유지한 채로 익명으로 생성 ex) 홍길동 -> 홍**
    • 가명처리: 다른 값으로 대체하는 방법 ex) 홍길동 -> 임꺽정
    • 총계처리: 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않게 함 ex) 홍길동 180cm -> 물리학과 학생 키 합:660cm
    • 데이터값 삭제: 개인식별에 중요한 값을 삭제 ex) 주민번호 뒷자리 지우기
    • 데이터 범주화: 데이터의 값을 범주의 값으로 변환하여 값을 숨김 ex) 홍길동, 35세 -> 홍씨, 30~40세
  • 무결성과 레이크
    • 데이터 무결성: 데이터에 대한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러 가지 제한을 두는 것
    • 데이터 레이크: 방식에 상관없이 데이터를 저장하는 시스템

빅데이터 분석 기술

  • Hadoop: 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술, SQL을 이용해 질의를 실시간으로 처리
  • Apahe Spark: 실시간 분산형 컴퓨팅 플랫폼, 스칼라/자바/R/파이썬/API를 지원
  • Smart Factory: 공장 내 설비와 기계에 IoT가 설치되어 공정 데이터 실시간으로 수집
  • Machine Learning, Deep Learning: 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하기위한 기술

데이터양의 단위

바이트(B, 1byte) -> 킬로바이트(KB, 1024B) -> 메가바이트 -> 기가바이트 -> 테라바이트 -> 페타바이트 -> 엑사바이트 -> 제타바이트 -> 요타바이트

데이터의 유형

  • 정형데이터: 고정된 필드가 있고, 연산이 가능. ex) 스프레드시트, CSV
  • 반정형데이터: 메타데이터, 스키가가 있고, 연산이 불가능. 주로 파일로 저장됨 ex) XML, JSON, HTML
  • 비정형데이터: 형태가 없고, 연산이 불가능. ex) 소셜데이터, 영상, 이미지, 음성, 텍스트 등