본문 바로가기
ADsP 정리 내용 백업

1과목 데이터 이해 2장 데이터 가치와 미래

by metal-11 2017. 4. 9.

과목1 2장.hwp

※ ADsP 정리글은 어디까지나 한국데이터진흥원에서 발행한 데이터분석 전문가 가이드를 읽어야 그 맥락이 이해되는 물건입니다. 그러니 꼭 사서 정리을 보길 추천합니다.


2장 데이터 가치와 미래

1절 빅데이터의 이해

1. 정의: 관점범위에 따라

1) 3V로 요약되는 데이터 자체의 특성변화에 초점(좁은)

2) 처리, 분석 기술적 변화까지 포함하는(중간)

3) 인재, 조직 변화를 포함한 정의(넓은)

데이터 변화

기술 변화

인재, 조직 변화

규모, 형태, 속도

새로운 데이터 처리, 저장, 분석 기술 및 아키텍처

클라우드 컴퓨팅

Data Scientist같은 인재 필요

데이터 중심 조직

>> 기존 방식으론 얻을 수 없던 통찰 및 가치 창출.

사업 방식, 시장, 사회, 정부 등에서 변화와 혁신 주도

2. 출현 배경 : 기존 방식의 패러다임 전환이 일어난 것.

1) 산업계 - 고객 데이터 축적(양질전환법칙) 2) 학계 거대 데이터 활용 과학 확산

3) 관련 기술 발전(디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅)

-초기 인터넷 사업 모델 중 각광받은 것은 미디어 시장에서 커온 광고(마이크로 결제 시스템이 부재 때문). 현재도 주요 사업모델. 서비스 사용자와 광고주를 연결하는 비즈니스서 가장 중요한 것은 사용자 특성 파악해 도달하고자는 정확한 고객군을 만드는 것. 로그로 정확도가 향상.

-스마트폰 덕에 context 정보가 양산됨.

-클라우드 컴퓨팅은 많은 저장이 가능해진 것도 있지만, 처리비용을 낮춘 게 더 큼(맵리듀스)

3. 빅데이터 기능 : 차세대 산업혁신에 꼭 필요한 요소로 각종 역할에 따른 비유

1) 산업혁명의 석탄, : 생산성 올림

2) 21세기의 원유 : 생산성을 향상, 새로운 산업 만듦

3) 렌즈 : 돋보기처럼 보는 것이 가능

4) 플랫폼 : 공동활용 가능

4. 빅데이터가 나타내는 본질적 변화(4가지 측면)

. 사전처리 >> 사후처리 : 필요한 정보만 표준화한 문서 포맷 같은 걸이용.>>가능한 많이 모아 다양한 방식으로 조합해 숨겨진 정보 찾는다.

. 표본조사 >> 전수조사 : 저렴한 비용으로 데이터 수집. 일정 시차를 둔 샘플은 어떤 정보도 제공 못할 수 있음. 샘플은 질문이 바뀌면 다시 데이터 수집하지만 전수는 재가공.

. >> : 데이터가 지속적으로 추가시 양질 정보보다 오류보다 많아, 전체적으로 좋은결과 산출에 긍정적이란 추론과 경향이 존재. 예전엔 변수 몇 개 없는 사례는 포기했지만, 현재는 관점이 바뀌어 포기 안하고 다른 변수 설명에 사용.

. 인과관계 >> 상관관계 : 인과관계는 추후에 알아도 상관없고, 신속한 판단이 필요한 비즈니스의 예측엔 상관관계로도 족함.

 

2절 빅데이터의 가치와 영향

1. 빅데이터의 가치

빅데이터의 가치산정이 어려운 이유

1) 데이터 활용방식 : 재사용, 재조합(mashup), 다목적용 개발 : 언제어디서누가 활용하는지 알 수 없음. 미래에 2,3차적 목적으로 사용가능.

2) 새로운 가치 창출 : 새로운 정보에 대한 가치 평가는 어려움

3) 분석 기술 발전 : 이전엔 불가능했던 분석이 나중엔 가능해져서 그 가치가 불변이 아님

2. 빅데이터의 영향 : 생활전반이 스마트화

1) 기업 : 혁신, 경쟁력 제고, 생산력 향상

2) 정부 : 환경 탐색, 상황 분석, 미래 대응

3) 개인 : 목적에 따라 활용

-매킨지 컨설팅보고(2011)의 빅데이터로 얻을 수 있는 이득에 대한 정량적 수치 참고

-M2M : Machine to Machine란 의미

 

3절 비즈니스 모델

1. 빅데이터 활용 사례(대표적)


1) 기업 : 구글 검색(다양한 차원의 신호 추가), 월마트 구매패턴을 상품 진열, 의료에 적용되면 3300억 달러 절약, 왓슨

2) 정부 : NSA가 각종 상황분석

3) 개인 : 정치인(유세, 내용)과 가수(청취 기록으로 순서 선정)

2. 빅데이터 활용 기본 테크닉

1. 연관규칙 학습(Association rule learning) : 변인들간 상관관계

2. 유형 분석(Classification tree analysis) : 기존자료 바탕으로 훈련용 분류틀 갖춰 분류 시

3. 유전 알고리즘(Genetic algorithms) : 최적화가 필요한 문제 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시키는 방법.

4. 기계 학습(Machine learning) : 알려진 특성을 활용해 예측에 초점.

5. 회귀분석(Regression analysis) : 독립, 종속

6. 감정분석(sentiment analysis) : 특정 주제에 대한 사람의 감정 분석

7. 소셜네트워크분석(Social network analysis) : 영향력 있는 사람 찾기 같은

 

4절 위기 요인과 통제 방안

1. 위기요인

1) 사생활침해 : 익명화(anonymization) 기술이 아직 불충분

2) 책임 원칙 훼손 : 행동한 결과가 아닌 가능성만으로 예측 알고리즘의 희생양이 될 수 있다

3) 데이터 오용 : 결국 과거 데이터를 이용한 것이므로 항상 정확한 결단(혁신)이 되는건 아님. 잘못된 지표를 통해 잘못된 인사이트를 얻을 수 있음.

2. 통제방안

1) 동의에서 책임으로 : 일일이 동의를 구하는 게 아닌 데이터 사용자가 책임지는 방향

2) 결과 기반 책임 원칙 고수 : 책임원칙 훼손 위기에 대한 방안으로 기존 원칙을 강화, 예측 자료에 의한 불이익을 당할 가능성 최소화

3) 알고리즘 접근 허용 : 사용되는 시그널과 비중에 대해 알아야함, 알고리즘의 부당함을 반증할 수 있는 방법도 명시하길 주문하고 있음(알고리즈미스트 같은 직업 이 중요해질 것임)

 

5절 미래의 빅데이터

1. 데이터 : 모든 것의 데이터화(Datafication) : IOT, 스마트폰 등의 센서로 많은 종류의 데이터가 생성. 모든 걸 데이터화려는 추세. (센서의 수와 성장세, 데이터 단위 자료)

2. 기술 : 진화하는 알고리즘, 인공지능(Artificial Intelligence, AI) : 데이터 증가>>정확도 향상 >> 알고리즘 효율성 향상(인공지능에 가까워진다?)

3. 인력 : 데이터 사이언티스트, 알고리즈미스트(Algorithmist)

- 이론적 지식과 숙달된 분석기술을 바탕으로, 통찰력·전달력·협업 능력 갖춘 전문인력 의미

- 알고리즈미스트는 부당한 피해가 발생하는 것을 막기 위해 필요.