데이터 분석 입문기

[빅데이터 분석기사] – 1. 빅데이터 분석 기획: 시작하기

터닝 2025. 5. 7. 23:12

빅데이터 분석기사 자격증을 준비하면서 가장 처음 접하는 과목은 ‘데이터 분석기획’입니다.

 

이 과목은 단순히 데이터를 다루는 기술적 측면이 아니라,

데이터가 무엇이고 어떤 형태와 의미를 가지는지를 폭넓게 이해하는 데 초점을 맞추고 있습니다.

 

오늘은 이 과목의 시작 부분을 정리해보겠습니다.


데이터의 이해

📌 데이터란 무엇인가?

  • 최초 등장: 1646년, 영국 문헌에서 처음 등장
  • 어원: 라틴어 dare (주다)의 과거분사형 data → ‘주어진 것’이라는 의미
  • 의미의 변화:
    • 1940년대 이전: 관념적이고 추상적인 개념
    • 1940년대 이후: 기술적이고 사실적인 의미로 진화
  • 사전적 정의: 옥스퍼드 대사전에서는 데이터를 **‘추론과 추정의 근거를 이루는 사실’**로 정의
  • 이중적 특성:
    • 존재적 특성: 객관적 사실로서 존재
    • 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거로 작용

📊 데이터의 유형

1. 정량적 데이터 (Quantitative Data)

  • 형태: 수치, 도형, 기호 등
  • 예시: 나이, 몸무게, 온도, 풍속 등
  • 특징:
    • 정형 데이터
    • 객관적 내용
    • 통계 분석이 용이

2. 정성적 데이터 (Qualitative Data)

  • 형태: 언어, 문자 등
  • 예시: SNS, 이메일, 기상특보 등
  • 특징:
    • 비정형 데이터
    • 주관적 내용
    • 저장·검색·분석을 위해 고도 기술과 비용 필요
    • 통계 분석이 어려움

💡 지식경영의 핵심 이슈

- 데이터는 지식경영의 핵심 이슈에서 암묵지와 형식지의 상호작용에 중요한 작용을 함.

- 내면화  공통화  표출화  연결화 (내공표연)의 단계가 계속 암묵지 및 형식지에 의해 순환됨.

1. 암묵지 (Tacit Knowledge)

  • 정의: 개인이 학습과 체험을 통해 습득한 무형의 지식
  • 축적 과정:
    • 내면화 (Internalization): 개인의 경험으로 축적 (예시: 김장김치 담그기, 자전거 타기
    • 공통화 (Socialization): 조직 차원에서 공유

2. 형식지 (Explicit Knowledge)

  • 정의: 형상화된 지식으로 유형의 대상이 있어 지식의 전달과 공유가 매우 용이 
  • 축적 과정:
    • 표출화 (Externalization): 개인의 암묵지를  언어, 기호, 숫자 등의 형태로 표출화
    • 연결화 (Combination): 표출화된 것을 다시 다른 개인이 본인의 지식에 연결

🔹 DIKW 피라미드

  1. Data (데이터)
    • 다른 데이터와의 상관관계가 없는 가공 전의 값
    • 예: A마트는 100원, B마트는 200원에 연필을 판매
  2. Information (정보)
    • 데이터의 가공과 상관관계를 통해 의미를 부여
    • 예: A마트의 연필가격이 더 싸다
  3. Knowledge (지식)
    • 유의미한 정보에 개인적인 경험을 결합하여 예측
    • 예: 상대적으로 저렴한 A마트에서 연필을 사야겠다
  4. Wisdom (지혜)
    • 지식의 축적과 아이디어가 결합된 창의적 산물
    • 예: A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단

데이터베이스의 이해

 

🗃️ 데이터베이스의 정의

문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체 (데이터 분석 전문가 가이드)


🗃️ 데이터베이스의 특징

데이터를 효율적으로 관리하고 활용하기 위해 **데이터베이스(DB)**는 필수적입니다. 

  1. 통합된 데이터
    • 데이터 중복을 최소화하여 관리
  2. 저장된 데이터
    • 컴퓨터가 접근 가능한 저장매체에 저장
  3. 공용 데이터
    • 여러 사용자가 다양한 목적으로 공유
  4. 변화되는 데이터
    • 삽입, 삭제, 갱신 등의 변화 가능
    • 항상 최신의 정확한 상태 유지

💾 DBMS란 무엇인가?

DBMS(Database Management System)는 데이터를 효율적으로 저장하고 관리하며, 다양한 응용 프로그램이 이를 쉽게 사용할 수 있도록 도와주는 소프트웨어입니다.

📌 주요 DBMS 종류

  1. 관계형 DBMS (RDBMS)
    • 데이터를 행(Row)과 열(Column)로 구성된 테이블 형태로 저장
    • 예: Oracle, MS-SQL, MySQL
  2. 객체지향 DBMS (OODBMS)
    • 객체 형태로 데이터를 표현하며, 사용자 정의 데이터·멀티미디어 등 복잡한 구조에 적합
  3. NoSQL
    • 유연한 스키마와 뛰어난 확장성을 지님
    • 예: MongoDB, Cassandra, HBase

🛠️ 데이터베이스 설계 단계

데이터베이스는 단순한 테이블이 아니라, 치밀한 설계 과정을 거쳐 구축됩니다.

  1. 요구 조건 분석 단계 – 사용자의 요구 파악
  2. 개념적 설계 단계 – ERD(Entity Relationship Diagram) 등으로 데이터 구조 설계
  3. 논리적 설계 단계 – 관계형 모델로 변환
  4. 물리적 설계 단계 – 실제 저장 구조 고려
  5. 구현 단계 – DBMS를 이용한 실질적 구축

🏢 기업 내 주요 데이터 시스템

기업은 다양한 내부 시스템을 통해 데이터를 수집·분석·활용하고 있습니다.

구분 설명
OLTP (On-Line Transaction Processing) 실시간 거래 처리 시스템 (예: 주문, 결제 등)
OLAP (On-Line Analytical Processing) 사용자가 대규모 데이터를 직접 분석하는 시스템
CRM (Customer Relationship Management) 고객의 구매 이력과 성향을 분석해 마케팅 전략에 활용
SCM (Supply Chain Management) 공급망을 하나의 흐름으로 보고 전체 최적화를 추구
KMS (Knowledge Management System) 조직 내 지식을 체계적으로 관리
ERP (Enterprise Resource Planning) 인사·재무·생산 등 전사 자원을 통합 관리
BI (Business Intelligence) 기업 데이터를 기반으로 인사이트를 도출하는 과정
BA (Business Analytics) 통계적 분석 기반의 의사결정 지원 도구

🏙️ 사회기반구조(DB)의 확장

1990년대 후반부터는 국가 차원의 DB 구축이 본격화되기 시작했습니다.

  • EDI (Electronic Data Interchange): 전자 문서 교환 방식
  • ITS (Intelligent Transport System): 교통정보 DB를 기반으로 한 지능형 교통 시스템
  • 이후 의료·교육·행정 등 공공 분야로도 확산됨

📦 데이터베이스의 고도 활용

데이터는 단순 저장이 아닌, 분석과 전략 수립을 위한 자산입니다.

🔹 데이터 웨어하우스 (Data Warehouse)

  • 주제 지향적, 통합적, 시계열적, 비휘발성의 특징
  • 조직 내 의사결정을 위한 분석용 데이터베이스

🔹 데이터 마트 (Data Mart)

  • 데이터 웨어하우스보다 작고 특정 부서/주제에 특화
  • 사용자에게 맞춘 맞춤형 분석 지원

🔹 데이터 레이크 (Data Lake)

  • 형식에 상관없이 정형·비정형 데이터를 모두 저장
  • 대용량의 원천 데이터를 유연하게 보관·분석할 수 있는 저장소

 

📚 앞으로도 빅데이터 분석기사를 준비하며 내용을 정리해서 올릴 예정입니다.
관심 있으신 분들은 구독과 댓글로 함께 공부해요!