[지식창고]

정형 데이터와 비정형 데이터

개발새발주발 2024. 5. 7. 12:20
728x90

 

수집 가능한 데이터는 정형 데이터, 비정형 데이터로 나눌 수 있다. 

 

정형 데이터

정형 데이터는 고정된 형식과 구조를 갖춘 데이터이다. 즉, 보유하고 있는 정보에 대한 정의된 스키마가 존재한다. 

 

주로 테이블 형태의 데이터베이스에 저장되며, 각 열(column)은 특정한 데이터 유형을 나타내고, 각 행(row)은 해당 데이터의 인스턴스를 나타낸다.

 

정형데이터의 예시는 다음과 같다.

  • 고객데이터 - 고객의 이름, 성별, 나이, 이메일 주소, 전화번호 등과 같은 정보를 포함
  • 주문 데이터 - 상품명, 가격, 주문 날짜, 수량 등과 같은 주문에 관련된 정보를 포함
  • 주식 시세 데이터 - 주식 시장에서의 주식 가격, 거래량, 시장 지수 등과 같은 정보를 포함
  • 학생 성적 데이터 - 학생의 이름, 학번, 과목별 성적 등과 같은 정보를 포함

 

보통 정형 데이터는 관계형 데이터베이스 시스템 (RDBMS)에서 사용되며, SQL과 같은 쿼리 언어를 사용하여 처리된다. 

비정형 데이터 

비정형 데이터는 정형 데이터가 아닌 모든 데이터라 정의할 수 있다. 우리가 접하는 정보 중 대다수가 비정형 데이터이다. 영상, 이미지, 오디오 등이 있다. 즉, 비정형 데이터가 현대적인 데이터라 할 수있다. 

 

이러한 데이터가 비정형 데이터에 속한다. 

  • 디지털 데이터로서 예측 불가능
  • 상시 생성되며 항상 이동 중에 있음
  • 혼합, 다중 모드 및 상호 운용 가능
  • 지리적으로 분산되어 더 나은 보호 수단 제공

보통 비정형 데이터는 NoSQL 데이터베이스에 저장된다. (NoSQL - 함께 그룹화된 데이터의 모임) 

 

특징 정형 데이터 비정형 데이터
특성 양적 데이터 질적 데이터
구조 고정된 형식과 구조를 갖춘 데이터 구조적이거나 규칙적인 형식이 없는 데이터
저장 방식 테이블 형태의 데이터베이스에 저장됨
데이터 웨어하우스 사
파일 시스템이나 NoSQL 데이터베이스에 저장됨
데이터 레이크 사용
처리 방법 SQL과 같은 쿼리 언어를 사용하여 처리됨 자연어 처리, 이미지 분석, 음성 인식 등의 기술을 사용하여 처리됨
예시 주문 정보, 고객 정보, 주식 시세, 엑셀 등 소셜 미디어 게시물, 웹 페이지, 이메일, 센서 데이터, 비디오 등
분석 방법 통계 분석, 머신 러닝, 데이터 마이닝 등 사용 텍스트 분석, 이미지 분석, 오디오 분석, 감성 분석 등 사용
예측 가능성 과거의 데이터를 기반으로 예측이 가능함 예측이 어려운 경우가 많음

 

 

참고 

https://aws.amazon.com/ko/compare/the-difference-between-structured-data-and-unstructured-data/

https://www.purestorage.com/kr/knowledge/big-data/structured-vs-unstructured-data.html

'[지식창고]' 카테고리의 다른 글

[항공/방산] ASIP  (0) 2024.05.08