데이터는 무엇으로 이루어져 있나?

데이터란, 데이터의 정의

데이터 요소와 값,일관성

데이터활용 그 성과

입력시간 : 2019-09-24 19:18:52 , 최종수정 : 2019-09-26 23:53:46, 김태봉 기자

데이터는 무엇으로 이루어져 있나?

데이터란? 데이터의 정의

 

요즈음 빅데이터라는 말이 흔하게 사용되고 있다. 그에 따라 데이터에 대한 관심도 많아지고 있다. 데이터(data)는 사실 외래어이다. 우리말로 표현할 마땅한 말이 없어서 영어의 발음을 따라 데이터라고 부르고 있다.

 

그런데, 많은 경우 데이터에 대한 정확한 의미를 모르고 사용하고 있는 것 같다. 나열된 숫자, 문자 코드의 집합, 모니터에 나타난 그래프 등 단순한 수치나 문자, 이미지 등을 데이터라고 생각하기 쉽다. 하지만, 단순한 숫자나 코드의 집합은 그 자체를 데이터라고 할 수 없다.

 

예컨대, ‘아폴로라고 했을 때, 어떤 사람은 달 착륙선의 이름이라고 생각할 수도 있고, 어떤 사람은 고대 그리스의 신의 이름이라고 생각할 수도 있다. 이처럼 단순한 단어의 나열도 데이터라고 할 수 없다.

 

물질이 분자로 이루어져 있듯이 데이터도 기본 구성 요소가 있다. 물질은 그 성분에 따라서 구분되어지고, 형상에 의해서 특정한 물건이 된다. 예컨대 플라스틱 의자’, ‘나무 의자등등. 이처럼 데이터도 그 구성 요소에 따라서 의미가 달라지게 된다. 데이터는 기본적으로 데이터 요소(data element)와 이에 짝을 이루는 값(value)으로 구성된다.

사진 1. 데이터란 단지 숫자들을 모아 놓은 것은 아니다. 숫자가 '데이터'라는 의미를 얻으려면 꼭 필요한 요소가 있다. (출처: shutterstock)

 

데이터 요소와 값, 그리고 일관성

 

‘1.7미터는 데이터가 아니다. 그냥 길이를 나타내는 숫자 값일 뿐이다. ‘철수의 키는 1.7미터라고 표현되어야 비로소 데이터가 되는 것이다. 여기서 철수의 키가 데이터 요소이고, ‘1.7미터가 값인 것이다. 이처럼 수치 값은 데이터 요소와 짝을 이루어야만 데이터가 되는 것이다.

 

또한, 분자가 원자로 이루어진 것처럼, 데이터 요소는 객체 클래스(object class)와 속성(attribute)으로 구성된다. 앞의 예에서 철수의 키라는 데이터 요소는 사람(철수)’이라는 객체 클래스와 라는 속성으로 구성된다.

사진 2. 데이터 요소와 값을 갖고 그것들이 일관적이면 데이터의 지위에 올라서며 비로소 연구의 대상이 된다. (출처: shutterstock)

 

이렇게 데이터의 구성 요소를 분석한 후에는 데이터의 일관성을 유지하는 것이 필요하다. , 데이터 요소 이름이 동일해야 하고, 값의 단위가 동일해야만 한다.

 

만일 어떤 데이터베이스에서는 철수의 키라고 입력하고, 다른 데이터베이스에서는 철수의 신장이라고 입력했다면, 컴퓨터는 이것을 다른 데이터 요소로 인식할 수밖에 없다.

 

값의 경우도 ‘1.7미터’, ‘170센티미터’, ‘1700밀리미터등과 같이 다르게 표현하면, 컴퓨터는 같은 값임에도 불구하고 다른 값으로 인식하게 된다이처럼 우리가 데이터를 다룰 때는 데이터의 구성 요소를 분석하여 이해해야 하고, 데이터의 일관성을 유지하는 것이 꼭 필요하다.

 

다음 시간에는 데이터를 활용하여 눈부신 성과를 내는 분야 중 가장 각광 받고 있는 인공지능을 다루면서 데이터 과학에 대해 더 자세히 설명하고자 한다.

 

: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터 센터장/일러스트: 유진성 작가

Copyrights ⓒ 얼리어답터뉴스. 무단 전재 및 재배포금지 김태봉기자 뉴스보기
기사공유처 : 개미신문