빅데이터 시대의 도래 : 빅데이터의 정의, 속성
앞에서 빅데이터의 중요성을 알아봤다면 이번에는 빅데이터의 정의에 대해 알아보겠습니다.
다양한 속성과 특성을 지닌 빅데이터에 대해 세계 유수의 기관 및 학자들은 각자 나름의 관점에서 다양한 정의를 내리고 있습니다.
가트너는 더 나은 의사결정, 시사점 발견 및 프로세스 최적화를 위해 사용되는 새로운 형태의 정보처리가 필요한 대용량, 초고속 및 다양성의 특성을 가진 정보 자산으로 정의를 했습니다.
컨설팅 회사 맥킨지는 일반적인 데이터베이스 소프트웨어 도구가 수집, 저장, 관리, 분석하기 어려운 대규모의 데이터로 정의했으며,
IDC(인터내셔날 데이터 코퍼레이션)는 데이터보다는 기술에 초점을 두고 초고속 수집, 발견, 분석이 가능하여 매우 다양한 종류의 대규모 데이터로부터 경제적으로 가치를 추출할 수 있도록 고안된 차세대 기술 및 아키텍처로 정의하고 있습니다.
학술적으로 위와 같은 견해가 존재하지만,
최근의 흐름을 보자면 빅데이터가 가지는 양적 측면에 대한 중요성이 약화되고 비정형 데이터로부터 가치를 추출하고 이를 활용하는 측면이 강조되는 경향을 보입니다.
즉 기존 데이터에 비해 규모가 큰 데이터를 의미하기보다는 데이터들로부터 원하는 가치를 얻을 수 있는 활용성 정도로 상대적으로 해석하고 있는 추세입니다.
다음은 빅데이터의 주요속성입니다.
가트너의 애널리스트 더그 레이너는 현재 가장 널리 사용하는 빅데이터의 공통적인 속성을 3V
즉 규모, 다양성, 속도 등 세가지로 정의했습니다.
IBM은 여기에 정확성 요소를 더해 4V로 정의했고
최근에는 가치를 포함하여 5V로 정의하고 있습니다.
먼저 3V에 대해 먼저 알아보겠는데요
빅데이터의 공통적 특징은 3V로 설명할 수 있습니다.
3V는 데이터의 크기(Volume), 데이터의 속도(Velocity), 데이터의 다양성(variety)을 나타내며
이러한 세 가지 요소의 측면에서 빅데이터는 기존의 데이터베이스와 차별화됩니다.
데이터 크기(Volume)는 단순 저장되는 물리적 데이터양을 나타내며 빅데이터의 가장 기본적인 특징이고요
데이터 속도(Velocity)는 데이터의 고도화된 실시간 처리를 뜻합니다.
이는 데이터가 생성되고, 저장되며, 시각화되는 과정이 얼마나 빠르게 이뤄져야 하는지에 대한 중요성을 나타냅니다.
다양성(Variety)은 다양한 형태의 데이터를 포함하는 것을 뜻한다. 정형 데이터 뿐만 아니라 사진, 오디오, 비디오, 소셜 미디어 데이터, 로그 파일 등과 같은 비정형 데이터, 정형데이터와 비정형데이터가 혼합된 반정형 데이터도 포함됩니다.
IBM은 3V에 정확성 요소를 더해 4V로 정의했는데요
빅데이터 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있습니다.
그러나 과연 데이터 일정 패턴을 설명할 수 있을 만큼 신뢰성이 있느냐는 문제가 생기는데요.
데이터가 많아질수록 엉터리 데이터도 커질 가능성이 높아지기 때문입니다.
따라서 빅데이터를 분석하는 데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 생겼고 이러한 측면에서 빅데이터의 새로운 속성인 정확성(Veracity)이 제시되었습니다.
4V에 Value 그러니까 가치 요소를 더해서 5V라고도 정의합니다.
가치는 빅데이터에서 얻을 수 있는 정보의 경제적 가치나
빅데이터에서 도출된 최종 결과물은 문제 해결에 통찰력이 있는 유용한 정보를 제공하고 가치를 창출할 수 있어야 한다는 차원에서 새로운 속성 Value 가치가 제시되었습니다.