4차산업혁명 시대의 유통환경 연구/1. 4차산업혁명과 핵심기술

4차산업혁명 시대의 핵심기술 2. 빅데이터

유통, 리테일, 4차산업혁명시대 2023. 12. 19. 15:54
반응형

사물인터넷 및 다양한 기계들이 인터넷을 통해 연결되자 엄청난 양의 데이터가 쌓이기 시작했습니다.

이들은 기술적으로 분석하기 힘들정도로 늘어났는데요.

이러한 방대하고 복잡한 데이터, 그리고 그를 다루는 기술이 바로 빅데이터입니다.

빅데이터는 우리가 매일 사용하는 컴퓨터와 모바일 기기, 기계 센서에서 흘러나오는 방대한 제타바이트급 데이터로 구성된 정보의 바다를 가리킵니다.

빅데이터는 조직이 의사결정을 내리고 프로세스와 정책을 향상하며 고객 중심의 제품과 서비스, 경험을 구축하는 데 사용됩니다. 빅데이터는 단지 양이 많다는 점 뿐만 아니라 특성의 다양성과 복잡성으로 인해 ""으로 정의됩니다.

일반적으로 빅데이터는 데이터를 수집, 관리, 처리하는 기존 데이터베이스의 용량을 초과합니다. 또한 빅데이터는 디지털로 모니터링할 수 있는 전 세계의 모든 사물과 장소에서 생성될 수 있습니다.

기상 위성, 사물인터넷(IoT) 기기, 교통 카메라, 소셜 미디어 트렌드는 기업의 회복탄력성과 경쟁력 강화를 위해 마이닝하고 분석하는 데이터 소스 중 일부에 지나지 않습니다

 

빅데이터 분서의 중요성

빅데이터의 진정한 가치는 데이터를 분석하고 이해할 수 있는 정도에 따라 측정됩니다. 인공지능(AI), 머신러닝, 최신 데이터베이스 기술을 활용하면 빅데이터의 시각화와 분석으로 실행 가능한 실시간 인사이트를 제공할 수 있습니다. 빅데이터 분석으로 기업은 새로운 기회를 실현하고 비즈니스 모델을 구축할 수 있습니다. 저자 겸 경영 분석가 제프리 무어(Geoffrey Moore) "빅데이터 분석이 없다면 기업들은 고속도로 위의 사슴처럼 눈과 귀가 먼 상태로 웹을 방황하는 셈"이라고 설명합니다.

 

빅데이터의 성장성

지금은 상상을 할 수 없지만 1969년 미국은 아폴로 가이던스 컴퓨터는 80킬로바이트 이하의 메모리를 활용해 최초의 우주선을 달로 무사히 보낼 수 있었습니다. 그 후로 컴퓨터 기술은 비약적으로 성장했으며 생성되는 데이터도 급증했습니다. 사실 전 세계의 기술적인 데이터 저장 능력은 1980년대 이후 3년마다 두 배로 증가해 왔습니다. 50여 년 전 아폴로 11호 발사 당시만 해도 전 세계에서 생성되는 디지털 데이터의 양은 일반적인 노트북에 담을 수 있을 정도였습니다.

최근 IDC(IT 시장분석 기관 인터내셔날 데이터 코퍼레이션)의 추산에 따르면 2022년 데이터 생성량은 59제타바이트(65조 기가바이트)이며 2025년에는 163제타바이트(179조 기가바이트)로 증가할 전망입니다. 1제타바이트 1024엑사바이트(1EB=1024PB) 11000억 기가바이트 (GB)에 해당됩니다

소프트웨어와 기술이 계속 발전하면서 상대적으로 비디지털 시스템의 생존 가능성은 줄어들고 있습니다.

디지털로 생성, 수집되는 데이터를 처리하려면 보다 진보된 데이터 관리 시스템이 필요합니다. 또한 소셜 미디어 플랫폼, 스마트폰 기술, 디지털로 연결된 사물인터넷(IoT) 기기의 급증으로 2010년도 후반부터 빅데이터 시대가 도래했습니다.

  

빅데이터의 3 가지 유형 [출처 :  SAP 홈페이지]

 

빅데이터의 유형 : 정형, 비정형 데이터

 

데이터 세트는 일반적으로 구조와 색인 편리성 여부에 따라 세 가지 유형으로 분류됩니다.

 

1. 정형 데이터: 이 유형의 데이터는 조직화와 검색이 가장 간편합니다. 이러한 데이터에는 재무 데이터, 시스템 로그, 인구통계 상세정보 등이 포함됩니다. 행과 열의 레이아웃이 사전 정의된 엑셀 스프레드시트는 정형 데이터의 대표적인 예입니다. 이들 데이터의 구성요소는 범주화가 용이해 데이터베이스 설계자와 관리자가 검색 및 분석 알고리즘을 간단히 정의할 수 있습니다. 정형 데이터는 규모가 매우 크더라도 빅데이터라고 할 수는 없습니다. 정형 데이터는 그 자체로는 관리가 간단하기 때문에 빅데이터 정의 요건을 충족하지 못합니다. 전통적으로 데이터베이스는 SQL(Structured Query Language)이라는 프로그래밍 언어를 사용해 정형 데이터를 관리합니다. SQL 1970년대 IBM이 개발해 개발자들이 그 당시 막 시작된 관계형(스프레드시트 스타일) 데이터베이스를 개발, 관리할 수 있었습니다. 

 

2. 비정형 데이터: 이 범주에 속하는 데이터에는 SNS게시글, 유튜브 동영상, 오디오 파일, 이미지, 고객 의견 글 등이 포함될 수 있습니다. 이러한 유형의 데이터는 표준적인 행-열 관계형 데이터베이스로 포착하기가 쉽지 않습니다. 전통적으로 대량의 비정형 데이터를 검색, 관리, 분석하는 기업은 공수가 많이 드는 수작업 프로세스를 사용해야 했습니다. 이러한 데이터를 분석하고 이해하여 얻을 수 있는 잠재적 가치는 의심의 여지가 없지만 너무 큰 비용이 들어 그만한 가치가 없었습니다. 시간도 많이 소요되어 결과를 얻기도 전에 무용지물이 되는 경우도 많았습니다. 비정형 데이터는 스프레드시트나 관계형 데이터베이스 대신 데이터 레이크, 데이터 웨어하우스, NoSQL 데이터베이스에 저장됩니다.

 

3. 반정형 데이터: 이름에서 알 수 있듯이 반정형 데이터는 정형, 비정형 데이터의 하이브리드입니다. 전자메일은 이러한 데이터의 대표적인 예로 메시지 본문에는 비정형 데이터가 포함되며, 발신자, 수신자, 제목, 날짜 등 구조화된 속성도 포함됩니다. 지리 태그, 타임스탬프, 시맨틱 태그를 사용하는 장치도 비정형 콘텐츠와 함께 정형 데이터를 제공할 수 있습니다. 예를 들어 식별되지 않은 스마트폰 이미지라도 여전히 셀카 사진이라는 사실과 촬영된 시간, 장소를 알 수 있습니다. AI 기술로 구동되는 최신 데이터베이스는 이러한 유형의 데이터를 즉시 식별하며 실시간으로 알고리즘을 생성해 관련된 다양한 데이터 세트를 효과적으로 관리, 분석할 수 있습니다.

 

빅데이터의 소스 [출처 : SAP 홈페이지]

 

빅데이터 소스

데이터를 생성하는 사물의 범위는 드론 위성에서 토스터에 이르기까지 기하급수적으로 증가하고 있습니다. 그러나 분류를 위해 데이터 소스는 일반적으로 다음의 3가지 유형으로 나뉩니다.

 

1. 소셜 데이터

이름에서 알 수 있듯이 소셜 데이터는 소셜 미디어 댓글, 게시글, 이미지, 갈수록 증가하는 동영상 등에 의해 생성됩니다. 4G 5G 셀룰러 네트워크가 전 세계적으로 확산되면서 스마트폰에서 정기적으로 동영상 콘텐츠를 시청하는 전 세계 이용자의 수가 2023년까지 27 2천만 명에 이를 전망입니다.

소셜 미디어와 사용 트렌드는 예측할 수 없는 방향으로 빨리 변화하는 경향이 있지만 디지털 데이터 생성 장치의 수는 꾸준히 증가할 전망입니다.

 

2. 머신 데이터

사물인터넷(IoT) 기기와 머신에 센서가 장착되며 디지털 데이터를 송수신할 수 있습니다.

기업은 IoT 센서를 통해 전사적으로 장치, 차량, 장비의 머신 데이터를 수집, 처리할 수 있습니다.

날씨와 교통 센서에서 보안 감시에 이르기까지 전 세계적으로 데이터 생성 사물의 수가 빠르게 증가하고 있습니다.

IDC에 따르면 2025년까지는 지구상에 40억 개 이상의 IoT 장치가 전 세계 전체 디지털 데이터의 거의 절반을 생성할 전망입니다.

 

3. 거래 데이터

세계에서 가장 빠르게 이동하고 증가하는 데이터입니다. 예컨대 한 대규모 다국적 소매유통업체는 시간당 백만 건 이상의 고객 거래를 처리합니다. 또 전 세계의 모든 구매 및 금융 거래를 포함하면 엄청난 양의 데이터가 생성됩니다.

더욱이 거래 데이터는 이미지, 댓글 같은 반정형 데이터 형식으로 보다 복잡해져 관리와 처리도 복잡해지고 있습니다.

 

빅데이터의 특징 5V [출처 : SAP 홈페이지]

 

데이터 세트가 크다고 꼭 빅데이터는 아닙니다. 빅데이터가 되려면 최소한 5가지 특징이 있어야 합니다.

 

1. 볼륨(Volume): 데이터량(볼륨)이 빅데이터를 "크게" 만드는 유일한 요소는 아니지만 분명 중요한 특징입니다.

빅데이터를 완전하게 관리, 활용하려면 고급 알고리즘과 AI 기반 분석이 필요합니다. 하지만 그 전에 대기업들이 보유하고 있는 수 테라바이트 규모의 데이터를 안전하고 신뢰할 수 있게 저장, 정리, 검색할 방법이 필요합니다.

 

2. 속도(Velocity): 과거에는 기존 데이터베이스 시스템에 데이터를 수작업으로 입력한 뒤에야 분석 또는 검색할 수 있었습니다. 이제는 빅데이터 기술을 활용해 데이터가 생성되는 동안 데이터베이스가 데이터를 (때로는 영점 몇 초 이내에) 처리, 분석, 구성할 수 있습니다.

기업의 경우 이는 실시간 데이터를 활용해 재무 기회를 포착하고 고객의 요구에 대응하며 부정 행위를 방지하고 속도가 중요한 기타 다른 활동을 해결할 수 있다는 뜻입니다.

 

3. 다양성(Variety): 정형 데이터로만 구성된 데이터 집합은 아무리 양이 커도 꼭 빅데이터가 되지는 않습니다.

일반적으로 빅데이터는 정형, 비정형, 반정형 데이터의 조합으로 구성됩니다.

기존 데이터베이스와 데이터 관리 솔루션의 경우 빅데이터를 구성하는 복잡하고 서로 다른 데이터 세트를 관리할 유연성과 범위가 부족합니다.

 

4. 정확성(Veracity): 최신 데이터베이스 기술을 활용함으로써 기업은 엄청난 양의 빅데이터를 수집하고 이해할 수 있지만 그런 데이터는 정확성과 관련성, 적시성을 지닌 경우에만 가치가 있습니다.

정형 데이터로만 구성된 기존 데이터베이스는 데이터 정확성과 관련한 구문 오류나 오타가 일반적인 문제였습니다. 비정형 데이터는 완전히 새로운 진실성의 문제가 있습니다.

사람의 편견, 소셜 노이즈, 데이터 출처의 문제는 모두 데이터 품질에 영향을 줍니다.

 

5. 가치(Value): 의심의 여지 없이 빅데이터 분석의 결과는 매우 놀랍고 예상을 넘어선 경우가 많습니다. 하지만 기업에 있어 빅데이터 분석은 경쟁우위와 회복탄력성을 확보하고 고객 서비스를 향상하도록 지원할 인사이트를 제공해야 합니다. 최근의 빅데이터 기술은 수익과 운영 회복탄력성 모두에 측정가능한 도입효과를 제공할 수 있는 데이터의 수집과 검색 기회를 제공합니다.

 

빅데이터의 작동방식 [출처 : SAP 홈페이지]

 

빅데이터 작동 방식의 주요 3단계는 아래와 같습니다.

 

1. 빅데이터 수집. 대부분의 빅데이터는 방대한 비정형 데이터 세트로 구성되며 일관되지 않은 개별 소스로부터 제공됩니다. 기존의 디스크 기반 데이터베이스 및 데이터 통합 방식은 데이터 취급 작업이 기본적으로 다릅니다.

빅데이터를 관리하기 위해서는 빅데이터 획득을 위한 인메모리 데이터베이스 솔루션과 소프트웨어 솔루션을 도입되어야 합니다.

 

2. 빅데이터 저장. 이름에서 알 수 있듯이 빅데이터는 볼륨이 큽니다. 많은 기업은 기존 데이터를 위한 온프레미스 스토리지 솔루션을 보유하고 있으며 경제적인 이유로 기존 스토리지를 재사용해 빅데이터의 처리 요구사항을 해결할 수 있기를 희망합니다.

그러나 빅데이터는 크기와 메모리 제한에 따른 제약을 받지 않을 때 가장 효과적입니다.

처음부터 클라우드 스토리지 솔루션을 빅데이터 모델에 통합하지 못한 기업은 대개 시작 후 몇 개월 만에 후회하는 경우가 많습니다. 클라우딩 컴퓨터 사용 아마존, MS, 구글 등

 

3. 빅데이터 분석. 빅데이터 분석에 AI와 머신러닝 기술을 적용하지 않으면 모든 기능을 완전히 실현할 수 없습니다.

빅데이터의 5가지 V 중 하나는 "속도(velocity)"입니다. 인사이트가 실행 가능하고 가치 있으려면 신속하게 제공되어야 합니다.

분석 프로세스는 정기적으로 자체 최적화되고 경험에서 학습할 수 있어야 하며 이는 AI 기능과 최신 데이터베이스 기술로만 달성할 수 있습니다.

 

빅데이터와 AI와의 관계

 

 

AI와 빅데이터

빅데이터 관리를 위해서는 방대한 양의 서로 다른 복잡한 정보를 처리하고 유의미하게 분석할 능력을 갖춘 시스템이 활용됩니다. 이러한 측면에서 빅데이터와 AI는 다소 상호 협력적인 관계에 있습니다. 빅데이터를 정리, 분석하기 위한 AI가 없다면 빅데이터의 실용성이 감소하게 될 것입니다.

그리고 AI는 빅데이터에 포함된 데이터 세트의 범위에 따라 실행 가능한 강력한 분석 기능을 제공합니다.

포레스터리서치(Forrester Research) 애널리스트 브랜든 퍼셀(Brandon Purcell)의 말대로데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.”

 

머신러닝과 빅데이터

머신러닝 알고리즘은 유입되는 데이터를 정의하며 데이터 내에서 패턴을 식별합니다.

이러한 인사이트는 비즈니스 의사결정에 대한 정보를 제공하고 프로세스를 자동화하는 데 도움이 됩니다.

데이터 세트에 대한 분석이 막강해질수록 시스템의 프로세스 학습과 지속적인 진화, 적응 기회가 증가하므로 머신러닝은 빅데이터를 토대로 합니다.

 

이번글은 빅데이터에 대해 알아보았습니다. 어려운 내용이지만 4차산업혁명시대의 핵심기술 중 IoT 사물인터넷을 통해 방대한 양의 데이터가 발생되고 그것이 빅데이터 다 정도만 알아두사면 좋을 것 같습니다. 나머지 세부내용은 이 블로그를 참조하세요~~^^

 

감사합니다.

반응형