빅데이터

빅데이터란?

빅 데이터(Big Data)는 기존의 방법으로는 합리적인 시간 내에 처리 및 분석하기 어려운 매우 큰 데이터 세트를 설명하는 데 사용되는 포괄적인 용어다.

빅 데이터는 정형, 비정형, 반정형 데이터로 구성된다. 빅 데이터는 공식적으로 볼륨, 속도, 다양성, 진실성, 가치의 5가지로 구분한다 (Five Vs).

볼륨(Volume): 테라바이트, 페타바이트 또는 엑사바이트의 데이터를 포함하는 데이터 세트의 방대한 규모와 크기를 나타낸다.
속도(Velocity): 방대한 양의 새로운 데이터가 생성되는 빠른 속도를 나타낸다.
다양성(Variety): 생성되는 다양한 데이터 유형과 형식에 해당한다.
진실성(Veracity): 진실성은 매우 큰 데이터 세트에서 데이터의 품질과 무결성이다.
가치(Value): 데이터를 실행 가능한 인사이트로 전환할 수 있는 기능이다.

예시

빅 데이터는 여러 산업과 도메인에 걸쳐 다양한 출처에서 제공된다. 다음은 대규모 데이터 세트의 소스와 여기에 포함된 데이터의 유형에 대한 몇 가지 예시다.

빅데이터 출처	설명
고객 데이터	고객 프로필, 판매 기록 및 고객 상호 작용을 포함하여 CRM 시스템을 통해 수집된 데이터.
온라인 결제 내역	고객 주문, 제품 세부 정보, 결제 정보, 고객 리뷰 등 온라인 소매 플랫폼에서 생성된 데이터.
금융 결제 내역	은행 시스템, 신용카드 거래, 주식 시장 및 기타 금융 플랫폼에서 얻은 데이터.
정부 및 공공 데이터	정부 기관에서 제공하는 데이터, 인구조사 데이터, 대중교통 데이터 및 날씨 데이터.
건강 및 의료 데이터	전자 의료 기록(EHR), 의료 영상, 웨어러블 의료 기기, 임상 시험 및 환자 모니터링 시스템의 데이터.
IoT 기기	지능형 센서, 스마트 가전, 웨어러블 기기, 커넥티드 차량 등 다양한 IoT 기기에서 수집한 데이터.
연구 데이터	연구 실험, 학술 연구, 과학적 관찰, 디지털 쌍둥이 시뮬레이션, 게놈 시퀀싱에서 얻은 데이터.
센서 네트워크	환경 센서, 산업 기계, 교통 모니터링 시스템 및 기타 무선 센서 네트워크에서 수집한 데이터.
SNS 플랫폼	게시물, 댓글, 좋아요, 공유 및 사용자 프로필을 포함하여 Facebook, Twitter, Instagram 및 LinkedIn과 같은 소셜 미디어 플랫폼에서 생성된 데이터.
웹 및 모바일 앱	사용자가 웹사이트, 모바일 앱 및 온라인 서비스와 상호 작용하는 동안 생성한 데이터(클릭, 페이지 조회 및 사용자 행동 포함).

중요성

빅 데이터는 데이터 기반 의사결정을 내리는 데 사용할 수 있는 패턴, 트렌드 및 기타 인사이트를 밝혀낼 수 있는 잠재력 때문에 중요하다.

비즈니스 관점에서 빅 데이터는 조직이 운영 효율성을 개선하고 리소스를 최적화하는 데 도움을 준다. 예를 들어, 이커머스 기업은 대규모 데이터 세트를 집계하여 고객 행동과 시장 동향을 분석함으로써 고객 만족도와 충성도를 높이고 궁극적으로 매출로 이어질 수 있는 의사 결정을 내릴 수 있다.

대규모 데이터 세트를 저장하고 처리할 수 있는 오픈 소스 도구의 발전으로 빅데이터 분석이 크게 향상되었다. 예를 들어, Apache의 활발한 커뮤니티는 초보자도 빅데이터를 사용하여 현실의 문제를 쉽게 해결할 수 있게 해준다는 평가를 받고 있다.

빅데이터의 유형

빅데이터는 정형 데이터, 비정형 데이터, 반정형 데이터의 세 가지 주요 유형으로 분류할 수 있다.

구조화 빅데이터: 고도로 조직화되어 있으며 사전 정의된 스키마 또는 형식을 따른다. 일반적으로 스프레드시트나 관계형 데이터베이스에 저장된다. 각 데이터 요소에는 특정 데이터 유형이 있으며 미리 정의된 필드 및 테이블과 연결된다. 구조화된 데이터는 일관성과 균일성이 특징이며, 기존 데이터베이스 관리 시스템을 사용하여 쿼리, 분석 및 처리하기가 더 쉽다.
비정형 빅데이터: 구조가 미리 정의되어 있지 않으며 서로 다른 데이터 엔티티 간에 명확한 관계가 설정되어 있을 수도 있고 그렇지 않을 수도 있다. 비정형 데이터 내에서 패턴, 감정, 관계 및 관련 정보를 식별하려면 일반적으로 자연어 처리(NLP), 자연어 이해(NLU) 및 컴퓨터 비전과 같은 고급 AI 도구가 필요하다.
반정형 빅데이터: 정형 데이터와 비정형 데이터의 요소가 모두 가지고 있으며, XML 또는 JSON 파일과 같은 부분적인 조직 구조를 가지며 로그 파일, 타임스탬프가 있는 센서 데이터 및 메타데이터가 포함될 수 있다.

대부분의 경우 조직의 데이터는 세 가지 데이터 유형이 모두 혼합되어 있다. 예를 들어, 이커머스 벤더의 대규모 데이터 세트에는 고객 인구 통계 및 거래 기록의 정형 데이터, 소셜 미디어의 고객 피드백의 비정형 데이터, 내부 이메일 커뮤니케이션의 반정형 데이터가 포함될 수 있다.

문제점 및 허들

빅 데이터의 진화는 문제점과 해결책이 뒤따르는 롤러코스터를 타는 과정이었다.

처음에 마주친 허들은 인터넷에서 생성되는 방대한 양의 데이터에 대한 가장 큰 문제 중 하나는 기존의 데이터베이스 관리 시스템이 기업이 디지털화되면서 생성되는 엄청난 양의 데이터를 저장하도록 설계되지 않았다는 점이다.

비슷한 시기에 데이터의 다양성이 상당한 허들이였다. 기존의 정형 데이터에 더해 소셜 미디어와 IoT로 인해 반정형 및 비정형 데이터까지 등장했다. 그 결과 기업들은 이러한 다양한 데이터 유형을 효율적으로 처리하고 분석할 방법을 찾아야 했는데, 기존 도구는 이러한 작업에 적합하지 않았다.

데이터의 양이 증가함에 따라 부정확하거나 일관성이 없거나 불완전한 정보도 함께 늘어났고, 데이터 관리가 중요한 과제가 되었다.

얼마 지나지 않아 초대형 데이터 세트의 새로운 사용으로 인해 데이터 개인정보 보호 및 정보 보안에 대한 새로운 질문이 제기되었다. 조직은 어떤 데이터를 수집하고, 어떻게 보호하며, 사용 내역을 더욱 투명하게 공개해야 했다.

일반적으로 데이터 분석을 위해서는 서로 다른 데이터 유형을 하나의 일관된 형식으로 결합해야 한다. 대규모 반정형 데이터 집합의 다양한 데이터 유형과 형식은 여전히 데이터 통합, 분석 및 해석에 어려움을 야기한다.

예를 들어, 회사에서 기존의 관계형 데이터베이스(정형 데이터)의 데이터와 소셜 미디어 게시물에서 스크랩한 데이터(비정형 데이터)를 혼합해야 할 수 있다. 이 두 가지 데이터 유형을 분석에 사용할 수 있는 통합 형식으로 변환하는 프로세스는 시간이 많이 걸리고 기술적으로 어려울 수 있다.

머신 러닝과 인공지능(AI)의 발전은 이러한 많은 과제를 해결하는 데 도움이 되었지만, 그 자체로 어려움이 없는 것은 아니다.

빅데이터 툴

다양한 데이터 유형이 혼합된 대규모 데이터 집합을 처리하려면 다양한 데이터 형식과 분산된 데이터 구조를 처리하고 처리하는 데 적합한 전문 도구와 기술이 필요하다. 널리 사용되는 도구는 다음과 같다:

Azure Data Lake: 방대한 양의 데이터를 수집하고 저장하는 복잡한 작업을 간소화하는 것으로 잘 알려진 Microsoft 클라우드 서비스.

Beam: 다양한 빅 데이터 프레임워크에서 배치 및 스트림 처리를 위한 오픈 소스 통합 프로그래밍 모델 및 API 세트.

Cassandra: 여러 상품 서버에서 방대한 양의 데이터를 처리하도록 설계된 확장성이 뛰어난 오픈 소스 분산형 NoSQL 데이터베이스.

Databricks: 대규모 데이터 집합을 처리하고 분석하기 위해 데이터 엔지니어링과 데이터 과학 기능을 결합한 통합 분석 플랫폼.

Elasticsearch: 매우 큰 데이터 세트에 대해 빠르고 확장 가능한 검색, 색인, 분석을 가능하게 하는 검색 및 분석 엔진.

Google Cloud: Google BigQuery 및 Google Cloud Dataflow와 같은 Google Cloud에서 제공하는 빅데이터 도구 및 서비스 모음.

Hadoop: 분산 환경에서 매우 큰 데이터 세트를 처리하고 저장하는 데 널리 사용되는 오픈 소스 프레임워크.

Hive: 대규모 데이터 집합을 쉽게 쿼리하고 분석할 수 있도록 Hadoop 위에서 실행되는 오픈 소스 데이터 웨어하우징 및 SQL과 유사한 쿼리 도구.

Kafka: 실시간 데이터 처리 및 메시징이 가능한 오픈소스 분산 스트리밍 플랫폼이다.

KNIME Big Data Extensions: 아파치 하둡 및 아파치 스파크의 강력한 기능을 KNIME 분석 플랫폼 및 KNIME 서버와 결합.

MongoDB: 빅데이터 애플리케이션을 위한 고성능과 확장성을 제공하는 문서 지향 NoSQL 데이터베이스.

Pig: 대규모 데이터 집합을 처리하고 분석하기 위한 오픈 소스 High-Level 데이터 흐름 스크립팅 언어 및 실행 프레임워크.

Redshift: Amazon의 완전 관리형 페타바이트 규모의 데이터 웨어하우스 서비스.

Spark: 매우 큰 데이터 집합을 위한 빠르고 유연한 분석 및 데이터 처리 기능을 제공하는 오픈 소스 데이터 처리 엔진.

Splunk: 로그 및 이벤트와 같은 기계 생성 데이터를 검색, 분석 및 시각화하기 위한 플랫폼.

Tableau: 사용자가 대규모 데이터 집합에서 인사이트를 탐색하고 제시할 수 있도록 도와주는 강력한 데이터 시각화 도구.

Talend: 초대형 데이터 세트의 통합과 처리를 용이하게 하는 오픈 소스 데이터 통합 및 ETL(Extract, Transform, Load) 도구.

빅데이터 그리고 인공지능

빅데이터는 최근까지 AI 모델이 패턴을 감지하고 정확한 예측을 하는 방법을 학습하기 위해 방대한 양의 훈련 데이터를 제공해야 했기 때문에 생성형 AI와 같은 인공 지능의 발전과 밀접한 관련이 있다.

과거에는 “빅 데이터는 기계를 위한 것이다. 소규모 데이터는 사람을 위한 것이다.”라는 비유가 빅데이터와 소규모 데이터의 차이를 설명하는 데 자주 사용되었지만, 이 비유는 더 이상 유효하지 않다. AI 및 ML 기술이 계속 발전함에 따라, 특히 빅데이터 세트를 집계하고 관리하는 데 많은 시간과 비용이 소요되는 상황에서 일부 유형의 AI 및 ML 모델을 학습시키기 위한 빅데이터의 필요성이 줄어들고 있다.

많은 실제 시나리오에서 모델이 직면할 수 있는 모든 클래스 또는 개념에 대해 대량의 데이터를 수집하는 것은 불가능하다. 따라서 사전 학습을 위해 빅 데이터 기반 모델을 사용하고 이를 미세 조정하기 위해 소규모 데이터 세트를 사용하는 경향이 있다.

빅 데이터에서 스몰 데이터를 사용하여 AI 및 ML 모델을 학습하는 방향으로 전환하는 것은 전이 학습, zero-shot, one-shot, and few-shot 모델 개발 등 여러 가지 기술 발전에 힘입은 바가 크다.