과학(Science)/산업 (Industry)

빅데이터 분석(Big Data Analytics)

SURPRISER - Tistory 2023. 8. 24. 11:08

0. 목차

  1. '빅데이터 분석'이란?
  2. '빅데이터 분석 솔루션' 산업
  3. '빅데이터 분석' 과정
  4. '빅데이터 분석' 기술
  5. '빅데이터 분석' 관련 기업

1. '빅데이터 분석'이란?

 '빅데이터 분석(Big Data Analytics)'은 기존의 데이터베이스 관리 도구로 데이터를 수집·저장·관리·분석할 수 있는 범위를 넘어서는 대용량의 정형 혹은 비정형 데이터에서 가치 있는 정보를 추출하고, 의사결정 및 행동을 도출하기 위한 정보화 기술을 의미한다. '빅데이터 분석'은 사회·의료·보건·금융·교통·재난·국방 등 다양한 분야에서 생성되고 있는 데이터를 기반으로 하고 있으며, 데이터의 '규모(Volume)', '다양성(Variety)', '생성 속도(Velocity)' 관점에서 과거의 데이터 분석에 비해 고도화된 특성이 있다. 또한 '대용량 데이터 저장 관리 기술(Large-Scale Data Management)'과 '고급 데이터 분석기술(Advanced Analytics)'로 구분되며, 특정 기술이 단독으로 사용되기보다는 복합적으로 사용된다. 빅데이터 분석 기술의 발달로 '비정형 데이터'의 활용성이 높아졌으며, '비정형 데이터'의 분석 능력은 기업 경쟁력의 핵심으로 인식되고 있다.

 '빅데이터 분석 솔루션(Big Data Analytics Solution)'은 대용량의 '정형 데이터' 혹은 '비정형 데이터'로부터 숨겨진 패턴과 알려지지 않은 정보 간의 관계를 찾아내어, 비즈니스 의사결정을 지원할 수 있는 '인사이트(Insight)'를 발굴하고 예측하는 소프트웨어 또는 하드웨어를 의미한다. '산업의 투명성 증대', '소비자 니즈 발견', '트렌드 예측', '성과향상', '고객 세분화', '의사결정 지원·대행', '비즈니스 모델 및 상품·서비스의 혁신' 등을 위하여 사용된다.

반응형

1-1. '빅데이터 분석'은 거의 모든 산업 분야에서 응용된다.

 '빅데이터 분석 솔루션(Big Data Analytics Solution)'은 금융 및 보험, 의료, 정보통신, 정부 및 공공, 자동차, 에너지, 제조, 유통, 여행, 교통, 건설, 교육, 컨설팅 등 거의 모든 산업 분야에서 응용되고 있다.

  1. 금융 및 보험 산업: 금융·보험 산업에서는 '거래 데이터', '실시간 시장정보', '고객 서비스 이력', '소셜 미디어 데이터' 등을 활용하여 '상품 제안', '부정 지급 발견 및 조사', '신용 리스크 관리' 등에 빅데이터 분석이 사용된다. 고객의 니즈를 사전에 예측하고, 필요시 고객 인사이트를 상담원에게 제공하여 '판매 및 고객 만족도 증대', '운영비용 절감' 등 고객 지원 효율성을 향상시키는데 활용 가능하다. '금융 사기', '범죄', '보안 침입' 등 고비용 문제를 예방하고 완화하는데 사용 가능하며, 거래 상대방의 리스크 평가를 위해 요구되는 방대한 데이터를 분석하는데 효과적으로 사용된다.
  2. 의료 산업: 의료 산업에서는 환자에 대한 다양한 정보를 취합하여 '지속 가능한 헬스케어 시스템 구축', '환자 치료 효율성 향상', '의료비용 절감' 등에 빅데이터 분석이 사용된다. 의료 산업은 의료 환경의 변화로 인해 '치료 비용 절감', '효율적 인력 관리', '1차 진료 접근성 향상' 등의 요구에 직면해 있다. '당뇨병', 심부전증', '고혈압' 등 만성질환에 의한 의료비용의 과중을 해결하고, 예방 중심의 의료 서비스 제공을 위한 빅데이터 분석 솔루션 도입이 추진 중이다.
  3. 정보통신 산업: 정보통신 산업에서는 타 산업에 비해 생성되는 데이터양이 비교할 수 없을 만큼 방대하며 이를 바탕으로 '새로운 수익원 개발', '운영 효율성 향상', '고객 경험 강화' 등을 위해 빅데이터 분석을 활용 중이다. '위치 데이터', '지리 데이터', 소셜 미디어 데이터', '고객 접촉 데이터' 등을 분석하여 지능형 마케팅 전략을 수립하고 시행하는데 활용한다. 네트워크상에서 생성되는 데이터를 분석하여 통화 불량 등의 성능 이슈를 신속히 해결하여 네트워크 품질을 향상시키고 운영비용을 낮추는데 사용한다.
  4. 정부 및 공공 분야: 정부 및 공공분야에서는 제공되는 다양한 서비스에서 생성되는 데이터를 바탕으로 '범죄 예방', '교통', '방위', '국가 보안', '세입관리', '환경 관리', '복지' 등에 빅데이터 분석을 사용한다. '범죄 예측과 예방'을 위해 '용의자', '범죄·사고 패턴', '자연재해 이력' 등 다양한 데이터 간의 연관성을 분석하여 '고신뢰성의 비용 효율적 범죄 예방'에 활용한다. '탈세나 미납 등 부정행위 적발', '신종 사기 기법 발견' 등을 위해 '내외부 데이터 간의 통합', '실시간 정보 공유' 등에 빅데이터 분석을 활용한다.
  5. 자동차 산업: 자동차 산업에서 빅데이터는 '차량 센서 데이터', '품질보증 클레임', '여러 소스에서 추출되는 소비 심리 데이터' 등이 활용되며, 드라이빙에 대한 고객 기대 충족을 목표로 빅데이터 분석이 사용된다. 네트워크로 연결된 '차량들의 정보'와 특정 시점의 날씨·교통·위험상황 같은 '운행환경 정보' 등을 통합하여 '차량 시스템 동작'에 대한 실시간 '인사이트(Insight)' 발굴이 가능하다. 차량 소유 고객의 '소셜 미디어', '접촉이력' 등 다양한 정보를 통합·분석하여 '고객 감성 분석', '고객 이탈 알림' 등에 활용 가능하다.
  6. 에너지 산업: 에너지 산업에서 빅데이터 분석은 '스마트 미터(Smart Meter)'와 '스마트 그리드(Smart Grid)' 운영 시 생성되는 데이터를 실시간으로 분석하여 '발전 최적화'와 '설비 성능 향상'에 사용된다. 센서 및 성능 데이터 등을 수집하여 '부하를 받고 있는 기기에 대한 분석'과 '고장 발생 예측' 등을 통해 상태 기반 유지 보수를 수행한다. '수요 반응(Demand Response)' 요청에 대한 '고객 행동', '소비 패턴' 등을 분석하여 비정상적 에너지 소비 및 도난 여부 등을 판단하는데 활용된다.

 그 외에도 유통, 여행, 교통, 건설, 교육, 컨설팅 등에서 '빅데이터 분석(Big Data Analytics)'을 도입하여 활용하고 있다. 향후 대부분의 산업에서 '빅데이터 분석'이 활용될 것으로 전망된다.

반응형

2. '빅데이터 분석 솔루션' 산업

2-1. '빅데이터 분석 솔루션' 산업의 특징

 '빅데이터 분석 솔루션'을 포함하는 빅데이터 산업의 특징은 '규모의 경제', '중소기업 적합 산업', '기술·노동집약적 산업', '경기 동행 산업', '라이프 사이클이 짧은 산업', '진입장벽이 낮은 산업' 등으로 요약할 수 있다.

  1. 규모의 경제: 일반적인 상품의 경우 규모에 대한 수확체감의 특성을 보이지만 소프트웨어의 경우 생산이 증가할수록 소프트웨어 원본의 평균 개발비용이 감소한다. 즉, 규모의 경제 특성을 가지므로 사용자의 수가 생산 비용 측면에서 매우 중요한 역할을 한다.
  2. 중소기업 적합 산업: '빅데이터 분석 솔루션 산업'은 오픈소스 중심의 소프트웨어 산업으로, 어플라이언스 형태으 ㅣ고객 수요와 비싼 해외 기업 솔루션에 대한 대체 수요로 인해 중소기업에 적합하다.
  3. 기술·노동집약적 산업: 빅데이터는 하드웨어, 소프트웨어, 서비스가 모두 절묘하게 융합되어야만 성과를 낼 수 있을 정도로 고난도의 역량을 필요료 하는 고도의 지식 집약적이며 고급 노동집약적인 산업이다.
  4. 경기 동행산업: 일반적으로 패키지 SW 산업은 경기에 후행하는 특성을 보여 왔으나, 최근에는 동행하는 추레를 보이고 있다. SW에 대한 투자가 비용이라는 인식에서 경장력 강화의 수단으로 전환되는 추세이다.
  5. 라이프 사이클이 짧은 산업: 급속한 기술 발전으로 제품의 '라이프 사이클(Life Cycle)'이 매우 짧으며, 새로운 시장이 지속적으로 창출되며 업그레이드를 통한 지속적인 유지 보수가 필요한 산업이다.
  6. 진입장벽이 낮은 산업: 비교적 대규모의 설비투자가 필요하지 않고 소자본으로 시장 진입이 가능하여, 산업 내 신규 진출 기업이 지속적으로 증가하고 있어 산업 내 경쟁이 치열해지고 있다.

2-2. '빅데이터 분석 솔루션' 산업의 구조

 '빅데이터 분석 솔루션' 산업은 인터넷 웹 서비스와 스마트 디바이스 어플리케이션 등 비교적 국가 경쟁력이 높은 분야의 지원 기술에 기반하고 있다. '후방 산업'으로는 빅데이터 분석에 필요한 '전통 컴퓨팅 인프라'와 '데이터 원천 산업' 등이 있다. 따라서 빅데이터 분석 솔루션 산업'의 가치사슬은 '원천 데이터', '컴퓨터 인프라', '빅데이터 저장·처리', '빅데이터 분석'으로 구성된다. 또 '인터넷 웹 서비스', '스마트 디바이스 어플리케이션', '통신', '금융', '의료' 등 응용서비스 산업과 이를 활용하는 컨설팅 산업에서 최종적으로 '빅데이터 분석'을 실무에 적용하여 활용하고 있다.

  1. 빅데이터 분석 솔루션 산업: '대용량 데이터 저장관리 산업(데이터 저장 시스템, 데이터 처리 통합 솔루션)', '고급 데이터 분석 기술 산업(데이터 분석 솔루션, 시각화 솔루션)'
  2. 후방 산업: '인프라 산업(데이터 서버, 데이터 저장기기, 네트워크)', '클라우드 컴퓨팅 산업(컴퓨팅 인프라 대여)', '데이터 원천 산업(통신 데이터, 미디어, 금융, 공공 기관)'
  3. 전방 산업: '서비스 산업(인터넷 웹 서비스, 스마트 디바이스 어플리케이션, 통신·금융·의료 등 응용산업), '비즈니스 컨설팅 산업(응용서비스 데이터 분석, 비즈니스 데이터 분석, 데이터 분석 교육)', '시스템 컨설팅 산업(빅데이터시스템 설계·구축·유지·관리)'
반응형

3. '빅데이터 분석' 과정

 '빅데이터 분석(Big Data Analysis)'은 빅데이터로부터 숨겨진 패턴과 알려지지 않은 정보 간의 관계를 찾아내기 위한 과정으로 '데이터 수집(Data Collection)', '데이터 저장(Data Storage)', '데이터 처리(Data Processing)', '데이터 분석(Data Analysis)', '데이터 표현(Data Presentation)' 등의 기술 요소를 순차적으로 사용한다. 또한 데이터를 수집하고 저장·관리하는 기술을 필수적으로 포함하고 있으며, 빅데이터 분석이 완료된 결과물을 전송하고 공유하는 기술을 보편적으로 적용하고 있다.

  1. 데이터 수집(Data Collection): '데이터 수집(Data Collection)' 기술은 조직 내부와 외부의 분산되 여러 데이터 소스로부터 필요한 데이터를 검색하여 수동 또는 자동으로 수집하는 기술이다.
  2. 데이터 저장(Data Storage): '데이터 저장(Data Storage)' 기술은 모든 데이터를 저장하여 실시간을 데이터를 처리하고, 처리된 데이터를 더 빠르게 쉽게 분석하도록 하여, 이를 비즈니스 의사 결정에 바로 이용하는 기술이다.
  3. 데이터 처리(Data Processing): '데이터 처리(Data Processing)' 기술은 대규모 데이터의 수집·관리·유통·분석을 처리하는 일련의 기술이다.
  4. 데이터 분석(Data Analysis): '데이터 분석(Data Analysis)' 기술은 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용하기 위한 기술이다.
  5. 데이터 표현(Data Presentation): '데이터 표현(Data Presentation)' 기술은 자료를 시작적으로 묘사하는 기술이다.
빅데이터 분석 주요 세부 기술
데이터 수집 크롤링(Crawling): 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위)
'응용 서비스 로그(Application Service Logs)' 수집
'센싱 데이터(Sensing Data)' 수집
RSS, Open AI 연동 수집
데이터 저장 병렬 데이터베이스 관리 시스템
하둡(Hadoop), 노에스큐엘(NoSQL)
데이터 처리 실시간 처리, 분산 병렬처리
'인-메모리(In memory)', '인-데이터베이스(In-DB)' 처리
데이터 분석 통계 분석(Statistical Analysis)
데이터 마이닝(Data Mining)
자연어 처리(Natural Language Processing)
예측 분석
기계 학습(Machine Learning)
데이터 표현
데이터 편집(Data Editing)
정보 시각화(Infographic)
반응형 데이터 시각화(Responsive Data Visualization)

4. '빅데이터 분석' 기술

 빅데이터 분석 기술은 다양한 출처로부터 데이터양이 폭발적으로 증가하고 있다. 이에 따라 비즈니스 영역에서 필수 도구이자 수단으로 활용되고 있으며, 빅데이터 분석 분야의 중심이 '기반 기술 영역'에서 '응용 기술 영역'으로 빠르게 전환 중이다. 특히 고도화되고 예측 가능한 분석 기능들이 빅데이터 분석 기술 중 하나인 '기계 학습(Machine Learning)'과 통합되어, 응용 기술의 새로운 성장세를 가져오고 있다. 의사결정 플랫폼과 '비디오(Video)', '오디오(Audio)', '이미지(Image)'를 포괄하는 리치 미디어 분석에 빠르게 접목되고 있다. 또한 '클라우드(Cloud)' 기반의 '빅데이터 분석 솔루션'은 클라우드 서비스 형태로 빅데이터 분석 자원을 제공받을 수 있어, 초기 투자비용이 저렴하고 활용성이 좋기 때문에 중소 규모의 조직을 중심으로 그 수요가 증가하고 있다.

 빅데이터 분석' 기술은 '자연어 처리 기반 텍스트·음성 데이터 분석 기술', '영상 데이터 내 콘텐츠 분석 기술', '데이터 마이닝 알고리즘 구현 기술', '데이터 특성 및 패턴 기반 시각화 기술'로 구분된다.

반응형

4-1. 자연어 처리 기반 텍스트·음성 데이터 분석 기술

 '자연어 처리(Natural Language Processing)' 기반 텍스트·음성 데이터 분석 기술은 자연어 기반의 방대한 텍스트 데이터의 패턴·규칙·관계 등의 정보를 추출하기 위한 기술을 의미한다. '자연어 처리 기반 텍스트·음성 데이터 분석 기술'은 '응용 분야별 대규모 말뭉치 구축', '컨텍스트 기반 정보 분류 및 분석 기술', '다국어 처리 기술' 등으로 구분된다. '자연어 처리 기반 텍스트·음성 데이터 분석'은 기계학습 알고리즘을 활용하여 '말뭉치 구축 자동화', '텍스트 내 개념 추출 정교화' 등을 목표로 하고 있다.

  1. 응용분야별 대규모 말뭉치 구축: 응용분야의 분석 품질 향상을 위해 다양한 빅데이터 소스로부터 지속적으로 말뭉치를 자동으로 구축하고 갱신하는 기술이다. 활용 목적에 맞게 말뭉치의 헤더 및 본문에 자동으로 태그를 부착한다.
  2. 컨텍스트 기반 정보 분류 및 분석 기술: 비정형 텍스트 및 음성 데이터로부터 '구문 분석', '의미 분석'을 통하여 응용분야에 따라 의미 있는 정보를 추출하는 기술이다. '감성' 및 '오피니언 분석' 등 목적에 맞는 '기계학습(Machine Learning)', '텍스트 마이닝(Text-Mining)'을 거친다.
  3. 다국어 처리 기술: 다국어 '형태소(의미를 가진 가장 작은 말의 단위)' 분석 및 품사 '태깅(Tagging)' 기술을 포함해서, '문서 언어 감지', '다국어 문장 분리' 등 다양한 언어가 복합적으로 구성된 문서를 처리하기 위한 기술이다. 구조화되지 않은 텍스트 본문에서 '이름', '장소', '주요 개념'을 찾아주고 외래어를 식별한다.

4-2. 영상 데이터 내 콘텐츠 분석 기술

 '영상 데이터 내 콘텐츠 분석 기술'은 영상을 분석하여 내포된 특성을 파악하고, 패턴을 추출하여 '객체 인식', '상황 감지', '모션 추적', '검색'을 가능하게 한다. '영상 데이터 내 콘텐츠 분석 기술'은 '특정 객체 검출 및 어노테이션', '컨텍스트 기반 상황 감지 및 인식', '객체 추적 및 예측' 기술 등으로 구분된다. '영상 데이터 내 콘텐츠 분석 기술'은 '안전 및 보안', '검색 및 관리' 등 다양한 분야에서 적용 가능하다.

  1. '특정 객체 검출' 및 '어노테이션(Annotation)': '특정 객체 검출'은 사람의 얼굴이나 자동차 등 특정 객체를 영상으로부터 검출하는 기술이다. 또 요청한 영상과 비슷한 영상을 검색해 내는 유사 영상 검색도 가능하다. '어노테이션(Annotation)'은 영상이 표현하는 내용에 대응하는 '메타 데이터(Metadata)'를 자동으로 부여하는 기술이다.
  2. '컨텍스트(Context)' 기반 상황 감지 및 인식: 특정 '컨텍스트(Context)' 하에서, 안면 근육의 움직임을 분석하여 감성을 인식하거나, 객체의 이동 경로의 변화 등 행동 패턴의 변화를 발견하기 위하여 모니터링하고 감지한다.
  3. '객체 추적' 및 '예측': '객체 추적(Object Tracking)' 기술은 이동 경로 및 속도 등의 정보를 획득하는 기술이다. '객체 추적'을 통해 '범죄 징후', '고장 징후' 등 향후 예상되는 객체의 행동을 사전에 예측할 수 있다.

4-3. 데이터 마이닝 알고리즘 구현 기술

 '데이터 마이닝 알고리즘 구현 기술'은 일반적인 마이닝 기술로 처리하기 어려운 특성을 갖고 있는 '빅데이터(Big Data)'에서 효과적으로 '데이터 마이닝(Data Mining)'을 할 수 있는 기반 기술이다. '데이터 마이닝 알고리즘 구현 기술'은 대용량 처리 기술과 연계하여 활용되며, 특정 응요 분야에 적합하도록 고도화되어 활용된다. '데이터 마이닝 알고리즘 구현 기술'은 '대용량 분산 데이터 기반 마이닝 ', '실시간 스트림 데이터 기반 마이닝', '불확실·불완전 데이터 처리 알고리즘' 등으로 구분된다.

  1. 대용량 분산 데이터 기반 마이닝: '대용량 분산 데이터 기반 마이닝' 기술은 '노드별 편향된 데이터 해결 및 전체 최적화를 위한 데이터 교환 및 모델 융합 알고리즘', '로컬 데이터 기반의 통계량 계산 및 노드 간 공유' 기술을 포함한다. '로컬 마이닝 수행', '글로벌 패턴 합성', '로컬 생성 모델 연관 분석 및 통합 인사이트 도출'을 포함한다.
  2. 시간 스트림 데이터 기반 마이닝: '저장된 데이터가 아닌 스트림 데이터에서 마이닝 결과를 얻기 위한 메커니즘 및 알고리즘' 기술이다. '메모리 사용' 및 '처리 소요 시간'을 고려하고 시간 경과에 따라 데이터의 생성 방식의 변화에 대응한다.
  3. 불확실·불완전 데이터 처리 알고리즘: '희소 데이터 처리를 위한 차원 축소 및 샘플 데이터 추가 기술', '불확실 데이터 처리를 위한 평균 및 분산 활용 마이닝', '불완전 데이터 처리를 위한 결측치 보정' 기술을 포함한다. 

4-4. 데이터 특성 및 패턴 기반 시각화 기술

 '데이터 특성 및 패턴 기반 시각화 기술'은 기존의 테이블 혹은 단순 차트 형태의 '데이터 레포팅(Data Reporting)' 기술로, 처리가 어려운 대용량의 데이터를 사용자들이 쉽기 인지할 수 있도록 효과적으로 가시화한다. '데이터 특성 및 패턴 기반 시각화 기술'은 업체 내 빅테이터 분석 전문 기술 인력이 부족한 환경에서 빅데이터 분석을 활용할 수 있도록 지원하며, 저비용의 효율적 빅데이터 분석 기술 활용이 가능하다. '데이터 특성 및 패턴 기반 시각화 기술'은 '대용량 데이터 분석을 위한 인터랙티브 시각화', '다양한 데이터 소스 통합 매쉬업', '패턴 기반 시각화 기법 구현' 기술 등으로 구분된다.

  1. 대용량 데이터 분석을 위한 '인터랙티브 시각화(Interactive Visualization)': '대용량 데이터 분석을 위한 인터랙티브 시각화'는 대용량 데이터를 사용자가 인식할 수 있는 형태로 효과적으로 시각화하기 위한 데이터 축소·표현 기술이다. 데이터의 크기·유형에 따라 가장 적합한 시각화 반식을 선정하며, 효과적인 시각화를 통해 새로운 인사이트 발굴을 유도한다. 대용량 데이터에 대한 사용자의 질의를 실시간으로 처리하여 시각화한다.
  2. 다양한 데이터 소스 통합 '매시업(Mashup)': '매시업(Mashup)'이란 원래 서로 다른 곡을 조합하여 새로운 곡을 만들어 내는 것을 의미하는 음악 용어이지만 'IT(정보기술)' 분야에서는 웹상에서 웹서비스 업체들이 제공하는 다양한 정보와 서비스를 혼합하여 새로운 서비스를 개발하는 것을 의미한다. 즉 서로 다른 웹사이트의 콘텐츠를 조합하여 새로운 차원의 콘텐츠와 서비스를 창출하는 것을 말한다. 즉, 이질적인 데이터 소스로부터 구조적으로 데이터를 통합하는 기술이다. 사용자가 별도 교육 필요 없이 데이터를 탐색할 수 있는 직관적인 화면을 구성하는 것이 중요하다. 정보 수집에 대한 요청에 쓰이는 컴퓨터 언어 '쿼리(Query)'를 통해 대량의 데이터로부터 데이터를 신속히 추출한다.
  3. 패턴 기반 시각화 기법 구현: '로그 데이터(Log Data)', '객체(Object)', '공간 정보(Spatial Information)' 간 상관관계 등 도메인별 조회 패턴에 따라 사용자들이 직관적으로 이해할 수 있는 형태의 시각화 기법을 개발하고 구현하는 기술이다.
반응형

5. '빅데이터 분석' 관련 기업

 2008년 세계 금융위기 이후 모바일 통신 환경이 보편화되고 효율적인 기업 경영활동의 중요성이 높아짐에 따라, '세계 빅데이터 분석 솔루션 산업'은 글로벌 IT 솔루션 업체를 중심으로 성장하고 있다. 기존 데이터베이스 산업을 선도하고 있는 글로벌 IT 솔루션 업체들은, 빅데이터 분석 솔루션 전문 업체들을 인수·합병하여 경쟁력을 확보하고 있다. 주요 '빅데이터 분석 솔루션' 업체 현황은 다음과 같다.

5-1. 테라데이터(Teradata)

  1. 국적: 미국
  2. 주요 제품: AoTAs(Analytics of Things Accelerators), Aster Analytics, Teradata Everywhere, Borderless Analytics

 '테라데이타(Teradata)'는 '빅데이터(Big Data)' 및 '데이터 웨어하우스(Data Warehouse, 기간 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환하여 일원적으로 관리하는 데이터베이스)' 관련 '분석(Analytic)' 솔루션과 컨설팅 서비스를 제공하는 글로벌 기업으로, 미국 캘리포니아주 샌디에고에 본사를 두고 있다. 2011년에는 '애스터(Aster)'를, 2014년에는 '리벨리틱스(Revelytix)'와 '하댑트(Hadapt)'을 인수합병을 진행하는 등 빅데이터 역량을 강화중이다.

5-2. 굿데이터(GoodData)

  1. 국적: 미국
  2. 주요 제품: Enterprise Insights Platform-as-a-Service

 '굿데이터(Good)'는 클라우드 컴퓨팅 기반의 '빅데이터 어낼리틱스(Big Data Analytics)'와 'BI(Business Intelligence)'를 지향하는 플랫폼을 개발하는 기업으로 2007년에 설립되었으며, 캘리포니아주 샌프란시스코에 본사를 두고 있다. '자료의 수집·저장·연계·분석·시각화 등 BI의 모든 핵심 솔루션을 만들 수 있는 툴', API,' 프레임워크 툴(Framework Tool)'로 구성된다. 'BI'는 '비즈니스 인텔리전스(Business Intelligence)'의 약자로, 기업이 비즈니스를 보다 합리적으로 이끌어 갈 수 있도록 도와주는 일련의 소프트웨어 제품군을 말한다.

5-3. 데이터미어(Datameer)

  1. 국적: 미국
  2. 주요 제품: DAS(Datameer Analytics Solutions)

 '데이터미어(Datameer)'는 빅데이터 분석 및 시각화 회사로서, 미국 캘리포니아주 샌프란시스코에 본사를 두고 '빅데이터 분석 플랫폼'을 제공하고 있다. '데이터미어'의 제품인 'DAS(Datameer Analytics Soution)'은 데이터 소스 통합, 2개가 넘는 분석 기능을 갖춘 '스프레드시트 인터페이스(Spreadsheet Interface)'가 제공되며 '아파치(Apache)', '클라우데라(Cloudera)', '맵알(MapR)', '아마존(Amazon)' 등 주요 하둡 배포판에서 사용 가능하다.

5-4. 1010data

  1. 국적: 미국
  2. 주요 제품: Insight Platform

 1010data는 2000년에 설립된 빅데이터 분석기관으로 미국 뉴욕에 본사를 두고 정형 및 비정형 등 다양한 종류의 데이터와 분석을 위한 툴을 하나의 플랫폼으로 제공하고 있다. '1010data'는 '기본 비즈니스 쿼리'에서 '가장 정교한 데이터 과학 모델'에 이르기까지, 데이터에서 실행 가능한 전체 insight를 추출할 수 있는 도구를 제공하고 있다. 또한 강력한 '시계열 분석(Time-Series Anlysis)', '통계 함수', '최적화', '기계 학습' 등을 포함한 광범위한 '함수 라이브러리(Function Library)'를 사용하여 설명·진단·예측·규정 분석을 수행한다.

5-5. 구글(Google)

  1. 국적: 미국
  2. 주요 제품: BigQuery

 '구글(Google)'은 1998년 '세르게이 브린(Sergey Brin)'과 '래리 페이지(Larry Page)'에 의해 설립된 업체로 '웹 검색'과 '광고'를 주 사업 영역으로 하고 있다. '빅쿼리(BigQuery)'는 높은 확장성과 비용 효율성을 갖춘 '서버리스 클라우드 데이터 웨어하우스(Serverless Cloud Data Warehouse)'로서, 메모리 내 BI Engine과 '머신러닝(Machien Learning)'을 탑재하고 있다.

 '빅쿼리(BigQuery)'의 특징은 클라우드 서비스이며, 기존의 '관계형 데이터베이스 관리 시스템(RDBMS: Relational DataBase Management System)'에서 쓰는 SQL과 유사한 언어를 사용하고, '대용량 지원', '빠른 성능', '데이터 복제를 통한 안정성', '배치와 스트리밍 모두 지원', '저렴한 자격'이다. 8800개의 CPU와 3600개의 디스크랄 사용하는 대규모 인프라를 활용하여 1000억 개의 레코드에 대한 질의를 30초 정도에 수행한다. '하둡(Hadoop)', 'Spark' 등은 Map&Reduce 로직이나 SparkSQL을 사용하기 위해선 일정 수준 이상의 전문성이 필요하지만, BigQuery는 상대적으로 실질적 사용과 유지보수 등이 매우 간편하다는 장점을 가지는 것으로 평가받고 있다.

5-6. 스플렁크(Splunk)

  1. 국적: 미국
  2. 주요 제품: SIEM(통합로그분석시스템)

 '스플렁크(Splunk)'는 IT 분야에서 발생하는 '로그 데이터(Log Data)', '실시간 이벤트 데이터(Real-Time Event Data)', '다양한 장비 데이터'를 수집하고 모니터링하여 검색·분류·분석할 수 있는 엔진을 제공하는 미국의 다국적 기업으로, 2004년에 설립되어 미국 캘리포니아주 샌프란시스코에 본사를 두고 있다. '스플렁크(Splunk)'는 '로그 데이터(Log Data)', '이벤트 데이터(Event Data)' 등의 기계가 생성한 빅데이터를 웹 기반 인터페이스를 통해 검색·모니터링·분석하는 소프트웨어를 개발·공급하고 있다. 대부분의 Fortune 100대 기업을 비롯하여 전 세계 100개국에 걸쳐 9000여 개 이상의 기업, 서비스 공급자 및 정부가 Splunk 소프트웨어를 사용하고 있다. 국내에서도 '인터넷 포털', '통신사', '제조사', '금융', '게임 개발사' 등 300여 개사에서 도입하여 사용되는 검증된 솔루션이다.

5-7. 싱크소트(Syncsort)

  1. 국적: 미국
  2. 주요 제품: DMX/DMExpress, DMX-h 등

 '싱크소트(Syncsort)'는 1968년에 설립된 글로벌 소프트웨어 회사로, 미국 뉴욕 주 펄리버에 본사를 두고 있다. '빅데이터(Big Data)', '초고속 정렬 제품', '데이터 통합과 서비스'를 제공하는 SW 회사로서, '하둡(Hadoop)', 'MS Windows', '유닉스(UNIX)', '리눅스(Linux)'를 모두 지원하며, 각 플랫폼에 특화된 솔루션을 제공하고 있다.

5-8. 아티비오(Attivio)

  1. 국적: 미국
  2. 주요 제품: Active Intelligence Engine

 '아티비오(Attivio)'는 최고의 인지 검색 및 인사이트 플랫폼 회사로, 미국 매사추세츠주 보스턴에 본사를 두고 있다. 'Attivio Cognitive Search and Insight Platform는 '자연어 처리(NLP: Natural Language Processing)', '기계학습(Machine Learning)', '지식 그래프(Knowledge Graph)'와 같은 자체 학습 기술을 결합한 안전한 기업용 플랫폼으로 형식에 관계없이 '엔터프라이즈 데이터' 및 '콘텐츠'를 색인화하고 분석하며, 행동 데이터를 통합하여 사용자 경험을 개인화한다.

5-9. FICO

  1. 국적: 미국
  2. 주요 제품: Data Orchestrator, Decision Management Platform 등

 'FICO'는 선도적인 분석 소프트웨어 회사로 미국 캘리포니아주 '산호세(San Jose)'에 본사를 두고 있다. FICO Big Data Analyzer는 '비즈니스 사용자·분석가', '데이터 과학자'가 '하둡(Hadoop)'에서 모든 유형 및 크기의 데이터를 탐색하고 분석하여, 귀중한 인사이트를 얻을 수 있는 맞춤형 분석 환경이다. '데이터 프로파일링(Data Profiling)'을 활용하여 한 번에 한 변수씩 데이터를 즉시 시각화한 다음, 머신러닝을 적용하여 향후 결과에 대한 예측을 수행한다.

5-10. Flytxt

  1. 국적: 네덜란드
  2. 주요제품: NEON-dX

 'Flytxt'는 네덜란드 '뉘베게인(Nieuwegein)'에 본사를 두고 전 세계 CSP와 모바일 업체들을 위한 '빅데이터 분석 솔루션(Big Data Analytics Solution)'을 제공하는 업체로 2008년에 설립되었다. Flytxt의 'NEON-dX'는 '분석', '인공지능', '마케팅 자동화'를 클라이언트의 CRM 환경과 원활하게 통합되는 즉시 사용 가능한 솔루션으로 패키지화한 것으로, 기업의 마케팅 팀이 쉽고 빠르게 측정 가능한 수익 증가를 창출할 수 있도록 실시간으로 학습·예측·권고·행동한다.

5-11. Mu Signa

  1. 국적: 인도
  2. 주요 제품: muOBI, muPDNA, muDSC 등

 Mu Signa는 주로 데이터 분석 서비스를 제공하는 인도 경영 컨설팅 회사로 2005년에 설립되었으며, 인도 '벵갈루루(Bengaluru)'에 본사를 두고 있다. 'Mu Signa'는 '분석 소프트웨어', '통계 분석 소프트웨어', '빅데이터 시각화 및 리포팅 도구' 등 많은 유틸리티를 개발했다. 'Mu signa'의 Big Data Analytics Software는 고객사가 '문제 정의 및 매핑'에서 '분석 솔루션 검색 및 운영'에 이르기까지, '데이터 분석 솔루션'을 확장할 수 있도록 도와준다.

5-12. 그루터

  1. 국적: 한국
  2. 주요 제품: TaaS, Qrytica, Tajo Enterprise Gear, Cloumon

 '그루터'는 빅데이터 플랫폼 및 솔루션 저문 업체로, 주요 제품으로는 'TaaS(Tajo-as-a-Service)', 'Qrytica', 'Tajo Enterprise Gear', 'Cloumon' 등이 있다. 'TaaS'는 '하둡 에코시스템(Hadoop Ecosystem)' 기반 오픈소스 빅데이터 웨어하우스 솔루션이고, Qrytica는 표준 SQL로 빅데이터 분석을 하는 빅데이터 분석 도구, Tajo Enterprise Gear는 빅데이터 처리를 위해 설계된 강력한 '엔드-투-엔드 빅데이터 웨어하우스 플랫폼(End-to-End Big Data Warehouse Platform)', 'Cloumon'은 'Hadoop 통합 관리 도구'이다.

5-13. 바이브 컴퍼니

  1. 국적: 한국
  2. 주요 제품: Contextual Finder, Social Big Data Mining, Contextual IR

 '바이브 컴퍼니(VAIVcompany)'는 인공지능 기반 빅데이터 전문 기업으로, 인공지능 대화기술 및 자연어 처리 기술을 보유하고 있다. 주요 제품에는 빅데이터 마이닝 솔루션인 'Contextual Finder', 소셜 빅데이터 분석 서비스인 'Social BIg Data Mining' 등이 있다. 'Contextual Finder'는 '자연어 처리' 기술과 '텍스트 마이닝' 기술을 이용하여 기업 내부 및 외부에 존재하는 대량의 문서로부터 인사이트를 발굴하고 이슈를 모니터링할 수 있는 '하둡 기반의 빅데이터 마이닝 솔루션'이다. 'Social Big Data Mining'는 소셜미디어로부터 소비자들의 살아있는 이야기가 담긴 대량의 데이터를 수집·분류하여 언어에 대한 이해를 기반으로 텍스트를 분석하고 의미 있는 정보를 추출해 내는 분석 서비스이다.

5-14. 레브웨어(Levware)

  1. 국적: 한국
  2. 주요 제품: LevSPA

 '레브웨어(Levware)'는 1999년 한국후테로시스템 상호로 설립되어, 2017년에 '레브웨어'로 이름을 변경한 '빅데이터 솔루션' 전문 기업이다. '레브웨어'는 '스마트 제조원가 솔루션 제공·구축 서비스', '빅데이터 기반 실시간 예측분석 솔루션 제공·구축 서비스' 등을 주요 사업으로 영위하고 있다.

 '레브웨어'의 'LevSPA'는 빅데이터 기반의 실시간 예측 분석 OLAP 솔루션으로, 과거 데이터로부터 머신러닝 모델을 개발하고, 개발된 모델을 PMML 형태로 저장·활용 가능함으로써, 실시간 스트리밍 데이터를 분석·예측 가능한 특징이 있다.

5-15. 비아이매트릭스

  1. 국적: 한국
  2. 주요 제품: i-MATRIX, i-CANVAS, i-STREAM, i-BIG, G-MATRIX

 '비아이매트릭스'는 2005년 설립된 BI 및 빅데이터 분석 솔루션 전문 업체로, BI와 Big Data 핵심 기술을 보유하고 있다. 'i-CANVAS'는 Look & Feel이 우수한 미려한 분석 보고서 제작에 최적화된 BI 솔루션으로, 웹에서 DB에 연결하고 보고서 생성·편집·수정·공유·배포가 가능한 강력한 보고서 개발 도구를 제공한다. 'i-STREAM'은 데이터 추출에서 분석 결과의 시각화까지 데이터 분석 전 과정을 지원하는 통합 데이터 분석 솔루션이다. '분석을 위한 ETL', '이기종 데이터 소스의 통합 분석, 데이터마이닝, 통계, 예측 분석 등 다양한 기능을 수행하며, 복잡한 데이터 처리 요구 사항에 빠르게 대응하고, 데이터 분석가가 쉽게 사용할 수 있도록 사용자 중심의 쉬운 UI를 제공한다.

5-16. 사이람

  1. 국적: 한국
  2. 주요 제품: NetMiner, NetExplorer

 '사이람'은 소셜 네트워크 분석 기업으로, 2000년에 창립되었다. '사이람'은 2001년 세계 최초의 상용 '소셜 네트워크 분석(Social network Analysis)' 소프트웨어 'NetMiner'를 출시하였다. NetMiner는 GUI 기반의 편리한 이용법과 유연한 데이터 분석 환경을 제공해 세계적인 명성을 확보아혔다. 그 외 제품으로는 2003년에 출시된 NetExplorer가 있다. NetExplorer는 범죄 네트워크 분석 및 공모 사기 적발 솔루션으로, 급증하고 있는 보험 사기 및 범죄 수사 등의 분야에서 혐의자들 간의 직·간접적 연관관계를 시각적으로 분석해 공모 집단을 적발하는데 효과적으로 활용될 수 있다.

5-17. 사이버다임

  1. 국적: 한국
  2. 주요 제품: Process Analyzer

 '사이버다임'은 1998년 비정형 콘텐츠 관리의 국산화를 목표로 설립된 업체로, '문서중앙화 시스템'을 주력으로 '문서관리', '기업용 클라우드 솔루션' 등을 보유하고 있는 전문 기업이다. '사이버다임'의 'Process Analyzer'는 '그룹웨어(Groupware)', '전사적 자원관리(ERP: Enterprise Resource Planning)', '제조정보시스템' 등 조직의 다양한 업무 처리 시스템에 기록되는 '이벤트 로그(Event Log)'를 분석하여 의미 있는 정보를 찾아내는 제품이다. 'Process Analyzer'를 사용하면 '데이터베이스', '하둡(Hadoop)', '클라우드 서비스'에 이르기까지 모든 데이터를 탐색할 수 있다. 기본적인 Data Dashboard부터 데이터 흐름을 표현하는 Process Map, Animation까지 다양한 시각화 도구를 제공하며, 웹 기반 프로세스 마이닝 제품으로 어디에서나 서버에 접속하여 통계 및 분석 정보를 확인할 수 있다.

5-18. 소프트센(Softcen)

  1. 국적: 한국
  2. 주요 제품: Research Assistant, Big Cen TA

 '소프트센(Softcen)'은 1988년 4월 11일에 '비티씨코리아'로 설립되었으며, 수차례 상호변경을 거쳐 2014년 4월 '소프트센'이 되었다. '소프트센'은 '빅데이터 솔루션(Big Data Solution)', '빅데이터 서비스(Big Data Service)', 'IT 솔루션', 'IT 인프라' 등의 사업을 영위하고 있다. 빅데이터 솔루션 관련 주요 제품은 Research Assistant, Big Cen TA 등이다.

 'Research Assistant'는 임상 연구 방법론 절차에 따른 사용자 중심의 화면 구성과 '복합 검색(정형 조건 검색+키워드 검색) 지원, 동의어·유사어 사전 제공, 다차원 분석정보 제공을 통해 의료진 중심의 연구·임상정보 제공 솔루션이다. 'Big CEN TA(Big CEN Text Analysis)'는 고객사의 기간계 시스템에 다양한 형태로 존재하는 비정형 텍스트로부터 의미 있는 항목을 자동으로 추출하여 정형화하며, 정형과 비정형이 결합된 '하이브리드 검색 기능' 제공이 가능한 솔루션이다.

5-19. 솔트룩스(Saltlux)

  1. 국적: 한국
  2. 주요 제품: Bigdata Suite, Tornado, DISCOVERY, TMS, BlueBolt, CAS, Rainbow

 '솔트룩스(Saltlux)'는 AI 전문 기업으로 2000년에 창업된 '시스메타'에 그 뿌리를 두고 있으며, 창업 이래 인공지능과 빅데이터 기술에 전념해 왔다. '솔트룩스'의 Bigdata Suit는 End-to-End One Stop 지능형 실시간 빅데이터 분석 통합 플랙폼으로 '수집 엔진(Tornado)', '저장·검색 엔진(DISCOVERY)', '비정형 분석 엔진(TMS)', '스트림 분석 엔진(BlueBolt)', '인지분석 엔진(CAS)', '시각 분석 엔진(Rainbow)' 등 6개의 엔진을 제공한다.

5-20. 아이지에이웍스(IGAworks)

  1. 국적: 한국
  2. 주요 제품: adbrix

 '아이지에이웍스(IGAworks)'는 2006년 설립된 모바일 빅데이터 업체로, '모바일 데이터 분석', '마케팅 자동화', AI와 머신러닝 기반의 'DMP(Data Management Platform)', '트레이드 데스크(Trade Desk)', '마켓 인텔리전스(Market Intelligence)' 등 모바일 데이터와 플랫폼을 제공하는 국내 유일의 종합 'Data-Tech Saas(서비스형 소프트웨어)' 기업이다.

 '아이지에이웍스(IGAworks)'의 '애드브릭스(Adbrix)'는 '앱 광고 성과 측정', '사용자 분석', '타겟팅 광고', '운영'을 동시에 해결할 수 있는 솔루션으로, 고객사는 '애드브릭스'를 통하여 광고 성과를 측정하고, 유입된 이용자를 자유롭게 분석하고, 결과 데이터를 활용하여 광고와 운영을 고도화할 수 있다.

5-21. 와이즈넛(WISEnut)

  1. 국적: 한국
  2. 주요 제품: WISE BICrawler, Search Formula-1 V5, WISE TEA V2, WISE BIC ANALYZER, BuzzInsight

 '와이즈넛(WISEnut)'은 1999년 미국 실리콘밸리에서 출발한 벤처기업으로, 자체 인공지능 기반 기술을 바탕으로 기업용 인공지능 SW 제품을 제공한다. '와이즈넛'의 주요 빅데이터 제품으로는, 빅데이터 정보수집 솔루션 'WISE BICrawer', 빅데이터검색솔루션 'Search Formula-1 V5', 텍스트마이닝 솔루션 'WISE TEA V2', 빅데이터 의미 분석 솔루션 'WISE BIC Analyzer', 소셜 분석 서비스 'BuzzInsight' 등이 있다.

5-22. 이씨마이너

  1. 국적: 한국
  2. 주요 제품: ECMiner, ECMinerIMS, ECMinerAML

 '이씨마이너(ECMiner)'는 빅데이터 분석에 특화된 솔루션을 개발하는 업체로, 2000년 창업 이래 '데이터 마이닝(Data Mining)' 기술력을 바탕으로, 통합 분석 솔루션 공급 및 시스템 구축, Data Mining S/W 판매 및 응용 프로젝트 수행, Data Warehouse/Data Mart 구축 등으로 그 사업을 확장하고 있다.

 '이씨마이너(ECMiner)'의 주요 제품으로는 데이터 마이닝 S/W 'ECMiner', 데이터마이닝 기반 지능형 모니터링 시스템 'ECMinerIMS', 자금세탁방지 솔루션 'ECMinerAML' 등이 있다. ECMiner는 통계 기반의 실시간 빅데이터 분석 솔루션으로, '지능형 모티너링', '연관분석', '텍스트 및 이미지 마이닝' 등이 가능하다.

5-23. 케이티넥스알(kt NexR)

  1. 국적: 한국
  2. 주요 제품: Lean Stream, NDAP

 '케이티넥스알(kt NexR)'은 빅데이터 End-to-End 제품/서비스를 제공하는 전문 기업으로, 빅데이터 글로벌 표준 기술인 '하둡(Hadoop)'에 있어 국내 최고 수준의 기술력을 보유하고 있는 기업이다. 주요 제품으로는 실시간 빅데이터 처리·분석을 위한 엔터프라이즈 솔루션 'Lean Stream', 빅데이터 플랫폼 'NDAP(kt NexR Data Analytics Platform)'이 있다.

5-24. 코난테크놀로지

  1. 국적: 한국
  2. 주요 제품: Konan Analytics 4, Konan Log Analytics, pulse-K

 '코난테크놀로지(Konan Technology)'는 인공지능 기반 비정형데이터 마이닝 전문기업이다. 주요 분석 제품으로는, 비정형 데이터 통합 분석 플랫폼 'Konan Analytics 4', 검색로그 분석 솔루션 'Konan Log Analytics', 시맨틱 검색 기술 기반의 텍스트 마이닝 분석 서비스인 'pulse-K'가 있다.

5-25. SK텔레콤(SK telecom)

  1. 국적: 한국
  2. 주요 제품: 메타트론(Metatron)

 '메타트론(Metatron)'은 실시간 Big Data 분석을 위한 최적화된 솔루션으로, 대용량의 로그 데이터 수집부터 실시간 분석을 통한 시각화까지 한 번에 제공하는 End-to-End 분석 솔루션이다.