빅데이터 플랫폼(Big Data Platform)

과학(Science)/산업 (Industry) 2023. 8. 24. 11:07

0. 목차

'빅데이터 플랫폼'이란?
'빅데이터 플랫폼' 산업
'빅데이터'란?
'빅데이터' 처리 과정
하둡(Hadoop)
'빅데이터 플랫폼' 기술 발전 전망
'빅데이터 플랫폼' 관련 기업

1. '빅데이터 플랫폼'이란?

'빅데이터 플랫폼(Big Data Platform)'은 '빅데이터(Big Data)'에서 가치를 추출하기 위한 일련의 과정인 데이터 '수집→저장→처리→분석→시각화'를 지원하기 위한 프로세스를 규격화한 기술 또는 서비스이다. '빅데이터 플랫폼'은 '확장성 있는 대용량 처리 능력', '이기종 데이터 수집·통합 처리 능력', '빠른 데이터 접근 및 처리 능력', '대량 데이터 저장 관리 능력', '대량의 이기종 데이터를 원하는 수준으로 분석할 수 있는 능력' 등을 갖춰야 한다.

'전통적인 통계적 처리'와 '빅데이터 플랫폼'의 차별성은 큰 틀에서는 데이터의 수집·저장·처리 영역에서 발생하는 것으로 평가된다. 분석·시각화 측면에서는 가치 추출을 위해서 전통적인 통계 분석에서는 인과관계를 최종적인 결과로서 제시한다면, 빅데이터에서는 연관관계·상관관계를 중심으로 시사점을 도출하려는 경향을 보인다.

분류	빅데이터 플랫폼의 구성요소별 주요 기능들
수집	비정형 수집
	정형 수집
	ETL(Extraction, Transformation, Loading)
	웹 로봇(Web Robot)
	'기업 응용 프로그램 통합(EAI: Enterprise Application Integration)', '엔터프라이즈 서비스 버스(ESB: Enterprise Service Bus)', '파일 전송 프로토콜(FTP: File Transfer Protocol)' 등
	Open API
저장	원본 데이터
	NoSQL
	메모리
	검색엔진(Search Engine)
	데이터 보안(Data Security)
처리	배치처리
처리	복합 이벤트 처리(CEP: Complex Event Processing)
분석	텍스트 분석(Text Analysis)
	머신러닝(Machine Learning)
	통계(Statistics)
	데이터 마이닝(Data Mining)
	SNS 분석(SNS Analysis)
	예측분석(알고리즘)
표현	시각화(Visualize)

1-1. 빅데이터 플랫폼의 구조

'빅데이터 플랫폼(Big Data Platform)'은 크게 '소프트웨어 계층(Software Layer)', '플랫폼 계층(Platform Layer)', '인프라 스트럭처 계층(Infrastructure Layer)'으로 구분된다.

소프트웨어 계층(Software Layer): '소프트웨어 계층'은 '빅데이터 처리 및 분석'과 이를 위한 '데이터 수집 및 정제' 등을 수행한다. '데이터 처리 및 분석 엔진', '데이터 수집 및 정제 모듈', '서비스 관리 모듈', '사용자 관리 모듈', '모니터링 모듈', '보안 모듈' 등으로 구성된다.
플랫폼 계층(Platform Layer): '플랫폼 계층'은 빅데이터를 응용하는 기반을 제공하며 데이터 처리 및 분석과 이를 위한 데이터 수집 및 정제 등을 수행한다. '작업 스케줄링 모듈', '데이터 및 자원 할당 모듈', '프로파일링 모듈', '데이터 관리 모듈', '자원 관리 모듈', '서비스 관리 모듈', '사용자 관리 모듈', '모니터링 모듈', '보안 모듈' 등으로 구성된다.
인프라 스트럭처 계층(Infrastructure Layer): '인프라스트럭처 계층'은 빅데이터 처리 및 분석에 필요한 자원을 제공한다. '자원 배치 모듈', '노드 관리 모듈', '데이터 관리 모듈', '자원 관리 모듈', '서비스 관리 모듈', '사용자 관리 모듈', '모니터링이 모듈', '보안 모듈' 등으로 구성된다.

구분	모듈: 설명
소프트웨어 계층	데이터 처리 및 분석 엔진: 데이터 처리, 분석
	데이터 수집 및 정제 모듈: 데이터 추출, 데이터 변환, 데이터 표현
	서비스 관리 모듈: 소프트웨어 계층에서 제공하는 서비스 관리
	사용자 관리 모듈: 사용자 인증 및 접속 관리, 사용자별 서비스 관리, 사용자별 서비스 수준 협약 관리
	모니터링 모듈: 플랫폼 및 인프라스트럭처 서비스 가용성 및 성능 모니터링
	보안 모듈: 소프트웨어 계층 보안 관리
플랫폼 계층	작업 스케줄링 모듈: 사용자의 응용을 실행하는 작업을 스케줄링
	데이터 및 자원 할당 모듈: 사용자 데이터의 초기 데이터 및 자원 할당, 동적 상황을 고려한 데이터 및 자원의 재할당을 수행
	프로파일링 모듈: 인프라 스트럭처 자원을 할당하는 자원. 사용자의 응용파일링 등을 수행
	데이터 관리 모듈: 사용자 데이터 관리
	자원 관리 모듈: 인프라 스트럭처 자원 관리
	서비스 관리 모듈: 플랫폼 계층에서 제공하는 서비스 관리
	사용자 관리 모듈: 사용자별 인증 및 접속 관리, 사용자별 서비스 관리
	모니터링 모듈: 인프라 스트럭처 서비스 가용성 및 성능 모니터링
	보안 모듈: 소프트웨어 계층 보안관리
인프라 스트럭처 계층	자원 배치 모듈: 사용자에게 제공할 자원 배치
	노드 관리 모듈: 인프라 스트럭처 내의 노드 관리
	데이터 관리 모듈: 인프라 스트럭처 내의 스토리지 관리
	자원 관리 모듈: 인프라 스트럭처 내의 네트워크 관리
	서비스 관리 모듈: 인프라 스트럭처 계층에서 제공하는 서비스 관리
	사용자 관리 모듈: 사용자별 인증 및 접속 관리, 사용자별 서비스 관리 등
	모니터링 모듈: 노드, 스토리지, 네트워크 등 자원 가용성 및 성능 모니터링
	보안 모듈: 소프트웨어 계층 보안 관리

2. '빅데이터 플랫폼' 산업

'빅데이터 플랫폼(Big Data Platform)'을 포함하는 '빅데이터 산업'의 특징은 '규모의 경제를 가지는 산업', '후방 산업에 대한 파급 효과가 큰 산업', '기술·노동집약적 산업', '경기 동행 산업', '라이프 사이클이 짧은 산업', '진입장벽이 낮은 산업' 등으로 요약할 수 있다.

규모의 경제를 가지는 산업: 일반적인 상품의 경우, 규모에 대한 수확체감의 특성을 보인다. 하지만 소프트웨어의 경우, 생산이 증가할수록 소프트웨어 원본의 평균 개발비용이 감소함으로써, 규모의 경제 특성을 가지는 바 사용자의 수가 생산 비용 측면에서 매우 중요한 역할을 한다.
후방 산업에 대한 파급 효과가 큰 산업: '소프트웨어(SW)'는 그 적용 범위가 광범위해져 산업 전반에 걸쳐 적지 않은 영향을 미치고 있다. 전통적인 기계설비나 가전제품, 자동차 등에서도 이제는 SW가 없이는 그 기술적인 특성을 발휘할 수가 없을 정도로, 전 산업 영역에서 핵심적인 역할을 수행하고 있다.
기술·노동집약적 산업: 빅데이터는 '하드웨어(HW)', '소프트웨어(SW)', '서비스(Service)'가 모두 절묘하게 융합되어야만 성과를 낼 수 있을 정도로, 고난도의 역량을 필요로 한다. 고도의 지식 집약적이며, 고급 노동집약적인 산업이다.
경기 동행 산업: 일반적 패키지 SW 산업은 경기에 후행하는 특성을 보여왔으나, 최근에는 동행하는 추세를 보이고 있다. '소프트웨어(SW)'에 대한 투자가 비용이라는 인식에서 경쟁력 강화의 수단으로 전환이 되는 추세이다.
라이프 사이클이 짧은 산업: 급속한 기술발전으로 제품의 '라이프 사이클(Life Cycle)'이 매우 짧으며, 새로운 시장이 지속적으로 창출되며 업그레이드를 통한 지속적인 유지 보수가 필요한 산업이다.
진입장벽이 낮은 산업: 비교적 대규모의 설비투자가 필요하지 않고 소지본으로 시장 진입이 가능한 사업이다. 따라석 산업 내 신규 진출 기업이 지속적으로 증가하고 있어 같은 산업 내 경쟁이 치열해지고 있다.

2-1. '빅데이터 플랫폼' 산업의 구조

'빅데이터 플랫폼(Big Data Platform)'을 구성하는 '하둡(Hadoop)', '맵리듀스(MapReduce)', '스파크(Spark)', '하이브(Hive)' 등 핵심 기술들은 모두 '오픈소스(Open Source)'로 개발 중이며, 글로벌 기업들의 오픈소스 채택 및 활용은 꾸준한 증가세에 있다. 빅데이터 플랫폼 산업의 '후방 산업'은 빅데이터 플랫폼 개발에 사용되는 주요 핵심요소 기술인 소프트웨어 개발 툴·장비 등이 있다. 한편 빅데이터 플랫폼 산업의 '전방 산업'은 'BFSI(Banking, Financial Services, and Insurance)', '제조업', 'IT', '정부', '통신', '운송', '헬스케어', '에너지 및 유틸리티', '소매' 등의 분야이다.

빅데이터 플랫폼 산업	세부
후방 산업	소프트웨어 개발 툴·장비
빅데이터 플랫폼	'하둡(Hadoop)', '맵리듀스(MapReduce)', '스파크(Spark)', '하이브(Hive)' 등
전방 산업	'BFSI(Banking, Financial Services, and Insurance)', '제조업', 'IT', '정부', '통신', '운송', '헬스케어', '에너지 및 유틸리티', '소매' 등

3. '빅데이터'란?

'빅데이터(Bigdata)'란 기존 데이터베이스로 처리할 수 있는 역량을 넘어서는 테라바이트·페타바이트 급 이상의 초대용량 정형·비정형 데이터를 생성·수집·저장·관리·분석하여 가치를 추출하고 서비스의 기반을 지원하는 기술이다. 데이터 수집·저장·처리 등 '빅데이터 플랫폼 운영 기술'과 빅데이터 분석·예측 기술을 활용하여 빅데이터를 활용할 수 있도록 가공한다. 또한 분석한 데이터를 시각화하여 새로운 통찰력과 비즈니스 가치를 창출하는 빅데이터 분석·활용 기술로 분류 가능하다.

빅데이터의 분류	내용
빅데이터 수집·유통	빅데이터 수집·정제·융합·가공
	실시간 ETL/ELT
	데이터 생성·증강
	민간 정보 은닉, 비식별화 및 필터링
	센서·머신 데이터 수집 및 정제
	웹·소셜 데이터 수집 및 정제
	데이터 품질 및 생명주기 관리
	데이터 유통 및 공유
빅데이터 저장·처리·관리	대규모 데이터 분산 저장
	대규모 데이터 분산 처리
	복합 스트림·이벤트 데이터 실시간 처리
	인메모리 기반 실시간 데이터 관리
	운영·분석 통합형 데이터 관리
	데이터 큐레이션 자동화
	가상 데이터 맵 관리
빅데이터 분석·예측	통계 분석 및 데이터 마이닝
	대규모 기계학습·딥러닝
	모델링 및 시뮬레이션
	추론 및 예측 분석
	고속 데이터 스트림 실시간 분석
	계층형 협업 분석
	지시적 분석
	이상치 검출
빅데이터 활용·시각화	데이터 시각화 구성(인포그래픽스)
	데이터 그래픽 프로그래밍 도구
	소셜 데이터 분석 및 응용
	자동화 시설 오류 예측 및 최적화
	이슈 탐지 및 트렌드 예측
	빅데이터 서비스

4. '빅데이터' 처리 과정

빅데이터 플랫폼은 데이터에 대해 수집→저장→처리→분석→시각화 등을 통해 '원시데이터(Raw Data)'로부터 '통찰(Insight)' 및 '가치(Value)'를 추출한다.

4-1. 빅데이터의 수집

빅데이터는 크게 '정형 데이터(Structured Data)'와 '비정형 데이터(Unstructured Data)'로 크게 분류된다. '정형 데이터(Structured Data)'는 주관성이 개입되는 데이터고, '비정형 데이터(Unstructured Data)'는 인터넷과 연계되거나 IoT에 의해 자동적으로 생성되는 데이터다.

데이터의 폭증은 디지털 서비스의 발전에 기인한 것으로 '소셜 네트워크 서비스(SNS: Social Network Service)', '웹 로그(Web Log)' 등 인터넷 데이터를 기반으로 '공장(Factory)', '환경', '자동차(Car)' 등에서 발생하는 '계측(Instrumentation)', '센싱(Sensing)' 등의 기계적으로 실시간성·비정형성 데이터를 양산하고 있는 상황이다. 데이터 수집처는 '정부 영역', '위치 기관 서비스', '금융·경제 영역', 'IoT', '의료' 등의 부문에서 발생하고 있다. '스마트폰(Smartphone)', '웨어러블 기기(Wearable Device)', '자율주행차(Autonomous Vehicle)' 등 향후 인간과 연계된 모든 영역에서 데이터가 생산될 전망이다.

데이터를 수집하는 주요 기술로는 ETL(Extraction, Transformation, Loading)'의 약자이다. 그 외에도 '크롤링 엔진(Crawling Engine)', '로그 수집기(Log Collector)', 'Web Robot', 'IoT 센싱(IoT Sensing)' 등이 있다.

4-2. 빅데이터의 저장

'데이터의 저장 기술'은 단순히 저장만을 목적으로 하는 것이 아니라, 저장된 데이터를 분석할 수 있는 형태로 다시 '로드(Load)'하고 공유하는 측면이 충분히 고려되어야 한다. 정형화된 프레임을 갖춘 '데이터베이스(Data base)'에 순차적으로 데이터를 저장하는 작업은 불가능하다. 또한 정형화된 틀을 적용시키지 않기 위한 다양한 기술들이 개발되고, 특히 추후 Searching 혹은 Query를 위한 사전 작업이 반영된다.

빅데이터를 저장하는 주요 기술로는 '분산 파일 시스템(Distributed File System)', '노에스큐엘(NoSQL)', '비디스크 기반 DBMS(Non-Disk based Data Base Management System)' 등이 있다.

'분산 파일 시스템(Distributed File System)'에는 '하둡 시스템(Haddop System)', '구글 파일 시스템(Googel File System)', '아마존 S3 파일 시스템(Amazon S3 File System)' 등이 대표적이다. NoSQL의 대표적 사례로는 '키값 모델 기반(Dynamo, Membase)', '열 기반(Bigtable, Hbase, Cassandra)', '문서 기반(CouchDB, MongoDB)' 등이 있다. '분산 메인 메모리 기반 DBMS로는 SAP HANA와 VoltDB가 대표적이며, 플레시 메모리 활용 '데이터 베이스 관리 시스템(DBMS: Data Base Management System)'는 Oracle Smart Flash Cache 등이 대표적이다.

4-3. 빅데이터의 처리

'빅데이터의 처리 기술' 저장된 빅데이터에 대해 수요 발생시 적시에 가공하고 분석을 지원하는 기술이다. 데이터 처리를 위해서는 '실시간 처리(Real Time Processing)', '분산병렬 처리(Distributed Parallel Processing)', '인-메모리 처리(In-Memory Processing)', '인-데이터베이스 처리(In-Database Processing)' 등의 방법이 있다.

주요 기술로는 '구글(Google)'의 '맵리듀스(Map Reduce)', '하둡(Hadoop)'의 '맵리듀스', '마이크로소프트(Microsoft)'의 Dryad 등이 있다. 처리 프로그래밍 기술로는 '구글(Google)'의 Sawzall, '하둡(Hadoop)'의 Pig, '어파치 하이브(Apach Hive)' 등이 있다.

4-4. 빅데이터의 분석

'빅데이터 분석 기술'은 저장되어 있는 빅데이터에서 잠재된 가치와 통찰력을 추출하기 위한 기술이다. 전통적인 통계적 분석을 중심으로 변량들의 '특징', '연관관계', '인과관계' 등을 도출하고 사고할 수 있는 틀을 제공한다. 분석의 수준은 분석을 진행하는 연구자에 의해 크게 좌우되며, 분석의 적절한 방향 설정이 알맞게 되어야 명료한 분석 결과 도출이 가능하다. 주요 방법론으로는 '전통적 통계 분석', '데이터 마이닝(Data Mining)', '연관 분석(Association Analysis)', 'SNS 분석(SNS Analysis)' 등이 있으며, 지속적으로 급격한 발전을 이루는 분야이다.

4-5. 빅데이터의 시각화

시각적으로 표현된 자료는 감각적으로 인식하면서 정보에 대한 빠른 수용과 이해도 제고가 가능하다. 특히 '시계열(Time Series, 시간의 흐름에 따라 기록된 것)'적인 요소가 있는 데이터에 대해 시간에 따른 데이터의 변화를 보여줄 경우, 매우 유용한 정보의 획득이 가능하다. '주관적인 판단의 제거', '왜곡 없는 객관성 확보', '부차적인 인지 과정' 없이 추론하는 것이 데이터 분석 기반 하에 추구하는 형태이다. 시각화의 주요 분야로는 전통적인 통계 결과의 그래픽 처리뿐만 아니라, 'Web Log 시각화', 'SNS 시각화', '지도 시각화' 등이 있다.

'데이터 시각화(Data Visualization)'의 주요 도구로는 'Timeline', 'Modestmaps', 'Leafletjs', 'Wolframalpha', 'Visualizefree', 'd3js' 등이 있다.

5. 하둡(Hadoop)

오픈소스 '하둡(Hadoop)'은 빅데이터 활용을 가능하게 만든 빅데이터 플랫폼의 핵심기술이자 사실 표준이기에, 빅데이터의 이해는 결국 '하둡 생태계(Hadoop Ecosystem)'의 이해로 귀결된다. '하둡(Hadoop)'은 High-Availability Distributed Object-Oriented Platform의 약자로, '자바(JAVA)' 기반 프레임워크로서 대용량의 데이터를 여러 개의 저장소에서 분산 처리하는 방식을 대표하는 기술이다.

'하둡'은 빅데이터를 저장하는 분산파일 시스템 'HDFS(Hadoop Distributed File System)'과 분산병렬 처리하는 '맵리듀스(MapReduce)' 모듈로 구성된다. 이 두 모듈은 오픈소스로서 비전문가들이 빅데이터를 활용하기에는 어려움이 많았고, 하둡은 빅데이터 저장과 처리의 기본적인 기능만 제공한다. 때문에 부족함을 보완하는 다양한 오픈소스 소프트웨어들이 필요하게 되어 '데이터의 통합', '데이터의 이동', '애플리케이션 매니지먼트(Application Management)', '시스템 매니지먼트(System Management)' 등을 위한 지원 SW가 하둡 프로젝트의 일환으로 개발되었다. 하둡 지원 서비스 프로그램은 빅데이터의 수집·저장·활용·처리·관리 등을 데이터 처리와 관련된 모든 영역을 대상으로 개발이 진행 중이다. 아래의 표는 하둡의 기능을 보완하는 오픈소스 프로그램들을 표로 정리한 것이다.

분류	주요 기술	빅데이터 기술별 주요 기능
스트리밍 데이터 수집	Flume	비정형 데이터 수집
		칼라우데라에서 개발, 아파치 인큐베이션에 포함됨
	Scribe	비정형 데이터 수집 플랫폼
		중앙 집중 서버로 전송하는 방식, 페이스북에서 개발
	Chuckwa	비정형 데이터 수집 플랫폼으로, HDFS에 분산 데이터를 저장
정형 데이터 수집	Sqoop	정형 데이터 수집
		관계형 DB로부터 데이터 가져오기
		HDFS, NoSQL 등 다양한 저장소에의 전송 지원
	Hiho	대용량 정형 데이터 수집 및 전송 솔루션
분산 데이터베이스	Hbase	분산 데이터베이스
		HDFS 기반의 컬럼 기반 NoSQL 데이터베이스, 구글의 BigTable 논문을 기반으로 개발됨
		'야후(Yahoo)', '트위터(Twitter)' 등이 사용하며, 국내 NHN도 라인에 적용
	Cassandra	오픈소스 분산 데이터베이스 관리 시스템
		컬럼 중심 DB와 행 중심 DB의 복합형
		NoSQL의 하나
실시간 SQL 질의	Impala	하둡 기반의 실시간 SQL 질의 시스템
		'클라우데라(Cloudera)'에서 개발
		'맵리듀스(MapReduce)'로 처리하지 않고, 자체 개발한 엔진 사용
	Tajo	한국의 대학생들이 주도하여 개발한 하둡 기반의 DW 시스템
		2013년 아파치 재단의 이큐베이션 프로젝트로 선정
메타 데이터 관리	HCatalog	빅데이터 메타 정보 관리
데이터 분석	Hive	하둡 기반의 데이터웨어하우징용 솔루션
		유사 SQL 기반의 빅데이터 처리
		페이스북에서 개발하여 오픈 소스로 공개
	Pig	데이터 분석
		MapReduce 대신 자체 언어 Pig Latin 제공
인메모리 처리	Spark	오픈소스 클러스터 컴퓨팅 프레임워크
		UC 버클리 AMPLab에서 처음 개발함
데이터 마이닝	Mahout	데이터 마이닝
		하둡 기반의 오픈 소스
워크플로우 관리	Oozie	빅데이터 처리 과정 관리
		하둡 작업을 관리
분산 코디네이터	Zookeeper	빅데이터 서버 시스템 관리
		분산 환경 서버들 간의 상호 조정 서비스
직렬화	Avro	'RPC(Remote Procedure Call)'과 '데이터 직렬화'를 지원하는 프레임워크
리소스매니저	YARM	리소스 관리 플랫폼
		분산 컴퓨팅 환경 제공
		클러스터 내 컴퓨팅 자원 관리
		사용자의 애플리케이션 스케줄링 사용 관리

5-1. 하둡의 단점으로 본 빅데이터 플랫폼의 기술적 한계

'하둡(Hadoop)'에는 몇 가지 한계가 존재하고, 이는 고스란히 빅데이터 플랫폼의 제약 사항으로 되고 있다. 주요한 몇 가지를 언급하면 다음과 같다.

실시간 데이터 처리 한계: 하둡은 일정 기간 수집된 자룔르 대상으로 '일괄처리(Batch)' 방식으로 데이터를 처리하기 때문에 '실시간 데이터 처리', '실시간 데이터 조회'가 안된다.
다양한 데이터 처리 한계: 대규모 계산, 데이터 간 통신 및 무결성 보장이 필요한 복잡한 연산 등은 처리하기 힘들다.
다수의 작은 파일 관리 어려움: 하둡 설정으로 변경할 수 있으나, 64메가 바이트 이하의 작은 파일 저장 시 효율적인 데이터 관리와 처리가 어렵기 때문에, 작은 파일들은 큰 파일로 합쳐서 저장해야 한다.
비효율적인 데이터 백업 관리: 3개의 복제본 파일 관리 방식으로 디스크 공간 낭비와 파일 저장에 낮은 성능을 보인다. '스냅샷(Snapshot)' 방식, '재해복구 시스템(Disaster Recovery System)' 등의 고급 백업을 지원하지 않는다.
단일 고장점 존재: '단일 고장점(SPoF: Single Point of Failure)'은 시스템 구성 요소 중에서 동작하지 않으면 전체 시스템이 중단되는 요소를 말한다. '하둡'에서는 저장된 파일의 위치와 이름 등의 메타 정보를 관리하는 마스터 서버가 이중화 구성을 지원하지 않는다. 따라서 마스터 서버 장애 발생 시 하둡 전체 시스템이 중단될 수 있다. 다만, 마스터 서버 장애에 대한 수동 복구는 가능하다.
높은 기술적 숙련도 필요: 빅데이터를 처리하기 위해서는 데이터 처리 '로직(Logic)'을 맵리듀스(MapReduce)' 처리 방식에 알맞도록 변환하고 프로그램을 개발해야 한다. 그런데 이는 해당 업무 지식 뿐 아니라, 하둡에 대한 높은 기술적 숙련이 요구된다. 오픈소스 활용 시 기술지원, 유지보수를 스스로 해결해야 하며, 하둡 전문인력 확보가 필요하다.

6. 빅데이터 플랫폼 기술 발전 전망

빅데이터 플랫폼의 미래는 다음과 같은 방향으로 진화할 것이다.

인프라 구축이 진행됨에 따라 저장·처리 영역보다는, '분석과 가치 창출을 지원하는 SW', '애플리케이션 영역의 기술 개발', '제품 출시 중요성'이 확대되고 있다. 하둡 기반의 저장과 전달에 치중되어 있었던 빅데이터 기술 개발은 '가치창출을 위한 인 메모리 처리', '하둡의 개선' 등으로 'R&D(Research & Development)' 핵심이 변화되는 중이다. 데이터로부터 의미 있는 가치를 쉽게 도출하기 위해, 분석자 중심으로 분석 SW와 시각화 툴이 지속적으로 발전하고 있는 상황이다.

또 데이터의 수집부터 시각화까지의 모든 단계를 포괄하는 범용적인 플랫폼의 개발이 확대될 전망이다. 특화된 데이터에 대한 순차적 처리가 가능한 플랫폼에 대한 수요도 확대될 전망이다. '의료 기록 분석', '환경 모니터링', '범죄 현황 분석', '무인자동차 자료 분석' 등과 같이 특정 영역에서 발생하는 빅데이터에 대해 특화된 분석을 지원하는 플랫폼이 발전 추세이다. 또한 특화된 영역의 빅데이터 플랫폼은 신규 데이터와의 '연계성 확대', '기계학습(Machine Learning)' 등의 자동화 기술과 연계되면서, 분석의 다양성이 확대될 것으로 전망된다.

향후 빅데이터 기술의 성공은 '분석 단계'에서의 기계학습, AI와 연계하여 실시간으로 의사결정 지원 등의 가치를 창출할 수 있는 기술 역량이 가장 중요한 성공 요인으로 등장할 전망이다. 데이터의 '입력', '탐색', '분석', '표현', '출력' 등을 AI 영역이 담당하면서, 핵심적인 인간의 역할 없이 사용자를 이해하고 최적 맞춤형 가치의 창출·제공이 가능해진다는 점이 큰 차별성 발생 요인이다. '과학기술', '기초과학' 영역에서 발생하는 빅데이터 분석은 데이터의 방대함과 함께 '컴퓨팅 역량', 분석 알고리즘 고도화를 위해 '고성능 컴퓨팅(HPC: High-Performance Computing)', '컴퓨터 사이언스(Computer Science)', '기초과학과의 연계'가 필요하다.

6-1. '빅데이터 플랫폼' 경쟁력 확보를 위해

'빅데이터(Big Data)'와 '빅데이터 플랫폼(Big Data Platform)'은 아직 인프라 구축과 데이터를 효율적으로 축적하는 기술 발전에 머무르고 있다고 평가되고 있다. 하둡 기반의 빅데이터 인프라가 여전히 사용자 범용성을 갖지 못하고, 엔지니어의 역할이 중요한 비중을 점유하고 있는 상황이다. 빅데이터를 대표하는 기술인 '하둡(Hdoop)'은 현재 하둡 생태계를 이룰 정도로 유관 기술 개발이 적극적으로 진행되고 있으나, 비엔지니어들이 하둡 자체를 활용하기에는 기술적 난이도가 있어 활용에 어려움이 존재한다.

'빅데이터 플랫폼 생태계(Big Data Platform Ecosystem)'는 강자가 많지만 약자도 없는 형국이다. 오픈소스 기반의 플랫폼 기술 성장으로 전통적인 '클라우드(Cloud)' 기업뿐만 아니라, 수요자 중심의 '커스터마이징(Customizing)'화된 S/W를 제공하는 중소 벤처기업들도 시장에서 성장할 수 있는 경쟁 구도이다.

한국이 빅데이터 플랫폼의 경쟁력 확보를 위해서는, 데이터 강국으로 진입하기 위한 '공개', '공유', '수집' 기반을 조성하는 것이 중요하다. '오픈소스(Open Source)' 역량 확보를 위한 사회적 분위기를 마련하고, '행정', '의료', '재난', '환경', '교육' 등의 정보를 효율적으로 저장·분석 가능한 빅데이터 플랫폼으로 전환 구축할 필요가 있다. 공공·복지 서비스 제공에 필요한 국내 공공 정형·비정형 데이터를 통합 관리할 수 있는 '통합 플랫폼의 개발' 및 '커스터마이징된 서비스' 구현'이 요구되고 있다. 또한 일반 사용자가 쉽게 활용할 수 있는 오픈소스 기반 빅데이터 분석 Tool도 한국형으로 개발하고, 이를 기반으로 공공 빅데이터 플랫폼의 역량을 제고할 필요가 있다.

7. '빅데이터 플랫폼' 관련 기업

'빅데이터 플랫폼(Big Data Platform)' 기업들은 빅데이터가 극복해야 하는 '실시간 처리', '메모리 기반 처리', '쿼리의 용이성', '다양한 파일 시스템 접근성' 등의 문제점을 해결하는 전략을 추진하며 기업 생태계를 형성하고 있다. 빅데이터 플랫폼을 구현하는 기업은 '토털 솔루션(Total Solution)'을 제공하는 경우와, '특정 영역의 솔루션' 중심으로 제공하는 경우로 구분할 수 있다.

7-1. 아마존(AMAZON)

국적: 미국

'아마존(Amazon)'은 '제프 베조스(Jeff Bezos, 1964~)'가 1994년 미국 시애틀에 설립한 전자상거래를 기반으로 한 IT 기업으로, 정자상거래 이외에도 '클라우드 서비스(Cloud Service)'인 '아마존 웹 서비스(AWS: Amazon Web Service)'를 제공하고 있다. '아마존 웹 서비스(AWS)'는 전 세계적으로 분포한 데이터 센터에서 165개가 넘는 완벽한 기능의 서비스를 제공하는 클라우드 플랫폼이다. '아마존 웹 서비스(AWS)'는 '컴퓨팅(Computing)', '스토리지(Storage)', 'DB 네트워크', '콘텐츠 전송' 등의 모든 영역에서 광범위한 제품을 보유하고 서비를 제공하고 있다. 음성인식 기반의 인공지능 비서 '알렉사' 서비스를 제공하고 있으며, '빅데이터', '유통', '인공지능' 등읜 전체 영역에서 자체적인 생태계를 구축하였다.

7-2. IBM

국적: 미국

'IBM'은 기업용 솔루션을 제공하는 업체로서, IBM의 빅데이터 플랫폼은 'Data 관리 및 웨어하우스', '하둡 시스템(Hadoop System)', '스트림 컴퓨팅', '컨텐츠 관리', '정보 통합 및 거버넌스' 등의 세부 플랫폼으로 구성된다. 세부 솔루션으로 'InfoSphere BigInsight(데이터를 발견·분석·시각화하기 위한 소프트웨어 플랫폼)', 'Stream(다양한 유형의 데이터에 대한 실시간 분석)', 'Netezza(빠른 데이터 처리)', 'Smart Analytics System(분석 소프트웨어)' 등을 개발·제공하고 있다. IBM은 빅데이터 플랫폼에 의지하기보다는, 자사가 개발 보유한 인공지능 '왓슨(Watson)'을 기반으로 빅데이터와 인공지능을 결합한 빅데이터 분석을 표방하며 타사와는 다른 전략적 포지셔닝을 구축 중이다.

7-3. 마이크로소프트(Microsoft)

국적: 미국

'마이크로소프트(Microsoft)'의 Azure는 2010년에 시작된 클라우딩 컴퓨팅 플랫폼이다. 2011년 'PaaS(Platform as a Service)'에 이어, 2013년에 'IaaS(Infrastructure as a Service)'를 시작하였고, '아마존 웹 서비스(AWS)' 등과 경쟁하고 있다. 다양한 오픈소스를 지원하며, '데이터 분석(Data Analytics)', '기계학습(Machien Learning)' 등의 기능을 지원하고 있다. 또 Azure IoT Suite를 통해 IoT를 손쉽게 구현할 수 있는 것으로 평가받는다.

7-4. 오라클(Oracle)

국적: 미국

'오라클(Oracle)'은 1997년에 '래리 앨리슨(Larry Ellison, 1944~)'이 설립한 미국의 대표적인 소프트웨어 회사로, 캘리포니아 실리콘밸리 '레드우드 시티(Redwood City)'에 본사를 두고 있다. 오라클 빅데이터 플랫폼은 '클라우드 서비스(Cloud Service)', '빅데이터 SQL 클라우드 서비스(Big Data SQL Cloud Service)', '오라클 빅데이터 어낼리틱스 솔루션(Oracle Big Data Analytics Solution)' 등 데이터의 수집·분석·시각화까지 지원한다.

7-5. 구글(Google)

국적: 미국

'구글 클라우드 플랫폼(Google Cloud Platform)'은 구글의 데이터 센터 인프라를 기반으로 '컴퓨팅(Computing)', '스토리지(Storage)', '네트워킹(Networking)', '빅데이터(Big Data)', '머신러닝(Machine Learning)' 등의 서비스를 제공하고 있다. '구글 클라우드(Google Cloud)'의 특징으로는 '빅데이터'와 '머신러닝 서비스', 구글 전용 네트워크를 이용한 '글로벌 커버리지(Global Coverage)', '저렴한 가격 모델' 등이다.

7-6. 인텔(Intel)

국적: 미국

'인텔(Intel)'은 1968년 7월에 설립된 미국의 다국적 기업으로, 반도체의 설계와 제조 사업을 영위하고 있다. '인텔(Intel)'은 2014년 기존 자체 'IDH(Intel Distribution Including Apache Hadoop)'과 'IDP(Integrated Data Platform)' 소프트웨어 개발을 포기하고, '클라우데라의 하이브리드 오픈소스 아파치 하둡 배포판(CDH: Cloudera Distribution Including Apache Hadoop)'의 시장 확보를 지원하는 쪽으로 빅데이터 전략의 방향을 틀었다.

7-7. 시스코(Cisco)

국적: 미국

'시스코(Cisco)'는 '네트워킹 하드웨어', '보안 서비스' 등을 제공·판매하는 미국의 다국적 기업으로, 미국 캘리포니아주 '새너제이'에 소재하고 있다. '시스코(Cisco)'의 'CPA(Common Platform Architecture)'는 '하둡(Hadoop)' 기반의 빅데이터 어플라이언스 플랫폼으로서, '클라우데라(Cloudera)', 'Hortonworks', 'MapR', 'Intel Hadoop' 등을 고객이 선택할 수 있도록 하여, 타사 대비 상대적으로 개방적인 접근을 선택하였다.

7-8. GE(General Electric)

국적: 미국

'제너럴 일렉트릭(GE: General Electric)'은 '토머스 에디슨(Thomas Alva Edison, 1847~1931)'이 1878년에 설립한 전기조명 회사를 모체로 성장한 세계 최대의 글로벌 인프라 기업이다. '전력(Electricity)', '항공(Aviation)', '헬스케어(Healthcare)', '운송(Transportation)' 등의 분야에서 사업을 하고 있다. GE의 '프레딕스(Predix)'는 산업 인터넷용 응용 애플리케이션의 개발을 지원하는 산업용 IoT 소프트웨어 플랫폼으로, 여러 산업에서 사용하고 있는 GE의 '제트엔진(Jet Engine)', '가스 터빈(Gas Turbine)', 'MRI 스캐너(MRI Scanner)' 등의 센서를 통해 데이터를 수집·분석하고 이를 통해 운영 최적화를 달성할 수 있다. 2015년에는 모든 기업에 '프레딕스(Predix)'를 전면 개방함으로써 산업용 앱 생태계를 구축하였다.

7-9. 맵알(MapR)

국적: 미국

'맵알(MapR)'은 2009년에 창립되었으며, 미국 캘리포니아주 산타클라라에 본사를 두고 있다. MapR은 '클라우데라(Cloudera)', '호튼웍스(Hortonworks)' 등과 함께 글로벌 3대 '하둡(Hadoop)' 전문 기업으로 평가받는 회사로, 주력 제품은 '맵알 컨버지드 데이터 플랫폼(MapR Converged Data Platform)'이다. '맵알 컨버지드 데이터 플랫폼(MapR Converged Data Platform)'은 크게 3가지 컴포넌트로 구성된다. 'MapR-FS 파일 시스템(MapR-FS File System)', 'NoSQL 스타일의 문서 데이터베이스', '아파치 카프카 호환 이벤트 스트리밍 엔진'이다. '맵알(MapR)'은 IoT 시장에 대응하기 위해 Edge 플랫폼의 강화 전략을 추진하여, 2017년 11월에 소형 데이터 플랫폼 '맵알 엣지(MapR Edge)'를 기존 '컨버지드 데이터 플랫폼(Converged Data Platform)에 추가하였다.

7-10. 클라우데라(Cloudera)

국적: 미국

'클라우데라(Cloudera)'는 기업 고객들에게 '아파치 하둡(Apache Hadoop)'과 '아파치 스파크(Apache Spark)' 기반 소프트웨어를 제공하는 미국의 소프트웨어 기업이다. '클라우데라(Cloudera)'는 2019년 1월 최대 경쟁사인 '호튼웍스(Hortonworks)'와의 합병을 통해 최대 빅데이터 분석 기업으로 성장하였다. '클라우데라'는 새로운 스트리밍 데이터 플랫폼인 '클라우데라 데이터 플랫폼(CDP: Cloudera Data Platform)'을 출시하였다. 2019년에 '멀티 클라우드(Multi Cloud)' 버전을 출시하였고, 2020년 6월에는 '프라이빗 클라우드(Private Cloud)' 버전을 선보였다.

7-11. 데이터스택스(DataStax)

국적: 미국
설립: 2010년 4월

'데이터스택스(DataStax)'는 클라우드 애플리케이션용 데이터베이스 SW 전문 업체로, 미국 캘리포니아주 산타클라라에 본사를 두고 있다. '데이터스택스'는 '아파치 카산드라(Apache Cassandra)'의 상용화 버전을 개발하고 있다. '카산드라(Cassandra)'는 확장 가능한 오픈 소스 NoSQL 데이터베이스로, 여러 '데이터 센터(Data Center)'와 '클라우드(Cloud)'에서 대량의 데이터를 관리할 수 있다.

7-12. 인포매티카(Informatica)

국적: 미국
설립: 1993년

'인포매티카(Informatica)'는 데이터 통합·관리 SW 업체로서, 미국 캘리포니아주 레드우시티에 본사를 두고 있다. 'Informatica PowerCenter Big Data Edition은 시각적 개발 환경을 사용하여 '하둡(Hadoop)'에서 기본적으로 실행되는 'ETL(Extraction, Transformation, Loading)' 데이터를 구축하는 기업용 데이터 통합 SW로 널리 사용된다.

7-13. VMware

국적: 미국

VMware는 'VM웨어 워크스테이션(VMware Workstation)'과 프리웨어 제품인 'VM웨어 서버(VMware Server)'와 'VM웨어 플레이어(VMware Player)'를 포함한 x86 호환 컴퓨터를 위한 가상화 소프트웨어를 공급하고 있다. VMware는 고객사가 AWS나 MS의 '애저(Azure)', 'IBM 클라우드' 등의 클라우드에 종속되지 않고 종류와 상관없이 쓸 수 있도록 할 수 있는 '크로스 클라우드 아키텍처(Cross Cloud Architecture)'를 개발하였다. VMware Cloud Management Platform은 이기종 '하이브리드 클라우드(Hybrid Cloud)'를 관리하기 위한 솔루션을 제공한다.

7-14. SAP

국적: 독일

SAP는 1972년에 독일에서 다섯 명의 전직 IBM 출신 엔지니어가 설립한 세계 최대의 기업용 SW 업체로 주로 '기업 자원 관리(ERP: Enterprise Resource Planning), '고객 관계 관리(CRM: Customer Relationship Management)'를 주력으로 서비스하고 있다. SAP는 차기 주력시장으로 '빅데이터 분석(Big Data Analysis)'을 지목하고, 현재 '빅데이터(Big Data)', '사물인터넷(IoT)', '머신러닝(Machine Learning)'을 활용할 수 있는 'SAP 클라우드 플랫폼(SPA Cloud Platform)'을 제공하고 있다. '클라우드 플랫폼(Cloud Platform)'은 S/4 HANA, SAP SuccessFactor, SAP Ariba, SAP Fieldglass 및 Concur 등의 핵심 제품군을 지원하고 있다.

7-15. NHN다이퀘스트

국적: 한국

'NHN다이퀘스트(NHN Diquest)'는 2000년 '다이퀘스트(Diquest)' 사명으로 창립된 '인공지능(AI)', '빅데이터(Big Data)' 소프트웨어 개발 및 공급 업체이다. NHN엔터테인먼트와 전략적 제휴 협약을 맺고 지분 인수 과정을 거쳐 2017년에 NHN 계열사로 편입되었고, 2019년에 'NHN다이퀘스트' 사명으로 변경하였다. 'NHN 다이퀘스트'는 '자연어 처리(NLP)' 핵심 원천 기술을 기반으로 빅데이터의 '수집', '정규화(분류·정제·추출)' 과정을 거쳐 검색·대화·분석·추론 등의 서비스까지, 빅데이터 지능화 처리의 모든 단계에 관한 솔루션과 시스템 구축 역량을 보유하고 있다. 2018년에는 빅데이터 분석 플랫폼 '디플랫폼(DPlatform)'을 출시하였다. '디플랫폼'은 내부·외부 데이터를 수집한 기초 분석을 통해 의미 정보를 추출하고, 심층 분석을 통한 '통계적 분석'과 '모형 모델링'으로 '머신러닝 알고리즘(Machien Learning Algorithm)'을 적용하여 다양한 분석 인사이트를 도출한다. 도출된 인사이트는 전문가 Tool 연계와 인공지능 챗봇과 연계할 수 있도록 확장하여 설계할 수 있는 아키텍처로 구성된다.

7-16. 데이터 스트림즈

국적: 한국

'데이터 스트림즈(DataStreams)'는 '이노베이티브 데이터 솔루션즈(IDS: Innovative Data Solutions)'로 설립되어 2018년에 '데이터 스트림즈'로 사명을 변경하였다. '데이터 스트림즈'는 '데이터 통합·분석', '데이터 거버넌스(Data Governance)' 등 데이터 관리 전 영역에 대한 '솔루션(Solution)', '컨설팅 서비스(Consulting Service)', '플랫폼(Platform)'을 제공하고 있다. 'TeraONE™'은 전체 데이터 통합과 거버넌스 과정을 커버하는 '빅데이터 플랫폼(Big Data Platfom)'이다. 데이터를 추출하여 '데이터 레이크(Data Lake)' 및 '하둡(Hadoop)'으로 적재해 '오류 수정·처리', '모니터링(Monitoring)' 등이 가능하도록 지원한다.

7-17. 야인소프트

국적: 한국
설립: 2001년 3월

'야인소프트(YainSoft)'의 '옥타곤(Octagon)' 아키텍처는 'Octagon BI Server', 'Octagon EOS Admin', 'Octagon Cube Browser', 'Octagon Viewer', 'Octagon Converter'로 구성되어 있다. Octagon BI Platform'은 In-Memory OLAP 엔진을 기반으로 메모리상에 다차원 큐브를 실시간 생성하여 다차원 분석을 하는 통합된 BI Platform으로, 타 BI 솔루션보다 빠른 데이터 분석력과 원데이터 변경에 대해서도 유연한 대응력을 제공하는 특징이 있다. In-Memory 분석 및 '가상 큐브 관리 기술(공유/재사용/재활용/Merge/Collection 등)'은 '옥타곤(Octagon)'만 보유하고 있는 특화된 기술이다.

7-18. NHN ACE

국적: 한국

'엔에이치엔 에이스(NHN ACE)'는 NHN의 '디지털 마케팅(Digital Marketing)' 자회사로 '웹/앱 분석(Web/App Analytics)', '데이터 관리 플랫폼(DMP: Data Management Platform)', 'AD eXchange', 'DSP 광고 마케팅 효율 분석', '광고 입찰 시스템' 등 고객 니즈를 반영 등 고객 니즈를 반영한 빅데이터 기반 '통합 마케팅 플랫폼'을 제공하고 있다. NHN ACE에서 제공하는 디지털 마케팅 플랫폼 서비스로는 ACE Trader, ACE Counter, ACE DMP, ACE eXchange 등이 있다.

구분	내용
ACE Trader	데이터 기반 퍼포먼스 광고 플랫폼: 국내 광고주에 최적화된 플랫폼으로, 웹, 앱 광고 서비스를 통해 다양하고 정교한 타겟팅 제공
ACE Counter	웹/앱 로그 분석 플랫폼: 보다 쉽고 정교한 웹/앱 분석을 통해 사이트 방문자의 행동을 명확한 데이터로 보여줌.
ACE DMP	데이터 관리 플랫폼: 즉시 타겟팅이 가능한 풍부한 웹/앱 오디언스 데이터 수집 관리를 통한 종합 마케팅 서비스를 제공.
ACE eXchange	디지털 광고 마켓팅 플레이스: 웹, 앱 등의 매체와 영역의 특성에 맞게 최적화하여 매출 극대화를 가능하게 함.

7-19. LG CNS

국적: 한국

LG CNS는 '컨설팅', '시스템 통합' 등 IT 서비스를 공급하는 LG 그룹 계열의 정보기술 솔루션 및 아웃소싱 전문 기업이다. LG CNS는 2017년 8월 '멀티 클라우드(Multi Cloud)' 기반 AI 빅데이터 플랫폼 '답(DAP: Data Analytics & AI Platform)'을 출시하였다. DAP은 '머신러닝(Machine Learning)', '딥러닝(Deep Learning)' 기반의 모델 빠르게 학습하고 쉽게 만들 수 있을 수 있도록, 데이터의 수집부터 모델 베포까지 End-to-End로 지원하는 '엔터프라이즈(Enterprise)'급 관리형 플랫폼이다. 다양한 종류의 정형/비정형 '데이터 수집', '전처리', '고급 분석', '시각화'까지 필요한 모든 개발 및 분석 환경을 제공한다.

7-20. 위세아이텍

국적: 한국

'위세아이텍'은 1990년 설립된 빅데이터 전문 기업으로 '머신러닝(Machine Learning)', '빅데이터 분석(Big Data Analysis)', '데이터 품질' 시장을 주도하고 있다. '위세아이텍'은 머신러닝 자동화 도구를 활용한 예측에서부터 데이터 분석·관리·개방에 특화된 솔루션을 보유하고 있다. WiseIntelligence™는 199년 국내 첫 출시된 'BI 솔루션(Business Intelligence)'으로 탐색적인 데이터 분석부터 WiseProphet™과 융합한 예측·분류를 위한 '머신러닝(Machine Learning)'까지 지원하며 WiseOpen™은 기관에서 보유한 다양한 데이터에 대하여 발굴·수집·개방·활용의 공공데이터 개방 Life-Cycle을 지원하는 최적의 플랫폼이다.

7-21. 케이티넥스알(KT NexR)

국적: 한국

'케이티넥스알(KT NexR)'은 KT 계열의 '빅데이터 플랫폼 솔루션(Big Data Platform Solution)' 전문 기업으로, 빅데이터 글로벌 표준 기술인 '하둡(Hadoop)'에 있어 국내 최고 수준의 기술력을 보유하고 있다. 이를 기반으로 개발된 빅데이터 플랫폼 'NDAP™(kt NexR Data Analytics Platform)'은 수집·처리·저장·분석 등을 모두 제공하는 '빅데이터 플랫폼(Big Data Platform)'이다. NDAP™은 고객이 편리하고 비용 효율적으로 빅데이터 시스템을 구축하고, 데이터를 분석하는데 필요한 모든 기능을 제공한다.

7-22. 클루닉스(Clunix)

국적: 한국

'클루닉스(Clunix)'는 '슈퍼 컴퓨팅(Super Computing)' 관련 솔루션을 개발하는 기술기업으로, 2000년 1월, 서울대학교 컴퓨터공학부 대학원 출신 석박사 연구원 7명에 의해 설립되었다. 주요 사업 분야는 '클라우드 컴퓨팅(Cloud Computing)' 사업 분야와 '슈퍼 컴퓨팅(Super Computing)' 솔루션 분야이다. '클루닉스'는 2007년 SKT의 요구로 국내 최초의 '하둡(Hadoop)' 기반 통신 빅데이터 시스템을 구축하였다. 시스템을 구축한 이래, G-PAS라는 빅데이터 저장 및 분석 시스템을 개발 공급하고 있다.

7-23. 티맥스데이터(TMaxData)

국적: 한국
설립: 2003년

'티맥스데이터(TMaxData)'는 '데이터 베이스 관리 시스템(DBMS: Data Base Management System)' 개발을 주요 사업으로 영위하고 있다. '티맥스데이터(TMaxData)'사의 '빅데이터 플랫폼(Big Data Platform)'은 데이터의 수집부터 활용까지 전체 영역에 대해 클라우드 기반의 고확장·고성능을 지향하는 아키텍처를 가지고 있다. '티맥스데이터'의 '빅데이터 플랫폼'의 주요 특장점은 다음과 같다.

빅데이터 수집부터 분석, 시각화 및 인프라 관리까지 단일 솔루션으로 처리 가능한 플랫폼
하둡 연동으로 HDFS 저장 및 추출이 가능하도 하둡 통합 분석 기능 제공
고성능 확장형 통합 Loader
데이터 가상화를 통해 다중 데이터 소스를 통합하고 이를 통해 데이터 조회 및 조작의 편의성 제공
강력한 쿼리 엔진을 통해 사용자가 손쉽게 사용할 수 있는 SQL을 제공하고 DBMS 엔진이 내장되어 고성능 처리를 보장
Flow 엔진으로 편리하게 데이터를 추출하거나 처리할 수 있으며, 유연한 데이터 분석 설계가 가능
클라우드 환경을 기반으로 하여 탄력적이고 유연한 자원 관리 및 무한 확장성 제공

ABOUT ME