데이터 통합에 있어서 기존의 물리적으로 데이터를 복제하는 방법이 아니라, 실시간으로 데이터를 통합하는 데이터 가상화 솔루션인 JDV(JBoss Data Virtualization)을 소개합니다.
기업이 데이터 활용을 고도화해야하는 것에는 이견이 없을 것입니다. 하지만 데이터스스는 다양한 비즈니스 애플리케이션에 분산되어 있습니다.
지금까지 개별 업무 단위로 시스템을 구축하는 경우가 많았고, 덕분에 물리 데이터베이스 숫자는 수십개에서 수백개 까지 늘게 되었습니다.
이러한 기업 내의 흩어져있는 데이터는 비즈니스 속도를 늦추는 원인 중 하나입니다.
IT의 발전과 더불어 유연하게 다양한 목적의 데이터 통합에 대한 필요성은 높아지고 있습니다.
최근에 데이터통합요구는 전통적인 BI 툴 뿐만 아니라 모바일 디바이스의 확산, 다양한 경영지표 ( KPI) 의 실시간 보고, 서비스로서의 데이터 제공 등으로 확대되고 있습니다.
또한 기업 내 시스템과 클라우드 서비스가 혼합된 기업 시스템에서 데이터 관리는 더욱 복잡하고 관리가 어려워지고 있습니다.
JBoss Data Virtualization 이란?
JBoss Data Virtualization 은 분산되어 있는 물리 데이터베이스를 가상으로 통합하고 최신 데이터를 실시간으로 활용할 수 있도록 환경을 구축하는 데이터 가상화 제품입니다.
아래의 그림에서 가운데 있는 데이터 가상화 소프트웨어는 데이터의 물리적 이동없이 많은 외부 소스의 데이터에 신속하고 직접 액세스 할 수있는 데이터 추상화 계층을 제공합니다.
JBoss Data Virtualization 을 도입하면 여러 데이터베이스에서 필요한 데이터를 추출하여 사용자가 요구하는 데이터 모델을 가상 뷰로 즉시 생성해서 제공합니다.
즉 다수의 이기종 소스의 데이터에 액세스하여 결합, 연계하여 가상 뷰 또는 가상 데이터베이스를 만들 수 있습니다.
이럴 때는 데이터 가상화를 고려해 보세요.
빅데이터 도입으로 인한 기존 RDB 와의 데이터 통합 요구
데이터베이스의 성능 저하와 대량 데이터 처리를 위하여 새로운 기술을 기반으로 하는 빅데이터나 NoSQL , 데이터그리드로 구축된 데이터소스들을 기존 데이터베이스 시스템들과 어떻게 통합할수 있을까요?
바로 JDV ( JBoss Data Virtualization) 이 데이터 통합에 대한 확실한 답이 될 수 있습니다.
물리적인 데이터 이동이나 변환 없이도 실시간 데이터 통합이 가능합니다.
기존의 ETL 이나 SOA 가 아닌 데이터통합의 대안이 필요할때
- 기존에는 다른 시스템에 있는 데이터가 필요한 경우에 데이터 파일 전송이나 SOA 를 통한 연계 또는 MDM 구축 등과 같은 방법을 사용했습니다.
이러한 방식들은 물리적으로 데이터 모델을 재구축하고, 데이터를 전송/복제해야 하기 때문에 복잡성이 높아지는 방법입니다. - 애플리케이션의 변화에 따라 데이터에 대한 제공 환경도 함께 변화해야 합니다.
기존의 ETL (Extract/Transform/Load) 도구를 사용하여 일괄 처리하는 방식은 필요한 정보를 사용자에게 즉시 제공하는 것이 어렵습니다.
ETL Batch는 아직 많이 사용되는 솔루션이지만 민첩성 부족, 복잡성, 비용, 데이터의 중복 등 한계가 있습니다.
데이터 통합에 너무 많은 비용과 기간이 소요되는 것이 문제일때
데이터베이스를 물리적으로 통합하려는 것은 많은 노력과 위험이 따를수 뿐이 없습니다.
물리적인 데이터 통합을 위한 스토리지를 포함한 하드웨어, 네트워크, 소프트웨어 그리고 개발을 위한 계획, 구축, 운영 등 많은 노력과 시간 그리고 비용이 소요될 수 뿐이 없습니다.
데이터 통합의 필요성은 통합해 봐야 할 수도 있기 때문에 통합을 위한 노력이 정말 필요한 것인지 부터 확인해야 될 것입니다.
시시각각 변화하는 데이터를 물리적으로 통합하는 것이 의문일때
- 모든 데이터베이스를 항상 최신 상태로 유지하고 각 업무 시스템이 공통으로 사용할 수 있는 통합 데이터베이스를 구축하는 것은 이상적일 수 있습니다.
- 하지만 운영 시스템에서 매일 발생되고 변화하는 데이터를 통합하는 것은 현실적으로 매우 어렵습니다.
JDV (JBoss Data Virtulization) 특징
JDV의 특징은 ETL 이나 통합DBMS, SOA 와 달리 각 데이터베이스의 데이터를 실시간으로 통합하여 애플리케이션에서 하나의 데이터베이스처럼 보여주는 것입니다.
데이터 소스를 변경하지 않고 프로그래밍없이 설정 만으로 데이터를 통합 할 수있는 점이 기존의 “ETL이나 SOA와 충돌하지 않고 보완하는 새로운 제품” 입니다.
최신 버전인 JBoss Data Virtulization 6.0 에는 SAP, Apache Hadoop 기반에서 SQL 인터페이스를 제공하는 Hive, NoSQL 의 대표인 MongoDB, 인메모리 데이터그리드인 JBoss Data Grid , Google SpreadSheet, 데이터웨어하우스인 Greenplum Database, 오픈 데이터 프로토콜인 Odata 등의 커넥터가 제공되고 있습니다.
물리적인 DB 통합에 비해 구현 기간이 짧고, 데이터 소스 변경이 용이하며 보안 측면에서는 데이터에 대한 접근 권한을 제어하거나 데이터 마스킹, 필터링 과 같은 처리를 컬럼 단위로 세분화하여 데이터를 보호하는 기능을 제공합니다.
새로 추가된 대시보드 기능은 데이터를 테이블과 그래프로 출력할 수 있으며, Excel/CSV 형식으로 다운로드 할 수 있습니다.
추가적으로 Cassandra, Accumulo, Amazon SimpleDB 등에 대한 Connectivity 도 지원합니다.
JDV (JBoss Data Virtualization) 주요 기능
- 풍부한 데이터 소스에 대한 연결 어댑터
- 표준 SQL 및 오픈 API (JDBC, ODBC REST, SOAP OData) 로 접근 할 수 있는 인터페이스 제공
- 대시 보드 빌더를 통한 통합된 데이터 시각화
- 쿼리 최적화, 데이터 캐싱, 데이터 보안, 중복, 부하 분산
- 데이터 통합을 위한 모델링 도구 제공
아래는 JDV 에서 제공하는 주요 커넥터 종류입니다.
JDV (JBoss Data Virtualization) Use Case
- 기업내의 정보를 통합하고 비즈니스 리더를 위한 최적화 된 대시 보드 구축
- 빅 데이터와 정형화된 데이터를 통합한 싱글 뷰
- 콜센터와 영업지원시스템을 위한 360° 고객 데이터 제공
- 데이터 가상화를 통하여 데이터 전송및 변환 그리고 불필요한 일괄 처리 시스템 제거를 통한 비용 절감
- 기업내의 데이터 서비스 기반 구축을 통한 기민성 확보
- 기업 컴플라이언스와 데이터 보안을 위한 데이터 방화벽 구축
References & Related Links
- Red Hat JBoss Data Virtualization – http://kr.redhat.com/products/jbossenterprisemiddleware/data-virtualization/