모든 블로그

레이크하우스 로직: 오브젝트 스토리지가 새로운 분석 엔진인 이유

Jens Doerpmund and Mark Geel
Jens Doerpmund, VP, Software Architecture & Mark Geel, Sr. Product Marketing Manager – Object Storage

2025년 8월 18일

Lakehouse Logic: Why Object Storage is the New Analytics Engine

데이터 분석의 목표는 궁극적으로 단순한 목표를 지향합니다. 사람과 점점 더 늘어나는 AI 에이전트에게, 올바른 정보를 올바른 장소에서 올바른 시점에 제공하는 것입니다.

여기까지입니다. 말로는 간단하지만, 역사적으로 달성하기는 어려웠습니다.

좋은 소식은 환경이 변화하고 있다는 점입니다. 데이터 레이크하우스 아키텍처의 부상, 오픈 테이블 형식, 그리고 메타데이터의 중요성 증가(특히 GenAI 시대에)와 함께, 객체 스토리지는 구조화된 분석을 위한 고성능 플랫폼으로 진화하고 있습니다.

우리가 어떻게 여기까지 왔는지, 그리고 이 변화가 왜 중요한지 알아보겠습니다.

데이터 웨어하우스에서 데이터 레이크, 레이크하우스까지

분석 기술이 얼마나 발전했는지 이해하려면 불과 수십 년 전에 데이터를 추출하고 변환하여 데이터 웨어하우스에 저장하는 프로세스가 시간 소모적이었다는 점을 떠올려 보아야 합니다. 비즈니스 사용자는 요구 사항과 도메인 전문 지식을 제공했지만 보고서 및 대시보드 설계를 포함한 전체 솔루션의 개발은 IT 부서의 몫이었습니다.

그런 다음 셀프 서비스 BI가 제공되어 사용자가 웨어하우스에서 사용할 수 있는 경우 독립적으로 데이터를 탐색할 수 있습니다. 그러나 느린 제공 주기와 경직된 스키마로 인해 접근이 제한되는 경우가 많았습니다.

대규모 병렬 처리와 스토리지 기술(예: MapReduce, Hadoop)의 발전과 맞물려, 관심은 점차 데이터 레이크로 옮겨갔습니다. 데이터 레이크는 방대한 양의 원시 데이터를 저장할 수 있는 확장 가능하고 유연한 환경을 제공합니다. 데이터가 ‘새로운 원유’로 여겨지며, 데이터를 가진 조직이 경쟁 우위를 차지할 것으로 기대되었지만, 데이터 품질과 관리 체계는 종종 뒤처지기 마련이었습니다.

그러나 정제해야 하는 오일과 마찬가지로 가치를 제공하기 위해 데이터를 변환, 정제 및 목록화해야 한다는 것을 깨닫게 되었습니다. 데이터 레이크는 데이터 레이크의 유연성과 데이터 웨어하우스의 트랜잭션 무결성 및 성능을 결합함으로써 이러한 요구를 충족시켰습니다.

한동안은, 마치 호숫가에 있는 듯 평화롭게 데이터 레이크 안에서의 삶이 꽤 좋아 보였습니다.

객체 저장소 입력

데이터 레이크는 구조화된 데이터와 비구조화된 데이터를 모두 저장하는 데는 훌륭했지만, 항상 이상적인 환경은 아니었습니다. 데이터의 양과 다양성에는 집중했지만 품질에는 항상 신경 쓰지 않았기 때문에, 종종 “데이터 늪(Data Swamp)”이라고도 불리기도 했습니다.

객체는 간소화된 데이터 관리를 저장합니다. 불변 객체를 저장하는 능력은 정형 데이터와 비정형 데이터 모두에 이상적이었습니다. 하지만 완벽하진 않았습니다.

도전 과제에는 다음이 포함되었습니다:

  • ROT(중복, 사용되지 않는, 사소한) 데이터 축적.
  • 다크 데이터 – 저장되지만 사용되지 않고 귀중한 공간을 차지하지만 비즈니스 가치는 제공하지 않습니다.
  • 어떤 데이터가 존재하고 어떻게 사용될 수 있는지에 대한 가시성이 제한됩니다.

객체 스토리지의 잠재력을 최대한 발휘하려면 더 나은 메타데이터, 거버넌스 및 쿼리 기능이 필요했습니다.

그리고 이제 그 기능이 구현되었습니다.

VSP One Object에서 네이티브 S3 테이블 지원 소개

Hitachi Vantara의 VSP One Object는 S3 테이블을 기본적으로 지원하여 오브젝트 스토리지를 한 단계 업그레이드합니다. 이것은 온-프레미스 오브젝트 스토어를 위한 업계 최초입니다. 그리고 그 의미는 중요합니다.

S3 테이블에 대한 기본 지원은 다음을 의미합니다.

  • 익숙한 S3 Tables API를 사용하여 S3 테이블 버킷, 네임스페이스 및 테이블을 만들고 관리할 수 있습니다.
  • SQL 기반 분석은 개방형 데이터에서 직접 실행할 수 있으므로 복잡한 ETL 또는 데이터 이동이 필요하지 않습니다.

Apache Iceberg REST 카탈로그, 제로 구성 SQL 엔진 및 고급 메타데이터 서비스와 같은 내장 기능과 결합된 VSP One Object는 데이터 레이크하우스 및 AI 워크로드를 위한 더욱 강력한 기반이 됩니다.

VSP One Object의 네이티브 Amazon S3 Table 지원의 혁신적인 기능은 단순화된 데이터 레이크하우스 아키텍처, 더 빠른 분석 및 Apache Iceberg와 같은 최신 도구와의 원활한 통합을 가능하게 합니다. 조직이 데이터 레이크와 데이터 웨어하우스 간의 격차를 해소하여 인사이트를 가속화하고 AI/ML 워크로드를 지원하는 방법을 보여줍니다.
 

S3 메타데이터 활용으로 더 스마트한 분석 구현

VSP One Object는 테이블 지원 외에도 S3 메타데이터 로깅을 도입합니다. 활성화되면 모든 객체 이벤 (생성, 업데이트, 삭제)가 S3 테이블로 저장된 불변 로그에 기록됩니다.

이는 다음을 포함한 중요한 기능을 제공합니다.

  • 객체 활동에 대한 완전하고 쿼리 가능한 기록.
  • 각 객체에 대한 풍부한 메타데이터.
  • Iceberg 클라이언트 및 SQL 엔진과의 원활한 통합.

이제 동일한 도구를 사용하여 데이터와 그 메타데이터를 모두 관리하고 분석할 수 있어, 거버넌스, 가시성, 성능을 동시에 향상시킬 수 있습니다.

적절한 시기에 적절한 객체 스토리지 솔루션

조직은 그 어느 때보다 더 많은 데이터를 활용하여 일을 해야 하는 압박을 받고 있습니다. 뿐만 아니라 이를 더 빠르고, 더 스마트하게, 더 큰 규모로 수행해야 합니다. AI 모델을 구축하든, 실시간 분석을 가능하게 하든, 단순히 폭발적인 성장에 대응하든, 선택하는 인프라는 그 어느 때보다 중요합니다.

VSP One Object는 이 순간을 위해 특별히 제작되었습니다. 기존 객체 스토리지에서 고성능 지능형 플랫폼으로 전환하여 현대적인 분석 및 AI 워크로드를 손쉽게 지원합니다.

이 솔루션은 적절한 시기에 적합한 솔루션으로 다음과 같은 이점을 제공합니다.

  1. 구조화된 분석을 위한 네이티브 S3 테이블 지원.
  2. 내장된 인텔리전스 및 메타데이터 서비스.
  3. AI 및 레이크하우스 워크로드에 최적화되었습니다.
  4. 단순성, 확장성 및 속도.

VSP One Object는 단순한 스토리지 그 이상입니다. 이는 정형 또는 비정형, 과거 또는 실시간, 인간 또는 기계 생성 등 데이터의 잠재력을 최대한 발휘하고자 하는 조직을 위한 전략적 지원자입니다.

GigaOm Radar for Object Storage가 객체 스토리지의 혁신을 위해 Hitachi Vantara를 인정한 이유에 대해 자세히 알아보고 싶은 경우 Hitachi Vantara 담당자와 상담하여 객체 스토리지 현대화 여정을 시작하실 수 있습니다.

더 읽어보기:


Jens Doerpmund

Jens Doerpmund

As VP of Software Architecture Engineering, Jens Doerpmund is responsible for architectural governance and innovation at Hitachi Vantara. He focuses primarily on GenAI-related topics, as well as the design and development of data management solutions for hybrid cloud environments. Connect with Jens on LinkedIn.