본문 바로가기
+ 펴낸 책

모던 데이터 아키텍처 설계와 구현

by 책만 2026. 5. 8.

 

 모던 데이터 아키텍처 설계와 구현 

지속적인 데이터 통합 파이프라인 구축부터 데이터 거버넌스 전략까지

피트하인 스트렝홀트 지음 | 김영기, 김현진 옮김
476쪽 | 33,000원 | 2026년 5월 18일 출간 | 185*240*23 | ISBN 9791124309063  (93000)

판매처 | [교보문고] [YES24] [알라딘] [영풍문고] + 전국 교보/영풍문고 매장
전자책 판매처 | [교보문고] [YES24] [알라딘] [리디북스] | 2026년 6월 출간 예정

 

✔ 원서명: Data Management at Scale: Modern Data Architecture with Data Mesh and Data Fabric (2nd Edition)

✔ 정오표: https://www.onlybook.co.kr/entry/data-management-errata (아직 등록된 정오사항이 없습니다)

 

대규모 데이터 확장에 따른 
엔터프라이즈 데이터 아키텍처 운영과 관리 전략! 

모던 데이터 관리가 필요한 기업이라면 
규모나 분야와 상관없이 반드시 소장하고 필독해야 할 책!



오늘날 데이터 관리는 대격변을 겪고 있다. AI, 클라우드, 에코시스템 연결성, 마이크로서비스, 오픈 데이터, 서비스형 소프트웨어, 새로운 소프트웨어 전달 모델 등의 변화로 인해 데이터 관리 실행 방식의 패러다임은 전면적으로 바뀌고 있다. 분산화는 피할 수 없는 미래라는 사실을 모든 조직이나 기업은 직시해야 한다.


이 책은 항상 유효하면서도 언제든 확장 가능한 데이터 관리 체계를 구축하는 방법을 알려준다. 또한, 데이터 메시와 데이터 패브릭 같은 새로운 개념을 명확히 정리해주며, 차세대 데이터 아키텍처에 대해서도 전망해본다. 


조직의 경영진, 아키텍트와 엔지니어, 분석 팀, 컴플라이언스 및 거버넌스 담당자가 각자의 필요에 맞게 데이터 관리를 구체화하는 방법을 알려주며, 최신 정보를 빠르게 파악할 수 있도록 큰 그림부터 원칙, 통찰, 모범 사례, 패턴까지 상세히 제시한다.

| 이 책에서 다루는 내용 |
• 규제 요구사항, 개인정보보호 문제, 데이터 메시와 데이터 패브릭 등 최신 데이터 관리에 관한 최신 트렌드
• 클라우드 데이터 랜딩 존, 도메인 주도 설계(DDD), 데이터 프로덕트 설계 등 데이터 아키텍처 구축 방법과 노하우
• 데이터 거버넌스와 보안, 마스터 데이터 관리, 셀프서비스 데이터 마켓플레이스, 메타데이터의 중요성 
| 이 책의 대상 독자 |
✔️ 경영진 및 아키텍트: 최고데이터책임자(CDO), 최고기술책임자(CTO), 수석 아키텍트, 엔터프라이즈 아키텍트, 수석 데이터 아키텍트
✔️ 분석 팀: 데이터 과학자, 데이터 엔지니어, 데이터 분석가, 분석 총괄 책임자
✔️ 개발 팀: 데이터 엔지니어, 데이터 과학자, 비즈니스 인텔리전스 엔지니어, 데이터 모델러 및 설계자, 기타 데이터 전문가
✔️ 컴플라이언스 및 거버넌스 팀: 최고정보보안책임자(CISO), 데이터보호책임자, 정보보안 분석가, 규제 준수 책임자, 데이터 스튜어드, 비즈니스 분석가


이 책의 구성

1장에서는 데이터 관리가 무엇인지, 어떻게 변화하고 있는지, 그리고 디지털 전환에 어떤 영향을 미치는지를 맥락적 관점에서 살펴본다. 그리고 최근 몇 년간의 현황과 데이터 전략 수립 지침을 제공한다.

2장에서는 대규모 데이터 관리의 세부사항을 다룬다. 데이터 도메인을 활용해 대규모 데이터 환경을 관리하는 방법론으로서 도메인 주도 설계(DDD)와 비즈니스 아키텍처를 살펴본다.

3장에서는 데이터 아키텍처를 구조화하고 데이터 도메인과 일치시키는 방법으로서, 토폴로지와 데이터 랜딩 존에 초점을 맞춘다. 
4장에서는 데이터 프로덕트, 명령 쿼리 책임 분리(CQRS) 및 이를 가이드하는 원칙에 초점을 맞추고, 솔루션 설계 사례를 제시한다. 

5장에서는 API 관리를, 6장에서는 이벤트 및 알림 관리를 살펴본다. 

7장에서는 이제까지의 모든 내용에 아키텍처 가이드와 실제 경험을 곁들이고, 하나로 묶어 포괄적으로 살펴본다.
8장에서는 급변하는 시대에도 장기적으로 실용적이고 지속 가능한 방식으로 데이터 거버넌스와 보안에 접근하는 방법을 살펴본다. 

9장에서는 메타데이터의 활용, 중요성, 그리고 민주화의 가능성을 깊이 있게 다룬다.
10장에서는 분산되어 광범위하게 흩어져 있는 자산에 대한 데이터 일관성을 유지하기 위해 마스터 데이터 관리(Master Data Management, MDM)를 어떻게 활용할지 안내하고, 11장에서는 데이터를 가치로 전환하는 문제를 다룬다.

12장에서는 이제까지 다룬 내용을 실현하는 예시와 함께 데이터 관리와 엔터프라이즈 아키텍처의 미래에 대한 비전으로 책을 마무리한다.


추천의 글

통찰 가득한 이 실용서는 기업의 규모나 분야와 상관없이, 모던 데이터 관리를 위한 필수 가이드가 될 것이다. 규모 확장과 경쟁력 유지를 원한다면 반드시 이 책을 읽어라. 지금까지 어디에도 이런 책은 없었다.
- 올레 올레센바뉴(Ole Olesen-Bagneux) / 『The Enterprise Data Catalog』 저자
데이터 관리는 소규모 환경에서도 너무나 어려운 일이다. 이 책은 현재와 미래의 데이터 관리를 위한 매우 상세하고 탄탄한 기반을 제공한다.
- 조 리스(Joe Reis) / 『Fundamentals of Data Engineering』의 공동 저자, 데이터 과학자
미래는 지금보다 디지털화가 가속화될 것입니다. 미래를 준비하는 기업들은 지금보다 더 많은 데이터를 활용하고 분석하여 데이터 기반 전략적 의사결정을 내리게 되며, 기업들이 다루는 데이터는 매우 중요한 요소가 될 것입니다. 따라서, 기업들은 전통적인 데이터 아키텍처의 한계를 파악하고 최근 기술 발전과 트렌드를 반영하는 대규모 데이터 아키텍처 환경을 도입해야 합니다.
데이터 주도 조직으로 전환 시 완벽한 거버넌스 구조와 데이터 아키텍처를 구축하는 일은 결코 쉬운 일이 아니며, 누구도 정답을 제시할 수 없습니다. 하지만, 이 책에서 설명하는 다양한 기업들의 전략과 아키텍처 설계를 살펴보고 그 결정을 이해한다면 독자분들의 환경에서도 데이터 아키텍처를 설계하고 거버넌스 구조를 의사결정하는 데 큰 도움이 될 것입니다.
뿐만 아니라, 데이터에 대한 마스터 플랜 정의, 데이터 모델링과 설계, 데이터 저장과 운영, 데이터 보안, 데이터 통합 등 대규모 데이터 아키텍처 설계 시 반드시 숙지해야 할 다양한 내용들에 관해 이 책에서는 친절하게도 다양한 사례와 함께 다뤄줍니다.
이 책이 데이터 아키텍처의 절대적인 정답을 제시하는 것은 아니지만, 설계와 도입 과정에서 반드시 필요한 인사이트와 올바른 의사결정의 기준을 마련해 줄 것입니다. 특히, AI 시대를 맞이하여 대규모 데이터 관리 체계를 고민하는 많은 실무자, 관리자분들에게 실질적인 해법과 영감을 줄 필독서로 추천합니다.
- 고승범 / SK텔레콤, 『실전 카프카 개발부터 운영까지』 저자, 카프카 한국사용자모임 대표
AI 기술의 폭발적인 성장으로 데이터의 양과 복잡성은 이미 인간의 통제 범위를 넘어섰습니다. 이 책은 기존 중앙집중식 아키텍처가 가진 한계를 넘기 위해 현대 아키텍트의 필수 과제인 ‘탈중앙화’에 대한 실질적인 이정표를 제시하고 있습니다.
또한, 이론을 넘어 대규모 엔터프라이즈 환경에서 축적된 저자의 생생한 경험을 바탕으로 데이터 메시(Data Mesh)를 실무 적용에 대한 구체적인 가이드를 제공하고 있습니다.
복잡한 레거시와 신기술 사이에서 확장 가능한 시스템을 고민하는 모든 소프트웨어 엔지니어에게 이 책을 강력히 추천합니다.
- 권태윤 / 삼성전자 SYS.LSI사업부 SW 혁신팀, 아키텍처 담당 수석
모든 데이터를 한곳에 모으다 보니 ETL 복잡성이 폭발적으로 증가했고 유지보수 비용도 감당하기 어려워졌습니다”라는 이야기를 현장에서 종종 듣습니다. 그처럼 전통적인 중앙집중식 데이터 관리 체계는 데이터 생성과 활용 방식이 급격히 다변화된 현대 IT 환경에서 점차 병목 지점으로 작용하고 있습니다. “비즈니스 도메인에 대한 이해 없이 중앙 조직이 데이터를 관리하다 보니 실제 현업 니즈와 점점 괴리가 생깁니다”라는 목소리 역시 중앙집중식 데이터 웨어하우스 구조가 지닌 현실적인 한계를 잘 보여주는 사례입니다. 이러한 현장의 고민을 배경으로 삼아, 이 책을 읽으면 그와 같은 문제의식에 더욱 깊이 공감하게 됩니다.
이 책은 단순히 새로운 데이터 기술을 소개하는 데 그치지 않고, 왜 지금 데이터 아키텍처의 변화가 필요한지 설득력 있게 설명합니다. 특히 대안 데이터 아키텍처로 데이터 패브릭, 데이터 메시, 데이터 가상화 등이 왜 주목받고 있는지를 이해하기 쉽게 알려주며, 그와 같은 개념들을 단순한 마케팅 용어가 아니라 ‘탈중앙화 데이터 플랫폼을 위한 실무적인 접근 방식’으로 매우 인상깊게 설명해줍니다.
무엇보다 이 책은 데이터 소유권, 거버넌스, 보안, 조직 구조를 어떻게 재정립해야 하는지에 대해 현실적인 관점에서 접근합니다. 단순히 개념을 소개하는 수준을 넘어, 실제 엔터프라이즈 환경에서 어떻게 적용하고 운영할 수 있는지에 대한 큰 그림과 방향성을 잡는 데 매우 유용합니다. 데이터 플랫폼 현대화와 차세대 데이터 아키텍처의 실무적 적용 개념을 고민하시는 분들에게 적극 추천하고 싶은 책입니다.
- 김태완 /오라클 클라우드 엔지니어링팀 상무
대규모 데이터와 트래픽이 끊임없이 발생하는 글로벌 플랫폼 환경에서는 데이터를 어떻게 효율적으로 연결하고 확장할지가 전체 서비스의 성패를 좌우합니다. 제가 소속된 회사에서도, 라인과 야후재팬의 합병 당시 서로 다른 구조와 역사를 가진 방대한 두 생태계의 데이터를 통합하는 과정은 수많은 기술적인 난제와 거버넌스 요건, 대규모 투자가 뒤따르는 쉽지 않은 과제였습니다. 수많은 시스템과 복잡한 파이프라인을 무리하게 하나의 중앙 집중형 구조로 묶어내는 방식으로는 점차 한계에 부딪힐 수밖에 없다는 것을 경험하는 과정이기도 했습니다.
아키텍처의 근본적인 변화가 필요했던 시점에, 이 책은 데이터 파편화와 통합의 딜레마에 대한 고민을 잘 구조화해 주었습니다. 이 책에서 다루는 데이터 메시와 데이터 패브릭 패러다임은 뜬구름 잡는 개념이 아닌, 실제 엔터프라이즈 환경에 바로 적용할 수 있는 구체적인 청사진을 보여줍니다. 도메인 주도 설계(DDD)를 통한 데이터 권한의 분산이나 데이터 프로덕트 기반의 유연한 아키텍처 전략은 방대한 플랫폼의 데이터 통합 문제를 극복하고 앞으로의 확장을 대비하는 데 핵심적인 지침입니다.
AI 시대를 뒷받침할 성공적인 플랫폼은 결국 그 기반이 되는 데이터 아키텍처의 견고함과 확장성에서 출발합니다. 기존 구조의 한계를 넘어서서, 미래 지향적이고 자율적인 차세대 데이터 생태계를 설계하고자 하는 모든 데이터 엔지니어와 기술 리더분들께 이 책을 기쁜 마음으로 추천합니다.
- 양석호 / LY Corporation Data & AI 플랫폼 리드
기업이나 조직 내의 카프카 클러스터 도입과 관련해서 제가 자주 이야기하는 표현이 있습니다. 1개 조직(개인)이 보유한 클러스터와 2개 이상 조직들이 공유하는 클러스터를 다루는 것은 완전히 다른 문제라는 겁니다. 단순히 기술의 문제라기보다는, 기존에는 존재하지 않았던, 완전히 생소한 개념들을 받아들이고 여기에 맞춰서 전체 아키텍처와 조직 문화를 구축해야 한다는 문제가 되어버리기 때문입니다. 하지만 현실적으로, 데이터 메시 등과 같은 주제를 다룬 책들은 한국에 잘 번역되거나 공개되지 않아서 아쉬운 점이 많았습니다.
이 책은 스파크, 카프카, 플링크 같은 개별 기술들을 구체적으로 어떻게 쓰는지 방법을 알려주는 책이 아닙니다. 그보다 조금 더 높은 수준에서, “왜 그런 시스템 구조가 필요한지”를 설명하는 책입니다. 엔터프라이즈 아키텍처에 대한 시야를 넓히고자 하시는 분들께 이 책을 권합니다.
- 이동진 / 아파치 카프카(Apache Kafka) 컨트리뷰터, 『카프카 핵심 가이드 개정증보판』 역자
이 책은 데이터 매쉬와 데이터 패브릭 같은 최신 데이터 관리의 핵심 패러다임과 더불어 데이터를 하나의 ‘제품’으로 관리하는 도메인 주도 설계 방식에 대해 이야기합니다. 거버넌스와 보안, 셀프 서비스 마켓플레이스까지 아우르는 통찰은 견고한 데이터 생태계를 구축하려는 이들에게 훌륭한 지침서가 됩니다.
급변하는 환경 속에서 조직의 데이터 관리 역량을 한 단계 끌어올리고자 하는 분들이라면 이 책의 내용을 반드시 읽어야 할 것입니다.
- 이지연 / 삼성전자 네트워크 사업부 SE팀 프로, 형상관리 담당 & 빅데이터 분석 전문가


여는 글

- 제이 크렙스(Jay Kreps) / 컨플루언트(Confluent) 공동창업자 겸 CEO

소프트웨어에 대해 얘기하다 보면, 결국 매번 데이터에 대해 논의하게 된다. 데이터가 얼마나 많은지, 어디에 있는지, 무엇을 의미하는지, 어디서 왔고 어디로 가야 하는지, 데이터가 변경될 때 무슨 일이 일어나는지 같은 얘기들 말이다. 데이터 관리 기술은 빠르게 변해왔지만, 이러한 질문들은 오랫동안 우리 곁을 맴돌고 있다. 오늘날의 데이터베이스는 방대한 온라인 데이터셋에 즉시 접근할 수 있게 해 주고, 분석 시스템은 복잡하고 깊이 있는 질문에 답해 준다. 이벤트 스트리밍 플랫폼은 다양한 애플리케이션들을 연결할 뿐만 아니라, 스토리지, 쿼리 처리, 내장된 데이터 관리 도구까지 제공한다.
이러한 기술 발전에 따라 사용자의 기대치 역시 높아졌다. 사용자는 모바일에서 데스크톱, 콜센터로 전환하거나, 위치를 옮기거나, 한 애플리케이션에서 다른 애플리케이션으로 이동하는 동안, 회사 곳곳에 위치한 각양각색의 백엔드 시스템에 연결된다. 그 와중에도 사용자들은 매끄러운 실시간 경험을 기대한다. 나는 이런 기대가 많은 사람이 생각하는 것보다 훨씬 중대한 의미를 지닌다고 생각한다. 이 과제는 소프트웨어, 데이터, 인력이라는 방대한 자산이 적어도 사용자 눈에는 하나로 매끄럽게 이어진 단위로 보이게끔 관리돼야 한다는 뜻이기 때문이다.
이 같은 전사적 시스템을 관리하는 일은 항상 일종의 어둠의 기술 같았는데, 나는 링크드인의 기반 인프라 구축을 도우면서 그런 기분을 느꼈다. 링크드인의 모든 데이터는 멈추지 않는 프로세스에 의해 하루 24시간 내내 끊임없이 생성된다. 그러나 내가 처음 회사에 들어갔을 때만 해도, 그런 데이터를 활용하기 위한 인프라는 대개 하루 일과가 끝날 무렵에 수행되는 거대하고 느린 배치(batch) 덤프와 단순한 조회 기능뿐인 경우가 많았고, 그마저도 자체 개발한 데이터 피드를 임시방편으로 엮어 놓은 수준이었다. ‘일과 종료 후 배치 처리’라는 개념은 펀치 카드와 메인프레임이 쓰이던 예전 시대의 유산처럼 보였다. 실제로 글로벌 비즈니스에서는 하루의 끝이란 개념이 없기 때문이다.
링크드인이 성장하면서, 이 시스템 역시 무질서하게 자라나는 소프트웨어 자산이 되었고, 이런 종류의 문제를 해결할 기성품 솔루션이 존재하지 않는다는 사실 또한 분명해졌다. 게다가 링크드인 웹사이트를 구동하는 NoSQL 데이터베이스를 직접 구축해 봤기에, 나는 분산 시스템 기술의 새로운 르네상스가 도래하고 있음을 직감했다. 즉 예전에는 불가능했던 솔루션을 이제는 구축할 수 있다는 뜻이었다. 그 결과가 아파치 카프카의 탄생이었다. 카프카는 링크드인의 핵심을 이루는 프로필 업데이트, 페이지 방문, 결제, 기타 이벤트 스트림을 대상으로 확장 가능한 메시징, 스토리지, 처리를 결합한 것이었다.
카프카는 링크드인의 데이터 흐름을 매끄럽게 만들었을 뿐만 아니라, 애플리케이션 구축 방식에도 영향을 미쳤다. 2010년대 초반의 많은 실리콘밸리 기업들처럼, 우리도 마이크로서비스를 실험하고 있었으며, 기능적이면서도 안정적인 무언가를 만들어내기까지는 여러 번의 시행착오를 반복해야 했다. 이 문제는 소프트웨어만큼이나 데이터와 사람에 관한 것이었다. 회사의 성장에 따라 함께 진화해야 하는 복잡하고 상호 연결된 시스템의 문제였던 것이다. 이렇게 큰 문제를 다루려면 새로운 종류의 기술뿐 아니라, 그에 걸맞은 새로운 역량도 필요했다.
물론 당시에는 이런 문제를 헤쳐 나갈 매뉴얼 같은 건 존재하지 않았다. 우리는 부딪히며 해결해 나갔지만, 어쩌면 이 책이야말로 우리에게 필요했던, 존재하지 않던 그 매뉴얼일지 모른다. 이 책에서 피트하인은 포괄적인 데이터 관리 전략을 제시하는데, 그 목표는 단순히 단일 데이터베이스나 애플리케이션에 국한된 것이 아니라, 오늘날의 기술 환경을 구성하는 수많은 데이터베이스, 애플리케이션, 마이크로서비스, 스토리지 계층, 그리고 그 밖의 다양한 유형의 소프트웨어 전반에 걸쳐 데이터를 관리하려는 것이다.
아울러 그는 자기만의 관점을 견지하며, 그에 걸맞은 아키텍처를 제시한다. 그의 관점은 심사숙고를 거친 일련의 원칙들로 뒷받침된다. 이런 원칙들은 논리적인 가드레일을 통해 의사결정의 폭을 좁히는 데 기여하고, 그 안에서 다양한 실용적인 해법들이 자리 잡게 해 준다. 나는 이러한 접근 방식이 아키텍트와 엔지니어에게 상당한 가치가 있을 것이라 생각한다. 자신들의 문제 도메인을 이 책에 설명된 여러 트레이드오프와 연결시켜 볼 수 있기 때문이다. 이 책은 데이터와 애플리케이션을 넘어, 회사 전체를 하나로 묶는 풍부한 상호작용 네트워크로 우리를 안내할 것이다.

지은이 피트하인 스트렝홀트 Piethein Strengholt

마이크로소프트 네덜란드의 최고데이터책임자(CDO)다. 고객사의 CDO들을 응대하는 협력 파트너로 일하며, 커뮤니티와 프로덕트 그룹에서 주도적인 역할을 맡고 있다. 블로거로서도 활발히 활동 중이며 데이터 메시 개념, 데이터 거버넌스, 대규모 데이터 전략 등 최신 데이터 관리 트렌드에 대한 발표와 강연도 주기적으로 하고 있다. 

내가 이전에 엔터프라이즈 아키텍트로서 일할 때, 우리 팀은 수백 개의 애플리케이션 팀, 수천 개의 서비스, 수많은 대규모 레거시 애플리케이션을 관리해야 했다. 그런 상황에서는 복잡성에 접근하는 방식도 달라진다. 데이터 메시 아키텍처에서는 흔히 아티스트, 노래, 재생 목록 같은 것이 데이터 도메인의 예시로 사용된다. 데이터를 세분화된 도메인으로 분해하는 이런 접근 방식은 마이크로서비스를 설계할 때는 잘 맞을 수 있지만, 대규모 데이터 환경을 (재)구조화하는 데는 적합하지 않다. 규모가 커지면 다른 관점이 필요하다. 그다음으로, 데이터 프로덕트에 대해서도 더 섬세하고 실용적인 시각이 필요하다. 데이터를 처음부터 끝까지 전체적 관점으로 관리하는 데는 그럴만한 이유가 있다. 기업은 재사용성과 일관성에 대한 우려를 안고 있다. 또한 규제에 따라 그룹 보고, 회계, 재무 보고, 감사 및 위험 관리에 대해 동일한 기준 체계를 준수하도록 강제받는다. 논란의 여지가 있다는 점을 알고 있지만, 데이터 프로덕트를 마이크로서비스만큼 작은 아키텍처 안에 데이터, 메타데이터, 코드, 인프라를 함께 패키징하는 컨테이너처럼 관리하자는 주장은 받아들이기 어렵다. 이런 발상은 오늘날의 빅데이터 플랫폼이 작동하는 방식과 맞지 않는다. 마지막으로, 데이터 메시에 대한 논의는 아직도 진행 중이다. 데이터 메시는 운영 목적이 아닌 분석 목적으로 사용되는 데이터에만 초점을 맞추고 있으며, 마스터 데이터 관리는 다루지 않는다. 또한 데이터 컨슈머 측면은 지능형 데이터 패브릭으로 보완되어야 하며, 데이터 프로덕트 구축에 필요한 데이터 모델링 가이드라인 역시 충분히 제공되지 않는다.
2판을 출판하게 된 또 다른 이유는 책의 실용성에 대한 우려 때문이었다. 초판은 여러 독자들에게 너무 추상적이라는 평가를 받았다. 일부 비판적인 리뷰어들은 심지어 나의 실무 경험에 의문을 제기하는 댓글을 남기기도 했다. 2판에서는 이러한 우려를 해소하고자, 실제 사례와 구체적인 솔루션 다이어그램을 많이 제공하려고 노력했다. 때때로 설계 구현 방법에 대해 내가 작성한 블로그 글을 참조로 넣기도 했다. 마지막으로 한마디 덧붙이자면, 이 책에서 다루는 주제들은 상당히 복잡한 데다, 맥락에 크게 좌우되기도 한다. 단 한 권의 책에 모든 경우에 대한 예시를 제공하는 것은 불가능하므로 어느 정도 재량껏 선택해야 했다.
ABN AMRO에서 일했던 시간을 돌이켜보면, 다양한 기업들의 사례로부터 훌륭한 교훈을 많이 얻었다. 좋은 접근 방식도 많이 접했다. 좋은 데이터 아키텍처를 구축하는 데 있어서 절대적으로 옳고 그른 것은 없다. 적절한 트레이드오프를 선택하고, 자신의 상황에 가장 잘 맞는 방식을 찾아내는 것이 전부다.
현장에서 얻어진 모범 사례와 관찰에 대한 나의 생각을 나눌 수 있게 되어 기쁘며, 이 책이 여러분에게도 영감을 선사하길 바란다.

 

옮긴이 김영기

삼성전자 네트워크 사업부 SE 그룹에서 소프트웨어 개발과 관련한 다양한 업무를 수행하고 있다. 주요 이력으로는 지능망(IN)과 모바일용 자바 애플리케이션 개발, 정적 분석과 소프트웨어 구조 분석, 소프트웨어 개발 도구 및 인프라 관리 등이 있다. 현재는 형상 관리를 담당하고 있으며 소프트웨어 개발과 조직 구조, 애자일과 데브옵스, 인프라 자동화, 데이터 사이언스 등에 관심이 많으며, 최근에는 AI 공부도 열심히 하고 있다. 『모두를 위한 소프트웨어 보안 설계와 구현』, 『프로메테우스, 오픈소스 모니터링 시스템』 등 십여 권의 기술서를 번역 출간했다.

옮긴이 김현진

18년 차 소프트웨어 엔지니어로 삼성전자, 리벨리온을 거쳐 현재 42dot에서 기능 안전 V&V 엔지니어로 활동하고 있다. 다양한 도메인에서의 소프트웨어 품질 및 테스트 자동화의 경험을 가지고 있으며, 최근에는 AI 에이전트를 활용한 검증 프로세스 개선 및 자동화에 관심이 많다.

데이터란 추상적인 개념이나 사실을 기호, 문자, 숫자 등으로 나타낸 사실(given fact) 혹은 ‘기초 자료’를 의미하며, 데이터 관리는 이러한 자료를 수집, 저장, 정리해서 가치 있는 정보로 변환하는 과정을 말합니다. 데이터의 개념과 관리 방법은 저장 매체와 기술의 발전에 따라 원시적인 방법(점토판과 파피루스 등)에서 디지털 중심의 현대적인 방법(DBMS, 클라우드 컴퓨팅)으로 발전해 왔으며 앞으로도 계속 진화해 갈 것입니다. 근대적인 컴퓨터가 발명된 후 데이터의 관리는 중앙집중적 구조를 갖고 데이터를 정형적으로 관리하는 DBMS가 중심을 이뤄왔습니다. 그러나 인터넷과 빅데이터의 시대인 2000년대를 전후로 클라우드 컴퓨팅의 등장과 함께 데이터의 원격 저장과 분산화가 본격화되기 시작했고 3V(Volume, Velocity, Variety)의 특징을 갖는 빅데이터는 AI 출현의 기초가 되었습니다. AI의 출현과 더불어 데이터는 기하급수적으로 늘어났고 복잡해졌으며, 그 중요성은 과거에 비해 점점 더 커지고 있습니다. 이러한 변화에 따라 데이터 세상도 같이 변화하고 있습니다. 단순하게 모아서 잘 관리하는 것이 아닌 데이터의 공유와 활용을 위한 새로운 방법들이 모색되고 있습니다.
현재 모든 분야에서 AI를 빼고 이야기하기 어려워지고 AI의 활용도는 시간이 지나면서 더 높아지고 있습니다. 데이터는 AI 기술에서 매우 중요합니다. AI가 새로운 내용을 학습하고 올바른 답을 내기 위해서는 그 답의 원천이 되는 데이터가 잘 관리되어야 합니다. 특히, LLM은 학습 데이터의 품질에 절대적으로 의존합니다. 데이터 세상에는 “쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)”라는 유명한 말이 있습니다. 이는 훌륭한 알고리즘이나 AI 모델을 사용하더라도, 입력되는 원천 데이터(raw data)의 품질이 낮으면 결과물도 가치가 없다는 뜻입니다. 이에, 이 책에서 강조하고 있는 데이터 거버넌스와 품질 관리가 이루어지지 않는다면 AI가 답하는 내용은 편향되거나 존재하지 않는 사실을 만들어 낼 것입니다.
요컨대, AI 시대에도 데이터의 품질과 관리는 점점 더 중요해질 것입니다. 하지만 문제는 데이터 구조를 잡고, 수집하고, 관리하는 작업이 예전과 다르게 난이도가 점점 더 높아지고 있다는 점입니다. 데이터의 양은 관리하기 어려울 정도로 늘어나고 있고 데이터의 형태 또한 다양해지고 저장 위치도 다양해지고 있습니다. 이와 동시에, 분산된 데이터의 무결성과 일관성도 유지해야 하고 보안 처리도 해야 합니다. 데이터의 수명조차 가변적입니다. 이러한 수많은 어려움에도 불구하고, AI 시대를 맞아 더더욱 데이터는 기업의 핵심 자산으로 취급되고 있고 데이터 관리는 기업이 생존을 결정하는 문제가 되어 가고 있습니다.
이 책에서 언급되는 데이터 패브릭(Data Fabric)과 데이터 메시(Data Mesh)도 데이터에 대한 새로운 시도라고 할 수 있습니다. 데이터 패브릭은 온프레미스, 클라우드 등 여러 위치에 분산된 데이터를 물리적인 통합하는 것이 아닌, 메타데이터 기술을 활용해 가상화 된 통합 계층에서 실시간으로 관리하는 데이터 아키텍처를 말합니다. 이러한 아키텍처는 흩어진 데이터 소스를 하나로 묶어서 관리하기 때문에 데이터의 파편화를 막고 데이터 민주화에도 기여하게 됩니다. 반면 데이터 메시는 도메인 기반의 분산 데이터 소유권과 조직 문화 중심으로 데이터를 관리합니다. 데이터 메시는 대규모 데이터를 중앙에서 관리하던 방식에서 벗어나 도메인별로 데이터를 분산하고 소유하는 탈중앙화 아키텍처로 도메인 팀이 데이터를 제품처럼 관리하고 이를 지원하기 위한 셀프서비스 플랫폼과 거버넌스를 통해 데이터 품질을 높이고 비즈니스 가치를 높이는 방법을 말합니다.
이 책에서는 이러한 개념을 더 발전시켜, 모던 데이터 스택과 실무적인 내용을 추가해, 단순한 이론에 그치지 않고 대규모 데이터 환경에서 데이터 품질을 보장하고 기술 부채를 줄이는 방법과 더불어 비즈니스의 성공을 위한 데이터 아키텍처와 관리 기법에 대해 설명해줍니다. 우리는 이 책을 통해 데이터 생성부터 폐기까지의 데이터 수명주기에 관련된 다양한 데이터 관리의 개념을 알 수 있습니다. 과거의 데이터 관리는 주로 어떻게 데이터를 효율적으로 보관할 것인가 하는 보관의 문제였다면, 지금은 어떻게 신뢰할 수 있는 데이터를 계속해서 제공할 수 있을 것인가 하는 데이터 공급의 문제로 바뀌었습니다. 이 책에서 이야기하는 데이터 제품과 대규모 데이터 관리 전략은 현업에서 데이터 공급망을 구축하는 이들에게 큰 도움이 될 것입니다. 또한 실무자가 꼭 알아야 할 실제 기업 환경에서 활용할 수 있는 다양한 팁들도 많이 포함되어 있습니다.
마지막으로, 이 책이 나오기까지는 여러 우여곡절이 있었습니다. 어려운 과정에서도 이 책을 꼼꼼하게 검토해 주신 출판사 관계자분들과 이 책에 관심을 가져준 많은 분께 감사드립니다. 데이터 때문에 고민하는 관련자들이 문제를 해결하고 업무를 진행하는 데 이 책이 작으나마 도움이 되길 바랍니다.
- 김영기, 김현진

차례

1장 데이터 주도 조직으로의 여정 
최근의 기술 발전과 업계 트렌드
데이터 관리
분석으로 인해 파편화되는 데이터 환경
변화하는 소프트웨어 출시 속도
데이터 관리에 막대한 영향을 미치는 클라우드
개인정보보호와 보안은 최우선 과제
운영 시스템과 분석 시스템은 통합되어야 한다
조직은 협력적 생태계 속에서 운영된다
시대에 뒤떨어진 데이터 아키텍처에 발이 묶인 기업들
__엔터프라이즈 데이터 웨어하우스: 진실의 단일 원천
__데이터 레이크: 정형 및 비정형 데이터를 위한 중앙집중식 리포지토리
__중앙집중화의 고통
데이터 전략 수립
정리

2장 데이터 도메인을 활용한 데이터 체계화
애플리케이션 설계의 출발점
__모든 애플리케이션에는 데이터 저장소가 있다
__애플리케이션은 항상 고유하다
__골든 소스
__데이터 통합 딜레마
__애플리케이션의 역할
소프트웨어 아키텍처에서 얻은 영감
데이터 도메인
__도메인 주도 설계
__비즈니스 아키텍처
__도메인 특성
분산형 및 도메인 지향 데이터 관리의 원칙
__데이터 도메인을 위한 설계 원칙
__데이터 프로바이더를 위한 모범 사례
__도메인 소유권 책임
분산형 도메인 지향 데이터 관리로의 전환
정리

3장 도메인과 기술 아키텍처의 매핑
도메인 토폴로지: 문제 영역 관리
__완전 연합형 도메인 토폴로지
__거버넌스 기반 도메인 토폴로지
__부분 연합형 도메인 토폴로지
__가치 사슬 정렬 도메인 토폴로지
__큰 단위로 나눈 도메인 토폴로지
__거버넌스가 부분적으로 적용된 큰 단위 도메인 토폴로지
__중앙집중형 도메인 토폴로지
__올바른 토폴로지 선택
랜딩 존 토폴로지: 솔루션 영역 관리
__단일 데이터 랜딩 존
__소스 정렬 랜딩 존과 컨슈머 정렬 랜딩 존
__허브 데이터 랜딩 존
__다중 데이터 랜딩 존
__다중 데이터 관리 랜딩 존
__랜딩 존 실전 사례
정리

4장 데이터 프로덕트 관리
데이터 프로덕트란 무엇인가
__코드, 데이터, 메타데이터, 인프라 통합의 난제
__논리적 엔티티로서의 데이터 프로덕트
데이터 프로덕트 설계 패턴
__CQRS란 무엇인가
__데이터 프로덕트로서의 읽기 복제본
데이터 프로덕트 설계 원칙
__리소스 지향 읽기 최적화 설계
__데이터 프로덕트의 데이터는 불변이다
__유비쿼터스 언어를 사용하라
__소스에서 직접 수집하라
__명확한 상호운용성 표준
__원시 데이터 금지
__컨슈머에 맞추지 마라
__누락된 값, 기본값, 그리고 데이터 타입
__의미적 일관성
__원자성
__호환성
__변동성이 큰 참조 데이터는 추상화하라
__새로운 데이터에는 새로운 소유권이 따른다
__데이터 보안 패턴
__메타모델 수립
__셀프서비스 허용
__도메인 간 관계
__전사적 일관성
__이력 관리, 재전송, 덮어쓰기
__여러 소유자가 있는 비즈니스 역량
__운영 모델
데이터 프로덕트 아키텍처
__상위 수준 플랫폼 설계
__데이터 수집 및 온보딩 역량
__데이터 품질
__데이터 이력 관리
솔루션 설계
__실제 사례
__스토리지 계정과의 대응 관계
__데이터 파이프라인과의 대응 관계
__데이터 제공 역량
__데이터 제공 서비스
__파일 가공 서비스
__비식별화 서비스
__분산 오케스트레이션
__지능형 소비 서비스
__데이터 프로덕트를 직접 사용할 때의 고려사항
시작해 보자
정리

5장 서비스와 API 관리
API 관리 소개
서비스 지향 아키텍처란 무엇인가
__전사적 애플리케이션 통합
__서비스 오케스트레이션
__서비스 커리어그래피
__퍼블릭 서비스와 프라이빗 서비스
__서비스 모델과 표준 데이터 모델
__엔터프라이즈 데이터 웨어하우징 아키텍처와의 유사점
API 관리에 대한 현대적 관점
__연합형 책임 모델
__API 게이트웨이
__제품으로서의 API
__컴포지트 서비스
__API 계약
__API 탐색 가능성
마이크로서비스
__함수
__서비스 메시
__마이크로서비스 도메인 바운더리
에코시스템 커뮤니케이션
경험 API
__그래프QL
__프론트엔드를 위한 백엔드
실전 사례
메타데이터 관리
데이터 프로덕트를 제공하는 읽기 지향 API
정리

6장 이벤트와 알림 관리
이벤트에 대한 소개
__알림 vs 상태 전송
__비동기 통신 모델
모던 이벤트 기반 아키텍처의 형태
__메시지 큐
__이벤트 브로커
__이벤트 처리 스타일
__이벤트 프로듀서
__이벤트 컨슈머
__이벤트 스트리밍 플랫폼
__거버넌스 모델
__데이터 프로덕트 저장소로서의 이벤트 저장소
__애플리케이션 백엔드로서의 이벤트 저장소
운영 백본으로서의 스트리밍
보장과 일관성
__일관성 수준
__처리 방식
__메시지 순서
__데드 레터 큐
__스트리밍 상호운용성
거버넌스와 셀프서비스
정리

7장 개별 사항을 통합해 큰 그림 그리기
도메인 간 상호운용성
__간략한 복습
__데이터 배포 vs 애플리케이션 통합
__데이터 배포 패턴
__애플리케이션 통합 패턴
__일관성과 탐색 가능성
변화를 가이드하고 영감과 동기를 부여하는 법
__도메인 바운더리 설정
__예외 처리
조직 차원의 변화
__팀 토폴로지
__조직 계획 수립
정리

8장 데이터 거버넌스와 보안 
데이터 거버넌스
__거버넌스 프레임워크
__프로세스: 데이터 거버넌스 활동
__효과적이고 실용적인 거버넌스 구축
__데이터 거버넌스를 위한 지원 서비스
__데이터 계약
데이터 보안
__사일로화된 현재의 접근 방식
__신뢰 경계
__데이터 분류 및 라벨
__데이터 사용 분류
__통합 데이터 보안
__신원 제공자
__실제 사례
__일반적인 보안 프로세스 흐름
__API 기반 아키텍처 보안
__이벤트 기반 아키텍처 보안
정리

9장 메타데이터를 통한 데이터 민주화
메타데이터 관리
엔터프라이즈 메타데이터 모델
__메타모델의 실제 예시
__데이터 도메인과 데이터 프로덕트
__데이터 모델
__데이터 계보
__기타 메타데이터 영역
메타레이크 아키텍처
__카탈로그의 역할
__지식 그래프의 역할
정리

10장 모던 마스터 데이터 관리
마스터 데이터 관리 스타일
데이터 통합
마스터 데이터 관리 솔루션 설계
도메인 지향적 마스터 데이터 관리
__참조 데이터
__마스터 데이터
__서비스로서의 MDM과 데이터 품질
MDM과 데이터 큐레이션
__지식 교환
__통합 뷰
__재사용 가능한 컴포넌트와 통합 로직
__통합 허브를 통한 데이터 재게시
__애그리게이트를 통한 데이터 재게시
데이터 거버넌스 권장사항
정리

11장 데이터를 가치로 전환하기
데이터를 가치로 전환하는 과정에서의 과제들
도메인 데이터 저장소
__컨슈머 정렬 유스케이스의 세분성
__데이터 도메인 저장소 vs 데이터 프로덕트
모범 사례
__비즈니스 요구사항
__대상 사용자와 운영 모델
__비기능적 요구사항
__데이터 파이프라인과 데이터 모델
__DDS의 수행 역할 범위 지정
비즈니스 인텔리전스
__시맨틱 계층
__셀프서비스 도구와 데이터
__모범 사례
고급 분석: MLOps
__프로젝트 시작
__실험과 추적
__데이터 엔지니어링
__모델 운영화
__예외 사항
정리

12장 이론을 실무에 적용하기
데이터 여정에 대한 짧은 회고
중앙집중형인가? 탈중앙형인가?
실현하기
__기회 포착 단계: 전략적 방향 설정
__전환 단계: 기반 준비
__최적화 단계: 역량 전문화
데이터 주도 문화
__데이터옵스
__거버넌스와 리터러시
엔터프라이즈 아키텍트의 역할
__블루프린트와 다이어그램
__현대적인 능력
__통제와 거버넌스
마치면서

댓글