본문 바로가기
+ 펴낸 책

대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라

by 책만 2024. 4. 24.

대격변 AI 시대, 
데이터로 사고하고 데이터로 리드하라

  한 권으로 간추린  
  확률, 통계, 데이터과학, 머신러닝, AI 특강  

알렉스 거트맨, 조던 골드마이어 지음 | 최재원, 장진욱 옮김
368쪽 | 20,000원 | 2024년 5월 3일 출간 | 152*224*18 | ISBN 9791189909628 (13000)

판매처 | [교보문고] [YES24] [알라딘] [영풍문고] [인터파크] + 전국 교보/영풍문고 매장
전자책 판매처 | [교보문고] [YES24] [알라딘] [리디북스] | 2024년 7월 5일 출간 | ISBN 9791189909697 | EPUB 포맷

 

 원서 정보: Becoming a Data Head: How to Think, Speak, and Understand Data Science, Statistics, and Machine Learning

 정오표: https://www.onlybook.co.kr/entry/data-lead-errata

  언론 보도 기사: [대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라] 보도 기사

 

 

 

0123456789

먼지 쌓인 데이터, 여러분의 조직은 잘 활용하고 있습니까? 

데이터와 통계를 모르고 AI 시대의 기술과 비즈니스를 논할 수 없다!
변동성으로 가득한 세상, 그 이면의 패턴을 찾아내자! 

데이터 과학 뒤에 감춰진 장막을 걷어내고 “데이터에 대해 비판적으로 사고하고 말하고 이해하고 행동하기 위한 지식과 노하우”를 알려준다.

 

조직 구성원의 성향을 파악하는 일부터 알고리즘 이면의 수학 원리에 이르기까지, 실무에서 활용되는 데이터와 통계에 관한 모든 것을 한 권에 간추렸다. 이 책에서는 데이터 과학 비즈니스를 잘 헤쳐 나갈 수 있는 분석 도구, 용어, 사고방식을 습득하고 데이터에 관련된 어려운 문제를 조금 더 깊게 이해할 수 있다.

 

데이터와 분석 결과에 대해 비판적으로 사고하고 데이터에 관한 모든 일에 대해 똑똑하게 자신의 의견을 말할 수 있게 될 것이다.

★ 이 책에서 다루는 내용 ★
- 통계적 사고를 위해 데이터를 대하는 태도와 소양
- 일상 생활과 의사결정 과정에서 영향을 미치는 변동성
- 현업에서 통계와 분석 결과에 대해 적절한 의견을 제시할 수 있는 데이터 리터러시 역량
- 머신러닝, 텍스트 분석, 딥러닝, AI의 이면에 숨은 기본 원리와 지식
- 데이터를 분석하고 해석할 때 빠지기 쉬운 함정
- 프로젝트와 조직의 성공을 위해 데이터 리드가 해야 할 일

이 책의 구성 

1부, 데이터로 사고하고 리드하기 위한 첫 여정
1부에서는 데이터 리드의 관점으로 생각하는 방법을 다룬다. 조직에서 수행하는 데이터 프로젝트를 비판적으로 검토하고 적절한 질문을 제기하는 방법을 배운다. 데이터의 정의, 올바른 용어 사용, 통계적 관점으로 세상을 바라보는 방법을 살펴볼 것이다.

2부, 데이터를 대하는 태도, 확률과 통계 지식
데이터 리드는 데이터에 관한 중요한 토론에 적극적으로 참여한다. 2부에서는 데이터와 논쟁하는 방법과 업무에서 접하는 통계적 개념을 이해하기 위해 필요한 질문이 무엇인지 살펴본다. 데이터 분석 결과를 이해하거나 문제를 제기하기 위해 필요한 기초적인 통계와 확률 개념을 배울 것이다.

3부, 다양한 사례로 다시 배우는 머신러닝, 딥러닝, AI 지식
데이터 리드는 통계적 모델과 머신러닝 모델이 작동하는 기본 원리를 이해해야 한다. 비지도학습, 회귀, 분류, 텍스트 분석, 딥러닝에 대해 직관적으로 이해할 수 있게 될 것이다.

4부, 프로젝트와 조직의 성공을 위해 데이터 리드가 할 일
데이터 리드는 데이터 관련 업무를 수행할 때 흔히 저지르는 실수나 빠지기 쉬운 함정이 무엇인지를 알고 있어야 한다. 조직과 프로젝트를 실패로 이끄는 기술적인 함정에 대해 살펴보고, 데이터 프로젝트에 참여하는 사람들과 그들의 성향을 알아본다. 마지막으로, 데이터 리드로 성공하기 위한 방향을 제시할 것이다.

 

★ 이 책을 읽어야 할 사람들 ★
초보 데이터 과학자, 데이터 분석가, 비즈니스 전문가, AI/머신러닝 엔지니어, 기업 경영진 등 누구나 재미있게 읽고 지식을 쌓을 수 있는 책이다. 특히, 데이터 분석가와 함께 일해야 하는 마케팅 전문가, 아직 데이터에 대해 잘 모르는 개발자, 직장인이나 연구자, AI 기술을 새로운 도입과 의사결정을 위해 데이터에 관해 좀 더 깊이 있는 지식이 필요한 C레벨 임원, 데이터 팀이나 조직을 이끌어야 하는 관리자라면 더욱 필요할 것이다. 데이터 분야에서 종사하고 싶거나 데이터 리드로 성장하고 싶은 모두가 읽어야 하는 책이다. 

책 속으로

바로, 불확실한 세상에서 확실성을 약속하고 기회를 놓칠지 모른다는 기업의 두려움을 이용하는 산업이다. 우리는 이를 ‘데이터 과학 비즈니스’라고 부른다. __p38
날마다 주식 시장은 출렁이고, 정치 여론조사 결과 또한 매주 바뀌며(조사기관에 따라 바뀌기도 한다), 휘발유 가격은 요동치고, 혈압을 의사 앞에서 측정하면 치솟아도 간호사 앞에서 재면 정상이다. 여러분의 출근길 또한 초 단위로 나눠 측정한다면 교통상황, 날씨, 자녀 등교, 모닝커피 테이크아웃 등 여러 상황에 따라 날마다 조금씩 다를 것이다. 세상 모든 것에는 변동성이 있다. 이런 현상을 여러분은 얼마만큼 편안하게 받아들일까? __p91
카지노에서는 구슬이 담긴 가방이 세심하게 설계되며 지속적으로 표본을 추출할 수 있다. 그러나 정치인들은 선거 당일 모든 구슬(즉 투표 결과)이 드러나기 전까지는 가방 안에 무엇이 들어 있는지 절대로 알 수 없다. __p99
어떤 정치인의 지지율을 확인할 때 특정 정당 지지자 대상으로만 설문조사를 한다면 그렇게 수집한 데이터에는 표집 편향이 발생한다. 잘 설계된 실험이어야만 잠재적인 표집 편향의 위험을 낮출 수 있다. __p121
어린아이도 동전 던지기 확률이 50 대 50인 것을 알고 있지만 2016년 대선은 여론조사 업계 전체가 테라바이트급 대규모 데이터를 분석했음에도 결과를 예측하기가 어려웠다. __p149
어떤 채무자가 빚을 갚지 못할 사건은 그들의 이웃이 빚을 갚지 못할 사건과 서로 독립이지 않지만 오랫동안 월스트리트 금융가는 이런 사실을 간과했다. 두 사건 모두 본질적으로 전 세계의 경제 상황과 얽혀 있다. __p158
잘못된 독립성 가정으로 인해 다음 해 프로젝트가 모두 실패할 가능성은 과소평가되고 결과적으로 적어도 하나의 프로젝트가 성공할 가능성은 과대평가됐다. 2008년 금융 위기와 연이은 경기 침체에서 보듯 독립성 가정의 중요성을 잊어서는 안 된다. __p159
컴퓨터는 사람처럼 언어를 이해할 수 없으며 컴퓨터에게 언어는 그저 숫자일 뿐이라는 사실을 확실히 이해했기를 바란다. 이 사실을 아는 것만으로도 엄청난 가치가 있다고 생각한다. 텍스트가 숫자로 변환되는 과정에서 인간이 단어와 문장에 부여한 의미가 일부 제거된다는 사실만 잘 파악해도, 텍스트와 관련된 모든 비즈니스 문제를 AI가 전부 해결할 수 있다는 마케팅 문구에는 결코 속지 않게 될 것이다. __p284
알고리즘 편향은 아무리 선의를 지니더라도(혹은 중립적이라도) 어디서나 발생할 수 있음은 물론, 이미 발생하고 있음에 유의하라. 어떤 모델의 예측도 최종적인 진실을 알려주지는 못한다. 모델을 이용한 모든 결과는 가정의 산물이기 때문이다. __p321
데이터 비관론자에게는 자신의 사적인 경험이 데이터 과학이나 통계학, 머신러닝보다도 더 중요하다. 따라서 그들은 데이터 작업자들의 역할에 냉소를 보낸다. 이들은 데이터를 성가시지만 불가피한 요소쯤으로 여기며 직관을 선호한다. 결과가 마음에 안 들면 건설적 비판보다는 세부사항을 과도하게 강조하면서 허점을 찾아내기에 급급해한다. 그들은 왜 이렇게 냉소적인지 한번 생각해 보자. __p338


추천의 글

데이터를 어떻게 분석할지, 의사결정은 어떤 기준으로 할지 온전히 이해해야만 어떤 기술을 쓰든 간에 제대로 된 결과물을 만들 수 있다. 이 책은 독자가 어떤 업종에서 일하는지와 상관없이, 누구든지 데이터를 잘 이해할 수 있도록 쉽게 설명해준다. 한번 꺼내 들었다면 반드시 끝까지 다 읽어보기를 강력히 추천한다.
- 구동언 / 클라우드 보안 모니터링 전문회사 ‘로그프레소’ 공동창업자 겸 사업본부장
다 읽고 나서는 바로 책의 내용을 실천해 보자. 현재 회사에서 처한 문제, 또는 진행하려는 프로젝트에 책 내용을 적용하면서 해결해 보자. 현실에 존재하는 다양한 문제들을 해결하는 과정에서 이 책을 참고서로 삼아 보자. 어떤 문제를 해결할 때 나는 어떤 방식으로 시도하고, 어떤 방법으로 문제를 개선하는지 등 나만의 문제 해결 방법을 프레임워크처럼 만들어서 도식화해 본다면 어떤 문제가 주어지더라도 현명히 해결할 수 있을 것이다.
- 변성윤 / 카일스쿨 대표, 『구글 빅쿼리 완벽 가이드』 역자
데이터 과학과 관련된 어려운 주제들을 쉽게 이해할 수 있도록 풀어낸 이 책은 비전공자나 초보자들도 데이터에 대한 전문적인 지식을 손쉽게 습득할 수 있는 훌륭한 자료입니다. 이 책에서 저자들은 현대 사회에서 데이터가 얼마나 중요한지를 강조하면서도, 수학적인 개념이나 기술적인 용어에 대한 부담을 최소화하고자 노력했습니다. 데이터에 대한 이해를 향상시키길 원하는 모든 분께 강력히 추천하는 책입니다.
- 송정우 / 네이버 웹툰, AI 리서치 엔지니어
데이터는 일하는 방법을 제시하고 창의적 사고를 유도한다. 그리고 그 결과의 오류를 예측하고 판단하는 근거가 된다. 이 책은 이러한 데이터의 중요성을 그 정의부터 시작하여 원리와 개념을 알기 쉽게 체계적으로 설명한 책이다. 앞으로 AI 시대는 더 많은 데이터가 생성될 것이며, 지금도 딥러닝을 통해 새로운 형태의 사업이 태동되고 있다. 이 책은 이러한 시점에서 아주 중요한 지침서가 될 것으로 믿어 의심치 않는다.
- 이동철 / 하나마이크론 CEO
AI 시대를 맞아 우리에게 주어지는 수많은 뉴스와 정보의 홍수는 정작 그 실체를 파악하는 것조차 어렵게 하고 있다. 이 책은 데이터에 대한 다양한 관점부터 시작하여, 기초 통계 및 확률에 이어 가설 검증 등의 클래식한 영역, 그리고 텍스트 분석 및 이미지 분석 등을 포함한 최신의 딥러닝, AI의 영역까지 아주 명쾌하게 연결하고 있다. 최신의 데이터 사이언스를 기초부터 파악하고 싶어 하는 데이터 비전공자인 엔지니어와 학생에게 큰 도움이 될 것이다. 또한 비즈니스 성공의 관점에서 데이터 활용을 위한 충고 및 방법론을 곳곳에 제시하고 있으므로 여타 산업계에 종사하는 관리자와 경영자에게도 반드시 일독을 권하고 싶다.
- 이석희 / SK온 CEO
데이터가 기업의 중요 자산으로 자리 잡은 후 꽤 시간이 흘렀다. 그러나 그 활용에 있어서는 여전히 충분하지 않은 면이 있다. 특히나 데이터 리터러시 측면에서 많이 부족하다. 데이터를 어떻게 이해하는가에 따라서 도출할 수 있는 의미와 가치가 천차만별이다. 단순한 돌더미가 될 수도 있고, 빛나는 보석이 될 수도 있다. 이 책은 이 데이터 이해력 관점에서 여러 실질 사례를 다루고 있다. 데이터 조직의 수장이라면 한 번 읽어보면 좋을 것 같고, 수장이 아니라 하더라도 데이터 실무를 해가는 데 있어 하나의 좋은 지침서가 될 것이다.
- 황장준 / 구글 수석 엔지니어
빅데이터, 데이터과학, 머신러닝, AI, 신경망, 딥러닝… 이 모든 용어는 그저 한때의 유행어일 수도 있다. 그러나 두말할 나위도 없이 오늘날 세상의 모든 것은 데이터로 만들어지고 있으며, 현업에서 일하는 사람들이라면 누구든 데이터와 데이터 과학을 이해해야 한다. 저자인 알렉스와 조던은 이제 막 데이터에 관심을 갖게 됐거나 이미 데이터 관련 업무를 수행하는 이들 모두가 읽어야 할 내용을 한 권의 책으로 엮었다. 전체 데이터 분석 과정을 이해할 수 있는 단위로 세분화하고, 일상적인 예시와 역사적인 사건을 예로 들어 복잡한 개념을 쉽게 이해할 수 있도록 설명했다.
- 밀렌 마하데반(Milen Mahadevan) / 84.51° 대표
이 책은 각 주제별로 깊이 있으면서도 놀랄 만큼 폭넓게 내용을 다룬다. 이 점이 정말 마음에 든다. 아무리 어려운 내용이라도 누구든 이해할 수 있도록 쉽게 설명할 수 있어야 한다는 교육 이론을 지지하는 편이다. 대부분의 데이터 과학 책은 수학과 코딩을 너무 전문적인 수준까지 가르치거나 아니면 단순히 유행어를 남발하며 내용을 과장한다. 그러나 이 책이라면 중도에 헤매는 일 없이 저자들이 이끄는 길을 따라 데이터 분야에 대한 폭넓은 지식을 얻을 수 있다. 충분히 읽어볼 만한 가치가 있는 책이다.
- 커크 본(Kirk Borne) / 데이터 과학 분야의 세계적 인플루언서
내가 본 책 중에서 가장 명확하고 간결하며, 기업의 데이터 분석 업무에 실용적으로 참고할 수 있는 가장 좋은 책이다. 올바른 질문을 제기할 수 있는 유능한 데이터 분석가가 되고 싶은 이들에게 추천한다.
- 크리스틴 케러(Kristen Kehrer) / 링크드인의 데이터 과학 및 분석 분야 최고 인플루언서
“머신러닝을 더 많이 활용하고 데이터를 더 정교하게 이용하라”는 주장을 제법 들어 봤을 것이다. 그러나 데이터 과학은 기업의 모든 문제를 해결해주는 마법이 아니다. 이 책은 언제 데이터 과학이 필요한지(혹은 그렇지 않은지), 그리고 조심해야 할 함정은 무엇인지를 초보자도 쉽게 이해할 수 있는 방식으로 설명한다. 만약 내가 기술적 배경지식이 전혀 없는 고위 경영진에게 복잡한 개념을 전달해야 한다면 분명히 이 책을 새로운 참고 자료로 삼을 것이다.
- 샌디 스타이거(Sandy Steiger) / 마이애미대학교 분석 및 데이터 과학 센터 이사
비즈니스와 기술 분야의 리더로서 데이터 과학의 잠재력과 한계를 제대로 이해하려면 반드시 읽어야 할 바로 그 책!
- 제니퍼 모건(Jennifer Morgan) 박사 / P&G의 분석 화학자
개인이나 조직은 모두 데이터에 기반한 의사결정을 내리고 싶어 하며, 자신들이 이미 데이터 기반으로 실행하고 있다고 말한다. 이 책은 통계나 데이터에 대한 배경지식 없이도 실제로 데이터에 기반해 의사결정을 내리는 방법을 안내한다. 관련 업무에 종사하는 이들뿐만 아니라 기업 전체에 데이터 기반 사고 방식을 도입하고 싶은 사람과 조직 모두를 위한 책이다.
- 에릭 웨버(Eric Weber) / 옐프(Yelp)의 실험 및 지표 연구 책임자
데이터 과학이 잠재력을 발휘하지 못하는 원인은 무엇일까? 느린 알고리즘, 데이터 부족, 컴퓨팅 성능 부족 때문이 아니다. 심지어 데이터 과학자가 부족해서도 아니다. 이 책은 데이터 과학의 성공적인 활용에 가장 큰 걸림돌이 되는 데이터 과학자와 경영진 사이의 소통 격차를 해소하는 방법을 알려준다. 저자들은 창의적인 방식으로 데이터 과학을 설명하며, 명확하고 일상적인 사례를 들어 데이터 과학을 어떻게 활용할 수 있는지 안내한다. 관리자와 경영진은 물론, 데이터 과학을 좀 더 깊이 이해하고 싶은 사람들이 많은 것을 배울 수 있는 책이다. 또한 자신의 업무를 설명하는 데 어려움을 느끼는 데이터 과학자들에게도 가치 있을 것이다.
- 제프리 캠(Jeffrey D. Camm) 박사 / 웨이크포레스트 대학교 분석 영향력 센터
이 책은 명확한 사고력이 절실한 업계를 위해 데이터 관련 교육과 지식 수준을 높여 준다. 한창 성장 중인 데이터 과학 분야에서 일하고 있거나 그들과 협업하는 사람이라면 반드시 읽어야 할 책이다.
- 스티븐 챔벌(Stephen Chambal) 박사 / 퍼듀코(Perduco)(미 국방부 분석 회사)의 기업 성장 부문 부사장
저자들은 불필요한 내용을 걷어 내고 복잡한 데이터와 통계 개념을 쉬운 예제와 적절한 비유로 풀어 설명한다. 이 책 덕분에 나는 팀에 필요한 데이터와 정보를 조직에 적합한 실질적인 비즈니스 요구사항으로 전환할 수 있었다. 비즈니스 기회를 얻고 데이터 팀을 성장시키고 싶다면 꼭 읽어보길 추천한다.
- 저스틴 모러(Justin Maurer) / 구글의 데이터 과학 및 엔지니어링 팀 관리자
15년 경력의 항공우주 엔지니어인 나는 이 책을 읽고 난 후 데이터 과학에 대한 기초 지식은 물론이고 데이터 기반 업무 환경을 조성하기 위한 전문지식도 알게 됐다. 이 책에서는 AI 등 자주 남용되는 용어를 적절히 걸러서 받아들이는 방법도 알려준다. 데이터 과학이라는 피할 수 없는 미래를 탐색해 보려는 중간 관리자가 있다면 반드시 읽어야 할 책이다. 
- 조시 키너(Josh Keener) / 항공우주 엔지니어, 프로그램 매니저
데이터 과학을 잘 이해하고 싶은 고위 경영진에게 딱 들어맞는 필독서다.
- 케이드 사이에(Cade Saie) 박사 / 최고 데이터 책임자(CDO)
저자들은 독자들에게 올바른 질문을 제기하고 통계적 가설을 검토하며 실수를 피하는 방법에 관해 실용적인 조언을 건넨다. 데이터 과학에 대해 빠짐없이 설명하면서도 방대한 내용 속에서 길을 잃지 않도록 균형을 잘 잡아준다. 분석가, 데이터 과학자, 관리자, 경영진, 그리고 데이터 과학을 더 깊이 이해하려는 모든 사람에게 또 하나의 유용한 도구가 될 것이다.
- 제프 비알락(Jeff Bialac) / 크로거(Kroger)의 수석 공급망 분석가
저자들은 응용 통계학자와 데이터 과학자, 심지어 고위 경영진과 기술 전문가 모두에게 유용한 책을 내놓았다. 복잡한 통계 개념을 이해하기 쉽게 풀어 설명하며, 데이터 업무와 비즈니스 가치 사이에 오래된 간극을 이어주는 공통의 언어를 창조했다.
- 캐슬린 메일리(Kathleen Maley) / 데이터줌(datazuum)의 최고 분석 책임자


지은이 알렉스 거트맨 Alex J. Gutman

데이터 과학자, 기업 교육 강사, 공인 전문 통계학자(Accredited Professional Statistician)이며 풀브라이트 전문가(Fulbright Specialist) 프로그램 장학금을 받았다. 전문가와 일반인을 대상으로 데이터 과학에 관한 다양한 주제를 강연하고 있다. 공군기술대학원(Air Force Institute of Technology)에서 응용수학 박사 학위를 취득했고 현재 겸임교수로 재직 중이다.

지은이 조던 골드마이어 Jordan Goldmeier

국제 공인 데이터 분석 전문가이자 데이터 시각화 전문가, 작가, 강사로 활동 중이다. 전 엑셀TV(Excel.TV)의 최고 운영 책임자였고 수년간 데이터 교육 분야에서 일해왔다. 『고급 엑셀 기능(Advanced Excel Essentials)』과 『엑셀을 이용한 대시보드(Dashboards for Excel)』를 저술했다. 그의 저작물은 <AP통신>, <블룸버그 비즈니스위크>, 아메리칸 익스프레스 오픈 포럼에 인용됐다. 현재 6년 넘게 마이크로소프트 엑셀 MVP로 활약하면서 마이크로소프트 제품 팀에 피드백을 제공한다. 엑셀을 이용해 6천만 달러에 달하는 미공군 예산을 절감한 적도 있으며, 자원봉사로 응급구조대원 일도 한다.

우리는 많은 사람이 데이터를 제대로 배우기 원하지만 어디서부터 시작해야 할지 모른다고 생각한다. 이미 출간된 수많은 데이터 과학이나 통계학 책은 매우 다양한 스펙트럼에 걸쳐 있다. 스펙트럼의 한쪽에는 데이터 활용의 이점과 희망적인 전망을 찬양하는 비기술서들이 다수 있다. 개중에는 괜찮은 책도 있다. 하지만 아무리 좋은 책이라 해도 현 시점에 치우친 비즈니스를 다루는 책인 경우가 많다. 대부분 저널리스트가 데이터의 급부상에 관한 극적인 면을 부각시키려고 쓴 책이다.
이런 책들은 데이터라는 렌즈를 통해 특정 비즈니스 문제가 어떻게 해결됐는지를 설명한다. AI, 머신러닝 등의 용어가 등장하기도 한다. 여기서, 오해하지는 않기를 바란다. 이런 책이 사람들의 데이터 활용에 대한 인식을 높이는 역할은 했다. 다만 구체적인 수행 작업에 대해서는 깊이 파고들지 않고, 그저 큰 틀에서 문제와 해결책에만 초점을 맞출 뿐이다. 
스펙트럼의 반대편에는 높은 수준의 기술 서적이 있다. 대부분 무려 500쪽이 넘는 묵직한 책들이라 그 안에 담긴 내용은 물론이거니와 물리적으로도 심적 부담을 안겨준다.
스펙트럼의 양 끝에는 각기 산더미처럼 많은 책이 존재한다. 대부분의 사람들은 비즈니스 서적만 또는 기술 서적만 읽기 때문에 커뮤니케이션 간극은 좀처럼 줄어들지 않는다. 다행히 양 극단 사이에 몇 권의 훌륭한 책이 있다. 
이 목록에 우리 책을 추가하고 싶다. 여러분이 읽고 있는 이 책은 컴퓨터나 메모 용지를 곁에 두지 않아도 누구나 부담 없이 읽을 수 있다. 우리 책이 괜찮았다면 앞서 말한 두 권의 책 중 적어도 한 권 이상 읽어보고 데이터에 대한 이해를 더 탄탄히 다질 수 있는 기회로 삼기를 강력히 추천한다. 후회하지 않을 것이다.
우리 저자들은 이 책이 정말 마음에 든다. 이 책이 여러분에게 데이터와 데이터 분석에 대한 학습 동기를 부여하고, 더 배우고 싶다는 열망을 불러일으킨다면 그것만으로도 성공이라고 생각한다.


옮긴이 최재원 

아주대학교, 게이오대학교 대학원을 졸업했고 현재 대학에서 교육 및 학습 데이터 분석가로 활약하고 있다. 인간의 내면과 지식 상태, 학습 동기를 반영하는 데이터에 관심이 많아 교육 분야 데이터 분석 및 연구에 매진하고 있다. 현재는 AI코스웨어, AI디지털교과서, 개인 맞춤형 학습에 초점을 두고 연구와 프로젝트를 병행하고 있다. 책을 읽고 쓰는 일도 좋아해서 데이터 분석, 데이터 시각화, 시각 디자인, 게임 디자인 등의 분야에 관한 책을 번역하면서 소설가로도 활동하고 있다.
번역한 책으로는 『디자인, 이것만 알면 쉬워져요 with 63가지 LESSON』(책만, 2024), 『핵심 딥러닝 입문: RNN, LSTM, GRU, VAE, GAN 구현』(책만, 2020), 『데이터 과학 트레이닝 북』(인사이트, 2020), 『IT 개발자의 영어 필살기』(책만, 2020), 『대학혁신을 위한 빅데이터와 학습분석』(시그마프레스, 2019), 『실체가 손에 잡히는 딥러닝』(책만, 2019), 『데이터 시각화, 인지과학을 만나다』(이하 에이콘출판, 2015), 『유니티 입문』(2012), 『디지털 게임 교과서』(2012)가 있으며, 두 권의 소설 『아무도 모르는 악당』(화이트웨이브, 2021), 제1회 타임리프 소설 공모전 당선작인 『스테파네트 아가씨를 찾아 헤맨 나날들』(황금가지, 2016)을 썼고, 전자책 『VR, 가까운 미래』(리디북스, 2016)를 출간했다.

지금껏 나는 많은 데이터 관련 책을 읽고, 공부하고, 때로는 번역서를 출간하기도 했는데, 이 책은 번역서가 아니라 내가 집필한 책이라면 정말 좋았겠다는 욕심이 날 만큼 대단한 물건이었다. 처음 원서를 받고 장 제목 위주로 쑥 내용을 훑어보았을 때는 ‘내용이 너무 쉬운 거 아닌가?’ 하는 생각이 들었지만 번역을 위해 본격적으로 한 문장씩 내용을 음미하며 읽어나가기 시작한 순간부터 마지막 장이 끝날 때까지, 저자들이 설정한 책의 기획 의도에 맞게 저술하기 위해 들인 노력, 그리고 데이터 분석과 통계에 관한 그들의 깊은 내공에 감탄을 멈출 수 없었다.
흔히 “쉽게 쓰는 것이 가장 어렵다”고들 말한다. 그동안 이 말에 대해 이성적으로는 동의하고 있었지만 정확한 사례를 경험한 적은 거의 없었는데, 이 책을 읽고 나서야 저 말의 진정한 표본을 만났다고 느꼈다. ‘쉽게 쓸 수 있다’는 것은 글쓴이가 관련 내용의 핵심과 논리를 완벽하게 꿰뚫고 있다는 의미며 그럼으로써 쉬우면서도 명쾌하고 논리적인 글이 나올 수 있다.
이 책은 어려울 수도 있는 데이터 분석과 통계에 대해 딱 필요한 만큼의 깊이와 범위를 다룬다. 이 분야를 전공으로 삼으려는 사람들에게 입문서로도 좋지만, 기술적인 분야에 대해 너무 깊이 알 필요는 없지만 데이터 분석가와 의사소통이 가능한 수준까지는 관련 지식을 쌓고 싶은 일반인들에게는 정말 도움이 될 것 같다. 일반 교양서와 본격적인 기술서 사이의 경계선에서 절묘하게 줄타기를 하는 무척 신기한 책이다.
특히 요즘처럼 AI가 급속도로 대중화되고 있는 시대야말로, AI를 동작시키는 원료인 데이터의 ‘본질’에 집중할 필요가 있다. 오늘날 AI에 대해 설명하는 수많은 책과 글이 넘쳐나지만 AI를 가장 정확하게 이해하는 길은 ‘데이터에 기반한 통계적 사고’가 어떻게 AI까지 진화했는지 그 흐름을 쫓아가보는 것이다. 그런 면에서 이 책은 AI 시대를 살아가는 일반 대중에게 첫 교과서와 같은 역할을 할 수 있지 않을까 기대한다.
책 내용 중 기술적인 부분은 내가 이미 잘 알고 있는 분야이기도 하고 너무 깊이 다루지는 않기 때문에 저자들이 원서에서 주장하는 내용과 메시지를 쉽게 이해할 수 있었지만 문제는 한글로 번역하는 과정이었다. 하나의 문장과 하나의 단락에서 다루는 내용이 밀도가 높고 의미가 압축되어 있어 문장 자체는 쉽지만 원서의 정확한 의미와 미묘한 뉘앙스를 한글 문장으로 바꾸기 위해서 많은 고민과 시간이 필요했다. 유행이 지난 말이긴 하지만
정말 ‘한 땀 한 땀’ 시간과 공을 들여 번역해 나갈 수밖에 없었다.
고백하건대, 지금껏 나는 교양서와 기술서 사이에서 정확하게 균형을 잡는 좋은 책을 직접 쓰고 싶다는 열망이 가득했다. 하지만 이 책을 번역하는 과정에서 이미 그런 책이 출간되어 있었다는 실망감과 함께, 한편으로는 이렇게 좋은 책을 발견해 번역을 맡게 되었다는 기쁨을 동시에 느낄 수 있었다. 그만큼 훌륭한 책이며 많은 분에게 자신 있게 추천할 수 있는 책이다.

옮긴이 장진욱 


서울대학교 대학원에서 재료공학을 전공했으며, 미국의 모토롤라/프리스케일 반도체에서 반도체 패키징 엔지니어로서 커리어를 시작했다. 귀국 후 삼성전자 및 SK하이닉스에서 반도체 패키징 생산 및 개발에 참여했다. 이후 코리아인스트루먼트 연구소에서 반도체 프로브 카드 개발을 맡았으며 현재는 하나마이크론의 연구소장으로서 첨단 패키징 개발을 이끌고 있다.
재료공학 전반 및 반도체 패키징 분야에서 50여 편의 국제 학술 논문을 저술했으며, 20건 이상의 학회 발표를 수행했다. 데이터의 본질과 분석에 관심이 많으며, 현재 담당하고 있는 기술 업무인 반도체 패키징의 생산 및 개발 분야에 어떻게 하면 더 큰 도움이 될까를 항상 고민하고 있다.

수십 년간 재료공학도로 살아오면서 나는 학위 과정까지 여러 재료공학적 현상을 연구하고 분석하기 바빴다. 학위 취득 후 반도체 업계에서 일하기 시작했을 때, 그간 다루던 재료공학적 관점 이외에 여러 가지 품질 관리 기법 및 신뢰성 분석을 위한 모델 해석 등 통계적 개념을 접하게 됐다. 기업에는 제품의 품질과 수명을 개선해 이윤을 남겨야 하는 숙명이 있기에 필수 불가결한 것이었다.
하지만 여전히 머리를 맴도는 생각이 있었다. 재료공학에서 다루는 현상들을 완벽히 이해한다면, 이러한 통계적 접근은 최소화할 수 있을 뿐만 아니라 어쩌면 필요하지도 않을 것 같았다. 지금 돌이켜 보면, 그보다는 아마도 통계적 접근과 응용을 아예 외면하고 싶었던 것은 아니었을까 한다. 내가 그간 집중해 왔던 재료공학을 비롯한 과학이나 공학의 대부분은, 원인과 결과를 명확히 밝히는 인과관계의 탐구 과정이었다. 그러던 중 AI 시대가 도래하고 반도체를 포함한 모든 분야에 응용되기 시작했다. 이에 나는 통계 분야의 고전적인 데이터 개념과 AI에서 다루는 데이터가 도대체 무엇이 다른 건지 궁금해질 수밖에 없었다. 이러한 막연한 호기심에 수많은 논문과 책을 뒤지고, 인터넷의 바다도 헤매고 다녔었다.
나 같은 일반 연구자들을 위해 코딩이나 복잡한 통계 수식 없이, 장밋빛 미래만 이야기하지는 않으며, 핵심만 콕 짚어주는 ‘흙 속의 진주’ 같은 책이 혹시 있지 않을까? 나와 비슷한 궁금증을 지닌 사람들을 위해 책을 집필한 저자들이 있을까? 실로, 이 인연은 존재했다! 바로 이 책의 원서 『Becoming a Data Head』였다. 어렵사리 찾아낸 이 진주는 영어 책이었지만 어찌나 재미있게 읽히던지 그 느낌이 지금도 생생하다. 이 책의 저자들은 내가 궁금해 했던 모든 것을 사랑방에서 이야기하듯 술술 풀어나가는 이야기꾼이었고, 책을 읽다 보니 통계와 데이터에 대한 수십 년 묵은 근본적 의문이 일거에 해결되는 느낌이었다.
기술적 난제를 비롯한 삼라만상 중 인과관계를 정확히 알 수 있는 것이 대체 몇 개나 되겠는가? 그렇기 때문에 통계에서 출발해 딥러닝과 AI가 열어준 데이터의 세계에 대한 이해가 필요한 것이었다. 이 책의 또 하나 놀라운 점은 일반 엔지니어나 연구자뿐 아니라, 기업 경영자나 관리자가 기업의 비즈니스 성공을 위해 데이터를 어떻게 바라보고 활용해야 하는지까지 여러 비유를 들어 다양하게 비춰주고 있다는 점이다.
아무쪼록 여러 분야의 독자들이 이 책이 가져다 줄 데이터에 대한 깨달음의 기쁨이 함께 하길 빌며 이 글을 마치고자 한다.

 

차례

[1부] 데이터로 사고하고 리드하기 위한 첫 여정
1장 무엇이 문제일까
_데이터 리드라면 반드시 물어야 할 질문들
___이 문제는 왜 중요한가
___이 문제는 누구에게 영향을 미치는가
___적절한 데이터가 없을 경우 어떻게 해야 할까
___프로젝트는 언제 종료되는가
___결과가 만족스럽지 못할 경우 어떻게 해야 할까
_데이터 프로젝트는 왜 실패했을까
___고객 인식도
___생각해 볼 사항
_중요한 문제에 집중하자
_정리

2장 데이터란 무엇인가
_데이터 vs 정보
___데이터셋 예시
_데이터 유형
_데이터는 어떻게 수집되고 정형화되는가
___관측 데이터 vs 실험 데이터
___정형 데이터 vs 비정형 데이터
_기본적인 요약 통계량
_정리

3장 통계적 사고를 위한 준비를 갖추자
_질문을 하자
_모든 것에는 변동성이 있다
___고객 인식도 시나리오(후속편)
___사례 연구: 신장암 발병률
_확률과 통계
___확률 vs 직관
___통계학을 활용한 발견
_정리

[2부] 데이터를 대하는 태도, 확률과 통계 지식
4장 데이터와 논쟁하자
_여러분이라면 어떻게 했을까
___누락된 데이터가 초래한 재앙
_데이터의 근원을 확인하자
___누가 데이터를 수집했는가
___데이터는 어떤 방식으로 수집됐나
_데이터에 대표성이 있는가
___표본 추출에 편향이 있었는가
___이상값을 어떻게 처리했는가
_확인하지 않은 데이터는 무엇인가
___어떤 방법으로 결측값을 처리했는가
___측정하려는 개념을 측정할 수 있는 데이터인가
_크기를 막론하고 모든 데이터와 논쟁하자
_정리

5장 데이터를 탐색하자
_데이터 리드의 탐색적 데이터 분석
_탐색적 사고의 필요성
__어떤 질문을 해야 할까
___가상 시나리오 
_데이터는 여러분의 질문에 답할 수 있는가
___기대치를 설정하고 상식적으로 생각하자
___직관적으로 이해할 수 있는 데이터 값인가
___이상값과 결측값을 잘 관리하라
_데이터에서 어떤 관계성이 보이는가
___상관관계를 이해하자 
___상관관계를 오해하지 않도록 주의하자 
___상관관계가 인과관계를 의미하지는 않는다 
_데이터에서 새로운 탐색 기회를 찾았는가
_정리

6장 확률이란 무엇인가
_추측해 보자
_게임의 법칙
___수학적 표기
___조건부 확률과 독립 사건
___여러 사건의 발생 확률
___동시에 발생하는 두 사건
_확률에 대한 사고 실험
___확률에 대한 3가지 체크 포인트
_사건들이 서로 독립이라 가정할 때는 주의해야 한다 
___도박꾼의 오류에 빠지지 말자
_모든 확률은 조건부 확률임을 인지하자
___의존 관계를 바꾸지 말자
___베이즈 정리
_의미가 있는 확률인지를 반드시 확인한다
___보정
___가능성이 희박해도 사건은 일어난다
_정리

7장 통계에 도전하자
_통계적 추론이란
___오차의 여지를 남기자
___데이터가 많아질수록 증거도 늘어난다
___현재 상황에 의문을 제기하자
___현 상황에 반하는 증거가 있는가
___판단 오류 균형 잡기
_통계적 추론 과정
_통계 분석 결과를 검증하기 위해 필요한 질문
___어떤 맥락에서 나온 통계 분석 결과인가
___표본의 크기는 얼마인가
___무엇을 검증하는가
___귀무가설은 무엇인가
___유의 수준은 얼마인가
___얼마나 많이 검증했는가
___신뢰 구간을 제시할 수 있는가
___실제적으로 의미 있는 결과인가
___인과 관계를 가정하고 있는가
_정리

[3부] 다양한 사례로 다시 배우는 머신러닝, 딥러닝, AI 지식 
8장 데이터에 감춰진 패턴과 그룹을 찾는 머신러닝
_비지도학습이란
_차원 축소
___복합 변수 만들기
_주성분 분석
___운동 능력 데이터의 주성분
___주성분 분석 요약 
___주의해야 할 함정
_군집분석
_k-평균 군집분석
___소매점 군집분석
___주의해야 할 함정
_정리

9장 미래를 예측하고 현상을 설명하는 회귀 모델
_지도학습
_선형 회귀는 무슨 일을 할까
___최소 제곱 회귀(단순히 이름만 기발한 것은 아니다)
_선형 회귀에서 알 수 있는 것
___더 많은 변수를 투입할 때
_선형 회귀가 야기하는 혼란
___누락된 변수들
___다중공선성
___데이터 누수
___외삽 오류
___대부분의 관계는 선형적이지 않다
___설명할 것인가, 예측할 것인가
___회귀 모델의 성능
_그 밖의 회귀 모델
_정리

10장 판단의 기준을 파악할 수 있는 분류 모델
_분류 문제란 무엇일까
___분류 모델의 3가지 방법
___분류 문제 설정
_로지스틱 회귀
___로지스틱 회귀의 장점
_의사결정나무
_앙상블 모델
___랜덤 포레스트
___그래디언트 부스트 트리
___앙상블 모델의 설명력
_흔히 빠지기 쉬운 함정에 주의하자
___데이터 유형에 맞지 않는 모델 적용
___데이터 누수
___모델 구축과 테스트를 위한 데이터셋 분할
___의사결정을 위한 적절한 임곗값 선택
_정확도에 대한 오해
___혼동 행렬
_정리

11장 글 속에 담긴 주제와 감성을 찾아내는 텍스트 분석
_텍스트 분석에 대한 기대
_텍스트를 숫자로 바꾸는 방법
___단어 가방
___N그램
___단어 임베딩
_토픽 모델링
_텍스트 분류
___나이브 베이즈
___감성 분석
_텍스트 분석에서 고려해야 할 실용적인 문제
___빅테크 기업의 기술적 우위
_정리

12장 데이터 리드라면 알아야 할 딥러닝과 AI
_신경망 모델
___신경망은 어떤 면에서 사람의 뇌와 비슷할까
___간단한 신경망 모델
___신경망이 학습하는 방법
___조금 더 복잡한 신경망
_딥러닝 응용 사례
___딥러닝의 장점
___컴퓨터가 이미지를 ‘보는’ 방법 
___합성곱 신경망
___언어 처리와 순차 데이터에 활용되는 딥러닝
_딥러닝의 실제 활용 현황
___데이터는 충분한가?
___데이터가 구조화되어 있는가
___신경망은 어떤 모습일까
_AI를 대하는 관점
___빅테크 기업의 유리한 위치
___딥러닝의 윤리적 문제
_정리

[4부] 프로젝트와 조직의 성공을 위해 데이터 리드가 할 일 
13장 호시탐탐 곳곳에 도사린 실패와 함정
_데이터의 편향과 기묘한 현상
___생존 편향
___평균으로의 회귀
___심슨의 역설
___확증 편향
___매몰비용 오류
___알고리즘 편향
___그 밖의 편향
_데이터 프로젝트의 대표적인 함정
___통계와 머신러닝 함정
___프로젝트 함정
_정리

14장 조직 구성원의 다양한 성향을 파악하자
_의사소통이 중단되는 7가지 상황
___사후 약방문
___알맹이 없는 발표
___부정확한 정보의 확산
___수렁 속으로
___리얼리티 체크
___권력 장악
___허풍쟁이..
_데이터를 대하는 사람들의 3가지 태도
___데이터 맹신자
___데이터 비관론자
___데이터 리드
_정리

15장 더 높은 곳을 향해

댓글