오늘 할 일: 끝내주게 숨쉬기
article thumbnail

한빛미디어 '나는리뷰어다2024' 서평단으로서 선정한 두 번째 도서는 '실무로 통하는 인과추론 with 파이썬' 입니다.


https://www.hanbit.co.kr/store/books/look.php?p_code=B6208936856

 

실무로 통하는 인과추론 with 파이썬

데이터 기반의 통찰력 있는 의사결정을 위한 인과추론, 효율적인 영향력 분석을 통한 성공적인 비즈니스 정책 결정

www.hanbit.co.kr

 
 

도서 선정 이유



머신러닝 모델을 학습하기 위해 많은 변수를 수집할 때마다 생각합니다. 이거 진짜 결과에 영향 주는 변수 맞아..? 일단 활용 가능한 것들 다 넣어보는 거 아녀..? 사실 하나하나의 변수가 결과와 직접적인 관련이 없어 보이더라도 다른 변수들과의 상호 작용으로 인해 결과와 연관이 있다고 보여질 수 있습니다.

모델 성능이나 연관관계 파악 여부에만 관심이 있다면 사실 크게 문제되는 상황이 아닐 수 있겠습니다. 다만 연관성 여부를 넘어 ’만약‘ 값이 이렇게 바뀐다면 결과는 어떻게 될까와 같은 인과관계를 파악하고 싶다면 다른 방법이 필요합니다. 일부 변수들을 통제하면서 특정 변수의 효과를 확인하고 싶을 때, 원인과 결과 변수를 해석하는 데에 좀 더 관심을 두고 싶을 때는 인과추론 Causal Inference 이 필요하다고 합니다.

좋은 성능을 보이는 모델을 만들고 활용하는 과정을 만드는 일 이상으로, 데이터를 좀 더 자세하게 들여다보는 과정을 배워보고자 이번 달에는 이 책을 선정하였습니다. 나중에 제품, 서비스에 대한 고객 데이터를 들여다 볼 일이 생긴다면 이 책의 내용을 적용해보고 싶네요.


 

목차 구성과 주요 내용



책은 크게 5부로 구성되어 있습니다.

1부는 인과추론의 주요 개념들, 수식을 설명하기 위해 사용하는 통계 개념들을 소개합니다. 인과 과정을 시각적으로 표현하는 그래프 모델도 다루는데, 이후 장들에서 종종 이 그래프가 등장하면서 이해를 도와줍니다.

2부는 인과관계와 상관관계를 구분하는 데 중요한 선형회귀분석과 성향점수 가중치를 다룹니다. 특히 편향을 제거하는 유용한 도구인 ‘프리슈-워-로벨 정리’에 대해 깊게 다루고 있습니다.

3부는 머신러닝과 빅데이터를 이용한 인과추론을 다루며 최근 발전된 메타러너를 배웁니다. 4부는 시계열 데이터에 인과추론을 적용하는 방법을, 5부는 랜덤화가 어려운 환경에서의 다양한 실험 방안을 소개하고 있습니다.

 

도서의 장단점



도서의 제일 큰 장점은 중간중간 첨부된 내용과 관련된 실제 사례라고 생각합니다. 제목에서 ‘실무’를 강조한 것에 걸맞은 구성이더군요. 도서에서 설명한 개념, 모델이 실제로 어떤 실험, 관찰 등에서 어떻게 적용되고 해석되는지를 사례로 제공해주는데 이게 이 도서의 큰 장점인 것 같습니다.

수학적인 개념들은 수식이 이해되어도 그래서 어쩌라는건지 이게 어떤 식으로 ‘실제 세계에서’ 활용된다는 건지 감이 잡히지 않을 때가 종종 있는데요. 이런 사례들을 제공해줌으로써 독자들의 이해를 돕고 있어서 좋았습니다. 사례와 유사한 도메인에서 작업하는 분석가들에게 인사이트를 주는 큰 역할을 할 것 같아요.


 

그리고 이전 실전 LLM 도서와 마찬가지로 이 책도 예제 코드를 제공하고 있습니다. 
https://github.com/CausalInferenceLab/Causal-Inference-with-Python

 

GitHub - CausalInferenceLab/Causal-Inference-with-Python: Causal Inference for The Brave and True 책의 한국어 번역 자료

Causal Inference for The Brave and True 책의 한국어 번역 자료입니다. - CausalInferenceLab/Causal-Inference-with-Python

github.com

 

도서명에 ’with 파이썬‘을 포함하는 만큼 책에서도 어떻게 인과추론 개념을 파이썬 코드로 어떻게 적용할 수 있는지 제공하고 있습니다. 내용 이해가 빠삭하게 되셨다면 실무에서 바로 적용할 수 있을 것 같더라구요. 물론 당연히 파이썬의 판다스, 넘파이, 그래프를 만드는 라이브러리들 등 데이터를 다루는 패키지들을 알고 다룰 줄 알아야 더 빠르게 익힐 수 있겠습니다. 인과추론 개념만 이해하고 넘어가기엔 코드 자료도 알차게 들어있으니 꼭 직접 돌려보면 더 좋을 것 같습니다.

그리고 통계 개념에 친숙하면 읽기에 더 좋을 것 같습니다. 인과추론에서 확률, 조건부 확률, 분포, 기댓값, 분산, 표본, 실험군과 대조군 등등 기본적인 통계 개념들을 확장하며 어떻게 활용하고 있는지 보여주고 있어서요.(1부에서 기초 개념은 짚어줍니다!) 이전 장의 내용들이 계속 연결되며 개념을 확장하기 때문에, 앞의 내용을 이해하기 어렵다면 반복하며 익힌 후에 뒷 내용을 읽는 것이 좋을 것 같습니다.

사실 가벼운 마음으로 도서를 신청했는데 기대이상으로 새롭고 많은 내용에 압도되었네요 ㅎㅎ.. 내용을 완전히 이해하지는 못해서 여러번 돌려볼 것 같습니다😅 언젠가 저도 실무에 적용할 수 있길 기대하며 글 마치겠습니다.🙇‍♀️

 


 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.