카테고리 없음

헬로 데이터 과학

오kvag 2023. 3. 15. 10:50

“남보다 앞서 나가는 비밀은 지금 당장 시작하는 것이다.”– 마크 트웨인 빅데이터, 머신러닝, 인공지능…IT를 직업으로 하고 있어서 Trend를 쫒아가기 위해 아마추어 적인 관심으로 시작한 것이 이제는 무언가 부담으로 다가오는 수준이 된 것 같습니다.기타를 배울 때 처음에는 코드만 알면 왠만한 노래는 코드를 보고 반주를 할 수 있습니다. 하지만, 조금 더 빠져들게 되면 음악적 이론을 알고 싶어지고 기초가 필요하다는 것을 느끼게 됩니다. 사진을 배울 때도 관심이 더해질 수록 기계와는 상관없는 구도와 같은 기본을 알고 싶어지기는 마찬가지인 듯 합니다. 단단하게 다져진 기반 위에는 어떤 것도 올려놓을 수 있지만, 기반이 되는 주춧돌이 부실하면 아무리 크고 멋진 건물이라도 결국 무너져 내린다는 말이 있습니다. 어떤 분야든 전문가라는 소리를 듣기 위해서는 기초를 다지는 과정이 필요하지만 지루하고 견디기 힘들어서 그냥 아마추어로 살고 있는지 모르겠습니다.아직 아마추어로 살고 싶지만, 그래도 관심을 조금 더 가져보다는 마음에 입문서들을 찾아보고 있습니다. MS 본사 데이터 과학자가 알려주는 헬로 데이터 과학 : 삶과 업무를 바꾸는 생활 데이터 활용법김진영 저 | 한빛미디어 이 책은 ‘데이터 과학’ 입문서입니다.스몰데이터로 시작하고, 단순한 도구와 기술을 사용하여 데이터에 효과적인 접근을 할 수 있도록 여러가지 생활 속 사례를 설명하고, 엑셀로 실습할 수 있는 예제가 있습니다.<Chapter 1 데이터 과학 입문> 에서 필자는 우선 기술로서의 데이터 과학보다 사고방식으로서의 데이터 과학을 강조하고 있습니다. 데이터 과학의 구체적인 기술을 습득하는데 초점을 맞추기 이전에, 데이터 기반으로 사고하는 방법을 익혀야 한다는 것입니다. ‘데이터화’할 수 있는 현상에 항상 관심을 두고 이를 사용해 개선할 수 있도록 지속적으로 고민하는 과정이라고 하며 수집, 분석, 실천, 공유마인드 같은 데이트 습관을 길러라고 이야기합니다.<Chapter 2 데이터 과학에 유용한 도구> 는 문제 해결 단계에 맞는 도구들에 대해 설명을 하고 있습니다. 간단한 도구로 시작하여 복잡한 도구로 옮겨가고, 분석 초반에 최대한 데이터 크기를 줄이는 두 가지 원칙을 강조하고 있습니다.<Chapter 3 문제 정의와 데이터 수집 및 준비> 에서는 문제 정의, 데이터 정의, 연구 질문 및 가설 정의의 과정이 필요한 이유를 설명합니다. 데이터 과학의 각 프로세스마다 수많은 의사결정을 내리게 되는데, 주어진 문제의 목표, 범위와 제약 조건을 정확히 이해하고 있으면 이런 결정을 내릴 때 귀중한 길잡이가 되기 때문이라고 합니다. 데이터문제 해결의 과정에서 데이터 분석은 다시 여러 단계로 나누어 생각해볼 수 있으며, 주요 기법인 탐색적 분석, 통계적 추론 및 기계학습을 아래와 같이 대응시키고 있습니다.주어진 데이터를 탐색하며 다양한 패턴을 발견하고 가설을 세우는 단계(탐색적 데이터 분석)현상에 대한 가설을 다양한 실험으로 검정해보는 단계(통계적 추론)우리가 관심을 갖는 현상을 예측하는 단계(기계학습)<Chapter 4 데이터 분석과 스토리텔링>은 데이터 기반의 문제 해결 과정에서 팀원 간의 지속적인 커뮤니케이션의 중요성을 강조하고 있습니다. 문제 정의 단계에서는 의사 결정권자 및 분야별 전문가들의 의견을 수렴해야 하고, 데이터 수집 단계에서는 데이터를 직접 수집하고 공급한 사람에게서 데이터의 다양한 특성을 알아내야 합니다. 분석이 끝난 결과물을 구현하는 단계에서는 구현을 담당한 엔지니어와 세부사항 조율이 필요합니다. 이런 소통을 효과적으로 수행하기 위해 문제 해결의 각 단계를 꼼꼼히 문서화하고 관련된 데이터를 보관해두어야 할 필요성을 이야기 하고 있습니다.<Chapter 5 개인 데이터로 공부하는 데이터 과학>, <Chapter 6 공개 데이터로 공부하는 데이터 과학>의 장을 할애하여 데이터 과학을 시작하는 방법으로 데이터를 수집하고 분석하는 추세와 분석 사례를 소개하고 있습니다.<Chapter 7 데이터 과학자의 길> 에서 데이터 과학자가 되기 위한 필요한 부분을 필자의 경험을 토대로 언급하고 있습니다. 한치 앞도 내다보기 어려운 정글을 탐험하는 것에 가까운 일이기 때문에 먼저 데이터 과학자라는 직업을 원하는 이유를 세가지 관점에서 생각하라고 합니다. 첫째, 모호함을 즐길 수 있는가? 둘째, 변화를 즐길 수 있는가? 셋째, 협업을 즐길 수 있는가? 입니다. 그리고, 데이터 과학자의 유형을 크게 ‘데이터 비즈니스맨’, 데이터 창조자’, ‘데이터 연구자’, 데이터 개발자’로 나눈 자료를 소개하면서 유형별 핵심 역량을 선택하여 개발할 필요가 있다고 이야기 하고 있습니다.책에 소개된 예제는 저자 블로그(http://www.hellodatascience.com)에서 내려받을 수 있도록 해 놓았습니다. 그리고, 책에는 데이터 과학에 관한 웹사이트와 자료 들도 많이 소개하고 있습니다.데이터 과학자가 되기 위해서는 꾸준한 연습이 필요합니다. 기본 지식 및 기술을 습득한 후에는 주변에서 다양한 데이터 문제를 찾아 풀어보는 습관을 길러야 하며, 도출 된 결과를 이해당사자와 소통을 통해 과정 및 결과물에 대한 피드백을 얻어 개선하는 과정이 필요합니다. 피할 수 없는 데이터화의 흐름 속에서 자신의 삶과 업무에 데이터를 활용하는 방법을 습득한 개인과 조직은 경쟁에서 우위를 점하게 될 것 입니다. 기업 내 모든 업무가 데이터화되는 추세 속에서 데이터 기반으로 사고하고 문제를 해결할 수 있는 능력은 큰 차이를 만들기 때문입니다. 직장에서 고집 센 동료, 현업이나 상사 때문에 고민하고 있을 때 주관적 의견이 아닌 데이터에 기반한 분석은 의사결정권자도 움직일 수 있는 힘을 부여하게 될 것이라고 하니 우리모두 데이터 과학에 대한 관심을 많이 가졌으면 합니다.

우리 모두를 위한 데이터 과학을 꿈꾸며이 책은 ‘우리 모두를 위한 데이터 과학’을 이야기한다. 필자가 전달하고자 하는 주된 메시지는 우리 주변에 이미 데이터를 수집하고 분석할 수 있는 다양한 수단이 존재하며, 데이터를 활용하여 삶과 업무를 개선하는 일은 결코 복잡하지 않다는 것이다. 이 책은 초보적인 수준의 통계와 컴퓨터 지식을 갖춘 보통 사람이 데이터 과학을 시작할 수 있는 방법을 제시하고, 이런 방법을 개인의 삶과 업무에 활용하는 다양한 사례를 소개한다. 비전문가도 책을 읽고 나서 활용할 수 있도록 엑셀을 사용한다. 따라서 이 책을 읽고 나면 개인 데이터, 생활 데이터 같은 스몰 데이터에 데이터 과학을 접목하여 분명 여러분도 자신의 문제를 해결할 수 있을 것이다.

1장 데이터 과학 입문
삶과 비즈니스를 바꾸는 데이터의 가능성
__의학을 보완하는 개인 데이터의 힘 : 마크 드랭숄트
__스타트업의 성장 신화를 뒷받침하는 데이터의 힘 : 에어비앤비
__이들은 데이터를 어떻게 활용했나
데이터 과학과 테이블
__데이터는 테이블이다
__데이터 과학은 테이블 놀이다
데이터 과학에 대한 오해와 진실
__스몰데이터로 시작하라
__단순한 도구와 기술로 시작하라
데이터 과학을 시작하는 방법
__데이터 마인드를 가져라
__데이터 습관을 길러라
__관련 지식과 기술을 익혀라
맺음말

2장 데이터 과학에 유용한 도구
데이터 과학을 위한 도구 선택하기
__처리 용량 및 속도
__지원 데이터형 및 프로그래밍 환경
__데이터 분석 및 시각화 기능
__문제 특성에 맞는 도구의 선택
__문제 해결 단계에 맞는 도구 선택
엑셀로 시작하는 데이터 과학
__코드가 아닌 데이터가 중심이다
__올인원 솔루션이다
__결과물을 쉽게 공유할 수 있다
언제부터 엑셀 대신 R을 사용해야 할까
__워크시트에서 변수로
__메뉴에서 함수로
__분석에서 예측으로
〈실습〉 엑셀의 기초
__데이터 불러오기
__데이터 준비하기
__데이터 분석 및 시각화하기
__데이터 집계하기
〈실습〉 R 맛보기
__R 작업을 위한 환경 구축
__R의 기본 기능
__데이터 준비하기
__데이터 분석하기
맺음말

3장 문제 정의와 데이터 수집 및 준비
데이터 문제 정의하기
__데이터 문제 해결 단계
__데이터 분석 단계
〈사례〉 직원 만족도 개선을 위한 데이터 분석
__데이터 문제 정의하기
〈사례〉 넷플릭스 프라이즈 문제 정의
__유의사항
데이터 수집하기
__데이터 수집의 기본
__수집 방법 결정하기
〈심화학습〉 측정 기술
__어떤 대상도 측정할 수 있는가
__어떤 대상도 측정할 수 있는 방법
__수집 환경 결정하기
〈심화학습〉 실험 디자인
__무작위 디자인
__블록 디자인
__수집할 데이터양 결정하기
__데이터 품질 점검하기
__유의사항
__데이터 준비하기
__데이터 선택, 추가, 집계하기
〈실습〉 엑셀을 이용한 데이터 준비
맺음말

4장 데이터 분석과 스토리텔링
현상 이해하기 : 탐색적 데이터 분석
__탐색적 분석 단계
〈사례〉 엑셀로 해보는 탐색적 데이터 분석
__개별 속성 분석하기
__속성 간의 관계 분석하기
__유의사항 : 관점은 갖되 편견은 금물이다
현상 일반화하기 : 통계적 추론
__통계적 추론의 원리
__통계적 추론의 유형
〈실습〉 엑셀로 해보는 통계적 추론
__탐색적 데이터 분석
__데이터 가공하기
__통계적 추론
__유의사항 : 데이터에서 도출하는 결론의 가치와 한계
현상 예측하기 : 기계학습
__기계학습 유형
__기계학습 개념
__기계학습 절차
〈사례〉 스몰데이터로 해보는 기계학습
데이터 스토리텔링
__데이터 스토리텔링 방법
__효과적인 데이터 스토리텔링 원칙
〈사례〉 FiveThirtyEight
__서론
__본론
__결론
맺음말

5장 개인 데이터로 공부하는 데이터 과학
개인 데이터 활용으로 삶을 바꾸는 사람들
__개인 데이터 활용의 유형과 목표
__개인 데이터 활용 방법
〈사례〉 건강 및 식생활 지표화
__문제 정의하기
__건강 데이터화 및 개선하기
__식사 및 운동량 측정하기
__마치며
〈사례〉 정성적인 현상(행복) 지표화
__행복 측정 프로젝트
__행복을 측정하는 방법
__행복 측정의 결과
__마치며
개인 데이터 수집 및 분석 시작하기
__문제 탐색하기
__데이터 수집하기
__분석 및 결과 실천하기
__자신의 경험 공유하기
__마치며
맺음말

6장 공개 데이터로 공부하는 데이터 과학
공공 데이터를 통한 탐색적 분석
__문제 정의하기
__데이터 수집하기
__탐색적 데이터 분석
__유의사항 : 데이터를 검정하고 목표에 집중하라
경연 데이터를 통한 실전 예측 모델링
__경연 준비하기 : 나도 할 수 있을까
__캐글 참가자들의 성공 비결
__캐글 참여하기 : 타이타닉호 생존자 예측
비즈니스 성장을 위한 데이터 과학
〈가상 사례〉 식당 운영을 위한 데이터 과학
__식당 창업에 도전한 김 사장의 고민
__데이터 과학자인 조카의 조언
__메뉴의 변화가 매출에 미치는 영향
__고객의 만족도를 알아내는 방법은 무엇인가
__고객의 만족도를 알아내기 : 고객 행동 분석
__실험을 통한 신 메뉴 개발
__데이터 활용의 숨은 장벽들
__고객 유입의 단계별 데이터 활용
야구 통계를 통해 지표 개발 배우기
__야구 통계의 흐름
__야구 통계의 기초와 전통적인 지표들
__현대적인 야구 통계가 가져온 혁신
__마치며
맺음말 328

7장 입문을 넘어서 : 데이터 과학자의 길
데이터 과학자로 살아가기
__검색엔진 분야에서의 데이터 과학
__데이터 과학 프로젝트의 시작과 끝
__데이터 과학자의 일상
데이터 과학자가 되는 길
__나에게 어울리는 길인가
__무엇을 목표로 해야 하나
__어떻게 공부해야 하나
__어떻게 취업을 준비할 것인가
데이터 과학의 미래
__데이터 관련 기술적인 진보의 가속화
__데이터 과학의 더욱 폭넓은 활용
__데이터 과학자 수요 증가
맺음말