통수정의 성장기

SAS Viya를 활용한 kaggle 머신러닝 분석_1. 데이터 분석, 제안서 작성 본문

머신러닝 프로젝트

SAS Viya를 활용한 kaggle 머신러닝 분석_1. 데이터 분석, 제안서 작성

jinijinhee 2022. 6. 10. 22:52

그래서 내가 정한 데이터는 최종적으로 보험 데이터 이다.

💡 주제 : Can you accurately predict insurance costs? (최적의 회귀분석 모델 생성)👨‍👩‍👧‍👦

 

Kaggle link : Medical Cost Personal Datasets

 


1. 변수설명

  • sex: 보험 계약자 성별, 여성, 남성체중 대비 키 비율을 사용한 체중(kg/m^2)의 객관적 지수, 바람직하게는 18.5 ~ 24.9
  • smoker: 흡연 유/무
  • Charges: 건강보험에서 청구되는 개별 의료비 → [타겟변수]
  • region: 수혜자의 주거 지역, 북동부, 남동부, 남서부, 북서부. In US
  • children : 자녀수
  • bmi: 신체에 대한 이해를 제공하는 체질량지수, 키에 비해 상대적으로 높거나 낮은 체중,
  • age: 1차 수혜자의 연령

데이터 미리보기~

 

2. 분석방법

  1. 데이터 전처리
    • 문자형 변수들을 숫자형 변수로 바꿔야함.
    • 이상치 탐색- 사고는 어떤 변수와 상관없이 발생 가능하기 때문에 갑자기 많은 의료비 청구가 가능하다. 따라서 이상치를 탐색 해 볼 필요가 있다.
  2. 상관관계 분석
  3. 머신러닝 모델 만들기
  4. 모델평가

 

3. 목표

  • 가장 최적의 회귀모형을 만들어 내는 model은 무엇인가.
  • 즉, 가장 보험료를 가장 예측 하는 모델은 ?? (고객, 회사의 winwin전략이랄까.)

 

4. 기대효과

  1. 보험금과 여러가지 변수의 상관관계가 존재하는가를 파악해본다.
  2. 건강보험에서 청구되는 개별 의료비를 예측하는데 도움이 되는 변수를 찾고 개별 의료비를 예측 할 수 있는 모델을 생성함으로서 보험사에서 초기 보험금을 정하는데 도움을 줄 것이다.
  3. 실제에서 사용하기 위해서는 정확도 면에서 부족한 부분을 추후 변수를 추가하고 제거해(데이터 추가) 정확도를 높여 더 정확한 보험금 산정 또한 가능할 것이다. ex) 생활 패턴 분석 자료, 운전 습관 자료 등.
Comments