Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 회귀분석실습
- SQL
- 마케팅조사
- 마케팅공부
- 데이터결합
- DIFFITS
- r
- 할당문
- 마케팅
- 데이터청년캠퍼스
- SAS반복문
- sasviya
- 본페로니
- 프로그래밍
- 회귀모델
- rstandard
- 포지셔닝맵
- 회귀분석
- rstudent
- 마케터
- 모형진단
- 머신러닝
- SAS
- teachablemachine
- infile
- Cook'sdistance
- 캐글
- format
- DOEND
- kaggle
Archives
- Today
- Total
통수정의 성장기
SAS Viya를 활용한 kaggle 머신러닝 분석_1. 데이터 분석, 제안서 작성 본문
그래서 내가 정한 데이터는 최종적으로 보험 데이터 이다.
💡 주제 : Can you accurately predict insurance costs? (최적의 회귀분석 모델 생성)👨👩👧👦
Kaggle link : Medical Cost Personal Datasets
1. 변수설명
- sex: 보험 계약자 성별, 여성, 남성체중 대비 키 비율을 사용한 체중(kg/m^2)의 객관적 지수, 바람직하게는 18.5 ~ 24.9
- smoker: 흡연 유/무
- Charges: 건강보험에서 청구되는 개별 의료비 → [타겟변수]
- region: 수혜자의 주거 지역, 북동부, 남동부, 남서부, 북서부. In US
- children : 자녀수
- bmi: 신체에 대한 이해를 제공하는 체질량지수, 키에 비해 상대적으로 높거나 낮은 체중,
- age: 1차 수혜자의 연령
2. 분석방법
- 데이터 전처리
- 문자형 변수들을 숫자형 변수로 바꿔야함.
- 이상치 탐색- 사고는 어떤 변수와 상관없이 발생 가능하기 때문에 갑자기 많은 의료비 청구가 가능하다. 따라서 이상치를 탐색 해 볼 필요가 있다.
- 상관관계 분석
- 머신러닝 모델 만들기
- 모델평가
3. 목표
- 가장 최적의 회귀모형을 만들어 내는 model은 무엇인가.
- 즉, 가장 보험료를 가장 예측 하는 모델은 ?? (고객, 회사의 winwin전략이랄까.)
4. 기대효과
- 보험금과 여러가지 변수의 상관관계가 존재하는가를 파악해본다.
- 건강보험에서 청구되는 개별 의료비를 예측하는데 도움이 되는 변수를 찾고 개별 의료비를 예측 할 수 있는 모델을 생성함으로서 보험사에서 초기 보험금을 정하는데 도움을 줄 것이다.
- 실제에서 사용하기 위해서는 정확도 면에서 부족한 부분을 추후 변수를 추가하고 제거해(데이터 추가) 정확도를 높여 더 정확한 보험금 산정 또한 가능할 것이다. ex) 생활 패턴 분석 자료, 운전 습관 자료 등.
'머신러닝 프로젝트' 카테고리의 다른 글
2022 데이터 청년 캠퍼스_연세대학교 면접후기 (0) | 2022.06.22 |
---|---|
2022 데이터 청년 캠퍼스(연세대) 지원하다. (0) | 2022.06.18 |
Comments