Skip to content

Development of a Model for Predicting Dietary Supplementary Intake to Establish a New Sales Strategy

Notifications You must be signed in to change notification settings

ShiningSu0/R_Datamining

Folders and files

NameName
Last commit message
Last commit date

Latest commit

ย 

History

13 Commits
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 

Repository files navigation

๋ณด๊ฑด๋ณต์ง€๋ถ€์˜ '๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์–‘์กฐ์‚ฌ' 2017,2018๋…„ ์กฐ์‚ฌ ์ž๋ฃŒ Data๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํ•œ๊ตญ์ธ์˜ ์˜์–‘์ œ ์„ญ์ทจ ์˜ˆ์ธก ๋ชจ๋ธ

contributed by ZuseongZIN

1. Introduction

1.1 Reseach Background and Motivation (๊ณผ์ œ ์ˆ˜ํ–‰ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ)

2019๋…„ 30๋Œ€ ์ œ์•ฝํšŒ์‚ฌ ๋งค์ถœ ๋Œ€๋ถ€๋ถ„์ด 5% ๋„˜๊ฒŒ ์ฆ๊ฐ€ํ•˜์˜€์ง€๋งŒ ์œ ํ•œ์–‘ํ–‰ ์‚ฌ์˜ ์˜์—…์ด์ต์€ 8% ์ด์ƒ ๊ฐ์†Œํ•˜์˜€๋‹ค. ๊พธ์ค€ํžˆ ๋งค์ถœ์— ๊ธฐ์—ฌํ–ˆ๋˜ ๋น„๋ฆฌ์–ด๋“œ ๊ฐ„์—ผ ์น˜๋ฃŒ์ œ์˜ ํŠนํ—ˆ๊ฐ€ ๋งŒ๋ฃŒ๋˜๋ฉด์„œ ์•ฝ๊ฐ’์ด ์ธํ•˜๋˜์—ˆ๊ณ , ์œ ํ•œ์–‘ํ–‰ ์‚ฌ์˜ ์›๋ฃŒ์˜์•ฝํ’ˆ ๋งค์ถœ์ด ๋ถ€์ง„ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์œ ํ•œ์–‘ํ–‰ ์‚ฌ๋Š” ์‹ ์ œํ’ˆ ๊ฐœ๋ฐœ์— ๋Œ€ํ•œ ํ•„์š”์„ฑ์ด ๋Œ€๋‘๋˜์—ˆ๋‹ค. ์—ฐ๊ตฌ ๋ฐ ๊ฐœ๋ฐœ(R&D) ๋น„์šฉ์„ 740์–ต์›์—์„œ 969์–ต์›์œผ๋กœ 30% ์ฆ๊ฐ€์‹œํ‚ด์œผ๋กœ์จ ์˜์—…์ด์ต์ด 75%๋‚˜ ์ค„๊ฒŒ ๋˜์—ˆ๋‹ค. (์˜์—…๋น„์šฉ= ํŒ๋งค๊ด€๋ฆฌ๋น„์šฉ + ๊ฐ๊ฐ€์ƒ๊ฐ๋น„์šฉ + ์—ฐ๊ตฌ๊ฐœ๋ฐœ๋น„์šฉ) ์ด๋Ÿฌํ•œ ์˜์—…์ด์ต์˜ ๊ฐ์†Œ ๋งŒํšŒ๋ฅผ ์œ„ํ•ด, ๊ธฐ์กด ์ œํ’ˆ์˜ ๊ณ ๊ฐ์ธต ํ™•๋Œ€ ๋ฐ ์‹ ์ œํ’ˆ์˜ ํŒ๋งค๋ฅผ ์œ„ํ•ด ํšจ๊ณผ์ ์ธ ์ „๋žต์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ์ด ํ•„์š”ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด ๋•Œ, ๋ชจ๋ธ๊ณผ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋Š” ์–ด๋–ค ์กฐ๊ฑด ๋•Œ๋ฌธ์—, ๋˜๋Š” ์–ด๋–ค ๊ณ ๊ฐ๊ตฐ์„ ๋Œ€์ƒ์œผ๋กœ ์ œํ’ˆ์„ ํŒ๋งคํ•ด์•ผ ๋˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค. ํ™•๋ณดํ•œ ๋ฐ์ดํ„ฐ๋Š” ๊ตญ๋ฏผ์˜์–‘์กฐ์‚ฌ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฒƒ์ด๋ฏ€๋กœ ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•œ ์‹์ด๋ณด์ถฉ์ œ ์ œํ’ˆ๊ตฐ์„ target์œผ๋กœ ์‚ผ๊ณ  Data mining์„ ์‹œํ–‰ํ•  ๊ฒƒ์ด๋‹ค.

1.2 Nature and scope of the problem (๋ฌธ์ œ ์ •์˜ ๋ฐ ๋„์ถœ)

์•ž์„œ ๋ณด์•˜๋“ฏ ํ˜„์žฌ ์œ ํ•œ์–‘ํ–‰ ์‚ฌ์˜ ๋ฌธ์ œ๋Š” ์›๋ฃŒ์˜์•ฝํ’ˆ ๋งค์ถœ ๋ถ€์ง„์œผ๋กœ ์ธํ•œ ์˜์—…์ด์ต ๊ฐ์†Œ์ด๋‹ค. ์˜์—…์ด์ต์˜ ๊ฐ์†Œ ๋งŒํšŒ๋ฅผ ์œ„ํ•ด, ์•ž์„œ ๋ณด์•˜๋˜ ๋ฌธ์ œ๋กœ๋ถ€ํ„ฐ ๋„์ถœ๋œ Data Science Problem์€ ๊ธฐ์—…์˜ ์ž…์žฅ์—์„œ ๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์–‘์กฐ์‚ฌ ๋ฐ์ดํ„ฐ ์ค‘ ์–ด๋–ค attribute๋ฅผ ์„ ์ •ํ•ด ํŒ๋งค์ „๋žต์„ ์œ„ํ•ด ํ™œ์šฉํ•ด์•ผ ํ•˜๋Š” ์ง€ ์•Œ ์ˆ˜ ์—†๋‹ค๋Š” ์ ์ด๋‹ค.

1.3 Previous works and their problems (๊ธฐ์กด ์—ฐ๊ตฌ ๋ฐ ๊ธฐ์ˆ ์˜ ๋ฌธ์ œ์ )

1) ์ „๋ฌธ๊ฐ€ ์‹œ์Šคํ…œ

์ „๋ฌธ๊ฐ€์‹œ์Šคํ…œ์€ ์ธ๊ณต์ง€๋Šฅ์˜ ํ•œ ๋ถ„์•ผ๋กœ์„œ ํŠน์ • ๋ถ„์•ผ์—์„œ ์ „๋ฌธ๊ฐ€์˜ ์ถ•์ ๋œ ์ง€์‹๊ณผ ๊ฒฝํ—˜์„ ์‹œ์Šคํ…œํ™”ํ•˜์—ฌ, ํ•„์š”ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋„๋ก ํ•˜๋Š” ์†Œํ”„ํŠธ์›จ์–ด์ด๋‹ค. ์ด๋Š” 1960๋…„๋Œ€ ํ™”ํ•ฉ๋ฌผ์˜ ๊ตฌ์กฐ๋ฅผ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•œ DENDRAL ์‹œ์Šคํ…œ์ด ์‹œ์ดˆ๊ฐ€ ๋˜์–ด, ์ดํ›„ ์˜๋ฃŒ์ง„๋‹จ์‹œ์Šคํ…œ์ธ MYCIN, ๊ธฐ๊ณ„๊ณ ์žฅ ์ง„๋‹จ, ์†ํ•ด๋ฐฐ์ƒ ํŒ์ • ๋“ฑ ์‚ฐ์—…๊ณ„์˜ ์ „ ๋ถ„์•ผ์—์„œ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์‘์šฉ๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๊ธฐ์—…ํ™˜๊ฒฝ์˜ ๊ธ‰์†ํ•œ ๋ณ€ํ™”์— ์ ์šฉํ•˜๋Š” ๋ฐ์— ๋งŽ์€ ๋น„์šฉ์ด ๋“ค์—ˆ๊ณ , ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์˜ ์˜์—ญ์ด ์ ์ฐจ ํ™•๋Œ€๋˜๊ณ  ๋ณต์žกํ•ด์ง์— ๋”ฐ๋ผ ํ•ด๋‹น ๋ถ„์•ผ์— ํ†ต๋‹ฌํ•œ ์ „๋ฌธ๊ฐ€๋ฅผ ์ฐพ๊ธฐ๊ฐ€ ์–ด๋ ค์›Œ์ง€๋ฉด์„œ ์ง€์‹ ํš๋“์— ์žฅ๊ธฐ๊ฐ„์— ๊ฑธ์ณ ๋งŽ์€ ๋น„์šฉ์„ ํˆฌ์žํ•ด์•ผ ํ•˜๋Š” ๋“ฑ, ์—ฌ๋Ÿฌ ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ๋‹ค.

2) ์ผ๋ฐ˜ ์งˆ์˜(query)

์ผ๋ฐ˜ ์งˆ์˜(query)๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ๋„๊ตฌ์ด๋‹ค. ์ฟผ๋ฆฌ ์ž‘์„ฑ, ์ฟผ๋ฆฌ ํŽธ์ง‘, ๊ฒ€์ƒ‰, ์ฐพ๊ธฐ, ๋ณด๊ณ  ๋ฐ ์š”์•ฝ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค. ์ฟผ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ์ •๋ณด๋ฅผ ์š”์ฒญํ•˜์—ฌ ์‚ฌ์‹ค๋กœ์„œ์˜ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์‚ฌ์‹ค๋กœ์„œ์˜ ๋‹ต๋ณ€์„ ์ œ๊ณต๋ฐ›๋Š”๋‹ค. ํ•œํŽธ ์ด๋Ÿฌํ•œ ์ฟผ๋ฆฌ๋Š” ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•˜๋ ค๋ฉด ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๊ณ ์ž ํ•˜๋Š” ์ •๋ณด๊ฐ€ ๋ฌด์—‡์ธ์ง€๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์•Œ์•„์•ผ ํ•˜๋ฉฐ, ์ƒˆ๋กœ์šด ๋ชฉ์ ์„ ์ฐพ์•„์•ผ ํ•˜๊ณ , ๋ฌด์—‡์„ ์ฐพ์•„์•ผ ํ•  ์ง€ ๋ชจํ˜ธํ•œ ์ƒํƒœ์ผ ๋•Œ์—๋Š” ์‚ฌ์šฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.

3) ์‚ฌํšŒ๊ณผํ•™์  ์—ฐ๊ตฌ

์‚ฌํšŒ๊ณผํ•™์  ์—ฐ๊ตฌ๋Š” ๋ถ„์„๊ฐ€์˜ ์ธ์‚ฌ์ดํŠธ๊ฐ€ ๊ต‰์žฅํžˆ ์ค‘์š”ํ•˜๋‹ค. ํŠนํžˆ ๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์–‘์กฐ์‚ฌ์˜ ๊ฒฝ์šฐ ์‚ฌ์šฉํ•˜๋Š” ์†์„ฑ๋“ค์ด ๊ต‰์žฅํžˆ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด ๋ถ„์„๊ฐ€์˜ ์ฃผ๊ด€์œผ๋กœ ์ค‘์š”ํ•  ๊ฒƒ ๊ฐ™์€ ์†์„ฑ๋“ค์„ ์ถ”๋ ค ๋‚ด์•ผ ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋งŒ์•ฝ ๋ถ„์„๊ฐ€๊ฐ€ ์ถ”๋ ค๋‚ด์ง€ ์•Š์€ ์†์„ฑ๋“ค ์ค‘์—์„œ ์ค‘์š”ํ•œ ๋ณ€์ˆ˜๊ฐ€ ์žˆ์„ ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํƒ€๋‹น์„ฑ์ด ๋–จ์–ด์ง„๋‹ค.

1.5 Purposed Method (์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ๊ฐœ์š”)

๊ธฐ๋ณธ์ ์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์–‘์กฐ์‚ฌ์˜ Data set์€ ๊ทธ record ์ˆ˜๊ฐ€ ์ถฉ๋ถ„ํ•˜๋‚˜ ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๊ณ  ๋ถˆํ•„์š”ํ•œ attribute๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์ด์— ๋”ฐ๋ผ ์ธก์ •๋œ ๋ณ€์ˆ˜๋“ค์˜ ์„ ํ˜• ์กฐํ•ฉ(Linear Combination)์— ์˜ํ•ด ๋Œ€ํ‘œ์ ์ธ ์ฃผ์„ฑ๋ถ„์„ ๋งŒ๋“ค์–ด ์ฐจ์›์„ ์ค„์ด๋Š” PCA ๊ธฐ๋ฒ•, ํŒŒ๋ ˆํ†  ์›๋ฆฌ ๊ธฐ๋ฐ˜ ๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ ๊ทธ๋ฆฌ๊ณ  ํœด๋ฆฌ์Šคํ‹ฑ์— ๊ธฐ๋ฐ˜ํ•ด ์†์„ฑ์„ ์ œ๊ฑฐํ•˜๋Š” ๋“ฑ์˜ ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด Dimension Reduction์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ๋˜ํ•œ ๊ทธ๋ฃนํ™”, ์ •๊ทœํ™”, ์ด์ƒ์น˜ ํƒ์ง€ ๋ฐ ํ˜•๋ณ€ํ™˜์„ ํ†ตํ•ด Feature Engineering์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.
์ด๋ ‡๊ฒŒ ์ „์ฒ˜๋ฆฌ ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ์˜์‚ฌ ๊ฒฐ์ • ๋‚˜๋ฌด(Decision Tree)์™€ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ(Random Forest) ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ชจ๋ธ๋ง์„ ์ˆ˜ํ–‰ํ•˜์˜€์œผ๋ฉฐ, ์ดํ›„ Confusion Matrix๋ฅผ ํ†ตํ•ด ํ•ด๋‹น ๋ชจ๋ธ์˜ Accuracy๋ฅผ ํ‰๊ฐ€ํ•˜์˜€๋‹ค.

1.6 Principal results (๋…ผ๋ฌธ ์ฃผ์š” ๊ฒฐ๊ณผ์˜ ๊ฐœ์š”)

์‹ค์„ธ๊ณ„์˜ ๋ชจ๋ธ๋ง์—์„œ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์ž…๋ ฅ๋งŒ์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์€ ์‹œ์Šคํ…œ ์„ฑ๋Šฅ์— ๋งŽ์€ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ž…๋ ฅ๋ณ€์ˆ˜์˜ ํšจ๊ณผ์ ์ธ ์„ ํƒ์€ ์‹œ์Šคํ…œ ์ฐจ์›์˜ ๊ฐ์†Œ๋‚˜ ํŠน์ง•์ถ”์ถœ ๋“ฑ ๋‹ค์–‘ํ•œ ์šฉ๋„๋กœ ์ด์šฉ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋งŽ์€ ์ž…๋ ฅ๋ณ€์ˆ˜๋“ค ์ค‘์—์„œ ๋ชจ๋ธ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๋˜๋Š” ์–ด๋А ์ž…๋ ฅ๋“ค์ด ํ•„์š”ํ•œ์ง€ ์•Œ ์ˆ˜ ์—†์œผ๋ฉฐ, ์ด๋Š” ์ž…๋ ฅ์ฐจ์›์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๋”์šฑ ๋” ์‹ฌ๊ฐํ•˜๋‹ค. ๋ถˆํ•„์š”ํ•œ ์ž…๋ ฅ๋“ค์€ ํ•™์Šต์„ ๋ณต์žกํ•˜๊ฒŒ ํ•˜๊ณ  ๊ณผํ•™์Šต ๋“ฑ์— ๋”ฐ๋ฅธ ํ•™์Šต์„ฑ๋Šฅ์˜ ์ €ํ•˜๋„ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค. ์ž…๋ ฅ๋ณ€์ˆ˜์˜ ์ž˜๋ชป๋œ ์„ ํƒ์— ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฌธ์ œ๋“ค์ด ๋ฐœ์ƒ๋  ์ˆ˜ ์žˆ๋‹ค. ๋จผ์ €, ์ž…๋ ฅ์ฐจ์›์˜ ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ ๊ณ„์‚ฐ์‹œ๊ฐ„๊ณผ ๋ฉ”๋ชจ๋ฆฌ์˜ ์ฆ๊ฐ€, ๋‹ค์Œ์œผ๋กœ ์š”๊ตฌ๋˜์ง€ ์•Š๋Š” ์ž…๋ ฅ๋“ค์— ์˜ํ•œ ํ•™์Šต์˜ ์–ด๋ ค์›€, ์ถ”๊ฐ€์ ์ธ ์š”๊ตฌ๋˜์ง€ ์•Š๋Š” ์ž…๋ ฅ์— ์˜ํ•œ ๋น„์ˆ˜๋ ด๊ณผ ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ์˜ ์ €ํ•˜, ๊ทธ๋ฆฌ๊ณ  ๋ณต์žกํ•œ ๋ชจ๋ธ์— ๋”ฐ๋ฅธ ํ•ด์„์˜ ์–ด๋ ค์›€ ๋“ฑ์˜ ์ œ์•ฝ์ด ์žˆ๋‹ค.

2. Method

2.1 ์ „์ฒ˜๋ฆฌ

2.1.1 Data Quality

๊ธฐ๋ณธ์ ์œผ๋กœ ๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์ƒ์กฐ์‚ฌ(์ดํ•˜ ๊ตญ๊ฑด์˜)์—์„œ ์›์‹œ์ž๋ฃŒ๋ฅผ ๊ธฐ๋ณธ Dataset์œผ๋กœ ํ•œ๋‹ค. Data object์˜ ์–‘์€ ์–ด๋А ์ •๋„ ์ถฉ๋ถ„ํ•˜๋‹ค. 2018๋…„ ์ž๋ฃŒ๋Š” 7992๊ฐœ์˜ Object์™€ 736๊ฐœ์˜ attribute๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ณ  2017๋…„ Dataset์€ 8127๊ฐœ์˜ Object์™€ 834๊ฐœ์˜ attribue๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ๋ชจ๋ธ ๋””์ž์ธ์— ์žˆ์–ด์„œ ๋” ์ข‹์€ Dataset์„ ์ฐพ๊ธฐ ์œ„ํ•ด 2018๋…„ ๋‹จ๋… Dataset๊ณผ 2018๋…„๊ณผ 2017๋…„ Dataset์„ ํ•ฉ์ณ์„œ ์ƒˆ๋กœ์šด Dataset๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค. 2018๋…„๊ณผ 2017๋…„ Dataset์˜ attribute๊ฐ€ ์ฐจ์ด๊ฐ€ ์žˆ์—ˆ๋‹ค. 2018๋…„์„ ๊ธฐ์ค€์œผ๋กœ ํ•˜๊ณ  2017๋…„์—๋งŒ ์กฐ์‚ฌํ•œ Attribute์˜ ๊ฒฝ์šฐ ๋ชจ๋‘ ์ œ๊ฑฐํ–ˆ๋‹ค. ์ตœ๋Œ€ํ•œ 2018๋…„ Dataset๊ณผ ๋น„์Šทํ•˜๊ฒŒ ํ•˜๋ฉด์„œ Object์˜ ์–‘์„ ๋Š˜๋ฆฌ๊ธฐ ์œ„ํ•ด์„œ์ด๋‹ค. 2017๋…„์˜ LF_safe๋ณ€์ˆ˜๊ฐ€ ์†Œ๋ฌธ์ž๋กœ ์ €์žฅ๋ผ์„œ 2018๋…„์˜ LF_SAFE์™€ ํ•ฉ์ณ์ง€์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ–ˆ๋‹ค. CSV ํŒŒ์ผ๋กœ Dataset์„ ์ถ”์ถœํ•˜์—ฌ ์—‘์…€ ๋‚ด์—์„œ ์ด๋ฅผ ๊ฒฐํ•ฉํ•ด์คฌ๋‹ค. ๊ตญ๊ฑด์˜ ์ž๋ฃŒ๋Š” ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ์„ฑ๋๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•œ๋‹ค.

2.1.2 Dimension reduction

์šฐ์„  ๋น„ํ•ด๋‹น, ๋ชจ๋ฆ„, ๋ฌด์‘๋‹ต์˜ ๊ฒฝ์šฐ ๊ฒฐ์ธก์น˜์™€ ๋‹ค๋ฆ„์ด ์—†๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ ์ด๋ฅผ ๋ชจ๋‘ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ๋ฅผ ํ•ด์คฌ๋‹ค. Data์˜ ์–‘์ด ์ถฉ๋ถ„ํ•˜๋‹ค๊ณ  ํŒ๋‹จํ•ด์„œ ๊ฒฐ์ธก์น˜๋ฅผ ๋ชจ๋‘ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์„ ์ตœ์šฐ์„ ์œผ๋กœ ์ƒ๊ฐํ–ˆ๋‹ค.

2.1.2-1 ํœด๋ฆฌ์Šคํ‹ฑ ๊ธฐ๋ฐ˜ ์†์„ฑ ์ œ๊ฑฐ

์ฃผ๊ด€์ ์œผ๋กœ Attribute๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์€ ์œ„ํ—˜ํ•˜๋‹ค. ํŠนํžˆ ๊ฑด๊ฐ• ๊ด€๋ จ ์กฐ์‚ฌ์˜ ๊ฒฝ์šฐ ์˜ํ•™์ ์ธ ์„ค๋ฌธ์ด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์†์„ฑ์„ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์„ ์ง€์–‘ํ–ˆ๋‹ค. ์†์„ฑ ์ค‘ ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•œ ์†์„ฑ์€ ๋ชจ๋‘ ์ œ๊ฑฐํ–ˆ๋‹ค. ๊ฐ€์ค‘์น˜๋Š” ๊ฐ™์€ ๊ธฐ์— ์กฐ์‚ฌํ•œ ์ž๋ฃŒ์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์„œ๋กœ ๋‹ค๋ฅธ ์กฐ์‚ฌ ๊ธฐ์ˆ˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ณ€์ˆ˜์ด๋‹ค. ์ด ํ”„๋กœ์ ํŠธ์—์„œ๋Š” ์ œ7๊ธฐ ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ณ€์ˆ˜๋ฅผ ์‚ญ์ œํ•ด์ค˜๋„ ์ง€์žฅ์ด ์—†๋‹ค. ์ฒญ์†Œ๋…„์˜ ๊ฒฝ์šฐ ๊ฒฝ์ œ์  ๋Šฅ๋ ฅ์ด ์—†์–ด ๊ตฌ๋งค๋Œ€์ƒ์œผ๋กœ ์ ํ•ฉํ•˜์ง€ ์•Š๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ age๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋งŒ 18์„ธ ๋ฏธ๋งŒ์˜ Object๋ฅผ ์ œ๊ฑฐํ•ด์คฌ๋‹ค. ์ด์™€ ๊ด€๋ จํ•˜์—ฌ ์†Œ์•„, ์ฒญ์†Œ๋…„ ๊ด€๋ จ๋œ ์งˆ๋ฌธ ํ•ญ๋ชฉ๋“ค์„ ์ œ๊ฑฐํ–ˆ๋‹ค. ๋˜ํ•œ ์ฃผ๊ด€์‹ ์„ค๋ฌธ ๋ฌธํ•ญ์˜ ๊ฒฝ์šฐ Decision Tree๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ์— ์ ํ•ฉํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์ œ๊ฑฐํ–ˆ๋‹ค.

2.1.2-2 ํŒŒ๋ ˆํ†  ์›๋ฆฌ ๊ธฐ๋ฐ˜ ๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ

๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ตœ์ ์˜ ํ•ด๋ฒ•์€ ์ƒํ™ฉ๊ณผ ๋ถ„์„ ๋ชฉ์ ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๊ธฐ์—, ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์€ ์‰ฝ์ง€ ์•Š๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ฒฐ์ธก์น˜๋กœ ์ธํ•œ ์ •๋ณด์˜ ์†์‹ค์ด ๋ถ„์„ ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ณ ๋ คํ•œ๋‹ค๋ฉด ๊ฒฐ์ธก์น˜๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ์ค‘์š”ํ•˜๋‹ค. ์ด์— ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์— ์žˆ๋Š” ๊ฒฐ์ธก์น˜๋ฅผ โ€˜ํŒŒ๋ ˆํ†  ์›๋ฆฌโ€™์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ œ๊ฑฐํ•˜๊ณ ์ž ํ•˜์˜€๋‹ค. ํŒŒ๋ ˆํ†  ์›๋ฆฌ(๋˜๋Š” ํฌ์†Œ ์ธ์ž์˜ ์›๋ฆฌ)๋Š” ์ „์ฒด ๊ฒฐ๊ณผ์˜ 80%๋Š” ์ „์ฒด ์›์ธ์˜ 20%์—์„œ ๋น„๋กฏ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๋ฌด์งˆ์„œ๋„(Entropy) ๋˜ํ•œ 20%์˜ ์ฃผ์š” ๋ณ€์ˆ˜๋“ค๋กœ๋ถ€ํ„ฐ ๊ธฐ์ธํ•  ๊ฒƒ์ด๋‹ค. ํŒŒ๋ ˆํ†  ์›๋ฆฌ๋ฅผ ์ ์šฉํ•œ ๊ฒฐ์ธก์น˜์˜ ์ œ๊ฑฐ ๋ฐฉ์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

[1] ํœด๋ฆฌ์Šคํ‹ฑ ๊ธฐ๋ฐ˜ ์†์„ฑ ์ œ๊ฑฐ๊ฐ€ ์™„๋ฃŒ๋œ ๋ฐ์ดํ„ฐ ์…‹์—์„œ, ํ–‰๊ณผ ์—ด ๊ฐœ์ˆ˜์˜ ๊ฐ๊ฐ 20%๋ฅผ ๋ฐ์ดํ„ฐ ์…‹์˜ ์ž„๊ณ„ ๊ฐœ์ˆ˜๋กœ ์„ค์ •ํ•œ๋‹ค. [2] ์—ด์„ ๊ธฐ์ค€์œผ๋กœ NA๊ฐ’์ด ๋งŽ์€ 20%๋ฅผ ๋จผ์ € ์ œ๊ฑฐํ•˜์—ฌ, 80%์˜ ์œ ํšจ ์—ด์„ ๋‚จ๊ธด๋‹ค. [3] ๋‹ค์‹œ ํ–‰์„ ๊ธฐ์ค€์œผ๋กœ NA๊ฐ’์ด ๋งŽ์€ 20%๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ 80%์˜ ์œ ํšจ ํ–‰์„ ๋‚จ๊ธด๋‹ค. ์ด ๋•Œ sort()๋ฅผ ํ†ตํ•ด NA ๊ฐ’์ด ๋งŽ์€ ์ˆœ์„œ๋Œ€๋กœ ์ •๋ ฌํ•˜๊ณ , ๋ฐ˜๋ณต๋ฌธ while()์„ ํ†ตํ•ด ๋ชจ๋“  ํ–‰์— ๋Œ€ํ•ด ํ•ด๋‹น ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ํ•œ๋‹ค. [4] ํ–‰์ด๋‚˜ ์—ด์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ž„๊ณ„ ๊ฐœ์ˆ˜๋ณด๋‹ค ์ž‘์•„์ง€๊ธฐ ์ง์ „๊นŒ์ง€ [2]์™€ [3] ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•œ๋‹ค. [5] ํ–‰๋ณด๋‹ค๋Š” ์—ด์ด ๋” ๊ฐ€์น˜ ์žˆ๋‹ค๋Š” ํŒ๋‹จ ์•„๋ž˜, ๋‚จ์•„์žˆ๋Š” NA๊ฐ’์„ ํ–‰ ์ œ๊ฑฐ๋ฅผ ํ†ตํ•ด ์ฒ˜๋ฆฌํ•œ๋‹ค. 2.1. 2-3 PCA

PCA ๋ถ„์„๋ฐฉ๋ฒ•์€ ์ธก์ •๋œ ๋ณ€์ˆ˜๋“ค์˜ ์„ ํ˜• ์กฐํ•ฉ(Linear Combination)์— ์˜ํ•ด ๋Œ€ํ‘œ์ ์ธ ์ฃผ์„ฑ๋ถ„์„ ๋งŒ๋“ค์–ด ์ฐจ์›์„ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ํ˜„์žฌ ๊ฐ–๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ค‘ ์‹ํ’ˆ์„ญ์ทจ์กฐ์‚ฌ ์ž๋ฃŒ์ธ โ€˜๊ฐœ์ธ๋ณ„ 24์‹œ๊ฐ„ ํšŒ์ƒ์ž๋ฃŒ๋ฅผ ํ†ตํ•œ ์˜์–‘์†Œ ์„ญ์ทจ๋Ÿ‰์—๋Š” ์‹ํ’ˆ์„ญ์ทจ๋Ÿ‰, ์—๋„ˆ์ง€, ์ˆ˜๋ถ„ ๋“ฑ์„ ํฌํ•จํ•˜์—ฌ ์ด 27๊ฐ€์ง€์˜ ์˜์–‘์†Œ์— ๊ด€ํ•œ ์—ฐ์†ํ˜• ๋ณ€์ˆ˜๋“ค์ด ์žˆ๋‹ค. ์ด 27๊ฐ€์ง€์˜ ๋ณ€์ˆ˜๋“ค์„ PCA๋ถ„์„์„ ํ†ตํ•ด ์ฃผ์š” ๋ณ€์ˆ˜๋“ค์„ ๋ฝ‘์•„์ฃผ์—ˆ๋‹ค. ์ด 27๊ฐ€์ง€์˜ PC์›์†Œ๋“ค ์ค‘ PC4๋ฒˆ ๋ณ€์ˆ˜๊นŒ์ง€ ํฌํ•จ์‹œ์ผฐ๋”๋‹ˆ ๋ˆ„์ ๋ถ„์‚ฐ์ด 0.7์„ ๋„˜์–ด ์œ ํšจํ•œ PC๊ทธ๋ฃน๊ตฐ์„ 4๊ฐœ๊นŒ์ง€๋กœ ์ง€์ •ํ•˜์˜€๋‹ค. ๋”ฐ๋ผ์„œ 27๊ฐœ์˜ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ์ƒˆ๋กœ์šด 4๊ฐœ์˜ PC์›์†Œ๋ฅผ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๊ธฐ์กด ๋ณ€์ˆ˜๋“ค์ด ๊ฐ–๊ณ  ์žˆ๋˜ ์ตœ์ ์˜ ์„ฑ์งˆ์„ ์œ ์ง€ํ•œ ์ฑ„ ์ฐจ์›์„ ์ค„์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ฝ‘ํžŒ 4๊ฐ€์ง€์˜ PC์›์†Œ๋ฅผ ์‚ดํŽด๋ณด๋‹ˆ ๊ฐ€์žฅ ์˜ํ–ฅ๋ ฅ์ด ํฐ PC1๋ณ€์ˆ˜์— ํฐ ์˜ํ–ฅ์„ ๋ผ์น˜๋Š” ๊ธฐ์กด ๋ณ€์ˆ˜๋“ค์€ ์ธ, ์—๋„ˆ์ง€, ์นด๋กœํ‹ด์œผ๋กœ ์ธ์ฒด์˜ ์—ด๋Ÿ‰ ๋ฐ ํ™œ๋ ฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ์š”์†Œ๋“ค๋กœ ๋˜์–ด ์žˆ์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ, PC1 ๋ณ€์ˆ˜๋Š” โ€˜energyโ€™๋กœ ์žฌ์ •์˜ ํ•˜์˜€๋‹ค. ๋‘๋ฒˆ์งธ PC2๋ณ€์ˆ˜๋Š” ๋ถˆํฌํ™”์ง€๋ฐฉ, ์ง€๋ฐฉ, ํฌํ™”์ง€๋ฐฉ์ด ์˜ํ–ฅ๋ ฅ์˜ ๋น„์ค‘์ด ๊ฐ€์žฅ ํฌ๊ธฐ ๋•Œ๋ฌธ์— โ€˜fat-seriesโ€™๋กœ ์žฌ์ •์˜ํ•˜์˜€๋‹ค. ์„ธ๋ฒˆ์งธ PC3๋ณ€์ˆ˜๋Š” ๋น„ํƒ€๋ฏผA, ๋ ˆํ‹ฐ๋†€, ์นด๋กœํ‹ด์ด ์˜ํ–ฅ์„ ๋งŽ์ด ๋ผ์ณค๋‹ค. ๋ ˆํ‹ฐ๋†€๊ณผ ์นด๋กœํ‹ด์€ ๋น„ํƒ€๋ฏผ A์˜ ํ•œ ์ข…๋ฅ˜์ด๋ฏ€๋กœ ๋ณ€์ˆ˜๋ฅผ โ€˜Vitamin_Aโ€™๋กœ ์žฌ์ •์˜ํ•˜์˜€๋‹ค. ๋งˆ์ง€๋ง‰ PC4๋ณ€์ˆ˜๋Š” 3๊ณ„์ง€๋ฐฉ์‚ฐ, ๋‹ค๊ฐ€๋ถˆํฌํ™”์ง€๋ฐฉ์‚ฐ, 6๊ณ„์ง€๋ฐฉ์‚ฐ์ด ํฐ ์˜ํ–ฅ์„ ๋ผ์ณ์„œ โ€˜fatty-seriesโ€™๋กœ ์žฌ์ •์˜ํ•˜์˜€๋‹ค. ์ด์ฒ˜๋Ÿผ 27๊ฐœ์˜ ์—ฐ์†ํ˜• ๋ณ€์ˆ˜๋“ค์„ PCA๋ถ„์„์„ ํ†ตํ•ด ๊ธฐ์กด ๋ถ„์‚ฐ์„ ๊ฐ€์žฅ ์ž˜ ๋ฐ˜์˜ํ•˜๋Š” ์ถ•์œผ๋กœ ์‚ฌ์˜ํ•˜์—ฌ ์ฃผ์š”๋ณ€์ˆ˜ 4๊ฐœ๋ฅผ ๋ฝ‘์•„์ฃผ์–ด ์ฐจ์›์„ ์ถ•์†Œ์‹œ์ผœ์ฃผ์—ˆ๋‹ค.

image

2.1.3 Feature engineering

2.1.3-0 EDA

์–ด๋–ค Feature๊ฐ€ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์„์ง€ ์ง๊ด€์— ๋”ฐ๋ผ ์„ ํƒํ•˜๊ณ  Target Attribue์™€์˜ ์—ฐ๊ด€์„ฑ์„ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด ์‹œ๊ฐํ™” ํ•ด๋ณด์•˜๋‹ค.

image image

๊ทธ๋ฆผ 1 : ๊ฐ€์กฑํฌ๊ธฐ์™€ ์˜์–‘์ œ ๋ณต์šฉ์—ฌ๋ถ€ ๊ทธ๋ฆผ 2 : ์„ฑ๋ณ„๊ณผ ์˜์–‘์ œ ๋ณต์šฉ์—ฌ๋ถ€

image image

๊ทธ๋ฆผ 3 : ๊ฒฐํ˜ผ์—ฌ๋ถ€์™€ ์˜์–‘์ œ ๋ณต์šฉ์—ฌ๋ถ€ ๊ทธ๋ฆผ 4 : ๊ธฐ์ดˆ์ƒํ™œ์ˆ˜๊ธ‰๊ณผ ์˜์–‘์ œ ๋ณต์šฉ์—ฌ๋ถ€

image image

๊ทธ๋ฆผ 5: ์น˜๊ฐ„์นซ์†”๊ณผ ์˜์–‘์ œ ๋ณต์šฉ์—ฌ๋ถ€ ๊ทธ๋ฆผ 6: ์†Œ๋“๋ถ„์œ„์™€ ์˜์–‘์ œ ๋ณต์šฉ์—ฌ๋ถ€

์ด๋ ‡๊ฒŒ Target Attribute์™€ ์ง๊ด€์ ์œผ๋กœ ๊ด€๋ จ์ด ์žˆ์–ด ๋ณด์ด๋Š” Attribute๋“ค์€ ์—ฌ์„ฏ ๊ฐœ์˜ ๊ทธ๋ฆผ์€ Modeling ๊ณผ์ •์—์„œ ์‹ค์ œ๋กœ ์—ฐ๊ด€์ด ์žˆ๋Š”์ง€ ๊ฒ€์ฆ๋  ๊ฒƒ์ด๋‹ค.

2.1.3-1 ๋‚˜์ด ๊ทธ๋ฃนํ™”

๊ณ ๊ฐ๊ตฐ ๋Œ€์ƒ์ด ๋  ์ˆ˜ ์—†๋Š” 20์„ธ ๋ฏธ๋งŒ์˜ ๋ฏธ์„ฑ๋…„์„ ์ œ์™ธํ•œ๋‹ค ํ•˜๋”๋ผ๋„ 20์„ธ ์ด์ƒ๋ถ€ํ„ฐ ๋ถ€ํ„ฐ ๊ฐ€์žฅ ๋‚˜์ด๊ฐ€ ๋งŽ์€ 80์‚ด์˜ ์‚ฌ๋žŒ๊นŒ์ง€ ์—ฐ์†ํ˜•์˜ ๋ณ€์ˆ˜๋Š” ๋‚˜๋ฆ„ ๊ทธ ํ™œ์šฉ์„ฑ์ด ๋†’๋‹ค๊ณ  ์ƒ๊ฐํ•˜์—ฌ ๋‚˜์ด์˜ ํŠน์„ฑ์„ ์ข€ ๋” ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ฃน์„ ์ง€์–ด์ฃผ์—ˆ๋‹ค. 20์„ธ๋ถ€ํ„ฐ 30์„ธ๊นŒ์ง€์˜ 226๋ช…์˜ ์‚ฌ๋žŒ๋“ค์€ โ€˜youngโ€™๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด์ฃผ์—ˆ๊ณ , ๊ทธ ์œ„๋กœ๋ถ€ํ„ฐ 65์„ธ ์•„๋ž˜๊นŒ์ง€์˜ ์ด 2218์‚ฌ๋žŒ๋“ค์€ middle๋กœ, ๊ทธ ์œ„์˜ 521๋ช…์˜ ์‚ฌ๋žŒ๋“ค์€ โ€˜oldโ€™๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด์ฃผ์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์—ฐ์†ํ˜•์˜ ๋‚˜์ด ๋ณ€์ˆ˜์™€ ๋”๋ถˆ์–ด ๋ช…๋ชฉํ˜•์˜ age_group๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ๋ณด๊ฐ•ํ–ˆ๋‹ค.

2.1.3-2 ์ง€์—ญ ๊ทธ๋ฃนํ™”

๋‚˜์ด์˜ ๊ทธ๋ฃนํ™”์™€ ๋”๋ถˆ์–ด, ์ง€์—ญ ๋˜ํ•œ 17๊ฐœ์˜ ๋ณ€์ˆ˜๋“ค๋กœ ๋‚˜๋‰˜์–ด์ ธ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ทธ ํŠน์„ฑ์„ ์ข€ ๋” ์„ธ๋ถ„ํ™”ํ•˜๊ณ  ์ง€์—ญ์˜ ํŠน์„ฑ์„ ๋ฐ์ดํ„ฐ ๋‚ด์—์„œ ์ข€ ๋” ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด, 17๊ฐœ์˜ ์ง€์—ญ ์ค‘ ๊ฒฝ๊ธฐ/์„œ์šธ/์ธ์ฒœ/์ถฉ๋ถ/์ถฉ๋‚จ/์„ธ์ข…/๋Œ€์ „ ์ง€์—ญ์„ ํ•ฉ์ณ์„œ ์œ—์ง€๋ฐฉ์„ ์˜๋ฏธํ•˜๋Š” 1๋กœ, ๊ทธ ์•„๋ž˜์˜ ๊ฐ•์›/์ „๋ถ/์ „๋‚จ/๊ด‘์ฃผ/์ œ์ฃผ/๊ฒฝ๋ถ/๊ฒฝ๋‚จ/๋Œ€๊ตฌ/๋ถ€์‚ฐ/์šธ์‚ฐ ์ง€์—ญ์„ ์•„๋žซ์ง€๋ฐฉ์„ ์˜๋ฏธํ•˜๋Š” 0์œผ๋กœ ํ•ฉ์ณ์ฃผ์—ˆ๋‹ค. ์ด ์ด์‚ฐํ™”๋Š” ๋ช…๋ชฉํ˜• ๋ณ€์ˆ˜๋“ค์„ ํฐ ํ‹€๋กœ ๋ฌถ์–ด์ฃผ์–ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํŠน์ •ํ™”๋ฅผ ๋ณด์žฅํ•˜๋ฉฐ softํ•œ ์Šคํ”Œ๋ฆฟ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ด์ค€๋‹ค.

2.1.3-3 Normalization

๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์–‘์กฐ์‚ฌ ์›์‹œ ์ž๋ฃŒ์—์„œ ์• ํŠธ๋ฆฌ๋ทฐํŠธ ํƒ€์ž…์ด ๋“ฑ๊ฐ„ ์†์„ฑ์ด๋‚˜ ๋น„์œจ ์†์„ฑ์ธ ๊ฒฝ์šฐ ๋ณ€ํ™”๋Ÿ‰์˜ ํ†ต์ผ์„ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ •๊ทœํ™”๋ฅผ ํ•ด์ค„ ํ•„์š”๊ฐ€ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‚˜์ด์™€ ์†Œ๋“ ๊ฐ™์€ ๊ฒฝ์šฐ ๋˜‘๊ฐ™์ด 10์ด ์ฆ๊ฐ€ํ–ˆ๋‹ค๊ณ  ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€์ง€ ์•Š๋Š”๋‹ค. ๋‘ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๊ฐ์ฒด๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ๋‘ ๋ฐ์ดํ„ฐ ๊ฐ์ฒด์˜ ๋‚˜์ด์ฐจ๊ฐ€ 20์‚ด์ด ๋‚˜๊ณ  ์†Œ๋“ ์ฐจ์ด๊ฐ€ 2์ฒœ๋งŒ์›์ด ๋‚˜๋Š”๋ฐ ๋ถ„์„์„ ํ•  ๋Œ€ ์ด ๋ณ€ํ™”๋Ÿ‰์„ ์ ˆ๋Œ€์ ์ธ ํฌ๊ธฐ๋กœ ํ•ด์„ํ•˜๋ฉด ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ๊ทธ ์ด์œ ๋Š” ๋‘ ๋ฐ์ดํ„ฐ ํƒ€์ž…์ด ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ธ๋ฐ, ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ํ†ต์ผ์‹œ์ผœ ์ฃผ๋Š” ๊ฒŒ ๋ฐ”๋กœ ์ •๊ทœํ™”๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ •๊ทœํ™”์˜ ์ข…๋ฅ˜๋Š” MinMax Normalization, Robust Normalization, Standardization ๋“ฑ ๊ต‰์žฅํžˆ ๋งŽ์ง€๋งŒ ์šฐ๋ฆฌ๋Š” ๊ทธ ์ค‘์—์„œ ์ˆ˜์—…์‹œ๊ฐ„์—์„œ ๋‹ค๋ฃฌ MinMax Normalization์„ ์ฑ„ํƒํ–ˆ๋‹ค. MinMax Normalization์€ ์ž์‹ ์˜ ๊ฐ’๊ณผ ์ตœ์†Œ๊ฐ’์˜ ์ฐจ๋ฅผ ์ตœ๋Œ€๊ฐ’๊ณผ ์ตœ์†Œ๊ฐ’์˜ ์ฐจ๋กœ ๋‚˜๋ˆ ์ค€ ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ •๊ทœํ™”๋ฅผ ๊ฑฐ์นœ ๋ฐ์ดํ„ฐ์— ํ•œํ•ด์„œ ๋ฒ”์œ„๊ฐ€ 0~1๋กœ ๊ณ ์ •๋˜๊ธฐ ๋•Œ๋ฌธ์— ์†์„ฑ์ด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋ผ๋ฆฌ ๋ณ€ํ™”๋Ÿ‰์ด ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค.

2.1.3-4 ์ด์ƒ์น˜ ํƒ์ง€

๊ตญ๋ฏผ๊ฑด๊ฐ•์˜์–‘์กฐ์‚ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•ด์„œ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋งŽ์ด ๋ฒ—์–ด๋‚˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ, outlier๋ฅผ ์ฐพ์•„์„œ ์ œ๊ฑฐํ•ด๋‚ด์•ผ ํ•œ๋‹ค. ์•ž์—์„œ ์ „์ฒ˜๋ฆฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์•˜์„ ๋•Œ ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๋Š” ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์ด๋‹ค. ์ „์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์—์„œ NULL ๊ฐ’์ด๋‚˜ ๋ชจ๋ฆ„, ๋ฌด์‘๋‹ต์„ ์ „์ฒ˜๋ฆฌ ํ–ˆ์œผ๋ฏ€๋กœ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ์— ์ด์ƒ์น˜๊ฐ€ ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค. ๋”ฐ๋ผ์„œ ๋Œ€ํ‘œ์ ์ธ ์—ฐ์†ํ˜• ์–ดํŠธ๋ฆฌ๋ทฐํŠธ์ธ 1) ์›”ํ‰๊ท  ๊ฐ€๊ตฌ ์ด์†Œ๋“, 2) ์ฒด์งˆ๋Ÿ‰ ์ง€์ˆ˜ ์ด์ƒ์น˜๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค.

  1. ์›”ํ‰๊ท  ๊ฐ€๊ตฌ ์ด์†Œ๋“: ๋จผ์ € ์›”ํ‰๊ท  ๊ฐ€๊ตฌ ์ด์†Œ๋“์— ๋Œ€ํ•œ ์ด์ƒ์น˜๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ์‹œ๊ฐํ™”ํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์• ์ดˆ์— ์›์‹œ ๋ฐ์ดํ„ฐ์—์„œ ์†Œ๋“์ด ์›” ํ‰๊ท  1500๋งŒ์› ์ด์ƒ์ธ ์‚ฌ๋žŒ๋“ค์€ 1500๋งŒ์›์œผ๋กœ ๋ฐ”๊ฟ”์คŒ์œผ๋กœ์จ ์ด๋ฏธ ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ๊ฐ€ ๋˜์–ด์žˆ์—ˆ๋‹ค.
  2. ์ฒด์งˆ๋Ÿ‰์ง€์ˆ˜: ๋ฐ์ดํ„ฐ ํ‘œ๋ณธ์— ํฌํ•จ๋œ ์‚ฌ๋žŒ ์ค‘์—์„œ ์ •๋ง๋กœ ํ‚ค๊ฐ€ ๊ทน๋‹จ์ ์œผ๋กœ ํฌ๊ฑฐ๋‚˜ ์ž‘๊ณ  ๋ชธ๋ฌด๊ฒŒ๊ฐ€ ๊ทน๋‹จ์ ์œผ๋กœ ํฌ๊ฑฐ๋‚˜ ์ž‘์€ ์‚ฌ๋žŒ๋“ค์ด ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ฒด์งˆ๋Ÿ‰์ง€์ˆ˜์—์„œ ์ด์ƒ์น˜๋ฅผ ์ฐพ์•„๋‚ด์„œ ์ด๋Ÿฐ ์‚ฌ๋žŒ๋“ค์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ๊บผ๋ฒˆ์— ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋ฉ”์†Œ๋“œ๋Š” boxplot์„ ์ด์šฉํ•œ๋‹ค.

image

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ƒ์ž์˜ ํฌ๊ธฐ๋Š” ์ œ3์‚ฌ๋ถ„์œ„์ˆ˜์—์„œ ์ œ1์‚ฌ๋ถ„์œ„์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ฒŒ ๋œ๋‹ค. ์ด ๊ธธ์ด๋ฅผ L์ด๋ผ๊ณ  ํ•˜์ž. ์ƒ์ž ์œ„์•„๋ž˜์˜ ์„ ๋ถ„์€ ์ตœ์†Œ๊ฐ’, ์ตœ๋Œ€๊ฐ’์„ ํ‘œ์‹œํ•˜๋ฉฐ 1.5L์„ ๋„˜์–ด๊ฐ€๋Š” ๋ถ€๋ถ„์„ ์ด์ƒ์น˜๋กœ ํ‘œ์‹œํ•˜๊ฒŒ ๋œ๋‹ค. ์ด์ƒ์น˜๊ฐ€ ์œ„ ์•„๋ž˜๋กœ ์กด์žฌํ•˜๋ฏ€๋กœ ์‚ญ์ œํ•ด์•ผ ํ•œ๋‹ค.

image

์ด์ƒ์น˜์˜ ๋Œ€๋žต์ ์ธ ์–‘์„ ์•Œ์•„๋‚ด๊ธฐ ์œ„ํ•ด์„œ 3D scatter๋ฅผ ํ†ตํ•ด 3์ฐจ์›์œผ๋กœ ์‹œ๊ฐํ™”๋ฅผ ํ•ด๋ณด๋ฉด ์ฒด์งˆ๋Ÿ‰ ์ง€์ˆ˜๊ฐ€ ๋Œ€๋žต 0(15)์— ๊ฐ€๊นŒ์šด ์‚ฌ๋žŒ๊ณผ ์ฒด์งˆ๋Ÿ‰ ์ง€์ˆ˜๊ฐ€ 1.0(41)์— ๊ฐ€๊นŒ์šด ์‚ฌ๋žŒ์ด ์กด์žฌํ•œ๋‹ค. ์œ„๋กœ 41 * 0.8 = 32.8 ์ด์ƒ์˜ ์ฒด์งˆ๋Ÿ‰ ์ง€์ˆ˜๋ฅผ ๊ฐ€์ง„ ์‚ฌ๋žŒ๋“ค์„ ์ œ๊ฑฐํ•ด์ค€๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์•„๋ž˜๋กœ๋Š” ์ฒด์งˆ๋Ÿ‰ ์ง€์ˆ˜๊ฐ€ 15์— ๊ฐ€๊นŒ์šด ์ˆœ์œผ๋กœ 10๊ฐœ ์ •๋„๋ฅผ ์ œ๊ฑฐํ•ด์ค€๋‹ค.

2.1.3-5 ํ˜•๋ณ€ํ™˜

์„ค๋ฌธ ๋‚ด์šฉ์„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ฐ€๊ฐ€ ์Šคํ”„๋ ˆ๋“œ์‹œํŠธ์— ์ž…๋ ฅํ•  ๋•Œ ๋ฐ์ดํ„ฐ ํƒ€์ž…์€ ์บ๋ฆญํ„ฐํ˜• ๋˜๋Š” ์ˆซ์žํ˜• ๋ฐ–์— ์—†๋‹ค. ํ•˜์ง€๋งŒ ์„ค๋ฌธ ๋ฌธํ•ญ์€ ๋Œ€๋ถ€๋ถ„์ด ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์ด๋‹ค. ์›์‹œ ๋ฐ์ดํ„ฐ์—์„œ ํ™•์ธํ•ด๋ดค์„ ๋•Œ ๋ฌธ์ž๋กœ ์ž…๋ ฅ๋œ ๊ฒƒ๋“ค๋งŒ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋กœ ๋ถ„๋ฅ˜๋˜์—ˆ๊ณ  ๋‚˜๋จธ์ง€๋Š” ์ˆซ์žํ˜• ๋ฐ์ดํ„ฐ์˜€๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์“ฐ๋Š” ๋ชจ๋ธ์€ ๋ถ„๋ฅ˜๋‚˜๋ฌด ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด์ค˜์•ผ ํ•  ๊ฒƒ์€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด์ค˜์•ผ ํ•œ๋‹ค. ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์ง€ ์•Š์•˜์„ ๊ฒฝ์šฐ์— ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด์—์„œ ๋ถ„๋ฅ˜๋ฅผ ํ•  ๋•Œ split condition์ด ์–ด๋–ค ์ˆซ์ž ์ด์ƒ/์ดํ•˜๋กœ ์„ค์ •๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Factor level์ด 3(1, 2, 3)์ธ ๊ฒฝ์šฐ split condition ๊ธฐ์ค€์ด 2.78์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด๋„ ๋ชจ๋ธ์€ ์ž˜ ๋Œ์•„๊ฐ€์ง€๋งŒ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„์„๋˜์—ˆ๋‹ค๊ณ  ๋ณด๊ธฐ๋Š” ์–ด๋ ต๋‹ค. ์›์‹œ ๋ฐ์ดํ„ฐ์—์„œ ๋Œ€๋ถ€๋ถ„์˜ ํ˜•๋ณ€ํ™˜์€ int->factor์˜€๊ณ  ํ˜•๋ณ€ํ™˜์„ ํ• ์ง€ ๋ง์ง€๋Š” ์šฐ๋ฆฌ์˜ ์ฃผ๊ด€์— ๋”ฐ๋ž๋‹ค.

์•ž์œผ๋กœ ๊ธฐ์ˆ ํ•˜๋Š” ๊ธฐ๋ฒ•๋“ค์„ ์ ์šฉํ•œ ํ›„ is.na() ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ฒฐ์ธก์น˜๊ฐ€ 500๊ฐœ ๋ฏธ๋งŒ์ด ๋  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ–ˆ๋‹ค. ๋” ์ด์ƒ ์—ด์„ ์ง€์šฐ์ง€ ์•Š๊ณ  NA์ด ํ•˜๋‚˜๋ผ๋„ ์žˆ๋Š” ํ–‰์„ ์‚ญ์ œํ•ด Dataset์„ ์™„์„ฑํ–ˆ๋‹ค.

2.2 Exploratory data analysis

2.2-1 Cluster Analysis

๋ชจ๋ธ๋ง์— ๋“ค์–ด๊ฐ€๊ธฐ ์•ž์„œ ๋ฐ์ดํ„ฐ ์ž์ฒด, ์ฆ‰ ๊ณ ๊ฐ๋“ค์ด ๊ฐ–๊ณ  ์žˆ๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ํŠน์ง•๋“ค(๊ตฐ์ง‘, ์—ฐ๊ด€์„ฑ ๋“ฑ)์„ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด 2๊ฐ€์ง€ ๋น„์ง€๋„ ํ•™์Šต์  ๋ฐ์ดํ„ฐ ํƒ์ƒ‰์„ ์‹œ๋„ํ•˜์˜€๋‹ค. ์ฒซ ๋ฒˆ์งธ๋กœ๋Š” ๊ตฐ์ง‘ ๋ถ„์„์„ ์‹œ๋„ํ•˜์˜€๋‹ค. ๊ตฐ์ง‘๋ถ„์„์„ ํ•˜๋Š” ์ด์œ ๋Š” ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹ ๊ฐ•์˜์˜ ๋‚ด์šฉ์„ ์š”์•ฝํ•ด๋ณด๋ฉด ๋™์ผํ•œ ์„ฑ๊ฒฉ์„ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ทธ๋ฃน์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•œ๋‹ค. ๋Œ€์ƒ ๊ฐœ์ฒด๋ฅผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ์„œ๋กœ ๊ด€๋ จ ์žˆ๋Š” ํ•ญ๋ชฉ๋ผ๋ฆฌ ๋ฌถ์–ด์„œ ๋ช‡ ๊ฐœ์˜ ์ง‘๋‹จ์œผ๋กœ ๊ทธ๋ฃนํ™”ํ•˜๊ฑฐ๋‚˜, ๊ฐ ์ง‘๋‹จ์˜ ์„ฑ๊ฒฉ์„ ํŒŒ์•…ํ•ด์„œ ์ „์ฒด์˜ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋•๋Š”๋‹ค. ๊ตฐ์ง‘๋ถ„์„์€ ์ข…์†๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์˜ํ–ฅ์„ ๋ถ„์„ํ•œ๋‹ค. ์‚ฌ์ „์— ์ •์˜๋œ ํŠน์ˆ˜ํ•œ ๋ชฉ์ ์€ ์—†๋‹ค. ๋ฐ์ดํ„ฐ ์ž์ฒด์— ์˜์กดํ•ด์„œ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ์™€ ์ž๋ฃŒ๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ์š”์•ฝํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค.

1) ๊ตญ๋ฏผ๊ฑด๊ฐ„์˜์–‘์กฐ์‚ฌ ๋ฐ์ดํ„ฐ์™€ ๊ฐ™์ด ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ์—๋Š” ์ „์ฒด์— ๋Œ€ํ•œ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

์ „์ฒด๋ฅผ ์œ ์‚ฌํ•œ ์„ฑ์งˆ์„ ์ง€๋‹ˆ๋Š” ๊ตฐ์ง‘์œผ๋กœ ๊ตฌ๋ถ„ํ•œ๋‹ค๋ฉด ๊ตฐ์ง‘์— ๋Œ€ํ•œ ํŠน์„ฑ์„ ๋ถ„์„ํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์ „์ฒด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ง๊ด€์„ ์–ป๊ณ  ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•˜์—ฌ ๊ณ ๊ฐ๋“ค์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ตฐ์ง‘ํ™” ํ•˜๊ณ , ๋ชจ๋ธ๋ง๊ณผ ํ‰๊ฐ€๊ฐ€ ๋๋‚˜๊ณ  ์‹ค์ „ ๋ฐฐ์น˜ ๋‹จ๊ณ„์—์„œ, ํ•ด๋‹น ๊ตฐ์ง‘์ด ๊ฐ–๊ณ  ์žˆ๋Š” ํŠน์„ฑ๋“ค์„ ํ™œ์šฉํ•˜์—ฌ ๋” ๋‹ค์–‘ํ•œ ๊ณ ๊ฐํ™” ์ „๋žต ๋ฐ ๋งˆ์ผ€ํŒ…์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

2) ์šฐ๋ฆฌ๊ฐ€ ์‹œ๋„ํ•  ๊ตฐ์ง‘๋ถ„์„์€ ์ˆ˜์—… ์‹œ๊ฐ„์— ๋ฐฐ์šด Hierarchical Clustering, K-means clustring์ด๋‹ค.

๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง์€ ๋ณ‘ํ•ฉ์  ๋ฐฉ๋ฒ•๊ณผ ๋ถ„ํ• ์  ๋ฐฉ๋ฒ•์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ตฐ์ง‘์„ ํ˜•์„ฑ์‹œํ‚จ๋‹ค. ๊ณ„์ธต์  ํด๋Ÿฌ์Šคํ„ฐ๋ง์€ ๋ณ‘ํ•ฉ์  ๋ฐฉ๋ฒ•๊ณผ ๋ถ„ํ• ์  ๋ฐฉ๋ฒ•์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ตฐ์ง‘์„ ํ˜•์„ฑ์‹œํ‚จ๋‹ค. ํ•œ ๊ด€์ฐฐ๋‹จ์œ„๋Š” ํ•œ ๊ตฐ์ง‘์— ์†ํ•˜๋ฉด ๋‹ค๋ฅธ ๊ตฐ์ง‘์—๋Š” ๋‹ค์‹œ ์†ํ•  ์ˆ˜ ์—†๋‹ค. ๊ตฐ์ง‘์€ ๋ด๋“œ๋กœ๊ทธ๋žจ(Dendrogram)์ด๋ผ๋Š” ๋„ํ‘œ๋ฅผ ์ด์šฉํ•ด ๊ตฐ์ง‘๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•œ๋‹ค.

3) k-means ํด๋Ÿฌ์Šคํ„ฐ๋ง์€ ์‚ฌ์ „์— ๊ฒฐ์ •๋œ ๊ตฐ์ง‘ ์ˆ˜ K์— ๊ธฐ์ดˆํ•˜์—ฌ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์Šทํ•œ k๊ฐœ์˜ ๊ตฐ์ง‘์œผ๋กœ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ƒํ˜ธ๋ฐฐํƒ€์ ์ธ k๊ฐœ์˜ ๊ตฐ์ง‘์„ ํ˜•์„ฑํ•จ์œผ๋กœ์จ ๊ตฐ์ง‘๋“ค์„ ํ˜•์„ฑํ•œ๋‹ค.

K-means Clustering ๋ฐฉ๋ฒ•์— ์žˆ์–ด, ์ตœ์ ์˜ Centroid๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜์˜€๋‹ค. ์ฆ‰, ์ดˆ๊ธฐ Centroid๋ฅผ randomํ•˜๊ฒŒ ์žก์€ ํ›„, Euclidean distance๋ฅผ ์ด์šฉํ•ด Closeness๋ฅผ ๋น„๊ตํ•˜๋Š” Matrix๋ฅผ ์ƒˆ๋กœ ๊ตฌ์„ฑํ•œ ํ›„, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด Centroid๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ  ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ฒŒ๋” ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค. ์ƒˆ๋กœ์šด ํ•จ์ˆ˜๋ฅผ ์ •์˜, ์„ ์–ธํ•˜์—ฌ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์˜€๊ณ  ์ดํ›„ kmeans() ๋“ฑ์˜ ์™ธ๋ถ€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•ด์„œ๋„ ๋™์ผ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

4) ๊ตฐ์ง‘๋ถ„์„์„ ์œ„ํ•ด ์–ด๋–ค ์ „์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š”ํ•œ๊ฐ€?

๊ฐ€์žฅ ์šฐ์„ ์ ์œผ๋กœ k์˜ ๊ฐœ์ˆ˜๋ฅผ ์ •ํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค. ์ƒ๊ด€๊ด€๊ณ„๋ถ„์„์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ์ด์ƒ์น˜๋ฅผ ์‚ดํŽด๋ณด๊ณ  ์ œ๊ฑฐํ•œ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๋ฒ”์œ„๊ฐ€ ๋งž์ง€ ์•Š์•„ ์ •๊ทœํ™”๋ฅผ ์‹œ์ผœ์•ผ ํ–ˆ๋‹ค. ๋ฐ์ดํ„ฐ์—์„œ ๋ชฉ์ ์— ๊ฐ€์žฅ ๋ถ€ํ•ฉํ•˜๋Š” Atrribute๋ฅผ ์„ ์ •ํ–ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ™œ์šฉ๊ฐ€๋Šฅํ•œ ์ด ์†์„ฑ์€ ๋‚˜์ด, ์„ฑ๋ณ„, ์›”ํ‰๊ท ์†Œ๋“, ๊ฒฐํ˜ผ์—ฌ๋ถ€, ์‹ ์žฅ, ์ฒด์ค‘, ์ฒด์งˆ๋Ÿ‰์ง€์ˆ˜, ์‹ํ’ˆ์„ญ์ทจ๋Ÿ‰, ์—๋„ˆ์ง€, ์ˆ˜๋ถ„, ๋‹จ๋ฐฑ์งˆ, ์ง€๋ฐฉ, ํฌํ™”์ง€๋ฐฉ์‚ฐ, ๋‹จ์ผ๋ถˆํฌํ™”์ง€๋ฐฉ์‚ฐ, ๋‹ค๊ฐ€๋ถˆํฌํ™”์ง€๋ฐฉ์‚ฐ, n-3๊ณ„ ์ง€๋ฐฉ์‚ฐ, n-6๊ณ„ ์ง€๋ฐฉ์‚ฐ, ์ฝœ๋ ˆ์Šคํ…Œ๋กค, ํƒ„์ˆ˜ํ™”๋ฌผ, ์‹์ด์„ฌ์œ , ๋‹น, ์นผ์Š˜, ์ธ, ์ฒ , ๋‚˜ํŠธ๋ฅจ, ์นผ๋ฅจ, ๋น„ํƒ€๋ฏผA, ์นด๋กœํ‹ด, ๋ ˆํ‹ฐ๋†€, ๋ฆฌ๋ณดํ”Œ๋ผ๋นˆ, ๋‚˜์ด์•„์‹ , ๋น„ํƒ€๋ฏผC๋กœ 32๊ฐœ๊ฐ€ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์˜ํ–ฅ์ด ์ค‘๋ณต๋˜๋Š” ๋ณ€์ˆ˜๋Š” ์ œ๊ฑฐํ•˜๊ณ  ํ•„์š”ํ•˜๋‹ค๋ฉด ์ฃผ์„ฑ๋ถ„์ถ”์ถœ์„ ์‹œํ–‰ํ•œ๋‹ค.

๋‘ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ ์—ฐ๊ด€์„ฑ ๋ถ„์„์ด๋‹ค. ์—ฐ๊ด€์„ฑ ๋ถ„์„์„ ์œ„ํ•ด ๊ฐ–๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹๋“ค์„ binarization ๋ฐ discretization์„ ์‚ฌ์šฉํ•˜์—ฌ, ์ด์‚ฐ์ ์ธ transaction data set์œผ๋กœ ๋ณ€ํ˜•ํ•˜์—ฌ ์—ฐ๊ด€์„ฑ ๋ถ„์„์„ ์‹œํ–‰ํ•˜์˜€๋‹ค. ์ด ๋˜ํ•œ ๋ชจ๋ธ๋ง์ด ๋๋‚œ ํ›„ ์ œํ’ˆ ํŒ๋งค ์ „๋žต์‹œ์˜ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜ˆ์‹œ๋กœ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์นซ์†”์„ ์‚ฌ์šฉํ•˜๊ณ , ์•„์นจ์‹์‚ฌ๋ฅผ ํ•˜๋Š” ๊ณ ๊ฐ๋“ค์€ ์‹์ƒํ™œ ํ˜•ํŽธ์ด ์ข‹๋‹ค๋Š” ์—ฐ๊ด€์„ฑ์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋Ÿฌํ•œ ์—ฐ๊ด€์„ฑ์„ ํ†ตํ•˜์—ฌ ๋”์šฑ ๋‹ค์–‘ํ•œ ๋งˆ์ผ€ํŒ… ์ „๋žต์„ ํŽผ์น  ์ˆ˜ ์žˆ๊ณ , ๋”์šฑ์ด ๋ฐ์ดํ„ฐ๋“ค์˜ ์†์„ฑ์„ ๋”์šฑ ์ž์„ธํžˆ ์กฐ์‚ฌํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋”์šฑ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ถ„๋ฅ˜ ๋ถ„์„์ด๋‚˜ ์—ฐ๊ด€์„ฑ ๋ถ„์„ ๊ฐ™์€ ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•์€ ๋‹น์žฅ ์ง์ ‘์ ์œผ๋กœ ๋ชจ๋ธ๋ง์˜ ์„ฑ๊ณผ๋ฅผ ๋†’์ด๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ์…‹์˜ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํšจ๊ณผ๋ฅผ ๋ถˆ๋Ÿฌ์˜ฌ ์ˆ˜๋Š” ์—†์ง€๋งŒ, ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•จ์œผ๋กœ์จ business problem์˜ ์‹์ด ๋ณด์ถฉ์ œ์˜ ํŒ๋งค์ „๋žต์„ ๋‹ค์–‘ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.

2.2-2 Association Rule Discovery

๊ทœ์น™(rule)์ด๋ž€ โ€˜if A(์กฐ๊ฑด) then B(๊ฒฐ๊ณผ)โ€™์˜ ํ˜•์‹์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค. ์—ฐ๊ด€๊ทœ์น™์€ ํŠน์ • ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜์˜€์„ ๋•Œ ํ•จ๊ป˜ ๋ฐœ์ƒํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ์‚ฌ๊ฑด์˜ ๊ทœ์น™์„ ๋งํ•œ๋‹ค. ์—ฐ๊ด€๋ถ„์„์€ ์ด๋Ÿฌํ•œ ์—ฐ๊ด€ ๊ทœ์น™์„ ์ฐพ์•„๋‚ด๋Š” ๋ถ„์„ ๊ธฐ๋ฒ•์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ถ”์ฒœ ์ƒํ’ˆ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋งŒ๋“ค๊ณ ์ž ํ•  ๋•Œ ๋งŽ์ด ์“ฐ์ธ๋‹ค. ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ์˜์–‘์ œ๋ฅผ ๋จน๋Š” ์‚ฌ๋žŒ์ด ์–ด๋–ค ์‚ฌ๋žŒ๋“ค์ธ์ง€๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— โ€˜if A then Bโ€™์—์„œ A ๋˜๋Š” B๊ฐ€ ์˜์–‘์ œ๋ฅผ ๋จน๋Š” ์‚ฌ๋žŒ์ด๋ผ๋ฉด ์ด์— ์—ฐ๊ฒฐ๋œ ๋ณ€์ˆ˜๊ฐ€ ์˜์–‘์ œ๋ฅผ ๋จน๋Š” ์‚ฌ๋žŒ๋“ค๊ณผ ์–ด๋А์ •๋„ ์—ฐ๊ด€์ด ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฐ๊ด€๋ถ„์„์€ ๋น„์ง€๋„ ํ•™์Šต์ด๊ธฐ ๋•Œ๋ฌธ์— ํƒ€๊ฒŸ ๋ณ€์ˆ˜๋ฅผ ๋”ฐ๋กœ ์„ค์ •ํ•  ์ˆ˜๋Š” ์—†๋‹ค. ๋”ฐ๋ผ์„œ ์—ฐ๊ด€๋ถ„์„์„ ์‹ค์‹œํ•˜๋Š” ์ด์œ ๋Š” ํƒ€๊ฒŸ ๋ณ€์ˆ˜์™€ ์—ฐ๊ด€์„ฑ์ด ์žˆ๋Š” ๋ณ€์ˆ˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์˜จ์ „ํžˆ ๋ณ€์ˆ˜๋“ค๋ผ๋ฆฌ์˜ ์—ฐ๊ด€์„ฑ์„ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฐ๊ด€์„ฑ์ด ๋†’์€ ๋ณ€์ˆ˜๋“ค๋ผ๋ฆฌ ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜๋กœ ํ•ฉ์น˜๋Š” feature engineering์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์‹ค์‹œํ•  ์ˆ˜ ์žˆ๋‹ค. ์—ฐ๊ด€๋ถ„์„์„ ์ง„ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ์›๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฑฐ๋ž˜ ๋ฐ์ดํ„ฐ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜์‹œ์ผœ์ค˜์•ผ ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ํŒŒ๋ ˆํ†  ๋ฒ•์น™์— ๋”ฐ๋ผ ์ „์ฒ˜๋ฆฌ๊ฐ€ ์™„๋ฃŒ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋จผ์ € ์ด์ง„ํ™” ์‹œ์ผœ์คฌ๋‹ค. ์—ฐ์†ํ˜• ๋ณ€์ˆ˜ ๋˜๋Š” factor level์ด ๋งŽ์€ ๋ณ€์ˆ˜๋“ค์€ ์šฐ๋ฆฌ์˜ ์ฃผ๊ด€์  ํŒ๋‹จ์— ๋”ฐ๋ผ ๊ณผ๊ฐํ•˜๊ฒŒ 0๊ณผ 1๋กœ ๋‚˜๋ˆ„์—ˆ๋‹ค. ๊ฑฐ๋ž˜ ์•„์ด๋””์™€ ์•„์ดํ…œ ํ•ญ๋ชฉ์„ ์†์„ฑ์œผ๋กœ ๊ฐ€์ง€๋Š” ๋นˆ ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ๋งŒ๋“ค๊ณ  ์ด์ง„ํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฑฐ๋ž˜ ํ…Œ์ด๋ธ”์— ๋„ฃ์–ด์ฃผ์—ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด ์ด์ง„ํ™”๋œ ๋ฐ์ดํ„ฐ์˜ ํ–‰ ๋ฒˆํ˜ธ๋Š” ๊ฑฐ๋ž˜ ๋ฐ์ดํ„ฐ์˜ ๊ฑฐ๋ž˜ ์•„์ด๋””์— ๋Œ€์‘๋˜๊ณ , ์ด์ง„ํ™”๋œ ๋ฐ์ดํ„ฐ์˜ ๊ฐ ํ–‰์—์„œ 1๋กœ ํ‘œ์‹œ๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋‘ ๊ฑฐ๋ž˜ ๋ฐ์ดํ„ฐ์˜ ์•„์ดํ…œ ํ•ญ๋ชฉ์— ๋‹ด๊ธด๋‹ค. ์—ฐ๊ด€๊ทœ์น™์„ ์ƒ์„ฑํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ Apriori ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ผ๋‹ค. ์ง€์ง€๋„์™€ ์‹ ๋ขฐ๋„์— ๋”ฐ๋ผ ๊ทœ์น™์ด ๋‹ฌ๋ผ์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋งŽ์€ ์‹œ๋„๋ฅผ ํ–ˆ๋‹ค. ์‹ ๋ขฐ๋„๋Š” ์ตœ์†Œ 0.7 ์ด์ƒ์œผ๋กœ ์„ค์ •ํ–ˆ์œผ๋ฉฐ ์ง€์ง€๋„๋Š” ๋””ํดํŠธ๊ฐ’์ธ 0.1๋ณด๋‹ค ํฌ๊ฒŒ ์„ค์ •ํ•˜์˜€๋‹ค. ์—ฐ๊ด€ ๊ทœ์น™์„ ์ƒ์„ฑํ•  ๋•Œ ํŠน์ • ์†์„ฑ์„ ์ œ์™ธ์‹œํ‚ฌ ์ˆ˜ ์žˆ์–ด์„œ ๋ถ„์„ ๊ฒฐ๊ณผ์—์„œ ๋‹น์—ฐํ•œ ๊ทœ์น™๋“ค์€ ์ œ์™ธ์‹œ์ผฐ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ถ„์„์„ ์ง„ํ–‰ํ•˜๋ฉด์„œ โ€˜์ ์‹ฌ์„ ๋จน๋Š”๋‹ค -> ์˜์–‘์ œ๋ฅผ ๋จน๋Š”๋‹คโ€™์™€ ๊ฐ™์€ ๊ทœ์น™์ด ๋‚˜์™”์—ˆ๋Š”๋ฐ ์ ์‹ฌ์„ ๋จน์ง€ ์•Š๋Š” ์‚ฌ๋žŒ์€ ๋งŽ์ด ์—†์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๊ธฐ ๋•Œ๋ฌธ์— โ€˜์ ์‹ฌ์„ ๋จน๋Š”๋‹คโ€™๋Š” ์ œ์™ธ์‹œ์ผฐ๋‹ค.

2.3 Modeling

2.3.1 Decision tree

์˜์‚ฌ ๊ฒฐ์ • ๋‚˜๋ฌด(Decision tree)๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์ด๋“ค ์‚ฌ์ด์— ์กด์žฌํ•˜๋Š” ํŒจํ„ด์„ ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ๊ทœ์น™๋“ค์˜ ์กฐํ•ฉ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ทธ ๋ชจ์–‘์ด ๋‚˜๋ฌด์™€ ๊ฐ™์•„ ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด๋ผ ๋ถˆ๋ฆฐ๋‹ค. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๊ณผ์ •์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, ์ž…๋ ฅ ๋ณ€์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชฉํ‘œ ๋ณ€์ˆ˜์˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์—๋Š” ์ฃผ๋กœ ํ•˜ํ–ฅ์‹ ๊ธฐ๋ฒ•์ด ์‚ฌ์šฉ๋˜๋ฉฐ, ๊ฐ ์ง„ํ–‰ ๋‹จ๊ณ„์—์„œ๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์„ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ธฐ์ค€์œผ๋กœ ๋ถ„ํ• ํ•˜๋Š” ๋ณ€์ˆ˜๊ฐ’์ด ์„ ํƒ๋œ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ ๋ถ„ํ• ์˜ ์ ํ•ฉ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ธฐ์ค€์ด ์žˆ์œผ๋ฉฐ, ์ด ๊ณผ์ •์—์„œ ์ง€๋‹ˆ ๋ถˆ์ˆœ๋„, information gain, classification error ๋“ฑ์ด ์‚ฌ์šฉ๋œ๋‹ค. ์šฐ๋ฆฌ๋Š” rpart, caret ๋“ฑ์˜ library๋ฅผ ํ†ตํ•ด Decision tree๋ฅผ ๊ตฌ์„ฑํ•˜์˜€์œผ๋ฉฐ, Confusion matrix๋ฅผ ํ†ตํ•ด DT์˜ accuracy๋ฅผ ํ‰๊ฐ€ํ•˜์˜€๋‹ค.

2.3.2 Random Forest

Random Forest๋Š” Decision Tree ๊ธฐ๋ฐ˜์˜ ์˜ˆ์ธก ๋ชจ๋ธ์ด๋‹ค. ๋ฌด์ž‘์œ„์˜ ์˜์‚ฌ๊ฒฐ์ •ํŠธ๋ฆฌ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ๋งŒ๋“ค์–ด์„œ ์ด๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋“ค์˜ ํ‰๊ท  ๋˜๋Š” ๋‹ค์ˆ˜์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ด์šฉํ•˜๋Š” ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์„ ์ด์šฉํ•œ๋‹ค. ๋งŽ์€ ๊ฐœ์ˆ˜์˜ ํŠธ๋ฆฌ๋Š” ๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ์„ ๋ณด์žฅํ•˜์ง€๋งŒ ๊ณ„์‚ฐ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆด ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ ์ ˆํ•œ ๊ฐœ์ˆ˜์˜ ํŠธ๋ฆฌ๋ฅผ ๋งŒ๋“ค๊ณ  ์‚ฌ์šฉํ•  ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ์ •ํ•ด์•ผ ํ•œ๋‹ค. ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ง€๋‹ˆ๊ณ„์ˆ˜, information gain, ์˜ˆ์ธก์˜ค์ฐจ ๋“ฑ์„ ํ†ตํ•ด์„œ ํŠธ๋ฆฌ๊ฐ€ ๋งŒ๋“ค์–ด์ง„๋‹ค. ํ•˜์ง€๋งŒ ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ์˜ ๊ฒฐ๊ณผ๋ฌผ์€ ์œ„์—์„œ ์„ค๋ช…ํ–ˆ๋“ฏ์ด ๋‹ค์ˆ˜์˜ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด์˜ ๊ฒฐ๊ณผ๋ฌผ๋“ค์„ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์„ ์ด์šฉํ•ด ํ‰๊ท ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด ๋•Œ๋ฌธ์— ํŠธ๋ฆฌ์— ๋Œ€ํ•œ ์ง์ ‘์ ์ธ ์‹œ๊ฐํ™”๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ ๋ชจ๋ธ์„ ํ†ตํ•ด์„œ ๋‹จ์ง€ ์ •ํ™•๋„์™€ confusion matrix๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด๊ณ  ์ „์— ๋งŒ๋“  Decision Tree๋ณด๋‹ค ์ข‹์€ ๋ชจ๋ธ์ด ์กด์žฌํ•˜๋Š”์ง€ ํ™•์ธ์„ ํ•˜๋Š” ์šฉ๋„๋กœ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค.

3. Results

3.1 ์ „์ฒ˜๋ฆฌ ๊ฒฐ๊ณผ

image

์ „์ฒ˜๋ฆฌ๋Š” ์œ„์—์„œ ๊ธฐ์ˆ ํ•œ Method๋ฅผ ๊ทธ๋Œ€๋กœ ์ ์šฉํ–ˆ๋‹ค. raw๋ฐ์ดํ„ฐ๋Š” ๋ถ„์„ ๋Œ€์ƒ์—์„œ ์ œ์™ธ๋˜๋Š” ํ–‰, ์ฆ‰ 18์„ธ ๋ฏธ๋งŒ ์ฒญ์†Œ๋…„ ํ–‰๊ณผ ํœด๋ฆฌ์Šคํ‹ฑ ๊ธฐ๋ฐ˜ ์†์„ฑ ์ œ๊ฑฐ๋ฅผ ํ•œ ๊ฒฐ๊ณผ์ด๋‹ค. Processed1๋ถ€ํ„ฐ processed5๊นŒ์ง€๋Š” ํŒŒ๋ ˆํ†  ๋ฒ•์น™์— ๊ธฐ๋ฐ˜ํ•œ Nan๊ฐ’ ์ฒ˜๋ฆฌ ๊ณผ์ •์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ์ด๊ณ , ๋งˆ์ง€๋ง‰ processed6์€ Feature engineering์„ ์ ์šฉํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.

3.2 Cluster Analysis ๊ฒฐ๊ณผ

3.2-1 ์ƒ๊ด€๋ถ„์„ :

์ „์ฒ˜๋ฆฌ๋ฆฌ๋ฅผ ๋งˆ๋ฌด๋ฆฌ ํ–ˆ๋˜ ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์—ฐ์†ํ˜• Attribute๊ฐ€ ๋งŽ์ง€ ์•Š์•˜๋‹ค. ๊ทธ๋ž˜์„œ ์ถ”๊ฐ€์ ์ธ ๊ตฐ์ง‘๋ถ„์„์„ ์‹œํ–‰ํ•˜๊ธฐ ์œ„ํ•ด์„œ CRISP-DM์˜ ๊ณผ์ •์„ ๋”ฐ๋ผ ๋‹ค์‹œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋กœ ๋Œ์•„๊ฐ”๊ณ  ์—ฐ์†ํ˜• Attribute๋ฅผ ์ฐพ์•„๋ณด์•˜๋‹ค. ์—ฐ์†ํ˜• Attribute ๊ฐ„์— ์ƒ๊ด€์ด ๋†’์€ Atrribute๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ œ๊ฑฐํ•˜์˜€๋‹ค.

image

์˜ˆ์‹œ1 : N_FAT(์ง€๋ฐฉ)๊ณผ N_MUFA(๋‹จ์ผ๋ถˆํฌํ™”์ง€๋ฐฉ์‚ฐ)์€ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์œผ๋ฏ€๋กœ N_FATํ•˜๋‚˜๋งŒ ๊ตฐ์ง‘๋ถ„์„์— ์‚ฌ์šฉํ•œ๋‹ค.

image

์˜ˆ์‹œ2: HE_wt (๋ชธ๋ฌด๊ฒŒ)์™€ HE_BMI (์ฒด์งˆ๋Ÿ‰์ง€์ˆ˜)๋Š” ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์œผ๋ฏ€๋กœ HE_BMI ํ•˜๋‚˜๋งŒ ๊ตฐ์ง‘๋ถ„์„์— ์‚ฌ์šฉํ•œ๋‹ค.

3.1-2 ์ตœ์  ๊ตฐ์ง‘ ์ˆ˜์˜ ํŒŒ์•…

Nbclust ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ์†์—์„œ ์ตœ์ ์˜ ๊ตฐ์ง‘ ์ˆ˜๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ถ„์„ ๊ฒฐ๊ณผ, 4์—์„œ 6๊นŒ์ง€์˜ ๊ตฐ์ง‘ ์ˆ˜๊ฐ€ ์ตœ์  ๊ตฐ์ง‘์ˆ˜๋กœ ํŒŒ์•…๋˜์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ 4์—์„œ 6์‚ฌ์ด์˜ ์ˆ˜๋ฅผ ๊ตฐ์ง‘ ๊ฐœ์ˆ˜๋กœ ์ง€์ •ํ•˜์—ฌ ๊ตฐ์ง‘๋ถ„์„์„ ์‹œํ–‰ํ•œ๋‹ค.

image image

image

K-means๋ฅผ ์‚ฌ์šฉํ•œ ๋ถ„ํ• ์  ๊ตฐ์ง‘๋ถ„์„(Partitional Clustering)์ด ์ •๋‹นํ•œ ๊ตฐ์ง‘์œผ๋กœ ๋‚˜๋‰˜์—ˆ๋‹ค๋Š” ๊ทผ๊ฑฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„œ ๊ณ„์ธต์  ๊ตฐ์ง‘๋ถ„์„(Hierarchical Clustering)์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์‹œํ–‰ํ•˜์˜€๋‹ค. ์ด๋Š” ๋‹จ์ง€ ์ดˆ๊ธฐ ๊ตฐ์ง‘์„ ์žก์„ ๋•Œ ์‚ฌ์šฉํ•œ centroid๋“ค๊ณผ ๊ฒฐ๊ณผ๋กœ์จ ๋‚˜์˜จ ๊ตฐ์ง‘๋“ค์ด ํƒ€๋‹นํ•œ ๊ตฐ์ง‘์ธ์ง€๋ฅผ ํŒ๋ณ„ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๊ณ„์ธต์  ๊ตฐ์ง‘ ๋ถ„์„์€ ๋„ˆ๋ฌด ๋งŽ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€ํ‘œ์ ์œผ๋กœ 100๊ฐœ ์ •๋„๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ๋ฝ‘์•„์„œ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

3.1-3 K-means Cluster Analysis

์ง๊ด€์ ์œผ๋กœ ๊ตฐ์ง‘์ด ์กด์žฌํ•  ๋งŒํ•œ ๋ฐ์ดํ„ฐ๋ผ๋ฆฌ ๊ตฐ์ง‘๋ถ„์„์„ ์‹œํ–‰ํ•ด๋ณด์•˜๋‹ค.

image

๊ทธ๋ฆผ : ๋‚˜์ด, ์†Œ๋“๋ถ„์œ„์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ๋น„ํƒ€๋ฏผA์™€ ๋น„ํƒ€๋ฏผ C์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ๋ชธ๋ฌด๊ฒŒ์™€ ๋น„ํƒ€๋ฏผ์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ์นผ์Š˜๊ณผ ๋‚˜ํŠธ๋ฅจ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ์ฒ ๊ณผ ์ธ์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ๋‚˜์ด์™€ ์นผ์Š˜์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ์›” ํ‰๊ท  ์†Œ๋“๊ณผ ์‹ํ’ˆ์„ญ์ทจ๋Ÿ‰์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ๋‚˜์ด์™€ ์ฝœ๋ ˆ์Šคํ…Œํ…Œ๋กค์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

image

๊ทธ๋ฆผ : ์„คํƒ•๊ณผ ํƒ„์ˆ˜ํ™”๋ฌผ์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„

๋˜ํ•œ 3์ฐจ์› ํ˜•ํƒœ๋กœ๋„ ์‹œ๊ฐํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. 3๊ฐœ Attribute ์ด์ƒ, ์ฆ‰ 3์ฐจ์› ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ตฐ์ง‘์„ ๋ถ„์„ํ•  ๋•Œ 2์ฐจ์› ์ƒ์—์„œ๋Š” ์ง๊ด€์ ์œผ๋กœ ์ด๋ฅผ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ 3์ฐจ์› ์ด์ƒ์œผ๋กœ ์ƒˆ๋กœ์ด ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” K-means clustering์— ์žˆ์–ด kmeans() ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋‚ด์žฅ ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ clustering์„ ์ˆ˜ํ–‰ํ•˜์˜€๊ณ , clustered ๋œ ๋ฐ์ดํ„ฐ๋ฅผ scatterplot3d๋ผ๋Š” 3์ฐจ์› ์‹œ๊ฐํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์•„๋ž˜๋Š” ๋‚˜์ด(datas2$age), BMI(datas2$HE_BMI), ์›”๊ฐ„ ์†Œ๋“(datas2$earn_month)์˜ ์„ธ ๊ฐ€์ง€ attribute๋ฅผ ํ†ตํ•ด ๊ตฐ์ง‘์„ ์‹œ๊ฐํ™”ํ•œ ์˜ˆ์‹œ์ด๋‹ค.

image

๊ทธ๋ฆผ : ๋‚˜์ด, ์ฒด์งˆ๋Ÿ‰์ง€์ˆ˜, ์›”ํ‰๊ท ์†Œ๋“์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„ ์‹œ๊ฐํ™”(2์ฐจ์›) ์œ„์ฒ˜๋Ÿผ, ๋‹ค์–‘ํ•œ ๊ตฐ์ง‘์„ 2์ฐจ์› ํ‰๋ฉด ์ƒ์—์„œ ํ‘œํ˜„ํ•  ๊ฒฝ์šฐ ์ด๋ฅผ ์ œ๋Œ€๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†๊ณ , x,y,z์˜ ์„ธ ๊ฐœ ์ถ•์„ ๊ฐ๊ฐ ์›ํ•˜๋Š” Attribute๋กœ ์ง€์ •ํ•˜์—ฌ ๊ตฐ์ง‘์ด 3์ฐจ์› ์ƒ์—์„œ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑ๋˜๋Š” ์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

image

๊ทธ๋ฆผ : ๋‚˜์ด, ์ฒด์งˆ๋Ÿ‰์ง€์ˆ˜, ์›”ํ‰๊ท ์†Œ๋“์— ๋Œ€ํ•œ ๊ตฐ์ง‘๋ถ„์„(3์ฐจ์›)

3.2-4 Multiple runs

๊ฐ–๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋“ค ์ค‘ clusteringํ•˜๊ธฐ์— ์ ํ•ฉํ•œ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ „์ฒ˜๋ฆฌํ•˜๊ณ  ํ†ตํ•ฉํ•˜๋‹ˆ, ๋‚˜์ด, ์›” ์†Œ๋“, ๋ชธ๋ฌด๊ฒŒ, ํ‚ค, ์ „ ์ผ ์„ญ์ทจ ์˜์–‘์†Œ๋“ค(ํŠนํžˆ PCA๋ฅผ ํ†ตํ•ด ๋‚˜์˜จ PC1์š”์†Œ์ธ make energy series: [์—๋„ˆ์ง€, ๋‹จ๋ฐฑ์งˆ, ์ธ]์˜ ์š”์†Œ๋ฅผ ๋Œ€ํ‘œ๋กœ ์‚ฌ์šฉํ•˜์˜€๋‹ค.) ๋“ฑ์ด ์‚ฌ์šฉํ•˜๊ธฐ ์ข‹์€ ํ˜•ํƒœ๋กœ ๋‚˜์™€ ์žˆ์–ด์„œ, ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด k-means clustering์„ ๋‹ค์‹œ ์‹œํ–‰ํ•˜์˜€๋‹ค. ๋ถ„ํ• ์  ๊ตฐ์ง‘๋ถ„์„(partitioning clustering)์„ ์‹ค์‹œํ•œ ์ด์œ ๋Š” ๊ณ„์‚ฐ๋น„์šฉ ์ธก๋ฉด์—์„œ ์ดˆ๋ฐ˜์— ๋‹ค์–‘ํ•œ ์‹œ๋„๋ฅผ ํ•˜๊ธฐ ์œ„ํ•ด์„œ, ํŠนํžˆ ๊ฐ์ฒด ๋ณ„๋กœ exclusiveํ•˜๊ฒŒ ์–ด๋–ค ๊ตฐ์ง‘์— ์†ํ• ์ง€๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ํ• ๋‹นํ•˜๊ธฐ์œ„ํ•ด hard clustering์„ ํ•ด์ฃผ์—ˆ๋‹ค. Fuzzy๋‚˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ™œ์šฉํ•œ soft clustering์€ ๋น„์šฉ์ ์ธ ๋ฌธ์ œ๋กœ ์„ ํƒํ•˜์ง€ ์•Š์•˜๊ณ , ๋‹ค๋งŒ ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ ๊ตฐ์ง‘๋“ค์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, ๊ทธ๋ž˜ํ”„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹จ์ผ ์—ฐ๊ฒฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์‘์ง‘ํ˜• ๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”๋ฅผ ํ†ตํ•˜์—ฌ, ๊ทธ ํ•ฉ๋ฆฌ์„ฑ์„ ํŒ๋‹จํ•˜์˜€๋‹ค. (๊ณ„์ธต์  ๊ตฐ์ง‘ ๋ถ„์„์€ โ€˜averageโ€™ ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฑฐ๋ฆฌ๊ณ„์‚ฐ์„ ํ•˜์˜€๋‹ค.) ๋ฐ€๋„๋‚˜ ๋ถ„ํฌ ๊ธฐ๋ฐ˜์˜ ๊ตฐ์ง‘ํ™”๋Š” ๋ฐ์ดํ„ฐ ์…‹์˜ ํ˜•ํƒœ์— ์ตœ์ ํ™”๋œ ๊ธฐ๋ฒ•์ด ์•„๋‹ˆ๋ผ ํŒ๋‹จ๋˜์–ด ํ‰๊ท (Mean)์ด๋‚˜ ์ค‘์•™๊ฐ’(Median)์„ ๊ธฐ์ค€์œผ๋กœ ์žก์€ ์ตœ์†Œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค€์œผ๋กœ clustering์„ ํ•˜์˜€๋‹ค. ๊ฐ€์žฅ ํƒ€๋‹นํ•œ ๊ตฐ์ง‘์˜ ๊ฐœ์ˆ˜๋Š” โ€œfviz_nbclustโ€ ํ•จ์ˆ˜๋ฅผ ํ†ตํ•˜์—ฌ ์ •ํ•ด์ฃผ์—ˆ๋Š”๋ฐ, ์ด๋Š” Intra-cluster ๊ฑฐ๋ฆฌ๋Š” ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ, Inter-cluster ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ๋Œ€ํ™”ํ•ด์ฃผ๋Š” ๊ตฐ์ง‘์˜ ๊ฐœ์ˆ˜๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ํ•จ์ˆ˜์ด๋‹ค. ์ดํ›„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋„์ง€ ์•Š๋Š” ํŠน์ง•์„ ๋ฐ˜์˜ํ•˜์—ฌ โ€˜pearsonโ€™ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์‹œ ํ•œ๋ฒˆ ๊ตฐ์ง‘ํ™”๋ฅผ ์‹œ๋„ํ•˜์˜€๋‹ค. nstart = 25๋กœ ์„ค์ •ํ•˜์—ฌ ์˜ˆ์ธก๋ ฅ์„ ๋†’์ด๊ณ , ์ดˆ๊ธฐ centroid๊ฐ€ ๋žœ๋คํ•˜๊ฒŒ ์žกํžˆ๋‹ค ๋ณด๋‹ˆ ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ cluster๋“ค์ด ์ƒ๋‹นํžˆ ํ•ฉ๋ฆฌ์ ์ด์ง€ ์•Š์€ ๊ฒฐ๊ณผ๋“ค์ด ์ข…์ข… ๋„์ถœ๋˜๊ธฐ๋„ ํ•˜์˜€๋‹ค. ๋”ฐ๋ผ์„œ ์ ์ ˆํ•œ Centroid๋ฅผ ์ฐพ์•„ ์—…๋ฐ์ดํŠธํ•˜๊ณ , โ€˜์ข‹์€ ๊ตฐ์ง‘โ€™์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€์˜ ์‹œ๋„๋ฅผ ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ดˆ๊ธฐ Centroid๋ฅผ randomํ•˜๊ฒŒ ์žก์€ ํ›„, Euclidean distance๋ฅผ ์ด์šฉํ•ด Closeness๋ฅผ ๋น„๊ตํ•˜๋Š” Matrix๋ฅผ ์ƒˆ๋กœ ๊ตฌ์„ฑํ•œ ํ›„, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด Centroid๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ  ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ฒŒ๋” ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค. ์ดํ›„ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์‹œ๋„๋ฅผ ํ†ตํ•ด์„œ ์ดˆ๊ธฐ centroid๋ฅผ ๋ฐ”๊พธ๋ฉด์„œ ๊ตฐ์ง‘์„ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๊ฒฐ๊ณผ๋Š” ๋‹ค์–‘ํ•œ ๊ทธ๋ฃน๋“ค์„ ๊ฐ€์ ธ์˜ค๊ธด ํ•˜์ง€๋งŒ ๋‚˜์˜จ ๊ทธ๋ฃน์ด ์ •๋ง ๊ทผ๊ฑฐ๊ฐ€ ์žˆ๋Š” ๊ทธ๋ฃน์ธ์ง€๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์—†๊ณ , ๋‹ค๋งŒ ๋ถ„์„ ๋ชฉ์ ์— ํ•ฉ๋‹นํ•œ ๊ทธ๋ฃน์„ ๋ฝ‘๋Š”๋‹ค๋Š” ์ ์—์„œ ๊ทผ๊ฑฐ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ๊ธฐ๊ฐํ•˜์˜€๋‹ค. ๋ฌผ๋ก  ๊ฒฐ๊ณผ๋กœ ๋‚˜์˜จ ๊ตฐ์ง‘ ์ค‘์—๋Š” ์ •๋ง ํ•ฉ๋ฆฌ์ ์ธ ๊ตฐ์ง‘์ด ์žˆ์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ทธ๋ ‡๋‹ค๋ฉด ๋‹ค๋ฅธ ๊ณผ์ •์„ ํ†ตํ•ด์„œ๋„ ๋„์ถœ ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋‹จ์ง€ ๊ฒ€์ฆ์˜ ์šฉ๋„๋กœ๋งŒ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

์˜ˆ์‹œ : ๋จผ์ € initial centroid๋ฅผ ๊ธฐ์กด์˜ ๋ฐฉ์‹์œผ๋กœ ๋„์ถœํ•˜๊ธฐ ์œ„ํ•ด ํ•จ์ˆ˜ centroid(x)๋ฅผ ๊ตฌํ˜„ํ•˜์˜€๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ฒซ ๋ฒˆ์งธ centroid๋ฅผ ๋„์ถœํ•œ ๋ชจ์Šต์ด๋‹ค.

3.3 ์—ฐ๊ด€๋ถ„์„ ๊ฒฐ๊ณผ

<์•„๋ฌด๋Ÿฐ ์„ค์ •์„ ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ>

image

(์ง€์ง€๋„ = 0.2, ์‹ ๋ขฐ๋„ 0.8)๋กœ ์„ค์ •ํ•ด์„œ ๋ชจ๋ธ์„ ๋Œ๋ฆฐ ๊ฒฐ๊ณผ์ด๋‹ค. ์ƒ์œ„ ๋‹ค์„ฏ ๊ฐœ์˜ ๊ทœ์น™์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค. ๋‹จ, โ€˜์ ์‹ฌ์„ ๋จน๋Š”๋‹คโ€™, โ€˜์ €๋…์„ ๋จน๋Š”๋‹คโ€™ ์†์„ฑ์€ ์ œ์™ธ์‹œํ‚ค๊ณ  ๋Œ๋ฆฐ ๊ฒฐ๊ณผ์ด๋‹ค.

<์šฐ๋ณ€ ์ƒ์ˆ˜๋ฅผ โ€˜์˜์–‘์ œ ๋ณต์šฉโ€™์œผ๋กœ ์ ์šฉํ•œ ๊ฒฝ์šฐ>

image

(์ง€์ง€๋„ = 0.1, ์‹ ๋ขฐ๋„ = 0.7)๋กœ ์žก์•˜๋‹ค. ์šฐ๋ณ€์ƒ์ˆ˜๋ฅผ ๊ฒฐ์ •ํ–ˆ์„ ๋•Œ ์‹ ๋ขฐ๋„๊ฐ€ 0.7๋ณด๋‹ค ํฌ๋ฉด ๊ทœ์น™์ด ์ƒ์„ฑ๋˜์ง€ ์•Š์•˜๋‹ค. ์ƒ์„ฑ๋œ ๊ทœ์น™์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค. BM2_3์€ ์น˜๊ฐ„์นซ์†”์„ ์‚ฌ์šฉํ•˜๋Š” ์‚ฌ๋žŒ์ด๋‹ค. ์šฐ๋ณ€์ƒ์ˆ˜๋ฅผ ์„ค์ •ํ•œ ๊ฒฝ์šฐ ์‹ ๋ขฐ๋„๋ฅผ 0.7 ์ด์ƒ์œผ๋กœ ์žก์œผ๋ฉด ๊ทœ์น™์ด ์ƒ์„ฑ๋˜์ง€ ์•Š๋Š”๋‹ค.

4) ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด ๋ถ„์„ ๊ฒฐ๊ณผ

image

Model ์ƒ์„ฑ ๊ฒฐ๊ณผ, ์œ„์™€ ๊ฐ™์€ ๋ชจ๋ธ์ด ์ƒ์„ฑ๋˜์—ˆ๋‹ค. BM2_3 -> ์นซ์†” ์™ธ, ์น˜๊ฐ„์นซ์†”์˜ ์‚ฌ์šฉ ์—ฌ๋ถ€

Model์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ํ•ด๋‹น Model์˜ Accuaracy๋Š” 66.38%๋กœ ์ธก์ •๋˜์—ˆ๋‹ค.

(5) ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ ๋ถ„์„ ๊ฒฐ๊ณผ ์•ž์—์„œ ์ „์ฒ˜๋ฆฌํ•œ ๋ฐ์ดํ„ฐ๋Š” 96๊ฐœ์˜ Attribute์™€ 2965๊ฐœ์˜ Record๋ฅผ ๊ฐ€์กŒ๋‹ค. ๊ณ„์‚ฐ ์‹œ๊ฐ„์„ ์ค„์ด๊ณ  ๋ฐ์ดํ„ฐ์…‹ ๋งˆ๋‹ค ๋ชจ๋ธ ์ถœ๋ ฅ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ 4๊ฐœ๋กœ ๋‚˜๋ˆ„์—ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด R์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜์—ฌ ๊ฐ ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด train set๊ณผ test set์œผ๋กœ 7:3์œผ๋กœ ๋‚˜๋ˆ„์—ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ฐœ๋ณ„์ ์œผ๋กœ Train set์œผ๋กœ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ ๋ชจ๋ธ์„ ๋Œ๋ ค๋ณธ๋‹ค. ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” 1000, ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๋Š” 6๊ฐœ์ด๋‹ค. ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋Š” ๊ฐ๊ฐ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

image

๊ทธ๋ฆผ 1 : Data1์— ๋Œ€ํ•œ ๋ชจ๋ธํ•™์Šต๊ฒฐ๊ณผ

image

๊ทธ๋ฆผ 2 : Data2์— ๋Œ€ํ•œ ๋ชจ๋ธํ•™์Šต๊ฒฐ๊ณผ

image

๊ทธ๋ฆผ 3: Data3์— ๋Œ€ํ•œ ๋ชจ๋ธํ•™์Šต๊ฒฐ๊ณผ

image

๊ทธ๋ฆผ 4: Data4์— ๋Œ€ํ•œ ๋ชจ๋ธํ•™์Šต๊ฒฐ๊ณผ

image

๊ทธ๋ฆผ 5: ์ „์ฒด Data์— ๋Œ€ํ•œ ๋ชจ๋ธํ•™์Šต๊ฒฐ๊ณผ

About

Development of a Model for Predicting Dietary Supplementary Intake to Establish a New Sales Strategy

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages