๋ณด๊ฑด๋ณต์ง๋ถ์ '๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ' 2017,2018๋ ์กฐ์ฌ ์๋ฃ Data๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ํ๊ตญ์ธ์ ์์์ ์ญ์ทจ ์์ธก ๋ชจ๋ธ
contributed by ZuseongZIN
2019๋ 30๋ ์ ์ฝํ์ฌ ๋งค์ถ ๋๋ถ๋ถ์ด 5% ๋๊ฒ ์ฆ๊ฐํ์์ง๋ง ์ ํ์ํ ์ฌ์ ์์ ์ด์ต์ 8% ์ด์ ๊ฐ์ํ์๋ค. ๊พธ์คํ ๋งค์ถ์ ๊ธฐ์ฌํ๋ ๋น๋ฆฌ์ด๋ ๊ฐ์ผ ์น๋ฃ์ ์ ํนํ๊ฐ ๋ง๋ฃ๋๋ฉด์ ์ฝ๊ฐ์ด ์ธํ๋์๊ณ , ์ ํ์ํ ์ฌ์ ์๋ฃ์์ฝํ ๋งค์ถ์ด ๋ถ์งํ๊ฒ ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ ํ์ํ ์ฌ๋ ์ ์ ํ ๊ฐ๋ฐ์ ๋ํ ํ์์ฑ์ด ๋๋๋์๋ค. ์ฐ๊ตฌ ๋ฐ ๊ฐ๋ฐ(R&D) ๋น์ฉ์ 740์ต์์์ 969์ต์์ผ๋ก 30% ์ฆ๊ฐ์ํด์ผ๋ก์จ ์์ ์ด์ต์ด 75%๋ ์ค๊ฒ ๋์๋ค. (์์ ๋น์ฉ= ํ๋งค๊ด๋ฆฌ๋น์ฉ + ๊ฐ๊ฐ์๊ฐ๋น์ฉ + ์ฐ๊ตฌ๊ฐ๋ฐ๋น์ฉ) ์ด๋ฌํ ์์ ์ด์ต์ ๊ฐ์ ๋งํ๋ฅผ ์ํด, ๊ธฐ์กด ์ ํ์ ๊ณ ๊ฐ์ธต ํ๋ ๋ฐ ์ ์ ํ์ ํ๋งค๋ฅผ ์ํด ํจ๊ณผ์ ์ธ ์ ๋ต์ ์๋ฆฝํ ์ ์๋ ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ด ํ์ํ๊ฒ ๋์๋ค. ์ด ๋, ๋ชจ๋ธ๊ณผ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ ์ด๋ค ์กฐ๊ฑด ๋๋ฌธ์, ๋๋ ์ด๋ค ๊ณ ๊ฐ๊ตฐ์ ๋์์ผ๋ก ์ ํ์ ํ๋งคํด์ผ ๋๋์ง์ ๋ํ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํด์ผ ํ๋ค. ํ๋ณดํ ๋ฐ์ดํฐ๋ ๊ตญ๋ฏผ์์์กฐ์ฌ์ ๊ธฐ๋ฐํ ๊ฒ์ด๋ฏ๋ก ๋ฐ์ดํฐ์ ์ ํฉํ ์์ด๋ณด์ถฉ์ ์ ํ๊ตฐ์ target์ผ๋ก ์ผ๊ณ Data mining์ ์ํํ ๊ฒ์ด๋ค.
์์ ๋ณด์๋ฏ ํ์ฌ ์ ํ์ํ ์ฌ์ ๋ฌธ์ ๋ ์๋ฃ์์ฝํ ๋งค์ถ ๋ถ์ง์ผ๋ก ์ธํ ์์ ์ด์ต ๊ฐ์์ด๋ค. ์์ ์ด์ต์ ๊ฐ์ ๋งํ๋ฅผ ์ํด, ์์ ๋ณด์๋ ๋ฌธ์ ๋ก๋ถํฐ ๋์ถ๋ Data Science Problem์ ๊ธฐ์ ์ ์ ์ฅ์์ ๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ ๋ฐ์ดํฐ ์ค ์ด๋ค attribute๋ฅผ ์ ์ ํด ํ๋งค์ ๋ต์ ์ํด ํ์ฉํด์ผ ํ๋ ์ง ์ ์ ์๋ค๋ ์ ์ด๋ค.
์ ๋ฌธ๊ฐ์์คํ ์ ์ธ๊ณต์ง๋ฅ์ ํ ๋ถ์ผ๋ก์ ํน์ ๋ถ์ผ์์ ์ ๋ฌธ๊ฐ์ ์ถ์ ๋ ์ง์๊ณผ ๊ฒฝํ์ ์์คํ ํํ์ฌ, ํ์ํ ๋ ์ฌ์ฉํ๋๋ก ํ๋ ์ํํธ์จ์ด์ด๋ค. ์ด๋ 1960๋ ๋ ํํฉ๋ฌผ์ ๊ตฌ์กฐ๋ฅผ ์ถ์ ํ๊ธฐ ์ํ DENDRAL ์์คํ ์ด ์์ด๊ฐ ๋์ด, ์ดํ ์๋ฃ์ง๋จ์์คํ ์ธ MYCIN, ๊ธฐ๊ณ๊ณ ์ฅ ์ง๋จ, ์ํด๋ฐฐ์ ํ์ ๋ฑ ์ฐ์ ๊ณ์ ์ ๋ถ์ผ์์ ๊ด๋ฒ์ํ๊ฒ ์์ฉ๋์๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ์์ ๊ธฐ์ ํ๊ฒฝ์ ๊ธ์ํ ๋ณํ์ ์ ์ฉํ๋ ๋ฐ์ ๋ง์ ๋น์ฉ์ด ๋ค์๊ณ , ์์คํ ์ ํตํด ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ์์ญ์ด ์ ์ฐจ ํ๋๋๊ณ ๋ณต์กํด์ง์ ๋ฐ๋ผ ํด๋น ๋ถ์ผ์ ํต๋ฌํ ์ ๋ฌธ๊ฐ๋ฅผ ์ฐพ๊ธฐ๊ฐ ์ด๋ ค์์ง๋ฉด์ ์ง์ ํ๋์ ์ฅ๊ธฐ๊ฐ์ ๊ฑธ์ณ ๋ง์ ๋น์ฉ์ ํฌ์ํด์ผ ํ๋ ๋ฑ, ์ฌ๋ฌ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์๋ค.
์ผ๋ฐ ์ง์(query)๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๋ฐ ๋์์ด ๋๋ ๋๊ตฌ์ด๋ค. ์ฟผ๋ฆฌ ์์ฑ, ์ฟผ๋ฆฌ ํธ์ง, ๊ฒ์, ์ฐพ๊ธฐ, ๋ณด๊ณ ๋ฐ ์์ฝ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ค. ์ฟผ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ๋ณด๋ฅผ ์์ฒญํ์ฌ ์ฌ์ค๋ก์์ ์ง๋ฌธ์ ๋ํ ์ฌ์ค๋ก์์ ๋ต๋ณ์ ์ ๊ณต๋ฐ๋๋ค. ํํธ ์ด๋ฌํ ์ฟผ๋ฆฌ๋ ์ค์ ๋ก ์ฌ์ฉํ๋ ค๋ฉด ์ฌ์ฉ์๊ฐ ์ํ๊ณ ์ ํ๋ ์ ๋ณด๊ฐ ๋ฌด์์ธ์ง๋ฅผ ์ ํํ๊ฒ ์์์ผ ํ๋ฉฐ, ์๋ก์ด ๋ชฉ์ ์ ์ฐพ์์ผ ํ๊ณ , ๋ฌด์์ ์ฐพ์์ผ ํ ์ง ๋ชจํธํ ์ํ์ผ ๋์๋ ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค๋ ๋จ์ ์ด ์๋ค.
์ฌํ๊ณผํ์ ์ฐ๊ตฌ๋ ๋ถ์๊ฐ์ ์ธ์ฌ์ดํธ๊ฐ ๊ต์ฅํ ์ค์ํ๋ค. ํนํ ๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ์ ๊ฒฝ์ฐ ์ฌ์ฉํ๋ ์์ฑ๋ค์ด ๊ต์ฅํ ๋ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์ผ๋ฉด ๋ถ์๊ฐ์ ์ฃผ๊ด์ผ๋ก ์ค์ํ ๊ฒ ๊ฐ์ ์์ฑ๋ค์ ์ถ๋ ค ๋ด์ผ ํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ง์ฝ ๋ถ์๊ฐ๊ฐ ์ถ๋ ค๋ด์ง ์์ ์์ฑ๋ค ์ค์์ ์ค์ํ ๋ณ์๊ฐ ์์ ์๋ ์๊ธฐ ๋๋ฌธ์ ํ๋น์ฑ์ด ๋จ์ด์ง๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ์ Data set์ ๊ทธ record ์๊ฐ ์ถฉ๋ถํ๋ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๊ณ ๋ถํ์ํ attribute๊ฐ ์กด์ฌํ๋ค. ์ด์ ๋ฐ๋ผ ์ธก์ ๋ ๋ณ์๋ค์ ์ ํ ์กฐํฉ(Linear Combination)์ ์ํด ๋ํ์ ์ธ ์ฃผ์ฑ๋ถ์ ๋ง๋ค์ด ์ฐจ์์ ์ค์ด๋ PCA ๊ธฐ๋ฒ, ํ๋ ํ ์๋ฆฌ ๊ธฐ๋ฐ ๊ฒฐ์ธก์น ์ ๊ฑฐ ๊ทธ๋ฆฌ๊ณ ํด๋ฆฌ์คํฑ์ ๊ธฐ๋ฐํด ์์ฑ์ ์ ๊ฑฐํ๋ ๋ฑ์ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ ํตํด Dimension Reduction์ ์งํํ์๋ค. ๋ํ ๊ทธ๋ฃนํ, ์ ๊ทํ, ์ด์์น ํ์ง ๋ฐ ํ๋ณํ์ ํตํด Feature Engineering์ ์ํํ์๋ค.
์ด๋ ๊ฒ ์ ์ฒ๋ฆฌ ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์์ฌ ๊ฒฐ์ ๋๋ฌด(Decision Tree)์ ๋๋ค ํฌ๋ ์คํธ(Random Forest) ๊ธฐ๋ฒ์ ํตํด ๋ชจ๋ธ๋ง์ ์ํํ์์ผ๋ฉฐ, ์ดํ Confusion Matrix๋ฅผ ํตํด ํด๋น ๋ชจ๋ธ์ Accuracy๋ฅผ ํ๊ฐํ์๋ค.
์ค์ธ๊ณ์ ๋ชจ๋ธ๋ง์์ ๊ฐ์ฅ ์ ํฉํ ์ ๋ ฅ๋ง์ ์ ํํ๋ ๊ฒ์ ์์คํ ์ฑ๋ฅ์ ๋ง์ ์ํฅ์ ๋ฏธ์น๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ ๋ ฅ๋ณ์์ ํจ๊ณผ์ ์ธ ์ ํ์ ์์คํ ์ฐจ์์ ๊ฐ์๋ ํน์ง์ถ์ถ ๋ฑ ๋ค์ํ ์ฉ๋๋ก ์ด์ฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ง์ ์ ๋ ฅ๋ณ์๋ค ์ค์์ ๋ชจ๋ธ์ ์ผ๋ง๋ ๋ง์ ๋๋ ์ด๋ ์ ๋ ฅ๋ค์ด ํ์ํ์ง ์ ์ ์์ผ๋ฉฐ, ์ด๋ ์ ๋ ฅ์ฐจ์์ด ์ฆ๊ฐํ ์๋ก ๋์ฑ ๋ ์ฌ๊ฐํ๋ค. ๋ถํ์ํ ์ ๋ ฅ๋ค์ ํ์ต์ ๋ณต์กํ๊ฒ ํ๊ณ ๊ณผํ์ต ๋ฑ์ ๋ฐ๋ฅธ ํ์ต์ฑ๋ฅ์ ์ ํ๋ ๊ฐ์ ธ์ฌ ์ ์๋ค. ์ ๋ ฅ๋ณ์์ ์๋ชป๋ ์ ํ์ ์ฌ๋ฌ ๊ฐ์ง ๋ฌธ์ ๋ค์ด ๋ฐ์๋ ์ ์๋ค. ๋จผ์ , ์ ๋ ฅ์ฐจ์์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ๊ณ์ฐ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ์ ์ฆ๊ฐ, ๋ค์์ผ๋ก ์๊ตฌ๋์ง ์๋ ์ ๋ ฅ๋ค์ ์ํ ํ์ต์ ์ด๋ ค์, ์ถ๊ฐ์ ์ธ ์๊ตฌ๋์ง ์๋ ์ ๋ ฅ์ ์ํ ๋น์๋ ด๊ณผ ๋ชจ๋ธ์ ์ ํ์ฑ์ ์ ํ, ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ ๋ชจ๋ธ์ ๋ฐ๋ฅธ ํด์์ ์ด๋ ค์ ๋ฑ์ ์ ์ฝ์ด ์๋ค.
2.1.1 Data Quality
๊ธฐ๋ณธ์ ์ผ๋ก ๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ(์ดํ ๊ตญ๊ฑด์)์์ ์์์๋ฃ๋ฅผ ๊ธฐ๋ณธ Dataset์ผ๋ก ํ๋ค. Data object์ ์์ ์ด๋ ์ ๋ ์ถฉ๋ถํ๋ค. 2018๋ ์๋ฃ๋ 7992๊ฐ์ Object์ 736๊ฐ์ attribute๋ฅผ ๊ฐ์ง๊ณ ์๊ณ 2017๋ Dataset์ 8127๊ฐ์ Object์ 834๊ฐ์ attribue๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๋ชจ๋ธ ๋์์ธ์ ์์ด์ ๋ ์ข์ Dataset์ ์ฐพ๊ธฐ ์ํด 2018๋ ๋จ๋ Dataset๊ณผ 2018๋ ๊ณผ 2017๋ Dataset์ ํฉ์ณ์ ์๋ก์ด Dataset๋ฅผ ๋ง๋ค์๋ค. 2018๋ ๊ณผ 2017๋ Dataset์ attribute๊ฐ ์ฐจ์ด๊ฐ ์์๋ค. 2018๋ ์ ๊ธฐ์ค์ผ๋ก ํ๊ณ 2017๋ ์๋ง ์กฐ์ฌํ Attribute์ ๊ฒฝ์ฐ ๋ชจ๋ ์ ๊ฑฐํ๋ค. ์ต๋ํ 2018๋ Dataset๊ณผ ๋น์ทํ๊ฒ ํ๋ฉด์ Object์ ์์ ๋๋ฆฌ๊ธฐ ์ํด์์ด๋ค. 2017๋ ์ LF_safe๋ณ์๊ฐ ์๋ฌธ์๋ก ์ ์ฅ๋ผ์ 2018๋ ์ LF_SAFE์ ํฉ์ณ์ง์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. CSV ํ์ผ๋ก Dataset์ ์ถ์ถํ์ฌ ์์ ๋ด์์ ์ด๋ฅผ ๊ฒฐํฉํด์คฌ๋ค. ๊ตญ๊ฑด์ ์๋ฃ๋ ์ค๋ฌธ์กฐ์ฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ค.
์ฐ์ ๋นํด๋น, ๋ชจ๋ฆ, ๋ฌด์๋ต์ ๊ฒฝ์ฐ ๊ฒฐ์ธก์น์ ๋ค๋ฆ์ด ์๋ค๊ณ ํ๋จํ์ฌ ์ด๋ฅผ ๋ชจ๋ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ๋ฅผ ํด์คฌ๋ค. Data์ ์์ด ์ถฉ๋ถํ๋ค๊ณ ํ๋จํด์ ๊ฒฐ์ธก์น๋ฅผ ๋ชจ๋ ์ ๊ฑฐํ๋ ๊ฒ์ ์ต์ฐ์ ์ผ๋ก ์๊ฐํ๋ค.
์ฃผ๊ด์ ์ผ๋ก Attribute๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ ์ํํ๋ค. ํนํ ๊ฑด๊ฐ ๊ด๋ จ ์กฐ์ฌ์ ๊ฒฝ์ฐ ์ํ์ ์ธ ์ค๋ฌธ์ด ๋ง๊ธฐ ๋๋ฌธ์ ์์ฑ์ ์ ๊ฑฐํ๋ ๊ฒ์ ์ง์ํ๋ค. ์์ฑ ์ค ๊ฐ์ค์น์ ๋ํ ์์ฑ์ ๋ชจ๋ ์ ๊ฑฐํ๋ค. ๊ฐ์ค์น๋ ๊ฐ์ ๊ธฐ์ ์กฐ์ฌํ ์๋ฃ์ ์ ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์๋ก ๋ค๋ฅธ ์กฐ์ฌ ๊ธฐ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ ๋ ์ฌ์ฉํ๋ ๋ณ์์ด๋ค. ์ด ํ๋ก์ ํธ์์๋ ์ 7๊ธฐ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ณ์๋ฅผ ์ญ์ ํด์ค๋ ์ง์ฅ์ด ์๋ค. ์ฒญ์๋ ์ ๊ฒฝ์ฐ ๊ฒฝ์ ์ ๋ฅ๋ ฅ์ด ์์ด ๊ตฌ๋งค๋์์ผ๋ก ์ ํฉํ์ง ์๋ค๊ณ ํ๋จํ์ฌ age๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ง 18์ธ ๋ฏธ๋ง์ Object๋ฅผ ์ ๊ฑฐํด์คฌ๋ค. ์ด์ ๊ด๋ จํ์ฌ ์์, ์ฒญ์๋ ๊ด๋ จ๋ ์ง๋ฌธ ํญ๋ชฉ๋ค์ ์ ๊ฑฐํ๋ค. ๋ํ ์ฃผ๊ด์ ์ค๋ฌธ ๋ฌธํญ์ ๊ฒฝ์ฐ Decision Tree๋ฅผ ์ฌ์ฉํ๊ธฐ์ ์ ํฉํ์ง ์๊ธฐ ๋๋ฌธ์ ์ ๊ฑฐํ๋ค.
๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํ๋ ์ต์ ์ ํด๋ฒ์ ์ํฉ๊ณผ ๋ถ์ ๋ชฉ์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ธฐ์, ์ด๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ ์ง ๊ฒฐ์ ํ๋ ๊ฒ์ ์ฝ์ง ์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๊ฒฐ์ธก์น๋ก ์ธํ ์ ๋ณด์ ์์ค์ด ๋ถ์ ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ํฅ์ ๊ณ ๋ คํ๋ค๋ฉด ๊ฒฐ์ธก์น๋ฅผ ์ ์ ํ๊ฒ ์ฒ๋ฆฌํ๋ ๊ฒ์ ์ค์ํ๋ค. ์ด์ ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์๋ ๊ฒฐ์ธก์น๋ฅผ โํ๋ ํ ์๋ฆฌโ์ ๊ธฐ๋ฐํ์ฌ ์ ๊ฑฐํ๊ณ ์ ํ์๋ค. ํ๋ ํ ์๋ฆฌ(๋๋ ํฌ์ ์ธ์์ ์๋ฆฌ)๋ ์ ์ฒด ๊ฒฐ๊ณผ์ 80%๋ ์ ์ฒด ์์ธ์ 20%์์ ๋น๋กฏ๋๋ค๋ ๊ฒ์ด๋ค. ๋ฐ์ดํฐ์ ๋ฌด์ง์๋(Entropy) ๋ํ 20%์ ์ฃผ์ ๋ณ์๋ค๋ก๋ถํฐ ๊ธฐ์ธํ ๊ฒ์ด๋ค. ํ๋ ํ ์๋ฆฌ๋ฅผ ์ ์ฉํ ๊ฒฐ์ธก์น์ ์ ๊ฑฐ ๋ฐฉ์์ ์๋์ ๊ฐ๋ค.
[1] ํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ ์์ฑ ์ ๊ฑฐ๊ฐ ์๋ฃ๋ ๋ฐ์ดํฐ ์ ์์, ํ๊ณผ ์ด ๊ฐ์์ ๊ฐ๊ฐ 20%๋ฅผ ๋ฐ์ดํฐ ์ ์ ์๊ณ ๊ฐ์๋ก ์ค์ ํ๋ค. [2] ์ด์ ๊ธฐ์ค์ผ๋ก NA๊ฐ์ด ๋ง์ 20%๋ฅผ ๋จผ์ ์ ๊ฑฐํ์ฌ, 80%์ ์ ํจ ์ด์ ๋จ๊ธด๋ค. [3] ๋ค์ ํ์ ๊ธฐ์ค์ผ๋ก NA๊ฐ์ด ๋ง์ 20%๋ฅผ ์ ๊ฑฐํ์ฌ 80%์ ์ ํจ ํ์ ๋จ๊ธด๋ค. ์ด ๋ sort()๋ฅผ ํตํด NA ๊ฐ์ด ๋ง์ ์์๋๋ก ์ ๋ ฌํ๊ณ , ๋ฐ๋ณต๋ฌธ while()์ ํตํด ๋ชจ๋ ํ์ ๋ํด ํด๋น ๊ณผ์ ์ ์ํํ๊ฒ ํ๋ค. [4] ํ์ด๋ ์ด์ ๊ฐ์๊ฐ ์๊ณ ๊ฐ์๋ณด๋ค ์์์ง๊ธฐ ์ง์ ๊น์ง [2]์ [3] ๊ณผ์ ์ ๋ฐ๋ณตํ๋ค. [5] ํ๋ณด๋ค๋ ์ด์ด ๋ ๊ฐ์น ์๋ค๋ ํ๋จ ์๋, ๋จ์์๋ NA๊ฐ์ ํ ์ ๊ฑฐ๋ฅผ ํตํด ์ฒ๋ฆฌํ๋ค. 2.1. 2-3 PCA
PCA ๋ถ์๋ฐฉ๋ฒ์ ์ธก์ ๋ ๋ณ์๋ค์ ์ ํ ์กฐํฉ(Linear Combination)์ ์ํด ๋ํ์ ์ธ ์ฃผ์ฑ๋ถ์ ๋ง๋ค์ด ์ฐจ์์ ์ค์ด๋ ๋ฐฉ๋ฒ์ด๋ค. ํ์ฌ ๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ ์ค ์ํ์ญ์ทจ์กฐ์ฌ ์๋ฃ์ธ โ๊ฐ์ธ๋ณ 24์๊ฐ ํ์์๋ฃ๋ฅผ ํตํ ์์์ ์ญ์ทจ๋์๋ ์ํ์ญ์ทจ๋, ์๋์ง, ์๋ถ ๋ฑ์ ํฌํจํ์ฌ ์ด 27๊ฐ์ง์ ์์์์ ๊ดํ ์ฐ์ํ ๋ณ์๋ค์ด ์๋ค. ์ด 27๊ฐ์ง์ ๋ณ์๋ค์ PCA๋ถ์์ ํตํด ์ฃผ์ ๋ณ์๋ค์ ๋ฝ์์ฃผ์๋ค. ์ด 27๊ฐ์ง์ PC์์๋ค ์ค PC4๋ฒ ๋ณ์๊น์ง ํฌํจ์์ผฐ๋๋ ๋์ ๋ถ์ฐ์ด 0.7์ ๋์ด ์ ํจํ PC๊ทธ๋ฃน๊ตฐ์ 4๊ฐ๊น์ง๋ก ์ง์ ํ์๋ค. ๋ฐ๋ผ์ 27๊ฐ์ ๋ณ์๋ฅผ ์ ๊ฑฐํ๊ณ ์๋ก์ด 4๊ฐ์ PC์์๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด ๋ณ์๋ค์ด ๊ฐ๊ณ ์๋ ์ต์ ์ ์ฑ์ง์ ์ ์งํ ์ฑ ์ฐจ์์ ์ค์ฌ์ฃผ์๋ค. ์ด๋ ๊ฒ ๋ฝํ 4๊ฐ์ง์ PC์์๋ฅผ ์ดํด๋ณด๋ ๊ฐ์ฅ ์ํฅ๋ ฅ์ด ํฐ PC1๋ณ์์ ํฐ ์ํฅ์ ๋ผ์น๋ ๊ธฐ์กด ๋ณ์๋ค์ ์ธ, ์๋์ง, ์นด๋กํด์ผ๋ก ์ธ์ฒด์ ์ด๋ ๋ฐ ํ๋ ฅ์ ์ํฅ์ ๋ฏธ์น๋ ์์๋ค๋ก ๋์ด ์์๋ค. ๋ฐ๋ผ์, PC1 ๋ณ์๋ โenergyโ๋ก ์ฌ์ ์ ํ์๋ค. ๋๋ฒ์งธ PC2๋ณ์๋ ๋ถํฌํ์ง๋ฐฉ, ์ง๋ฐฉ, ํฌํ์ง๋ฐฉ์ด ์ํฅ๋ ฅ์ ๋น์ค์ด ๊ฐ์ฅ ํฌ๊ธฐ ๋๋ฌธ์ โfat-seriesโ๋ก ์ฌ์ ์ํ์๋ค. ์ธ๋ฒ์งธ PC3๋ณ์๋ ๋นํ๋ฏผA, ๋ ํฐ๋, ์นด๋กํด์ด ์ํฅ์ ๋ง์ด ๋ผ์ณค๋ค. ๋ ํฐ๋๊ณผ ์นด๋กํด์ ๋นํ๋ฏผ A์ ํ ์ข ๋ฅ์ด๋ฏ๋ก ๋ณ์๋ฅผ โVitamin_Aโ๋ก ์ฌ์ ์ํ์๋ค. ๋ง์ง๋ง PC4๋ณ์๋ 3๊ณ์ง๋ฐฉ์ฐ, ๋ค๊ฐ๋ถํฌํ์ง๋ฐฉ์ฐ, 6๊ณ์ง๋ฐฉ์ฐ์ด ํฐ ์ํฅ์ ๋ผ์ณ์ โfatty-seriesโ๋ก ์ฌ์ ์ํ์๋ค. ์ด์ฒ๋ผ 27๊ฐ์ ์ฐ์ํ ๋ณ์๋ค์ PCA๋ถ์์ ํตํด ๊ธฐ์กด ๋ถ์ฐ์ ๊ฐ์ฅ ์ ๋ฐ์ํ๋ ์ถ์ผ๋ก ์ฌ์ํ์ฌ ์ฃผ์๋ณ์ 4๊ฐ๋ฅผ ๋ฝ์์ฃผ์ด ์ฐจ์์ ์ถ์์์ผ์ฃผ์๋ค.
์ด๋ค Feature๊ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ ์ ์์์ง ์ง๊ด์ ๋ฐ๋ผ ์ ํํ๊ณ Target Attribue์์ ์ฐ๊ด์ฑ์ ์์๋ณด๊ธฐ ์ํด ์๊ฐํ ํด๋ณด์๋ค.
๊ทธ๋ฆผ 1 : ๊ฐ์กฑํฌ๊ธฐ์ ์์์ ๋ณต์ฉ์ฌ๋ถ ๊ทธ๋ฆผ 2 : ์ฑ๋ณ๊ณผ ์์์ ๋ณต์ฉ์ฌ๋ถ
๊ทธ๋ฆผ 3 : ๊ฒฐํผ์ฌ๋ถ์ ์์์ ๋ณต์ฉ์ฌ๋ถ ๊ทธ๋ฆผ 4 : ๊ธฐ์ด์ํ์๊ธ๊ณผ ์์์ ๋ณต์ฉ์ฌ๋ถ
๊ทธ๋ฆผ 5: ์น๊ฐ์นซ์๊ณผ ์์์ ๋ณต์ฉ์ฌ๋ถ ๊ทธ๋ฆผ 6: ์๋๋ถ์์ ์์์ ๋ณต์ฉ์ฌ๋ถ
์ด๋ ๊ฒ Target Attribute์ ์ง๊ด์ ์ผ๋ก ๊ด๋ จ์ด ์์ด ๋ณด์ด๋ Attribute๋ค์ ์ฌ์ฏ ๊ฐ์ ๊ทธ๋ฆผ์ Modeling ๊ณผ์ ์์ ์ค์ ๋ก ์ฐ๊ด์ด ์๋์ง ๊ฒ์ฆ๋ ๊ฒ์ด๋ค.
๊ณ ๊ฐ๊ตฐ ๋์์ด ๋ ์ ์๋ 20์ธ ๋ฏธ๋ง์ ๋ฏธ์ฑ๋ ์ ์ ์ธํ๋ค ํ๋๋ผ๋ 20์ธ ์ด์๋ถํฐ ๋ถํฐ ๊ฐ์ฅ ๋์ด๊ฐ ๋ง์ 80์ด์ ์ฌ๋๊น์ง ์ฐ์ํ์ ๋ณ์๋ ๋๋ฆ ๊ทธ ํ์ฉ์ฑ์ด ๋๋ค๊ณ ์๊ฐํ์ฌ ๋์ด์ ํน์ฑ์ ์ข ๋ ํ์ฉํ๊ธฐ ์ํด ๊ทธ๋ฃน์ ์ง์ด์ฃผ์๋ค. 20์ธ๋ถํฐ 30์ธ๊น์ง์ 226๋ช ์ ์ฌ๋๋ค์ โyoungโ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด์ฃผ์๊ณ , ๊ทธ ์๋ก๋ถํฐ 65์ธ ์๋๊น์ง์ ์ด 2218์ฌ๋๋ค์ middle๋ก, ๊ทธ ์์ 521๋ช ์ ์ฌ๋๋ค์ โoldโ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด์ฃผ์๋ค. ๋ฐ๋ผ์ ์ฐ์ํ์ ๋์ด ๋ณ์์ ๋๋ถ์ด ๋ช ๋ชฉํ์ age_group๋ณ์๋ฅผ ์ถ๊ฐํ์ฌ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ณด๊ฐํ๋ค.
๋์ด์ ๊ทธ๋ฃนํ์ ๋๋ถ์ด, ์ง์ญ ๋ํ 17๊ฐ์ ๋ณ์๋ค๋ก ๋๋์ด์ ธ ์๋ค. ๋ฐ๋ผ์ ๊ทธ ํน์ฑ์ ์ข ๋ ์ธ๋ถํํ๊ณ ์ง์ญ์ ํน์ฑ์ ๋ฐ์ดํฐ ๋ด์์ ์ข ๋ ํ์ฉํ๊ธฐ ์ํด, 17๊ฐ์ ์ง์ญ ์ค ๊ฒฝ๊ธฐ/์์ธ/์ธ์ฒ/์ถฉ๋ถ/์ถฉ๋จ/์ธ์ข /๋์ ์ง์ญ์ ํฉ์ณ์ ์์ง๋ฐฉ์ ์๋ฏธํ๋ 1๋ก, ๊ทธ ์๋์ ๊ฐ์/์ ๋ถ/์ ๋จ/๊ด์ฃผ/์ ์ฃผ/๊ฒฝ๋ถ/๊ฒฝ๋จ/๋๊ตฌ/๋ถ์ฐ/์ธ์ฐ ์ง์ญ์ ์๋ซ์ง๋ฐฉ์ ์๋ฏธํ๋ 0์ผ๋ก ํฉ์ณ์ฃผ์๋ค. ์ด ์ด์ฐํ๋ ๋ช ๋ชฉํ ๋ณ์๋ค์ ํฐ ํ๋ก ๋ฌถ์ด์ฃผ์ด ๋ฐ์ดํฐ์ ๋ํ ํน์ ํ๋ฅผ ๋ณด์ฅํ๋ฉฐ softํ ์คํ๋ฆฟ์ ๊ฐ๋ฅํ๊ฒ ํด์ค๋ค.
๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ ์์ ์๋ฃ์์ ์ ํธ๋ฆฌ๋ทฐํธ ํ์ ์ด ๋ฑ๊ฐ ์์ฑ์ด๋ ๋น์จ ์์ฑ์ธ ๊ฒฝ์ฐ ๋ณํ๋์ ํต์ผ์ ์ํด ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํ๋ฅผ ํด์ค ํ์๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด ๋์ด์ ์๋ ๊ฐ์ ๊ฒฝ์ฐ ๋๊ฐ์ด 10์ด ์ฆ๊ฐํ๋ค๊ณ ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง์ง ์๋๋ค. ๋ ๊ฐ์ ๋ฐ์ดํฐ ๊ฐ์ฒด๊ฐ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ๋ ๋ฐ์ดํฐ ๊ฐ์ฒด์ ๋์ด์ฐจ๊ฐ 20์ด์ด ๋๊ณ ์๋ ์ฐจ์ด๊ฐ 2์ฒ๋ง์์ด ๋๋๋ฐ ๋ถ์์ ํ ๋ ์ด ๋ณํ๋์ ์ ๋์ ์ธ ํฌ๊ธฐ๋ก ํด์ํ๋ฉด ์ค๋ฅ๋ฅผ ๋ฒํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๊ทธ ์ด์ ๋ ๋ ๋ฐ์ดํฐ ํ์ ์ด ๊ฐ์ง ์ ์๋ ๊ฐ์ ๋ฒ์๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ธ๋ฐ, ๊ฐ์ ๋ฒ์๋ฅผ ํต์ผ์์ผ ์ฃผ๋ ๊ฒ ๋ฐ๋ก ์ ๊ทํ๋ผ๊ณ ํ ์ ์๋ค. ์ ๊ทํ์ ์ข ๋ฅ๋ MinMax Normalization, Robust Normalization, Standardization ๋ฑ ๊ต์ฅํ ๋ง์ง๋ง ์ฐ๋ฆฌ๋ ๊ทธ ์ค์์ ์์ ์๊ฐ์์ ๋ค๋ฃฌ MinMax Normalization์ ์ฑํํ๋ค. MinMax Normalization์ ์์ ์ ๊ฐ๊ณผ ์ต์๊ฐ์ ์ฐจ๋ฅผ ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ ์ฐจ๋ก ๋๋ ์ค ๊ฐ์ ์๋ฏธํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ ๊ทํ๋ฅผ ๊ฑฐ์น ๋ฐ์ดํฐ์ ํํด์ ๋ฒ์๊ฐ 0~1๋ก ๊ณ ์ ๋๊ธฐ ๋๋ฌธ์ ์์ฑ์ด ๋ค๋ฅธ ๋ฐ์ดํฐ๋ผ๋ฆฌ ๋ณํ๋์ด ๊ฐ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค.
๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํด์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋น๊ตํ์ ๋ ๋ง์ด ๋ฒ์ด๋ ์๋ ๋ฐ์ดํฐ, outlier๋ฅผ ์ฐพ์์ ์ ๊ฑฐํด๋ด์ผ ํ๋ค. ์์์ ์ ์ฒ๋ฆฌํ ๋ฐ์ดํฐ๋ฅผ ๋ณด์์ ๋ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ด๋ค. ์ ์ฒ๋ฆฌ๋ฅผ ํตํด ๋ฒ์ฃผํ ๋ฐ์ดํฐ์์ NULL ๊ฐ์ด๋ ๋ชจ๋ฆ, ๋ฌด์๋ต์ ์ ์ฒ๋ฆฌ ํ์ผ๋ฏ๋ก ์ฐ์ํ ๋ฐ์ดํฐ์ ์ด์์น๊ฐ ์์ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. ๋ฐ๋ผ์ ๋ํ์ ์ธ ์ฐ์ํ ์ดํธ๋ฆฌ๋ทฐํธ์ธ 1) ์ํ๊ท ๊ฐ๊ตฌ ์ด์๋, 2) ์ฒด์ง๋ ์ง์ ์ด์์น๋ฅผ ์ ๊ฑฐํ๋ค.
- ์ํ๊ท ๊ฐ๊ตฌ ์ด์๋: ๋จผ์ ์ํ๊ท ๊ฐ๊ตฌ ์ด์๋์ ๋ํ ์ด์์น๋ฅผ ํ์ํ๊ณ ์๊ฐํํด์ผ ํ๋ค. ๊ทธ๋ฌ๋ ์ ์ด์ ์์ ๋ฐ์ดํฐ์์ ์๋์ด ์ ํ๊ท 1500๋ง์ ์ด์์ธ ์ฌ๋๋ค์ 1500๋ง์์ผ๋ก ๋ฐ๊ฟ์ค์ผ๋ก์จ ์ด๋ฏธ ์ด์์น ์ฒ๋ฆฌ๊ฐ ๋์ด์์๋ค.
- ์ฒด์ง๋์ง์: ๋ฐ์ดํฐ ํ๋ณธ์ ํฌํจ๋ ์ฌ๋ ์ค์์ ์ ๋ง๋ก ํค๊ฐ ๊ทน๋จ์ ์ผ๋ก ํฌ๊ฑฐ๋ ์๊ณ ๋ชธ๋ฌด๊ฒ๊ฐ ๊ทน๋จ์ ์ผ๋ก ํฌ๊ฑฐ๋ ์์ ์ฌ๋๋ค์ด ์์ ๊ฒ์ด๋ค. ์ฒด์ง๋์ง์์์ ์ด์์น๋ฅผ ์ฐพ์๋ด์ ์ด๋ฐ ์ฌ๋๋ค์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ํ๊บผ๋ฒ์ ์ ๊ฑฐํ ์ ์์ ๊ฒ์ด๋ค. ๋ฉ์๋๋ boxplot์ ์ด์ฉํ๋ค.
์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์์์ ํฌ๊ธฐ๋ ์ 3์ฌ๋ถ์์์์ ์ 1์ฌ๋ถ์์๋ฅผ ๋ํ๋ด๊ฒ ๋๋ค. ์ด ๊ธธ์ด๋ฅผ L์ด๋ผ๊ณ ํ์. ์์ ์์๋์ ์ ๋ถ์ ์ต์๊ฐ, ์ต๋๊ฐ์ ํ์ํ๋ฉฐ 1.5L์ ๋์ด๊ฐ๋ ๋ถ๋ถ์ ์ด์์น๋ก ํ์ํ๊ฒ ๋๋ค. ์ด์์น๊ฐ ์ ์๋๋ก ์กด์ฌํ๋ฏ๋ก ์ญ์ ํด์ผ ํ๋ค.
์ด์์น์ ๋๋ต์ ์ธ ์์ ์์๋ด๊ธฐ ์ํด์ 3D scatter๋ฅผ ํตํด 3์ฐจ์์ผ๋ก ์๊ฐํ๋ฅผ ํด๋ณด๋ฉด ์ฒด์ง๋ ์ง์๊ฐ ๋๋ต 0(15)์ ๊ฐ๊น์ด ์ฌ๋๊ณผ ์ฒด์ง๋ ์ง์๊ฐ 1.0(41)์ ๊ฐ๊น์ด ์ฌ๋์ด ์กด์ฌํ๋ค. ์๋ก 41 * 0.8 = 32.8 ์ด์์ ์ฒด์ง๋ ์ง์๋ฅผ ๊ฐ์ง ์ฌ๋๋ค์ ์ ๊ฑฐํด์ค๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์๋๋ก๋ ์ฒด์ง๋ ์ง์๊ฐ 15์ ๊ฐ๊น์ด ์์ผ๋ก 10๊ฐ ์ ๋๋ฅผ ์ ๊ฑฐํด์ค๋ค.
์ค๋ฌธ ๋ด์ฉ์ ๋ฐ์ดํฐ ์์ง๊ฐ๊ฐ ์คํ๋ ๋์ํธ์ ์ ๋ ฅํ ๋ ๋ฐ์ดํฐ ํ์ ์ ์บ๋ฆญํฐํ ๋๋ ์ซ์ํ ๋ฐ์ ์๋ค. ํ์ง๋ง ์ค๋ฌธ ๋ฌธํญ์ ๋๋ถ๋ถ์ด ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ด๋ค. ์์ ๋ฐ์ดํฐ์์ ํ์ธํด๋ดค์ ๋ ๋ฌธ์๋ก ์ ๋ ฅ๋ ๊ฒ๋ค๋ง ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ๋ถ๋ฅ๋์๊ณ ๋๋จธ์ง๋ ์ซ์ํ ๋ฐ์ดํฐ์๋ค. ์ฐ๋ฆฌ๊ฐ ์ฐ๋ ๋ชจ๋ธ์ ๋ถ๋ฅ๋๋ฌด ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ๋ณํํด์ค์ผ ํ ๊ฒ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ๋ณํํด์ค์ผ ํ๋ค. ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ๋ณํํ์ง ์์์ ๊ฒฝ์ฐ์ ์์ฌ๊ฒฐ์ ๋๋ฌด์์ ๋ถ๋ฅ๋ฅผ ํ ๋ split condition์ด ์ด๋ค ์ซ์ ์ด์/์ดํ๋ก ์ค์ ๋๋ค. ์๋ฅผ ๋ค์ด Factor level์ด 3(1, 2, 3)์ธ ๊ฒฝ์ฐ split condition ๊ธฐ์ค์ด 2.78์ด ๋ ์ ์๋ค. ์ด๋ ๊ฒ ํด๋ ๋ชจ๋ธ์ ์ ๋์๊ฐ์ง๋ง ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ์๋์๋ค๊ณ ๋ณด๊ธฐ๋ ์ด๋ ต๋ค. ์์ ๋ฐ์ดํฐ์์ ๋๋ถ๋ถ์ ํ๋ณํ์ int->factor์๊ณ ํ๋ณํ์ ํ ์ง ๋ง์ง๋ ์ฐ๋ฆฌ์ ์ฃผ๊ด์ ๋ฐ๋๋ค.
์์ผ๋ก ๊ธฐ์ ํ๋ ๊ธฐ๋ฒ๋ค์ ์ ์ฉํ ํ is.na() ํจ์๋ฅผ ์ด์ฉํ์ฌ ๊ฒฐ์ธก์น๊ฐ 500๊ฐ ๋ฏธ๋ง์ด ๋ ๋๊น์ง ๋ฐ๋ณตํ๋ค. ๋ ์ด์ ์ด์ ์ง์ฐ์ง ์๊ณ NA์ด ํ๋๋ผ๋ ์๋ ํ์ ์ญ์ ํด Dataset์ ์์ฑํ๋ค.
๋ชจ๋ธ๋ง์ ๋ค์ด๊ฐ๊ธฐ ์์ ๋ฐ์ดํฐ ์์ฒด, ์ฆ ๊ณ ๊ฐ๋ค์ด ๊ฐ๊ณ ์๋ ์์ฐ์ค๋ฌ์ด ํน์ง๋ค(๊ตฐ์ง, ์ฐ๊ด์ฑ ๋ฑ)์ ์์๋ณด๊ธฐ ์ํด 2๊ฐ์ง ๋น์ง๋ ํ์ต์ ๋ฐ์ดํฐ ํ์์ ์๋ํ์๋ค. ์ฒซ ๋ฒ์งธ๋ก๋ ๊ตฐ์ง ๋ถ์์ ์๋ํ์๋ค. ๊ตฐ์ง๋ถ์์ ํ๋ ์ด์ ๋ ๋ฐ์ดํฐ๋ง์ด๋ ๊ฐ์์ ๋ด์ฉ์ ์์ฝํด๋ณด๋ฉด ๋์ผํ ์ฑ๊ฒฉ์ ๊ฐ์ง ์ฌ๋ฌ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค. ๋์ ๊ฐ์ฒด๋ฅผ ์ ์ฌํ๊ฑฐ๋ ์๋ก ๊ด๋ จ ์๋ ํญ๋ชฉ๋ผ๋ฆฌ ๋ฌถ์ด์ ๋ช ๊ฐ์ ์ง๋จ์ผ๋ก ๊ทธ๋ฃนํํ๊ฑฐ๋, ๊ฐ ์ง๋จ์ ์ฑ๊ฒฉ์ ํ์ ํด์ ์ ์ฒด์ ๊ตฌ์กฐ์ ๋ํ ์ดํด๋ฅผ ๋๋๋ค. ๊ตฐ์ง๋ถ์์ ์ข ์๋ณ์์ ๋ํ ๋ ๋ฆฝ๋ณ์์ ์ํฅ์ ๋ถ์ํ๋ค. ์ฌ์ ์ ์ ์๋ ํน์ํ ๋ชฉ์ ์ ์๋ค. ๋ฐ์ดํฐ ์์ฒด์ ์์กดํด์ ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ์๋ฃ๋ฅผ ํ์ํ๊ณ ์์ฝํ๋ ๊ธฐ๋ฒ์ด๋ค.
1) ๊ตญ๋ฏผ๊ฑด๊ฐ์์์กฐ์ฌ ๋ฐ์ดํฐ์ ๊ฐ์ด ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ์๋ ์ ์ฒด์ ๋ํ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ป์ด๋ผ ์ ์๋ค.
์ ์ฒด๋ฅผ ์ ์ฌํ ์ฑ์ง์ ์ง๋๋ ๊ตฐ์ง์ผ๋ก ๊ตฌ๋ถํ๋ค๋ฉด ๊ตฐ์ง์ ๋ํ ํน์ฑ์ ๋ถ์ํ๊ณ ์ด๋ฅผ ํตํด ์ ์ฒด ๋ฐ์ดํฐ์ ๋ํ ์ง๊ด์ ์ป๊ณ ํ์ฉํ ์ ์์ ๊ฒ์ด๋ค. ์ด๋ฅผ ํตํ์ฌ ๊ณ ๊ฐ๋ค์ ์์ฐ์ค๋ฝ๊ฒ ๊ตฐ์งํ ํ๊ณ , ๋ชจ๋ธ๋ง๊ณผ ํ๊ฐ๊ฐ ๋๋๊ณ ์ค์ ๋ฐฐ์น ๋จ๊ณ์์, ํด๋น ๊ตฐ์ง์ด ๊ฐ๊ณ ์๋ ํน์ฑ๋ค์ ํ์ฉํ์ฌ ๋ ๋ค์ํ ๊ณ ๊ฐํ ์ ๋ต ๋ฐ ๋ง์ผํ ์ด ๊ฐ๋ฅํด์ง๋ค.
2) ์ฐ๋ฆฌ๊ฐ ์๋ํ ๊ตฐ์ง๋ถ์์ ์์ ์๊ฐ์ ๋ฐฐ์ด Hierarchical Clustering, K-means clustring์ด๋ค.
๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ๋ณํฉ์ ๋ฐฉ๋ฒ๊ณผ ๋ถํ ์ ๋ฐฉ๋ฒ์ ๋ฐํ์ผ๋ก ๊ตฐ์ง์ ํ์ฑ์ํจ๋ค. ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ๋ณํฉ์ ๋ฐฉ๋ฒ๊ณผ ๋ถํ ์ ๋ฐฉ๋ฒ์ ๋ฐํ์ผ๋ก ๊ตฐ์ง์ ํ์ฑ์ํจ๋ค. ํ ๊ด์ฐฐ๋จ์๋ ํ ๊ตฐ์ง์ ์ํ๋ฉด ๋ค๋ฅธ ๊ตฐ์ง์๋ ๋ค์ ์ํ ์ ์๋ค. ๊ตฐ์ง์ ๋ด๋๋ก๊ทธ๋จ(Dendrogram)์ด๋ผ๋ ๋ํ๋ฅผ ์ด์ฉํด ๊ตฐ์ง๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๋ค.
3) k-means ํด๋ฌ์คํฐ๋ง์ ์ฌ์ ์ ๊ฒฐ์ ๋ ๊ตฐ์ง ์ K์ ๊ธฐ์ดํ์ฌ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋น์ทํ k๊ฐ์ ๊ตฐ์ง์ผ๋ก ๊ตฌ๋ถํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ํธ๋ฐฐํ์ ์ธ k๊ฐ์ ๊ตฐ์ง์ ํ์ฑํจ์ผ๋ก์จ ๊ตฐ์ง๋ค์ ํ์ฑํ๋ค.
K-means Clustering ๋ฐฉ๋ฒ์ ์์ด, ์ต์ ์ Centroid๋ฅผ ์ฐพ๊ธฐ ์ํด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์๋ค. ์ฆ, ์ด๊ธฐ Centroid๋ฅผ randomํ๊ฒ ์ก์ ํ, Euclidean distance๋ฅผ ์ด์ฉํด Closeness๋ฅผ ๋น๊ตํ๋ Matrix๋ฅผ ์๋ก ๊ตฌ์ฑํ ํ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด Centroid๋ฅผ ๊ตฌ์ฑํ๊ณ ์ด ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๊ฒ๋ ํจ์๋ฅผ ๋ง๋ค์๋ค. ์๋ก์ด ํจ์๋ฅผ ์ ์, ์ ์ธํ์ฌ ์ฌ์ฉ๋ ์ ์๊ฒ ํ์๊ณ ์ดํ kmeans() ๋ฑ์ ์ธ๋ถ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํด์๋ ๋์ผ ๊ณผ์ ์ ์ํํ ์ ์์๋ค.
๊ฐ์ฅ ์ฐ์ ์ ์ผ๋ก k์ ๊ฐ์๋ฅผ ์ ํ๋ ๊ฒ์ด ํ์ํ๋ค. ์๊ด๊ด๊ณ๋ถ์์ ํตํด ๋ฐ์ดํฐ์ ์ด์์น๋ฅผ ์ดํด๋ณด๊ณ ์ ๊ฑฐํ๋ค. ๋ฐ์ดํฐ์ ๋ฒ์๊ฐ ๋ง์ง ์์ ์ ๊ทํ๋ฅผ ์์ผ์ผ ํ๋ค. ๋ฐ์ดํฐ์์ ๋ชฉ์ ์ ๊ฐ์ฅ ๋ถํฉํ๋ Atrribute๋ฅผ ์ ์ ํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ฉ๊ฐ๋ฅํ ์ด ์์ฑ์ ๋์ด, ์ฑ๋ณ, ์ํ๊ท ์๋, ๊ฒฐํผ์ฌ๋ถ, ์ ์ฅ, ์ฒด์ค, ์ฒด์ง๋์ง์, ์ํ์ญ์ทจ๋, ์๋์ง, ์๋ถ, ๋จ๋ฐฑ์ง, ์ง๋ฐฉ, ํฌํ์ง๋ฐฉ์ฐ, ๋จ์ผ๋ถํฌํ์ง๋ฐฉ์ฐ, ๋ค๊ฐ๋ถํฌํ์ง๋ฐฉ์ฐ, n-3๊ณ ์ง๋ฐฉ์ฐ, n-6๊ณ ์ง๋ฐฉ์ฐ, ์ฝ๋ ์คํ ๋กค, ํ์ํ๋ฌผ, ์์ด์ฌ์ , ๋น, ์นผ์, ์ธ, ์ฒ , ๋ํธ๋ฅจ, ์นผ๋ฅจ, ๋นํ๋ฏผA, ์นด๋กํด, ๋ ํฐ๋, ๋ฆฌ๋ณดํ๋ผ๋น, ๋์ด์์ , ๋นํ๋ฏผC๋ก 32๊ฐ๊ฐ ์๋ค. ์ฌ๊ธฐ์ ์ํฅ์ด ์ค๋ณต๋๋ ๋ณ์๋ ์ ๊ฑฐํ๊ณ ํ์ํ๋ค๋ฉด ์ฃผ์ฑ๋ถ์ถ์ถ์ ์ํํ๋ค.
๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ์ฐ๊ด์ฑ ๋ถ์์ด๋ค. ์ฐ๊ด์ฑ ๋ถ์์ ์ํด ๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ์ ๋ค์ binarization ๋ฐ discretization์ ์ฌ์ฉํ์ฌ, ์ด์ฐ์ ์ธ transaction data set์ผ๋ก ๋ณํํ์ฌ ์ฐ๊ด์ฑ ๋ถ์์ ์ํํ์๋ค. ์ด ๋ํ ๋ชจ๋ธ๋ง์ด ๋๋ ํ ์ ํ ํ๋งค ์ ๋ต์์ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ ์ ์๋๋ฐ, ์์๋ก ๋ฐ์ดํฐ์ ์์ ์นซ์์ ์ฌ์ฉํ๊ณ , ์์นจ์์ฌ๋ฅผ ํ๋ ๊ณ ๊ฐ๋ค์ ์์ํ ํํธ์ด ์ข๋ค๋ ์ฐ๊ด์ฑ์ ๋์ถํ ์ ์์๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ์ฐ๊ด์ฑ์ ํตํ์ฌ ๋์ฑ ๋ค์ํ ๋ง์ผํ ์ ๋ต์ ํผ์น ์ ์๊ณ , ๋์ฑ์ด ๋ฐ์ดํฐ๋ค์ ์์ฑ์ ๋์ฑ ์์ธํ ์กฐ์ฌํจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ๋ํ ์ดํด๋ฅผ ๋์ฑ ๋์ผ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ๋ฐ๋ผ์ ๋ถ๋ฅ ๋ถ์์ด๋ ์ฐ๊ด์ฑ ๋ถ์ ๊ฐ์ ํ์์ ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ์ ๋น์ฅ ์ง์ ์ ์ผ๋ก ๋ชจ๋ธ๋ง์ ์ฑ๊ณผ๋ฅผ ๋์ด๊ฑฐ๋, ๋ฐ์ดํฐ์ ์ ์ ํ๋๋ฅผ ํฅ์์ํค๋ ํจ๊ณผ๋ฅผ ๋ถ๋ฌ์ฌ ์๋ ์์ง๋ง, ๋ฐ์ดํฐ๋ฅผ ํ์ํจ์ผ๋ก์จ business problem์ ์์ด ๋ณด์ถฉ์ ์ ํ๋งค์ ๋ต์ ๋ค์ํํ ์ ์๋ค.
๊ท์น(rule)์ด๋ โif A(์กฐ๊ฑด) then B(๊ฒฐ๊ณผ)โ์ ํ์์ผ๋ก ํํ๋๋ค. ์ฐ๊ด๊ท์น์ ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ์์ ๋ ํจ๊ป ๋ฐ์ํ๋ ๋ ๋ค๋ฅธ ์ฌ๊ฑด์ ๊ท์น์ ๋งํ๋ค. ์ฐ๊ด๋ถ์์ ์ด๋ฌํ ์ฐ๊ด ๊ท์น์ ์ฐพ์๋ด๋ ๋ถ์ ๊ธฐ๋ฒ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ถ์ฒ ์ํ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ง๋ค๊ณ ์ ํ ๋ ๋ง์ด ์ฐ์ธ๋ค. ์ฐ๋ฆฌ์ ๋ชฉํ๋ ์์์ ๋ฅผ ๋จน๋ ์ฌ๋์ด ์ด๋ค ์ฌ๋๋ค์ธ์ง๋ฅผ ์ฐพ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ โif A then Bโ์์ A ๋๋ B๊ฐ ์์์ ๋ฅผ ๋จน๋ ์ฌ๋์ด๋ผ๋ฉด ์ด์ ์ฐ๊ฒฐ๋ ๋ณ์๊ฐ ์์์ ๋ฅผ ๋จน๋ ์ฌ๋๋ค๊ณผ ์ด๋์ ๋ ์ฐ๊ด์ด ์๋ค๊ณ ์๊ฐํ ์ ์๋ค. ํ์ง๋ง ์ฐ๊ด๋ถ์์ ๋น์ง๋ ํ์ต์ด๊ธฐ ๋๋ฌธ์ ํ๊ฒ ๋ณ์๋ฅผ ๋ฐ๋ก ์ค์ ํ ์๋ ์๋ค. ๋ฐ๋ผ์ ์ฐ๊ด๋ถ์์ ์ค์ํ๋ ์ด์ ๋ ํ๊ฒ ๋ณ์์ ์ฐ๊ด์ฑ์ด ์๋ ๋ณ์๋ฅผ ์ฐพ๋ ๊ฒ์ด ์๋๋ผ ์จ์ ํ ๋ณ์๋ค๋ผ๋ฆฌ์ ์ฐ๊ด์ฑ์ ํ์ ํ๊ธฐ ์ํจ์ด๋ค. ์ด๋ฅผ ํตํด ์ฐ๊ด์ฑ์ด ๋์ ๋ณ์๋ค๋ผ๋ฆฌ ํ๋์ ๋ณ์๋ก ํฉ์น๋ feature engineering์ ์ถ๊ฐ์ ์ผ๋ก ์ค์ํ ์ ์๋ค. ์ฐ๊ด๋ถ์์ ์งํํ๊ธฐ ์ํด ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ฑฐ๋ ๋ฐ์ดํฐ ํ์์ผ๋ก ๋ณํ์์ผ์ค์ผ ํ๋ค. ์ฐ๋ฆฌ๋ ํ๋ ํ ๋ฒ์น์ ๋ฐ๋ผ ์ ์ฒ๋ฆฌ๊ฐ ์๋ฃ๋ ๋ฐ์ดํฐ๋ฅผ ๋จผ์ ์ด์งํ ์์ผ์คฌ๋ค. ์ฐ์ํ ๋ณ์ ๋๋ factor level์ด ๋ง์ ๋ณ์๋ค์ ์ฐ๋ฆฌ์ ์ฃผ๊ด์ ํ๋จ์ ๋ฐ๋ผ ๊ณผ๊ฐํ๊ฒ 0๊ณผ 1๋ก ๋๋์๋ค. ๊ฑฐ๋ ์์ด๋์ ์์ดํ ํญ๋ชฉ์ ์์ฑ์ผ๋ก ๊ฐ์ง๋ ๋น ๋ฐ์ดํฐํ๋ ์์ ๋ง๋ค๊ณ ์ด์งํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฑฐ๋ ํ ์ด๋ธ์ ๋ฃ์ด์ฃผ์๋ค. ๋ค์ ๋งํด ์ด์งํ๋ ๋ฐ์ดํฐ์ ํ ๋ฒํธ๋ ๊ฑฐ๋ ๋ฐ์ดํฐ์ ๊ฑฐ๋ ์์ด๋์ ๋์๋๊ณ , ์ด์งํ๋ ๋ฐ์ดํฐ์ ๊ฐ ํ์์ 1๋ก ํ์๋ ๋ฐ์ดํฐ๋ ๋ชจ๋ ๊ฑฐ๋ ๋ฐ์ดํฐ์ ์์ดํ ํญ๋ชฉ์ ๋ด๊ธด๋ค. ์ฐ๊ด๊ท์น์ ์์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก Apriori ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ค. ์ง์ง๋์ ์ ๋ขฐ๋์ ๋ฐ๋ผ ๊ท์น์ด ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ ๋ง์ ์๋๋ฅผ ํ๋ค. ์ ๋ขฐ๋๋ ์ต์ 0.7 ์ด์์ผ๋ก ์ค์ ํ์ผ๋ฉฐ ์ง์ง๋๋ ๋ํดํธ๊ฐ์ธ 0.1๋ณด๋ค ํฌ๊ฒ ์ค์ ํ์๋ค. ์ฐ๊ด ๊ท์น์ ์์ฑํ ๋ ํน์ ์์ฑ์ ์ ์ธ์ํฌ ์ ์์ด์ ๋ถ์ ๊ฒฐ๊ณผ์์ ๋น์ฐํ ๊ท์น๋ค์ ์ ์ธ์์ผฐ๋ค. ์๋ฅผ ๋ค์ด ๋ถ์์ ์งํํ๋ฉด์ โ์ ์ฌ์ ๋จน๋๋ค -> ์์์ ๋ฅผ ๋จน๋๋คโ์ ๊ฐ์ ๊ท์น์ด ๋์์๋๋ฐ ์ ์ฌ์ ๋จน์ง ์๋ ์ฌ๋์ ๋ง์ด ์์ ๊ฒ์ผ๋ก ์์๋๊ธฐ ๋๋ฌธ์ โ์ ์ฌ์ ๋จน๋๋คโ๋ ์ ์ธ์์ผฐ๋ค.
์์ฌ ๊ฒฐ์ ๋๋ฌด(Decision tree)๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ด๋ค ์ฌ์ด์ ์กด์ฌํ๋ ํจํด์ ์์ธก ๊ฐ๋ฅํ ๊ท์น๋ค์ ์กฐํฉ์ผ๋ก ๋ํ๋ด๋ฉฐ, ๊ทธ ๋ชจ์์ด ๋๋ฌด์ ๊ฐ์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ผ ๋ถ๋ฆฐ๋ค. ๋ฐ์ดํฐ ๋ง์ด๋ ๊ณผ์ ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ์ ๋ ฅ ๋ณ์๋ฅผ ๋ฐํ์ผ๋ก ๋ชฉํ ๋ณ์์ ๊ฐ์ ์์ธกํ๋ ๊ฒ์ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๊ตฌ์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์๋ ์ฃผ๋ก ํํฅ์ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋๋ฉฐ, ๊ฐ ์งํ ๋จ๊ณ์์๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ ์งํฉ์ ๊ฐ์ฅ ์ ํฉํ ๊ธฐ์ค์ผ๋ก ๋ถํ ํ๋ ๋ณ์๊ฐ์ด ์ ํ๋๋ค. ์๋ก ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ถํ ์ ์ ํฉ๋๋ฅผ ์ธก์ ํ๋ ๊ธฐ์ค์ด ์์ผ๋ฉฐ, ์ด ๊ณผ์ ์์ ์ง๋ ๋ถ์๋, information gain, classification error ๋ฑ์ด ์ฌ์ฉ๋๋ค. ์ฐ๋ฆฌ๋ rpart, caret ๋ฑ์ library๋ฅผ ํตํด Decision tree๋ฅผ ๊ตฌ์ฑํ์์ผ๋ฉฐ, Confusion matrix๋ฅผ ํตํด DT์ accuracy๋ฅผ ํ๊ฐํ์๋ค.
Random Forest๋ Decision Tree ๊ธฐ๋ฐ์ ์์ธก ๋ชจ๋ธ์ด๋ค. ๋ฌด์์์ ์์ฌ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์ฌ๋ฌ ๊ฐ ๋ง๋ค์ด์ ์ด๋ก๋ถํฐ ๋์จ ์์ธก ๊ฒฐ๊ณผ๋ค์ ํ๊ท ๋๋ ๋ค์์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ๋ ์์๋ธ ๊ธฐ๋ฒ์ ์ด์ฉํ๋ค. ๋ง์ ๊ฐ์์ ํธ๋ฆฌ๋ ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ชจ๋ธ์ ๋ณด์ฅํ์ง๋ง ๊ณ์ฐ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ์ ์๋ค. ๋ฐ๋ผ์ ์ ์ ํ ๊ฐ์์ ํธ๋ฆฌ๋ฅผ ๋ง๋ค๊ณ ์ฌ์ฉํ ๋ณ์์ ๊ฐ์๋ฅผ ์ ํด์ผ ํ๋ค. ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ง๋๊ณ์, information gain, ์์ธก์ค์ฐจ ๋ฑ์ ํตํด์ ํธ๋ฆฌ๊ฐ ๋ง๋ค์ด์ง๋ค. ํ์ง๋ง ๋๋คํฌ๋ ์คํธ์ ๊ฒฐ๊ณผ๋ฌผ์ ์์์ ์ค๋ช ํ๋ฏ์ด ๋ค์์ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๊ฒฐ๊ณผ๋ฌผ๋ค์ ์์๋ธ ๊ธฐ๋ฒ์ ์ด์ฉํด ํ๊ท ์ ๊ณ์ฐํ๋ค. ์ด ๋๋ฌธ์ ํธ๋ฆฌ์ ๋ํ ์ง์ ์ ์ธ ์๊ฐํ๊ฐ ๋ถ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ๋๋คํฌ๋ ์คํธ ๋ชจ๋ธ์ ํตํด์ ๋จ์ง ์ ํ๋์ confusion matrix๋ฅผ ๊ณ์ฐํด๋ณด๊ณ ์ ์ ๋ง๋ Decision Tree๋ณด๋ค ์ข์ ๋ชจ๋ธ์ด ์กด์ฌํ๋์ง ํ์ธ์ ํ๋ ์ฉ๋๋ก ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒ์ด๋ค.
์ ์ฒ๋ฆฌ๋ ์์์ ๊ธฐ์ ํ Method๋ฅผ ๊ทธ๋๋ก ์ ์ฉํ๋ค. raw๋ฐ์ดํฐ๋ ๋ถ์ ๋์์์ ์ ์ธ๋๋ ํ, ์ฆ 18์ธ ๋ฏธ๋ง ์ฒญ์๋ ํ๊ณผ ํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ ์์ฑ ์ ๊ฑฐ๋ฅผ ํ ๊ฒฐ๊ณผ์ด๋ค. Processed1๋ถํฐ processed5๊น์ง๋ ํ๋ ํ ๋ฒ์น์ ๊ธฐ๋ฐํ Nan๊ฐ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋ํ ๊ฒฐ๊ณผ์ด๊ณ , ๋ง์ง๋ง processed6์ Feature engineering์ ์ ์ฉํ ๊ฒฐ๊ณผ์ด๋ค.
์ ์ฒ๋ฆฌ๋ฆฌ๋ฅผ ๋ง๋ฌด๋ฆฌ ํ๋ ๋ฐ์ดํฐ์์๋ ์ฐ์ํ Attribute๊ฐ ๋ง์ง ์์๋ค. ๊ทธ๋์ ์ถ๊ฐ์ ์ธ ๊ตฐ์ง๋ถ์์ ์ํํ๊ธฐ ์ํด์ CRISP-DM์ ๊ณผ์ ์ ๋ฐ๋ผ ๋ค์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ก ๋์๊ฐ๊ณ ์ฐ์ํ Attribute๋ฅผ ์ฐพ์๋ณด์๋ค. ์ฐ์ํ Attribute ๊ฐ์ ์๊ด์ด ๋์ Atrribute๋ฅผ ๋ถ์ํ๊ณ ์ ๊ฑฐํ์๋ค.
์์1 : N_FAT(์ง๋ฐฉ)๊ณผ N_MUFA(๋จ์ผ๋ถํฌํ์ง๋ฐฉ์ฐ)์ ์๊ด๊ด๊ณ๊ฐ ๋์ผ๋ฏ๋ก N_FATํ๋๋ง ๊ตฐ์ง๋ถ์์ ์ฌ์ฉํ๋ค.
์์2: HE_wt (๋ชธ๋ฌด๊ฒ)์ HE_BMI (์ฒด์ง๋์ง์)๋ ์๊ด๊ด๊ณ๊ฐ ๋์ผ๋ฏ๋ก HE_BMI ํ๋๋ง ๊ตฐ์ง๋ถ์์ ์ฌ์ฉํ๋ค.
Nbclust ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ๋ฐ์ดํฐ ์์์ ์ต์ ์ ๊ตฐ์ง ์๋ฅผ ํ์ ํ ์ ์๋ค. ๋ถ์ ๊ฒฐ๊ณผ, 4์์ 6๊น์ง์ ๊ตฐ์ง ์๊ฐ ์ต์ ๊ตฐ์ง์๋ก ํ์ ๋์๋ค. ๋ฐ๋ผ์ 4์์ 6์ฌ์ด์ ์๋ฅผ ๊ตฐ์ง ๊ฐ์๋ก ์ง์ ํ์ฌ ๊ตฐ์ง๋ถ์์ ์ํํ๋ค.
K-means๋ฅผ ์ฌ์ฉํ ๋ถํ ์ ๊ตฐ์ง๋ถ์(Partitional Clustering)์ด ์ ๋นํ ๊ตฐ์ง์ผ๋ก ๋๋์๋ค๋ ๊ทผ๊ฑฐ๋ฅผ ์ป๊ธฐ ์ํด์ ๊ณ์ธต์ ๊ตฐ์ง๋ถ์(Hierarchical Clustering)์ ์ถ๊ฐ์ ์ผ๋ก ์ํํ์๋ค. ์ด๋ ๋จ์ง ์ด๊ธฐ ๊ตฐ์ง์ ์ก์ ๋ ์ฌ์ฉํ centroid๋ค๊ณผ ๊ฒฐ๊ณผ๋ก์จ ๋์จ ๊ตฐ์ง๋ค์ด ํ๋นํ ๊ตฐ์ง์ธ์ง๋ฅผ ํ๋ณํ๊ธฐ ์ํด ์ฌ์ฉํ์๋ค. ๊ณ์ธต์ ๊ตฐ์ง ๋ถ์์ ๋๋ฌด ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋ํ์ ์ผ๋ก 100๊ฐ ์ ๋๋ฅผ ๋๋คํ๊ฒ ๋ฝ์์ ์ฌ์ฉํ์๋ค.
์ง๊ด์ ์ผ๋ก ๊ตฐ์ง์ด ์กด์ฌํ ๋งํ ๋ฐ์ดํฐ๋ผ๋ฆฌ ๊ตฐ์ง๋ถ์์ ์ํํด๋ณด์๋ค.
๊ทธ๋ฆผ : ๋์ด, ์๋๋ถ์์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ๋นํ๋ฏผA์ ๋นํ๋ฏผ C์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ๋ชธ๋ฌด๊ฒ์ ๋นํ๋ฏผ์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ์นผ์๊ณผ ๋ํธ๋ฅจ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ์ฒ ๊ณผ ์ธ์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ๋์ด์ ์นผ์์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ์ ํ๊ท ์๋๊ณผ ์ํ์ญ์ทจ๋์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ๋์ด์ ์ฝ๋ ์คํ ํ ๋กค์ ๋ํ ๊ตฐ์ง๋ถ์
๊ทธ๋ฆผ : ์คํ๊ณผ ํ์ํ๋ฌผ์ ๋ํ ๊ตฐ์ง๋ถ์
๋ํ 3์ฐจ์ ํํ๋ก๋ ์๊ฐํ๋ฅผ ์ํํ์๋ค. 3๊ฐ Attribute ์ด์, ์ฆ 3์ฐจ์ ์ด์์ ๋ฐ์ดํฐ์ ๋ํด ๊ตฐ์ง์ ๋ถ์ํ ๋ 2์ฐจ์ ์์์๋ ์ง๊ด์ ์ผ๋ก ์ด๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ 3์ฐจ์ ์ด์์ผ๋ก ์๋ก์ด ์๊ฐํํ ์ ์๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค. ์ฐ๋ฆฌ๋ K-means clustering์ ์์ด kmeans() ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ด์ฅ ํจ์๋ฅผ ์ด์ฉํ์ฌ clustering์ ์ํํ์๊ณ , clustered ๋ ๋ฐ์ดํฐ๋ฅผ scatterplot3d๋ผ๋ 3์ฐจ์ ์๊ฐํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ์๊ฐํํ ์ ์์๋ค. ์๋๋ ๋์ด(datas2$age), BMI(datas2$HE_BMI), ์๊ฐ ์๋(datas2$earn_month)์ ์ธ ๊ฐ์ง attribute๋ฅผ ํตํด ๊ตฐ์ง์ ์๊ฐํํ ์์์ด๋ค.
๊ทธ๋ฆผ : ๋์ด, ์ฒด์ง๋์ง์, ์ํ๊ท ์๋์ ๋ํ ๊ตฐ์ง๋ถ์ ์๊ฐํ(2์ฐจ์) ์์ฒ๋ผ, ๋ค์ํ ๊ตฐ์ง์ 2์ฐจ์ ํ๋ฉด ์์์ ํํํ ๊ฒฝ์ฐ ์ด๋ฅผ ์ ๋๋ก ๊ตฌ๋ถํ ์ ์๊ณ , x,y,z์ ์ธ ๊ฐ ์ถ์ ๊ฐ๊ฐ ์ํ๋ Attribute๋ก ์ง์ ํ์ฌ ๊ตฐ์ง์ด 3์ฐจ์ ์์์ ์ด๋ป๊ฒ ํ์ฑ๋๋ ์ง ํ์ธํ ์ ์์๋ค.
๊ทธ๋ฆผ : ๋์ด, ์ฒด์ง๋์ง์, ์ํ๊ท ์๋์ ๋ํ ๊ตฐ์ง๋ถ์(3์ฐจ์)
๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ค ์ค clusteringํ๊ธฐ์ ์ ํฉํ ์ฐ์ํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๊ณ ํตํฉํ๋, ๋์ด, ์ ์๋, ๋ชธ๋ฌด๊ฒ, ํค, ์ ์ผ ์ญ์ทจ ์์์๋ค(ํนํ PCA๋ฅผ ํตํด ๋์จ PC1์์์ธ make energy series: [์๋์ง, ๋จ๋ฐฑ์ง, ์ธ]์ ์์๋ฅผ ๋ํ๋ก ์ฌ์ฉํ์๋ค.) ๋ฑ์ด ์ฌ์ฉํ๊ธฐ ์ข์ ํํ๋ก ๋์ ์์ด์, ์ ๊ทํ๋ฅผ ํตํด k-means clustering์ ๋ค์ ์ํํ์๋ค. ๋ถํ ์ ๊ตฐ์ง๋ถ์(partitioning clustering)์ ์ค์ํ ์ด์ ๋ ๊ณ์ฐ๋น์ฉ ์ธก๋ฉด์์ ์ด๋ฐ์ ๋ค์ํ ์๋๋ฅผ ํ๊ธฐ ์ํด์, ํนํ ๊ฐ์ฒด ๋ณ๋ก exclusiveํ๊ฒ ์ด๋ค ๊ตฐ์ง์ ์ํ ์ง๋ฅผ ๋ช ์์ ์ผ๋ก ํ ๋นํ๊ธฐ์ํด hard clustering์ ํด์ฃผ์๋ค. Fuzzy๋ ๊ฐ์ค์น๋ฅผ ํ์ฉํ soft clustering์ ๋น์ฉ์ ์ธ ๋ฌธ์ ๋ก ์ ํํ์ง ์์๊ณ , ๋ค๋ง ๊ฒฐ๊ณผ๋ก ๋์จ ๊ตฐ์ง๋ค์ ํ๊ฐํ๊ธฐ ์ํด, ๊ทธ๋ํ๋ฅผ ํ์ฉํ์ฌ ๋จ์ผ ์ฐ๊ฒฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์์งํ ๊ณ์ธต์ ๊ตฐ์งํ๋ฅผ ํตํ์ฌ, ๊ทธ ํฉ๋ฆฌ์ฑ์ ํ๋จํ์๋ค. (๊ณ์ธต์ ๊ตฐ์ง ๋ถ์์ โaverageโ ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฑฐ๋ฆฌ๊ณ์ฐ์ ํ์๋ค.) ๋ฐ๋๋ ๋ถํฌ ๊ธฐ๋ฐ์ ๊ตฐ์งํ๋ ๋ฐ์ดํฐ ์ ์ ํํ์ ์ต์ ํ๋ ๊ธฐ๋ฒ์ด ์๋๋ผ ํ๋จ๋์ด ํ๊ท (Mean)์ด๋ ์ค์๊ฐ(Median)์ ๊ธฐ์ค์ผ๋ก ์ก์ ์ต์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ์ค์ผ๋ก clustering์ ํ์๋ค. ๊ฐ์ฅ ํ๋นํ ๊ตฐ์ง์ ๊ฐ์๋ โfviz_nbclustโ ํจ์๋ฅผ ํตํ์ฌ ์ ํด์ฃผ์๋๋ฐ, ์ด๋ Intra-cluster ๊ฑฐ๋ฆฌ๋ ์ต์ํํ๋ฉด์, Inter-cluster ๊ฑฐ๋ฆฌ๋ฅผ ์ต๋ํํด์ฃผ๋ ๊ตฐ์ง์ ๊ฐ์๋ฅผ ์๋ ค์ฃผ๋ ํจ์์ด๋ค. ์ดํ ๋ฐ์ดํฐ๊ฐ ์ ๊ท ๋ถํฌ๋ฅผ ๋์ง ์๋ ํน์ง์ ๋ฐ์ํ์ฌ โpearsonโ ์๊ด๊ณ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ํ๋ฒ ๊ตฐ์งํ๋ฅผ ์๋ํ์๋ค. nstart = 25๋ก ์ค์ ํ์ฌ ์์ธก๋ ฅ์ ๋์ด๊ณ , ์ด๊ธฐ centroid๊ฐ ๋๋คํ๊ฒ ์กํ๋ค ๋ณด๋ ๊ฒฐ๊ณผ๋ก ๋์จ cluster๋ค์ด ์๋นํ ํฉ๋ฆฌ์ ์ด์ง ์์ ๊ฒฐ๊ณผ๋ค์ด ์ข ์ข ๋์ถ๋๊ธฐ๋ ํ์๋ค. ๋ฐ๋ผ์ ์ ์ ํ Centroid๋ฅผ ์ฐพ์ ์ ๋ฐ์ดํธํ๊ณ , โ์ข์ ๊ตฐ์งโ์ ์ฐพ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง์ ์๋๋ฅผ ํ ์ ์์๋ค. ์ด๊ธฐ Centroid๋ฅผ randomํ๊ฒ ์ก์ ํ, Euclidean distance๋ฅผ ์ด์ฉํด Closeness๋ฅผ ๋น๊ตํ๋ Matrix๋ฅผ ์๋ก ๊ตฌ์ฑํ ํ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด Centroid๋ฅผ ๊ตฌ์ฑํ๊ณ ์ด ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๊ฒ๋ ํจ์๋ฅผ ๋ง๋ค์๋ค. ์ดํ ์ฌ๋ฌ ๋ฒ์ ์๋๋ฅผ ํตํด์ ์ด๊ธฐ centroid๋ฅผ ๋ฐ๊พธ๋ฉด์ ๊ตฐ์ง์ ๋๋ ์ ์์๋ค. ํ์ง๋ง ์ด ๊ฒฐ๊ณผ๋ ๋ค์ํ ๊ทธ๋ฃน๋ค์ ๊ฐ์ ธ์ค๊ธด ํ์ง๋ง ๋์จ ๊ทธ๋ฃน์ด ์ ๋ง ๊ทผ๊ฑฐ๊ฐ ์๋ ๊ทธ๋ฃน์ธ์ง๋ฅผ ํ์ธํ ์ ์๊ณ , ๋ค๋ง ๋ถ์ ๋ชฉ์ ์ ํฉ๋นํ ๊ทธ๋ฃน์ ๋ฝ๋๋ค๋ ์ ์์ ๊ทผ๊ฑฐ๊ฐ ๋ถ์กฑํ์ฌ ๊ธฐ๊ฐํ์๋ค. ๋ฌผ๋ก ๊ฒฐ๊ณผ๋ก ๋์จ ๊ตฐ์ง ์ค์๋ ์ ๋ง ํฉ๋ฆฌ์ ์ธ ๊ตฐ์ง์ด ์์ ์ ์์ง๋ง, ๊ทธ๋ ๋ค๋ฉด ๋ค๋ฅธ ๊ณผ์ ์ ํตํด์๋ ๋์ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ๋จ์ง ๊ฒ์ฆ์ ์ฉ๋๋ก๋ง ์ฌ์ฉํ์๋ค.
์์ : ๋จผ์ initial centroid๋ฅผ ๊ธฐ์กด์ ๋ฐฉ์์ผ๋ก ๋์ถํ๊ธฐ ์ํด ํจ์ centroid(x)๋ฅผ ๊ตฌํํ์๊ณ , ์ด๋ฅผ ํตํด ์ฒซ ๋ฒ์งธ centroid๋ฅผ ๋์ถํ ๋ชจ์ต์ด๋ค.
<์๋ฌด๋ฐ ์ค์ ์ ํ์ง ์์ ๊ฒฝ์ฐ>
(์ง์ง๋ = 0.2, ์ ๋ขฐ๋ 0.8)๋ก ์ค์ ํด์ ๋ชจ๋ธ์ ๋๋ฆฐ ๊ฒฐ๊ณผ์ด๋ค. ์์ ๋ค์ฏ ๊ฐ์ ๊ท์น์ ์๋์ ๊ฐ๋ค. ๋จ, โ์ ์ฌ์ ๋จน๋๋คโ, โ์ ๋ ์ ๋จน๋๋คโ ์์ฑ์ ์ ์ธ์ํค๊ณ ๋๋ฆฐ ๊ฒฐ๊ณผ์ด๋ค.
<์ฐ๋ณ ์์๋ฅผ โ์์์ ๋ณต์ฉโ์ผ๋ก ์ ์ฉํ ๊ฒฝ์ฐ>
(์ง์ง๋ = 0.1, ์ ๋ขฐ๋ = 0.7)๋ก ์ก์๋ค. ์ฐ๋ณ์์๋ฅผ ๊ฒฐ์ ํ์ ๋ ์ ๋ขฐ๋๊ฐ 0.7๋ณด๋ค ํฌ๋ฉด ๊ท์น์ด ์์ฑ๋์ง ์์๋ค. ์์ฑ๋ ๊ท์น์ ์๋์ ๊ฐ๋ค. BM2_3์ ์น๊ฐ์นซ์์ ์ฌ์ฉํ๋ ์ฌ๋์ด๋ค. ์ฐ๋ณ์์๋ฅผ ์ค์ ํ ๊ฒฝ์ฐ ์ ๋ขฐ๋๋ฅผ 0.7 ์ด์์ผ๋ก ์ก์ผ๋ฉด ๊ท์น์ด ์์ฑ๋์ง ์๋๋ค.
Model ์์ฑ ๊ฒฐ๊ณผ, ์์ ๊ฐ์ ๋ชจ๋ธ์ด ์์ฑ๋์๋ค. BM2_3 -> ์นซ์ ์ธ, ์น๊ฐ์นซ์์ ์ฌ์ฉ ์ฌ๋ถ
Model์ ํ๊ฐ ๊ฒฐ๊ณผ, ํด๋น Model์ Accuaracy๋ 66.38%๋ก ์ธก์ ๋์๋ค.
(5) ๋๋คํฌ๋ ์คํธ ๋ถ์ ๊ฒฐ๊ณผ ์์์ ์ ์ฒ๋ฆฌํ ๋ฐ์ดํฐ๋ 96๊ฐ์ Attribute์ 2965๊ฐ์ Record๋ฅผ ๊ฐ์ก๋ค. ๊ณ์ฐ ์๊ฐ์ ์ค์ด๊ณ ๋ฐ์ดํฐ์ ๋ง๋ค ๋ชจ๋ธ ์ถ๋ ฅ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๊ธฐ ์ํด ์ ์ฒด ๋ฐ์ดํฐ์ ์ 4๊ฐ๋ก ๋๋์๋ค. ์ด๋ฅผ ์ํด R์ฝ๋๋ฅผ ์์ฑํ์ฌ ๊ฐ ๋ฐ์ดํฐ์ ์ ํ์ตํ๊ธฐ ์ํด train set๊ณผ test set์ผ๋ก 7:3์ผ๋ก ๋๋์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ๋ณ์ ์ผ๋ก Train set์ผ๋ก ๋๋ค ํฌ๋ ์คํธ ๋ชจ๋ธ์ ๋๋ ค๋ณธ๋ค. ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ 1000, ๋ณ์์ ๊ฐ์๋ 6๊ฐ์ด๋ค. ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ ๊ฐ๊ฐ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ 1 : Data1์ ๋ํ ๋ชจ๋ธํ์ต๊ฒฐ๊ณผ
๊ทธ๋ฆผ 2 : Data2์ ๋ํ ๋ชจ๋ธํ์ต๊ฒฐ๊ณผ
๊ทธ๋ฆผ 3: Data3์ ๋ํ ๋ชจ๋ธํ์ต๊ฒฐ๊ณผ
๊ทธ๋ฆผ 4: Data4์ ๋ํ ๋ชจ๋ธํ์ต๊ฒฐ๊ณผ
๊ทธ๋ฆผ 5: ์ ์ฒด Data์ ๋ํ ๋ชจ๋ธํ์ต๊ฒฐ๊ณผ

































