[입시통계] 회귀 분석으로 기존 정원 대비 모의지원 합격자 수 예측하기
지난 글 1: 지원자의 점수대와 선호도를 바탕으로 최종등록여부를 판별하는 모델 구축
지난 글 2: 지원자 점수대를 유형별로 나누어 최종등록여부를 분류하는 모델 구축
지난 글 3: SB 분석기 분석 레포트 1,2,3
1. 서론
안녕하세요 설빙입니다 :D
9월 모의고사는 잘 치루셨나요?
좋은 성적을 받으셨다면 수능날까지도 이 페이스를 꾸준히 유지하셔서 유종의 미를 거두 시길 바라고,
만족하지 못하는 성적을 받았어도 조금만 늦게 찾아올 행복할 때를 고대하면서
견디다 보면 이전의 고생이 큰 성적 상승으로 돌아와 한 해를 뜻 깊게 끝마칠 수 있으실 겁니다.
환절기 감기 조심하시고 늘 좋은 하루가 되길 바랍니다.
2. 모의지원 합격자 수 배정의 딜레마
만일 이전에 모의지원 사이트에 들어가 성적 레포트들을 쭉 둘러보았다면,
어느 학과는 정원이 50명인데도 불구하고 최초합격 인원을 30명밖에 산정하지 않고,
어느 학과는 본래 정원보다 예상 최초합격 인원을 더 많이 산출하는 의아한 사실을 쉽게 발견할 수 있을 것이다.
이러한 이유는 간단하다.
지원자의 성적을 받아 성적순으로 나열하기만 하면 되는 입학처와는 달리,
모의지원 사이트는 해당 사이트에 점수를 입력한 지원자 외에도
사이트를 이용하지 않는 미이용 지원자의 경우의 수도 생각해야 하기 때문이다.
여기서 한가지 딜레마가 발생하는데,
만일 미이용 지원자의 영향을 너무 크게 잡으면 실제보다 컷을 더 높게 예측할 수 있고,
미이용 지원자들의 영향을 너무 적게 잡으면 실제보다 컷을 더 낮게 산정하여
모의지원 이용자들에게 큰 혼동과 불편함을 줄 수 있다.
그래서 모의지원 사이트는 보통 기존 데이터들을 바탕으로
이전 모의지원 사이트 이용 지원자수 대비실제 지원자수의 차이를 비교하여
최초합격 인원 수를 산정하는데,
이에 수치적 정확성을 첨가하고 각 학과의 모의지원 이용자 수 대비 실제 지원자 수의 차이인 정밀도에 따른 최적의 합격자 수를 산정하기 위해 회귀분석 기법을 사용해 모델의 정밀도에 따른최적의 예상 모의지원 인원을 계산해 보았다.
3. 알고리즘 분석 과정
임의로 가정한 가상의 성균관대, 연세대, 고려대의 2018년-2020년 입시 데이터를 기반으로 작업한다.
대학마다 다른 반영비, 성적 분포 등등은 표준화 과정을 통해 미리 전처리한다.
모의지원 합격자 수 산정의 정밀도는 최초합격 커트라인과 추가합격 커트라인을 분석해
실제 정원 대비 모의지원 실지원 최종합격 지원자수의 차이를 실제 정원으로 나누어 계산하였다.
계산의 결과, 정밀도가 높을수록 0에 수렴하고, 정밀도가 낮을 수록 값이 무한히 증가하는 추세를 보였기 때문에 통계적 분석의 편의성을 위해 0으로 수렴하는 숫자는 1/2으로 수렴하고, 값이 무한대로 발산할수록 1의 값에 가까워지는 Sigmoid 함수를 활용하여 정밀도를 표준화한다.
(그림 1. Sigmoid 함수의 개형. 마이너스 무한대로 발산하면 0으로 수렴하고, 0일떄는 0.5, 무한대로 발산하면 1로 수렴하는 경향성을 보인다.
다음은 가상의 데이터를 기반으로 한 모의지원의 정밀도가 가장 높은 학과를 정렬한 데이터다.
정밀도가 4.0이라는 것은 그 해 가상의 모의지원이 최초합격 합격자 수와 추가합격 합격자 수를 모두 정확하게 맞추었다는 뜻이다.
(그림 2. 모의지원 정밀도 Top 5)
다음은 가상의 데이터를 기반으로 한 모의지원의 정밀도가 가장 낮은 과를 정렬한 데이터다.
정밀도가 2에 가까울수록 실제 지원자 수와 모의지원 이용 실지원 합격자 수의 괴리가 크다는 의미이다.
(그림 3. 모의지원 정밀도 Worst 5)
다음은 대학, 연도에 따라 모델의 정밀도가 높은 순서로 정렬한 데이터다.
2020년도 연세대 예측 정밀도가 제일 높고, 그 다음으로 성대 2019, 연대 2019, 고대 2020의 순서로 따른다.
(그림 4. 학교, 년도에 따른 모의지원 정밀도 Top 5)
4. 회귀 분석 레포트
가상 모의지원 시나리오의 추가합격 데이터를 분석하여, 전체 표본 대비 정밀도가 중앙값 이상인 값과 이하인 값을 분류하고 이를 기반으로 선형 회귀를 진행해 보았다.
왼쪽의 그래프는 모의지원 예상 정밀도에 따른 실제 지원자와 모의지원 예측 합격자 수를 비교하여 나타냈고, 오른쪽의 그래프는 왼쪽의 선형 식을 기반으로 모델을 학습시켜 정밀도를 예측하게 한 다음, 검증 데이터로 분류해 둔 데이터와 비교해 모델 학습의 정확성과 정밀도에 따른 오차의 정도를 추측하였다.
위 데이터를 바탕으로 가상 모의지원 시나리오의 최초합격과 추가합격 데이터를 분석하여 정밀도가 3분위 수 이상인 데이터를 분류하고, 이를 기반으로 최종 데이터에 적용시켜 선형 회귀를 진행한 결과물이다.
이전의 그래프와 비교하여 표본의 수가 많아지고 정밀도에 따른 심도있는 분류를 진행하였기 때문에 시각적으로도 일정한 경향성을 파악할 수 있게 되었고, 정밀도의 오차율도 이전과 비교해 보다 더 0의 값에 가까이 수렴하는 성향을 보인다.
선형회귀 분석을 끝마춘 학습모델을 실제 데이터셋에 대입하여 예측한 예상 모의지원 정원을 전체 정원과 기존 모의지원 정원과 비교하여 데이터프레임과 그래프로 나누어 보았다.
분석의 결과 기존의 모의지원 정원보다 전체 정원의 결과에 더 근접한 예측 모델 케이스들이 많았지만, 여전히 전체 정원과 비교해 괴리가 있었을 뿐만 아니라 기존 모의지원 학습 결과가 예측 모델 결과보다 정밀도 면에서 더 나은 면모를 보이는 케이스도 있기 때문에 추가적인 리서치와 더불어 더 나은 분류 방법을 고안해 내고, 추가적인 심층적 공부의 필요성을 느꼈다.
5. 데이터의 사용처
모의지원 사이트 – 기존 유저 데이터를 기반으로 보다 더 정밀한 모델을 학습 시켜 올바른 실지원 합격자 수를 예측해 실제 지원자 수와의 괴리를 줄여 이용자가 겪는 불편함을 줄인다
모의지원 사이트 이용자 – 모의지원 사이트가 예측한 합격자 수와 모델이 예측한 합격자 수의 괴리가 큰 학과들을 분석해 모의지원 사이트가 예측하지 못한 추가 합격의 가능성을 확인한다.
6. 마무리
해당 분석기는 적어도 1년에서 길게는 2년의 텀을 두어 몇번의 수정과 번복을 한 다음에 최종적으로 시중에 배포할 예정입니다.
알맞은 데이터를 크롤링해서 적용하기만 하면 전처리 단계가 끝이 납니다.
제 깃허브 블로그에도 비슷한 주제의 글들을 올리고 있습니다. 심심할때 한번씩 와주세요 :D
블로그 주소 : https://joyhyun99.github.io/
0 XDK (+100)
-
100
-
수시로 대학가서 2년 대학 다니다가 군대에서 처음으로 준비해서 수능 2번 봤는데 뭐...
-
제 과외쌤도 인정함 16
제 방식을 적용시키기 위한 1차예선 조건이 "타임어택이 없는 3-4등급"임. ㄹㅇ...
-
사람하나또죽음
-
롤체 배웠는데 개 재밌네
-
민주, 2026학년도 의대정원 감축 가능 법안 23일 처리 7
탄핵 정국의 키를 잡고 있는 더불어민주당이 입법권을 앞세워 전방위적 민생 행보에...
-
좌파가 되어버렷
-
실지원이랑 합격예측 순위다른데 뭐지요?ㅠㅠ
-
대부분 끝이 안 좋음 평정심 유지가 이기는 길
-
뭔가 큰 도움 안 되고 탐구 서바랑 비슷한 느낌은 받았는데 문제는 주말 서바치듯...
-
난이도가 쉬웠나요..? 1컷 90일정도로..?
-
좀 씻어야지 아 근데 씻을줄 생각못해서 집에 샴푸랑 바디워시 사논게 없네;;; 물리...
-
질문) 방금 뜬 기사인데. 이러면 26 의대는 모집 감축인가요? 37
https://n.news.naver.com/article/005/0001746919...
-
그 방법이 모두에게 통용되는 명백한 진리는 아닙니다 그런데 글 제목이 뭐였죠?...
-
왜냐면 인류역사상 영장류 GOAT 대 민 철의 방법이니까 (대충 강민철 숭배하는 말)
-
냥대 입학처.. 정말 감사합니다 고맙습니다 경금 4칸으로 떨어져서 슬펐는데.. 냥대...
-
첨에 메디컬 두번째에 서성한이길래 세번째에 경외시~건동홍 좀 봐줄줄 알았건만 바로...
-
건국대 합격생을 위한 노크선배 꿀팁 [건국대 25][전과에 대해 알아보자!] 0
대학커뮤니티 노크에서 선발한 건국대 선배가 오르비에 있는 예비건국대학생들을 돕기...
-
화미물지 백분위 91 95 2 33 91 최저러라 동국대 전기전자 수시로 붙었는데...
-
내 프사보려고 그런거였나부네 귀여운 희쨩
-
걍 철저하게 저한테 맞춘 방법이라 1차 자격요건이 기하러 찾는 수준임
-
덕코내놧 4
주세요...
-
저사람이 주장하는 이론의 ‘단시간 내에..‘ 부분은 뇌의 신경망 연결 속도가 빨라야...
-
아ㅏㅏㅏ 0
아… 기숙사 신입생 거리 안본다니까 쓰지말라네 ㅋㅋ 돈없는 삶 진짜 ㅠㅠㅠㅠㅠ
-
학교 양아치 애들도 저렇게는 안 적혔던거같은데 뭘 한거지
-
한양 물변표 0
이거 개이득인데 좋구나 좋아
-
고고혓.
-
필자는 미적분을 중3때 한번, 고1 겨울때 한번, 고2 여름때 한번 방학특강식...
-
언확 한지사문 96 89 1 88 98 인데 불리한가요 아니면 걍 그런가요..?
-
경기 광주 이투스 기숙 갑니다 247 아니고..그냥 기숙이요 거기도 열품타 채팅...
-
ㅈㄱㄴ 1월 강기분 문학, 강기본 고전, 올오카 독서 수분감(수12),...
-
냥대 물변표 1
탐구 ㅈ망은 이득 많이봄?? 11333
-
내가 의대생이었으면 저 정도로 이악물고 무지성 시비털고 다니는 모습 불쌍해서...
-
진짜 낮은과라도 상관 없으니까 어디 쓸 수 있는지 알려주세요 부탁드립니다 감사합니다
-
25수능 현역 응시했습니다. 연대나 고대를 꼭 가고 싶은데 가능할지..ㅜㅜ 조언부탁드립니다..
-
국어 연계 예측이 어쩌구.. 헉!!!!
-
용산가는중 4
-
개에반데
-
영어 과외 질문 0
지거국 치대생인데요(25학번), 25수능 영어 1등급 나왔어가지고 과외를 좀 해보려...
-
텔그 살까말까 3
지금 진학사만 보고 있는데 아무것도 모른채로 컨설팅도 없이 하나로 판단하기는 무리인가
-
조합 짜느라 골치아픔 선호도 + 합격 가능성까지 다 따져야 하는데 무언가를 포기하긴 해야 하고 또
-
예전에 오르비에서 나이별로 차등 투표권을 부여해야 한다고 주장하시는 분이 있었는데 1
개인적으로 인상깊었음
-
김범준T 스블 듣다가 약간 어려워서 기본개념부터 들으려는데 정병호T 레알 비기너스...
-
전체 수험생의 몇이나 될까
-
데이트할래? 4
ㅇㅇ
-
내년이면 고입준비도해야하고... 방학때는 개념의나비효과랑 시발점 다...
-
929.4로는 경금 택도 없겠네 또 낮과만 칸수 오를듯
-
우리보다 고속이 더 잘 잡아주지 않을까
-
지문이나 보기 자체를 붕 떠서 읽은? 경우가 많던 정신차리고 다시 한자한자 집중해서...
-
(서울대 합격 / 합격자인증)(스누라이프) 서울대 25학번 단톡방을 소개합니다. 0
안녕하세요. 서울대 커뮤니티 SNULife 오픈챗 준비팀입니다. 서울대 25학번...
-
사실 가보긴 했는데 노레 부른 기억이 거의 없음...조작하고 돈 넣고 그런 것도 잘...
형 근데 요즘은 시그모이드 잘 안 쓰지 않나요
점수 표준화할때만 사용하고 분류작업에는 사용 안했음
시그모이드함수 오랜만이당
설빙님 이런거 하고 계셨군요 ㄷㄷ
글 읽어주셔서 감사합니다! 아직 기대쌤 강의 퀄리티에 비해서는 한참 미치지 못하지만 기초부터 차근차근 열심히 노력해보도록 하겠습니다 ㅎㅎ
설빙추