빅데이터분석기사 필기
2024.04.06 10:00~12:00
대학교 졸업 전에 기사 자격증 취득하기 2탄으로
정보처리기사와 함께 빅데이터분석기사 24년 1회 시험도 응시했다.
합격하면 학교에서 응시료를 지원해주니, 취득하고자 하는 의지가 넘쳐났다.
+ 4년제 대학 기준으로 대학교 4학년 재학 중이면 응시조건을 만족한다.
나는 왜 1과목 점수가.. 보통 1과목에서 점수를 많이 먹어 평균을 올리던데
실무 경험을 믿고 대충 암기한 대가를 치를 뻔했다.
필기 공부 기간
필기는 3주동안 준비했으며, 하루 1시간 30분정도 공부했다.
기출문제를 보면 정처기와는 난이도의 급이 다르다고 판단하여 조금 넉넉하게 잡았다.
또한, 인공지능 관련 기업에서 인턴을 진행 중인 관계로 하루에 많은 시간을 투자할 수 없었다.
퇴근 후 1시간 30분 정도 공부하며 이론 정리하고, 어느정도 개념이 잡히고 난 뒤엔 출퇴근 전철에서 눈으로 문제풀었다.
필기 준비 방법
오직 구글링과 소수의 통계 개념 강의로 준비했다.
그리고 공부한 내용을 파트 별로 암기할 내용과 이해할 내용을 정리했다.
예를 들면 1과목은 주로 암기할 내용이 많을 것이고, 2과목은 통계기법이 들어가다보니 이해할 내용이 주로 구성될 것이다.
이렇게 준비한 이유는 배경지식을 어느정도 갖고 있었기 때문에 출제 문제들을 보며 부족한 내용을 구글링하며 채웠다.
필기는 사지선다라는 것을 이용하여 보기를 통해 기억을 되짚어 문제를 푼다는 것이 유효한 전략이지만,
기출문제를 보면 특정 개념을 활용하는 문제의 빈도가 상당하여 확실하게 알고있어야 한다.
그러한 문제를 풀기 위해선 직접 찾아보며 유도 과정을 이해하고 적용해 보는 것이 머리에 잘 남는다.
특히 통계적 내용이 디테일하게 나오는데, 이러한 부분은 글을 통한 이해가 힘든 관계로 유튜브의 도움을 받았다.
문제집은 쓸데없이 광범위한 내용을 포함하고 암기의 범위가 늘어나는 결과로 이어져 채택하지 않았다.
개인적으로 문제집은 양치기 혹은 기출암기 할 때 외에는 사용하지 않는다.
또한, 그렇게 공부하면 알맹이는 잃어버리고 자격증이라는 껍데기만 남는다.
내가 주로 참고한 블로그는 아래와 같다.
Home - 공돌이의 수학정리노트 (Angelo's Math Notes)
※ 섀넌-나이퀴스트의 샘플링 이론의 증명은 이 포스팅을 확인하세요. 샘플링 전 연속 신호(흰색)와 샘플링하여 복원한 신호(파란색)의 차이 비교 연속 신호, 이산 신호, 디지털 신호의 관계 요
angeloyeo.github.io
해당 블로그를 운영하시는 분이 유튜브도 올리는데, 필요한 개념이 알차게 잘 정리되어있다.
통계 내용을 제외하고도 선형대수와 같이 머신러닝 혹은 인공지능에서 필수적으로 알아야 할 개념들도 함께 소개하는데,
수식을 이해하기 쉽게 그림으로 풀어서 설명하므로 해당 분야에 관심있다면 정독하는 것을 권장한다.
후기
정처기 필기와 비교하자면.. 꽤 많이 어려웠다.
어려운 이유를 두 가지로 정리하자면
일단 커버하는 도메인이 매우 넓다.
확률통계 기초부터 시작하여 중심극한정리(8회 시험에 출제), 카이제곱 검정(8회 시험에 출제)과
통계적 추론 관련 개념인 F-value(8회 시험에 출제), 신뢰구간, 귀무가설 및 대립가설만 공부해도 분량이 많다.
빅데이터 분석 과정과 여러 variation은 깡암기를 요구하고 DB(8회 시험에 출제)까지 알아야 하며
이와 더불어 인공지능 내용도 물어봐서 아키텍쳐나 핵심 메커니즘정도는 알아야 한다.
기출만 봐도 autoencoder를 묻고있다.
다른 한 가지 이유는 의외로 디테일하게 물어본다. (쉽고 어렵다는 것이 아님.)
표를 채워서 틀린 값을 찾는 문제 (F-value) 혹은 실제 그래프를 분석하는 문제가 출제되었으며,
최신 트렌드를 반영하는지LLM attention mechanism의 context vector를 묻는 문제도 나왔다.
또한, 보통 plot하면 histogram이나 boxplot 등을 묻는데, 듣도 보도 못한 Mosaic plot이 등장하여 당황하기도 했다.
물론 boxplot은 별도의 문제로 출제되었다.
인공지능 쪽도 깡암기로는 힘든 게, 예를 들어 bias와 variance가 무엇인지 묻는 것이 아니라
성능이 좋은 모델은 bias와 variance가 어떻게 될까요? 같은 식으로 물어봐서 이해해야 풀 수 있는 문제가 나온다.
실무를 해 본 입장에서 쉽게 고를 수 있었지만, 모델을 안 돌려봤다면.. 정말 마지막까지 고민했을 문제이다.
OMR을 사용하는 시험 방식에 따른 소소한(?) 불만도 있었다.
마지막까지 고민하는 문제도 존재했는데, 정답을 바꾼다는 것도 나름 부담이었다.
정처기 필기는 CBT여서 정답을 바꾸려면 그냥 딸깍 한 번으로 끝나지만
빅분기 필기는 OMR로 마킹하는 방식이어서 마킹한 답안을 바꾸려면 카드를 아예 바꾸고, 마킹도 새로 해야한다.
데이터분석 카페를 보니 저번 시험보다는 확실히 어렵다고 해서 나름 불안했으나,
1과목을 제외하고 의외로 만족스러운 점수를 얻을 수 있었다.
실무에서 관련 내용을 자주 접하다보니, 정리한다는 느낌으로 응시하기 좋은 시험이다.