AI, 과제뿐 아니라 평가 영역서도 활용
채점 요소 입력·최종 결과 확인 등 교사 몫
개별 피드백 장점이지만 업무 경감 체감 낮아
돌릴 때마다 점수 달라 ‘신뢰도’ 떨어져
교사 평가권 지킬 가이드라인 마련 필수
채점 요소 입력·최종 결과 확인 등 교사 몫
개별 피드백 장점이지만 업무 경감 체감 낮아
돌릴 때마다 점수 달라 ‘신뢰도’ 떨어져
교사 평가권 지킬 가이드라인 마련 필수
지난달 26일 경기도의 한 초등학교에서 경기도교육청 ‘하이러닝’에 탑재된 AI 평가도구가 시연됐다. 왼쪽에 학생이 작성한 손글씨 답안 스캔본이 떠 있고 오른쪽에는 AI의 초벌 채점 결과가 나와 있다. 김송이 기자
초등학교 4학년 학생 24명의 글쓰기 답안지 채점이 27초만에 끝났다. 학생들이 ‘어린이날 기념 학급 행사로 무엇을 하면 좋을까’라는 주제로 쓴 글쓰기의 초벌 채점을 인공지능(AI)은 1분도 안 걸려 해냈다. AI는 675자 안팎의 학생별 피드백까지 작성해줬다. 경기도교육청 ‘하이러닝’에 탑재된 AI 평가 도구에 학생들의 답안지를 먹였더니 나온 결과였다. 경기 남양주시의 초등학교 4학년 담임인 김승혁 교사는 “평가 시간을 줄인 만큼, AI가 정리한 피드백을 보고 다음 수업 준비에 공을 들일 수 있다”고 했다.
AI는 27초만에 채점 결과를 내놓지만, AI에 평가 기준을 제시하고 점수에 최종 책임을 지는 것은 여전히 교사의 몫이다. 하이러닝이 채점한 초벌 점수는 격자 무늬와 괄호로 표시됐다. 교사가 최종 ‘클릭’을 해야 점수로 인정된다. 경기 안양시 고등학교의 국어과 A교사는 “100명씩 수행평가를 채점하는데 대입과 연동되다 보니 학생·학부모·교사 모두채점 결과에 민감한 편”이라며 “AI를 사용하나 안 하나 들어가는 노동량은 똑같다”고 말했다.
교육 분야에서 AI 사용이 확산하는 것은 학생들의 과제와 학습으로만 국한되지 않는다. 시도교육청들은 AI를 평가 도구로 활용하는 것에 빠르게 움직이고 있다. 올해 2학기 경기도교육청을 시작으로 서울·충남·대구·광주교육청이 AI 평가 도구를 도입하려 준비 중이다. 민간 에듀테크의 채점 서비스를 유료로 이용해 본 교사도 적지 않다.
경향신문은 교육청과 민간 에듀테크의 AI 평가 도구를 이용해 본 초·중·고 교사 15명에게 사용기를 물었다. 교사에 따라 생산성 향상을 체감하는 정도는 엇갈렸다. 학생 개인마다 “피드백을 줄 수 있다”는 점은 장점으로 꼽혔지만, 교사가 직접 채점할 때보다 오히려 공력이 더 든다고 토로하는 이들도 적지 않았다. 평가자로서 AI의 역할을 어디까지 허용할 지에서부터 윤리, 정보보호, 책임 소재에 이르기까지 사회적 합의가 필요하다고 했다.
AI로 채점 업무 경감? AI가 먹어버리는 업무는
지난 18일 서울 여의도중학교의 한 학생이 AI 평가 도구에 활용될 과학 과목 서논술형 표준 문항을 풀고 있다. 김송이 기자
‘AI 평가’는 서·논술형 평가 확대 기조를 타고 급부상했다. 내신에서 논술 문항이 많아진 만큼 교사가 평가에 할애하는 시간과 부담이 커졌기 때문이다. 교육 당국은 AI 평가 도구를 ‘업무 경감’의 수단으로 내세웠다. ‘평가 노동’이 줄어드는 만큼 그 시간에 피드백이나 다른 업무를 함으로써 교사의 생산성은 향상된다는 논리다. 차정인 국가교육위원장은 지난 12일 대통령 업무보고에서 “(서논술형 평가의) 답은 AI에서 가져올 수 있다”고 했다. 정근식 서울시교육감도 학습자 주도의 서·논술형 평가를 확대하기 위해 AI 자동채점 모델을 개발한다고 했다.
다과목, 다학급을 맡는 교사들은 평가 생산성이 높아졌다고 했다. 경기 고양시의 중학교에서 국어를 가르치는 교사 B씨는 이번 학기 ‘주장하는 글쓰기’ 수행평가에서 AI 평가 도구를 활용했다. 이전과 가장 큰 차이는 피드백을 여러 번 줄 수 있다는 점이었다. 4개 학급 학생들이 손으로 쓴 초고를 스캔해서 우선 피드백을 줬고, 고쳐쓰기 수업을 진행한 뒤에 다시 한번 피드백을 줬다. B씨는 “기존에 한 학생에게 들이던 시간이 1시간이라면 AI 도구를 썼을 때 시간이 10~20분으로 줄어들었다”고 했다.
반대로 교사의 머릿속 채점 기준을 AI에게 ‘먹이는’ 과정에 손이 많이 간다고 토로하는 이도 있었다. 고교 국어 교사 A씨는 “모든 과제물을 스캔하는 과정부터 거치고 교육과정에 맞춰 채점 기준을 넣어야 한다”고 했다. 요약, 논리성, 독창성, 주장과 근거의 일목요연함 등 서론-본론-결론마다 채점요소를 넣어주는 작업도 이어진다. 그는 “급간의 개수를 넣고 배점을 맞추고 다시 조정하는 작업이 번거로워 주변에서 많이들 안 쓴다”며 “평가 전문성이 있는 분들은 AI가 총 소요 시간을 줄여준다고 생각하지 않는다”고 했다.
생활기록부 작성에 AI를 활용하는 경우도 많다. 생기부는 대학 입시까지 영향을 미치는 자료로, 교사들의 업무 부담도 큰 것으로 알려져 있다. AI로 생활기록부 초안을 만든 뒤, 교사가 최종검토하는 식으로 활용하고 있었다. 유료 서비스를 사용해 본 중학교 영어 교사 C씨는 “무에서 유를 창조할 때보다 힘이 훨씬 덜 들었다”며 “반복되는 표현을 사용하지 않기 위해 작은 표현 하나 고민하는 시간이 줄고 인간이 생각할 수 있는 한계치가 확장되는 느낌이었다”고 했다.
“먹일 때마다 점수가 달라요”
지난 18일 서울 여의도중학교의 한 학생이 AI 평가 도구에 활용될 과학 과목 서논술형 표준 문항을 풀고 있다. 김송이 기자
평가의 보조도구로서 AI를 활용하는 경우는 많지만, 채점자로서의 AI를 신뢰하는 교사는 많지 않았다. 하이러닝이나 유료 AI 평가 도구를 몇 번 사용해 본 뒤 “평가에는 쓰지 못하겠다”고 말한 교사들이 여럿 있었다. 16년차 고등학교 교사 D씨는 “같은 학생의 답안을, 동일 채점 요소를 넣고 돌려도 돌릴 때마다 점수가 다르게 나온다”고 했다.
D씨가 사용한 유료 서비스는 경기도교육청 하이러닝에 도입된 E사 모델로, 언어모델의 생성형 AI를 기반으로 한다. AI가 학생의 답안을 이해하고 채점하는 것이 아니라 채점 기준과 내용이나 구조가 유사하다면 확률상 그럴듯한 평가를 하는 식이다. 하이러닝에서 같은 답안을 먹여 채점을 해봐도 미세하게 차이가 났다. 고교 국어교사 중에는 E사 서비스가 “상·하위권 학생 채점은 비교적 정확하지만 중위권 학생 평가는 정확도가 떨어져 평가 설계가 고민된다”고 평가한 이들도 있었다.
이 때문에 AI 평가 도구를 쓸 때에는 교사 개인이 평가할 때보다 채점 기준이 훨씬 구체적이고 명확해야 했고, ‘AI가 인식할 수 있는가’를 항상 염두에 둬야 했다. 예컨대 AI에게 ‘다양한 접속사 표현을 적절하게 사용했는지’ 평가하게 하려면 교사가 생각하는 ‘다양함’과 ‘적절함’을 어떻게 정량적으로 수치화해서 표현할지 정해야 하는 식이다. ‘결론적으로’라는 표현이 들어간다고 해서 AI 평가 도구가 ‘결론을 충실히 작성했다’고 판단하지 않게 구체적인 평가설계도 필요했다.
AI 평가 도구를 써본 교사들은 장단점을 분류하기 시작했다. 이들은 AI 채점을 믿을 수 있는 영역과 그렇지 않은 부분을 나눴다. 국어 과목에선 AI가 채점 요소에 기재된 키워드를 학생의 문장·문단에서 찾아내는 것은 잘했지만, 글을 총체적으로 읽고 평가하는 것은 맞지 않다고 했다.
수학은 아직 AI 채점 도입이 어려운 과목 중 하나다. 제곱을 표기한 손글씨도 인식하지 못 한다. 영어는 AI가 어법을 엄격하게 채점하지만 문장 표현이나 부사어 활용 등은 너그럽게 채점한다는 인식을 받는다는 평가를 받는다.
AI가 교사의 평가권 먹어버릴까?
지난달 경기교육청의 하이러닝 AI 평가 홍보 영상은 ‘교사 조롱’이 담겼다는 비판 속에 논란이 됐다. 영상 속 교사는 “AI가 채점 도와준 거니까 너희들 할 말 없지?”라고 했다. AI 채점에는 이의 제기가 필요없다는 의미가 담겼다.
교육 당국은 AI 평가 도구가 ‘주관이 배제돼 있으며 공정하고 일관성을 유지한다’(경기도교육청 하이러닝 사업계획서)고 주장한다. 학생 개인에 대한 교사의 주관적 평가나, 채점 순서에 따른 유불리가 배제되기 때문에 더 객관적일 수 있다고 보는 것이다.
문제는 ‘AI가 더 믿을 만 하다’는 전제가 깔리는 순간 교사의 평가와 AI의 평가 간 구분이 모호해진다는 점이다. ‘AI의 환각 문제가 개선되면’ ‘AI의 채점 일치도가 향상된다면….’ 향후 교사의 평가권이 AI에 먹힐 수도 있지 않을까 하는 우려가 나오기도 했다.
경기의 17년차 고등학교 국어교사 F씨는 “이미 교사의 평가권이 어느 정도 침범됐다고 체감한다”고 했다. F씨는 “절대평가 과목이거나 교사가 세운 평가 기준과 맞다는 신뢰도가 점점 쌓인다면 AI 평가 도구로 (교사의 평가를) 대체하는 경향이 충분히 생길 것”이라며 “AI 도구는 ‘양날의 검’”이라고 했다. 평가 업무 부담을 나눌 수 있는 보조 도구가 생기는 것은 반길 일이지만, 교사의 평가 권한이 점점 줄어든다고 느껴질 때는 조심스럽다는 것이다.
지난 18일 서울 여의도중학교 학생들이 AI 평가 도구에 활용될 과학 과목 서논술형 표준 문항을 풀고 있다. 김송이 기자
교육 당국은 ‘AI는 어디까지나 교사의 보조 수단’이라고 강조한다. 서울시교육청 관계자는 “AI가 발전해서 인간처럼 채점을 해준다고 하더라도 교사마다, 수업마다 기준이 있기 때문에 교사가 기준을 변경해갈 수 있을 것”이라며 최종 평가권은 교사에게 있다고 했다. 실제 경기·서울교육청의 AI 평가 도구 모두 교사가 최종 확인을 해야만 넘어가는 식으로 기능이 구현됐다.
현장에선 ‘AI 보조’의 의미나 어디까지 ‘AI가 보조할 수 있는지’ 정의가 교사마다 달라 혼란스러워 했다. 충남의 초등학교에 재직 중인 송근상 교사는 AI 채점은 나이스에 기재되지 않는 수행평가에만 참고용으로 활용한다고 했다. 반면 경기에서 근무하는 초등교사 G씨는 AI 평가 점수를 활용할뿐더러 AI의 피드백 내용을 그대로 복사해 학생과 학부모에게 제공한다고 했다. 송 교사는 “AI의 평가를 참고해서 쓴다는 것의 기준이 사회적으로 아직 합의되지 않은 모호한 부분”이라며 “교육부가 AI 교육을 얘기하지만 어떤 주체와, 어떤 식으로 협의된 내용인지는 알 수 없다”고 했다.
합의되지 않은 것은 AI의 보조 범위만이 아니다. 교사들은 평가에서 AI를 활용하는 방법부터 윤리, 정보보호, 책임 소재까지 모두 앞으로 정해가야 할 쟁점이라고 했다. 일례로 올해 하반기 서울의 한 고등학교에선 한 교사가 지필 고사 문항을 사설 AI 평가 도구를 이용해 검토한 것이 알려졌다. 시험 문제를 사진 찍어 사설 AI 평가 도구에 넣어 문제 유출 우려가 제기됐다. AI 평가 도구를 이용했는데 문제가 평가 전 새어나간다면 책임은 누구에게 있는 것일까. 새로운 도구의 등장에 교사들의 활용 수준과 철학을 시험에 들게 할 예외적인 상황은 언제든 발생할 수 있다.
mp1223b교육청별AI도구