24명 서술형 답안, 27초 만에 ‘채점 끝’···그런데 이 점수, 믿을 수 있을까[AI에 교육을 먹이면].jpg

뉴뉴서 2025.12.22 21:32 조회 수 : 0

AI, 과제뿐 아니라 평가 영역서도 활용
채점 요소 입력·최종 결과 확인 등 교사 몫
개별 피드백 장점이지만 업무 경감 체감 낮아
돌릴 때마다 점수 달라 ‘신뢰도’ 떨어져
교사 평가권 지킬 가이드라인 마련 필수

지난달 26일 경기도의 한 초등학교에서 경기도교육청 ‘하이러닝’에 탑재된 AI 평가도구가 시연됐다. 왼쪽에 학생이 작성한 손글씨 답안 스캔본이 떠 있고 오른쪽에는 AI의 초벌 채점 결과가 나와 있다. 김송이 기자

초등학교 4학년 학생 24명의 글쓰기 답안지 채점이 27초만에 끝났다. 학생들이 ‘어린이날 기념 학급 행사로 무엇을 하면 좋을까’라는 주제로 쓴 글쓰기의 초벌 채점을 인공지능(AI)은 1분도 안 걸려 해냈다. AI는 675자 안팎의 학생별 피드백까지 작성해줬다. 경기도교육청 ‘하이러닝’에 탑재된 AI 평가 도구에 학생들의 답안지를 먹였더니 나온 결과였다. 경기 남양주시의 초등학교 4학년 담임인 김승혁 교사는 “평가 시간을 줄인 만큼, AI가 정리한 피드백을 보고 다음 수업 준비에 공을 들일 수 있다”고 했다.

AI는 27초만에 채점 결과를 내놓지만, AI에 평가 기준을 제시하고 점수에 최종 책임을 지는 것은 여전히 교사의 몫이다. 하이러닝이 채점한 초벌 점수는 격자 무늬와 괄호로 표시됐다. 교사가 최종 ‘클릭’을 해야 점수로 인정된다. 경기 안양시 고등학교의 국어과 A교사는 “100명씩 수행평가를 채점하는데 대입과 연동되다 보니 학생·학부모·교사 모두채점 결과에 민감한 편”이라며 “AI를 사용하나 안 하나 들어가는 노동량은 똑같다”고 말했다.

교육 분야에서 AI 사용이 확산하는 것은 학생들의 과제와 학습으로만 국한되지 않는다. 시도교육청들은 AI를 평가 도구로 활용하는 것에 빠르게 움직이고 있다. 올해 2학기 경기도교육청을 시작으로 서울·충남·대구·광주교육청이 AI 평가 도구를 도입하려 준비 중이다. 민간 에듀테크의 채점 서비스를 유료로 이용해 본 교사도 적지 않다.

경향신문은 교육청과 민간 에듀테크의 AI 평가 도구를 이용해 본 초·중·고 교사 15명에게 사용기를 물었다. 교사에 따라 생산성 향상을 체감하는 정도는 엇갈렸다. 학생 개인마다 “피드백을 줄 수 있다”는 점은 장점으로 꼽혔지만, 교사가 직접 채점할 때보다 오히려 공력이 더 든다고 토로하는 이들도 적지 않았다. 평가자로서 AI의 역할을 어디까지 허용할 지에서부터 윤리, 정보보호, 책임 소재에 이르기까지 사회적 합의가 필요하다고 했다.

AI로 채점 업무 경감? AI가 먹어버리는 업무는

지난 18일 서울 여의도중학교의 한 학생이 AI 평가 도구에 활용될 과학 과목 서논술형 표준 문항을 풀고 있다. 김송이 기자

‘AI 평가’는 서·논술형 평가 확대 기조를 타고 급부상했다. 내신에서 논술 문항이 많아진 만큼 교사가 평가에 할애하는 시간과 부담이 커졌기 때문이다. 교육 당국은 AI 평가 도구를 ‘업무 경감’의 수단으로 내세웠다. ‘평가 노동’이 줄어드는 만큼 그 시간에 피드백이나 다른 업무를 함으로써 교사의 생산성은 향상된다는 논리다. 차정인 국가교육위원장은 지난 12일 대통령 업무보고에서 “(서논술형 평가의) 답은 AI에서 가져올 수 있다”고 했다. 정근식 서울시교육감도 학습자 주도의 서·논술형 평가를 확대하기 위해 AI 자동채점 모델을 개발한다고 했다.

다과목, 다학급을 맡는 교사들은 평가 생산성이 높아졌다고 했다. 경기 고양시의 중학교에서 국어를 가르치는 교사 B씨는 이번 학기 ‘주장하는 글쓰기’ 수행평가에서 AI 평가 도구를 활용했다. 이전과 가장 큰 차이는 피드백을 여러 번 줄 수 있다는 점이었다. 4개 학급 학생들이 손으로 쓴 초고를 스캔해서 우선 피드백을 줬고, 고쳐쓰기 수업을 진행한 뒤에 다시 한번 피드백을 줬다. B씨는 “기존에 한 학생에게 들이던 시간이 1시간이라면 AI 도구를 썼을 때 시간이 10~20분으로 줄어들었다”고 했다.

반대로 교사의 머릿속 채점 기준을 AI에게 ‘먹이는’ 과정에 손이 많이 간다고 토로하는 이도 있었다. 고교 국어 교사 A씨는 “모든 과제물을 스캔하는 과정부터 거치고 교육과정에 맞춰 채점 기준을 넣어야 한다”고 했다. 요약, 논리성, 독창성, 주장과 근거의 일목요연함 등 서론-본론-결론마다 채점요소를 넣어주는 작업도 이어진다. 그는 “급간의 개수를 넣고 배점을 맞추고 다시 조정하는 작업이 번거로워 주변에서 많이들 안 쓴다”며 “평가 전문성이 있는 분들은 AI가 총 소요 시간을 줄여준다고 생각하지 않는다”고 했다.

생활기록부 작성에 AI를 활용하는 경우도 많다. 생기부는 대학 입시까지 영향을 미치는 자료로, 교사들의 업무 부담도 큰 것으로 알려져 있다. AI로 생활기록부 초안을 만든 뒤, 교사가 최종검토하는 식으로 활용하고 있었다. 유료 서비스를 사용해 본 중학교 영어 교사 C씨는 “무에서 유를 창조할 때보다 힘이 훨씬 덜 들었다”며 “반복되는 표현을 사용하지 않기 위해 작은 표현 하나 고민하는 시간이 줄고 인간이 생각할 수 있는 한계치가 확장되는 느낌이었다”고 했다.

“먹일 때마다 점수가 달라요”

지난 18일 서울 여의도중학교의 한 학생이 AI 평가 도구에 활용될 과학 과목 서논술형 표준 문항을 풀고 있다. 김송이 기자

평가의 보조도구로서 AI를 활용하는 경우는 많지만, 채점자로서의 AI를 신뢰하는 교사는 많지 않았다. 하이러닝이나 유료 AI 평가 도구를 몇 번 사용해 본 뒤 “평가에는 쓰지 못하겠다”고 말한 교사들이 여럿 있었다. 16년차 고등학교 교사 D씨는 “같은 학생의 답안을, 동일 채점 요소를 넣고 돌려도 돌릴 때마다 점수가 다르게 나온다”고 했다.

D씨가 사용한 유료 서비스는 경기도교육청 하이러닝에 도입된 E사 모델로, 언어모델의 생성형 AI를 기반으로 한다. AI가 학생의 답안을 이해하고 채점하는 것이 아니라 채점 기준과 내용이나 구조가 유사하다면 확률상 그럴듯한 평가를 하는 식이다. 하이러닝에서 같은 답안을 먹여 채점을 해봐도 미세하게 차이가 났다. 고교 국어교사 중에는 E사 서비스가 “상·하위권 학생 채점은 비교적 정확하지만 중위권 학생 평가는 정확도가 떨어져 평가 설계가 고민된다”고 평가한 이들도 있었다.

이 때문에 AI 평가 도구를 쓸 때에는 교사 개인이 평가할 때보다 채점 기준이 훨씬 구체적이고 명확해야 했고, ‘AI가 인식할 수 있는가’를 항상 염두에 둬야 했다. 예컨대 AI에게 ‘다양한 접속사 표현을 적절하게 사용했는지’ 평가하게 하려면 교사가 생각하는 ‘다양함’과 ‘적절함’을 어떻게 정량적으로 수치화해서 표현할지 정해야 하는 식이다. ‘결론적으로’라는 표현이 들어간다고 해서 AI 평가 도구가 ‘결론을 충실히 작성했다’고 판단하지 않게 구체적인 평가설계도 필요했다.

AI 평가 도구를 써본 교사들은 장단점을 분류하기 시작했다. 이들은 AI 채점을 믿을 수 있는 영역과 그렇지 않은 부분을 나눴다. 국어 과목에선 AI가 채점 요소에 기재된 키워드를 학생의 문장·문단에서 찾아내는 것은 잘했지만, 글을 총체적으로 읽고 평가하는 것은 맞지 않다고 했다.

수학은 아직 AI 채점 도입이 어려운 과목 중 하나다. 제곱을 표기한 손글씨도 인식하지 못 한다. 영어는 AI가 어법을 엄격하게 채점하지만 문장 표현이나 부사어 활용 등은 너그럽게 채점한다는 인식을 받는다는 평가를 받는다.

AI가 교사의 평가권 먹어버릴까?

지난달 경기교육청의 하이러닝 AI 평가 홍보 영상은 ‘교사 조롱’이 담겼다는 비판 속에 논란이 됐다. 영상 속 교사는 “AI가 채점 도와준 거니까 너희들 할 말 없지?”라고 했다. AI 채점에는 이의 제기가 필요없다는 의미가 담겼다.

교육 당국은 AI 평가 도구가 ‘주관이 배제돼 있으며 공정하고 일관성을 유지한다’(경기도교육청 하이러닝 사업계획서)고 주장한다. 학생 개인에 대한 교사의 주관적 평가나, 채점 순서에 따른 유불리가 배제되기 때문에 더 객관적일 수 있다고 보는 것이다.

문제는 ‘AI가 더 믿을 만 하다’는 전제가 깔리는 순간 교사의 평가와 AI의 평가 간 구분이 모호해진다는 점이다. ‘AI의 환각 문제가 개선되면’ ‘AI의 채점 일치도가 향상된다면….’ 향후 교사의 평가권이 AI에 먹힐 수도 있지 않을까 하는 우려가 나오기도 했다.

경기의 17년차 고등학교 국어교사 F씨는 “이미 교사의 평가권이 어느 정도 침범됐다고 체감한다”고 했다. F씨는 “절대평가 과목이거나 교사가 세운 평가 기준과 맞다는 신뢰도가 점점 쌓인다면 AI 평가 도구로 (교사의 평가를) 대체하는 경향이 충분히 생길 것”이라며 “AI 도구는 ‘양날의 검’”이라고 했다. 평가 업무 부담을 나눌 수 있는 보조 도구가 생기는 것은 반길 일이지만, 교사의 평가 권한이 점점 줄어든다고 느껴질 때는 조심스럽다는 것이다.

지난 18일 서울 여의도중학교 학생들이 AI 평가 도구에 활용될 과학 과목 서논술형 표준 문항을 풀고 있다. 김송이 기자

교육 당국은 ‘AI는 어디까지나 교사의 보조 수단’이라고 강조한다. 서울시교육청 관계자는 “AI가 발전해서 인간처럼 채점을 해준다고 하더라도 교사마다, 수업마다 기준이 있기 때문에 교사가 기준을 변경해갈 수 있을 것”이라며 최종 평가권은 교사에게 있다고 했다. 실제 경기·서울교육청의 AI 평가 도구 모두 교사가 최종 확인을 해야만 넘어가는 식으로 기능이 구현됐다.

현장에선 ‘AI 보조’의 의미나 어디까지 ‘AI가 보조할 수 있는지’ 정의가 교사마다 달라 혼란스러워 했다. 충남의 초등학교에 재직 중인 송근상 교사는 AI 채점은 나이스에 기재되지 않는 수행평가에만 참고용으로 활용한다고 했다. 반면 경기에서 근무하는 초등교사 G씨는 AI 평가 점수를 활용할뿐더러 AI의 피드백 내용을 그대로 복사해 학생과 학부모에게 제공한다고 했다. 송 교사는 “AI의 평가를 참고해서 쓴다는 것의 기준이 사회적으로 아직 합의되지 않은 모호한 부분”이라며 “교육부가 AI 교육을 얘기하지만 어떤 주체와, 어떤 식으로 협의된 내용인지는 알 수 없다”고 했다.

합의되지 않은 것은 AI의 보조 범위만이 아니다. 교사들은 평가에서 AI를 활용하는 방법부터 윤리, 정보보호, 책임 소재까지 모두 앞으로 정해가야 할 쟁점이라고 했다. 일례로 올해 하반기 서울의 한 고등학교에선 한 교사가 지필 고사 문항을 사설 AI 평가 도구를 이용해 검토한 것이 알려졌다. 시험 문제를 사진 찍어 사설 AI 평가 도구에 넣어 문제 유출 우려가 제기됐다. AI 평가 도구를 이용했는데 문제가 평가 전 새어나간다면 책임은 누구에게 있는 것일까. 새로운 도구의 등장에 교사들의 활용 수준과 철학을 시험에 들게 할 예외적인 상황은 언제든 발생할 수 있다.

글쓰기 수업에 GPT가 ‘고쳐준’ 문장 절반 외워왔다면, ‘내것’일까? [AI에 교육을 먹이면]요즘 대학에선 생성형 인공지능(AI) 사용을 제한하고, 수업 시간에 ‘과제’를 하도록 하는 경우가 늘고 있다. 서강대 교양수업 <인문사회와 글쓰기>도 그 중 하나다. 미리 써온 문장 없이 자료조사만 해올 수 있었는데도, 일부 학생들의 과제물에선 챗GPT 표절율이 ‘기준치’(15~20%)를 넘어섰다. 수업을 맡은 박숙자 서강대 전인교육원 교수는 “학생들...https://www.khan.co.kr/article/202512100600091

mp1223b교육청별AI도구

경향신문

김송이 기자 [email protected] 김원진 기자 [email protected]

이 게시물을

번호	제목	글쓴이	날짜
44816	코레일 "철도 파업 유보‥오늘 모든 열차 정상 운행".jpg	뉴뉴서	2025.12.23
44815	내년 서울 6개 자치구 입주물량 '0'…강남구 작년보다 82% 쪼그라들어.jpg	뉴뉴서	2025.12.23
44814	이탈리아, 레바논서 유엔군 철수해도 군 주둔.jpg	뉴뉴서	2025.12.23
44813	세종 대통령실도 속도 낸다‥대통령 집무실 바로 앞 시민광장.txt	뉴뉴서	2025.12.23
44812	민주당, 추천위 구성 없앤 '내란전담재판부법' 상정‥"조희대 개입 차단".txt	뉴뉴서	2025.12.23
44811	이재용, '슈퍼사이클' 반도체 직접 챙긴다…삼성전자 DS사업장 방문.gif	뉴뉴서	2025.12.23
44810	"최대 징역 1335년형"…'세계 최악' 갱단원 철퇴 나선 이 나라.jpg	뉴뉴서	2025.12.23
44809	'상습 폭행하고 집에 홀로 둬' 영아 학대 살해 혐의 부모 재판에.jpg	뉴뉴서	2025.12.22
44808	도쿄전력, 후쿠시마 사고 15년 만에 원전 첫 재가동 눈앞.jpg	뉴뉴서	2025.12.22
44807	정진석 "계엄 하면 시민들 거리 나온다 만류"…尹 "결심 섰다".jpg	뉴뉴서	2025.12.22
44806	논란만 되면 공격받는 ‘여경’···“경찰 역할에 대한 잘못된 고정관념 탓”.jpg	뉴뉴서	2025.12.22
44805	쿠팡 '역외탈세' 혐의 잡았나‥국세청, 미국 본사와 거래관계 전방위 분석.txt	뉴뉴서	2025.12.22
44804	경찰, 前 재정국장 등 통일교 자금 관리자 줄소환.jpg	뉴뉴서	2025.12.22
44803	특검, 김건희에 ‘명품가방 선물 의혹’ 김기현 소환.jpg	뉴뉴서	2025.12.22
44802	서울고법 “내란재판부법 통과 땐 전담부 구성 들어갈 것”.jpg	뉴뉴서	2025.12.22
44801	경찰, 이준석 ‘허위 사실 공표' 혐의 불송치…여론조사비 대납 의혹은 수사 중.jpg	뉴뉴서	2025.12.22
44800	경찰, ‘여론조사비 대납 의혹’ 이준석 무혐의.jpg	뉴뉴서	2025.12.22
44799	"차에 눈 내린 줄 알았더니 까마귀 똥"…수원 도심 뒤덮은 까마귀, 무슨 일?.jpg	뉴뉴서	2025.12.22
44798	케네디센터 장악한 트럼프, 이번엔 스미스소니언 돈줄 압박.jpg	뉴뉴서	2025.12.22
44797	“도요타 축하”···현대차가 라이벌에 축하 광고를 띄운 이유.jpg	뉴뉴서	2025.12.22

쓰기 태그

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지

랭크모어

로그인

24명 서술형 답안, 27초 만에 ‘채점 끝’···그런데 이 점수, 믿을 수 있을까[AI에 교육을 먹이면].jpg

경향신문

댓글 0