▲ Microsoft

지난 2일 국제노동기구(ILO)는 인공지능(AI)이 직업의 명성과 사회적 가치를 평가하는 방법에 대한 연구 결과를 발표했다. <사회의 기술적 구성: 영국의 직업 평가를 위한 GPT-4와 인간 응답자 비교>( A Technological Construction of Society: Comparing GPT-4 and Human Respondents for Occupational Evaluation in the UK)라는 제목의 논문은 사회학적 직업 연구의 관점에서 인공지능을 사용할 때 발생할 수 있는 위험성을 조명했다.

파베우 그미렉 ILO 연구원, 크리스토프 루츠 노르웨이 경영대학원 교수, 젬마 뉴랜드 옥스퍼드 인터넷 연구소 연구원으로 구성된 연구진은 가장 보편적인 직업 분류기준인 ILO의 국제표준직업분류(ISCO-08)를 사용해 직업 집단을 과제와 임무에 따라 명확하게 분류했다.

연구진은 영국의 인간 응답자에게 직업의 명성과 사회적 가치에 대한 순위를 매기도록 요청했다. 그 후, GPT-4에게 '평균적인 영국인'으로 간주되는 100명의 무작위 응답자 역할을 맡겨서 순위를 제시하도록 했다. 이를 통해 AI 시스템이 인간의 의견을 얼마나 정확하게 예측할 수 있는지, 그리고 인간의 의견을 인식하는 방식이 특정 인구통계 집단과 일치하는지 여부를 파악하기 위해 인간 응답자의 평가와 AI 알고리즘의 견해를 비교했다.

그 결과, 인간의 직업 평가와 AI의 직업 평가는 높은 상관관계가 있는 것으로 나타났다. GPT-4는 개별 직업의 명성과 사회적 가치에 대한 영국인의 평균적인 견해를 예측하고, 이를 바탕으로 직업 순위를 매기는 데 매우 능숙한 것으로 드러났다. 인간의 일반적인 의견에 대한 '알고리즘 이해'는 잠재적으로 AI를 직업 연구에 활용할 수 있으며, 전체적인 경향을 이해하는 데서 효율성, 비용 효과, 속도, 정확성 등의 이점을 제공할 수 있다.

ILO 연구에서는 문제점도 발견되었다. AI 모델은 디지털 경제와 관련이 있거나, 마케팅 및 영업 요소가 강한 직업의 명성과 가치를 과대평가하는 경향이 있었다. 또한 인간 평가자에 비해 전통적으로 불법적 이미지가 있는 직업에 대해서는 명성과 사회적 가치를 과소평가하는 경향이 있었다. 또한 영국 상황에서 소수 인구가 인식하는 직업의 명성과 사회적 가치의 위계를 이해하지 못하는 문제점도 드러났다.

연구 결과는 GPT-4 같은 현재의 ‘대규모 언어모델’(LLM)이 “서구적이고(Western), 교육받고(educated), 산업화되고(industrialized), 부유하고(rich), 민주적인(democratic)” 인구의 의견을 주로 반영하는 경향이 있다고 경고한다. 영어 약자로 ‘WEIRD’라 불리는 이들은 전 세계 인구에서 차지하는 비중은 소수지만, AI 모델이 학습하는 데이터 대부분을 생산해왔다.

따라서 GPT-4 같은 대규모 언어모델은 구조화되지 않은 대량의 텍스트, 음성 및 이미지 내용을 처리하는 데서는 유용하고 보완적인 연구 도구가 될 수 있지만, 인구통계적으로 소수자나 취약 계층의 관점을 누락할 수 있다는 심각한 위험을 가진 것으로 드러났다.

‘일의 세계’(the world of work)에 AI 시스템을 적용할 때, 예를 들어 직업 경력에 관한 조언을 제공하거나 알고리즘을 통한 성과 평가를 실시할 경우, 연구진은 보고서에서 드러난 AI의 한계를 주의 깊게 고려해야 한다고 강조했다.

윤효원 객원기자 (webmaster@labortoday.co.kr)

저작권자 © 매일노동뉴스 무단전재 및 재배포 금지