스마일게이트 AI 센터, 악플·혐오 발언 데이터셋 구축·공개

등록 2022.01.20 09:44:02 수정 2022.01.20 09:44:02
박준영 기자 sicros@youthdaily.co.kr

55만 여개 데이터 대상으로 1만 개 데이터 선별… 혐오 발언의 사회적 맥락을 고려한 유형 세분화
향후 게임 커뮤니티, 고객 응대 상담 챗봇, 여론조사 등 다양한 영역에서 활용 가능

 

【 청년일보 】 스마일게이트 AI 센터는 악플 및 혐오 발언 데이터셋을 공개한다고 20일 밝혔다.

 

스마일게이트 AI 센터는 최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 사회적 문제로 이어질 수 있다는 점을 고려해 혐오 표현을 선제적으로 감지하고 대응하도록 악플 및 혐오 발언 데이터셋을 구축했다. 이번 프로젝트는 지식 콘텐츠 스타트업 언더스코어와 협업을 통해 이뤄졌다.

 

악플 및 혐오 발언 데이터는 지난 2019년 1월 1일부터 2021년 7월 1일까지 포털 사이트, 커뮤니티 등 다양한 웹사이트의 게시글을 대상으로 수집했다. 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띄고 있는 특성을 고려했으며, 약 55만 여개의 데이터를 기반으로 1만 개의 데이터셋을 구축했다.

 

데이터셋 구축 과정에서 ▲여성/가족 ▲성소수자 ▲남성 ▲인종/국적 ▲연령 ▲지역 ▲종교 ▲기타 혐오 등 8개의 대상으로 범주화했다. 혐오 발언 분류를 위한 기준 모델을 공개했으며, 이를 통해 혐오 발언 추출이 가능하다.

 

스마일게이트 AI 센터의 악플 및 혐오 발언 데이터셋은 향후 다양한 영역에서 활용될 것으로 기대된다. 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등 여러 분야에서 대상을 둘러싼 혐오 발언 여부를 파악할 수 있다.

 

향후 지속적인 R&D를 실시하면서 확보한 기술력을 바탕으로 혐오 표현을 보다 높은 정확도로 정확하게 찾아내는 기술을 고도화할 계획이다. 한편, 이번에 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 1월 중 공개된다.

 

한우진 스마일게이트 AI 센터장은 "이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되길 바란다"며 "향후 스마일게이트 AI 센터는 그동안 진행해온 연구 결과와 노력이 기술적인 관점에서 뿐만 아니라 사회에 긍정적인 기여를 하도록 다양한 노력을 시도할 것"이라고 말했다. 

 

【 청년일보=박준영 기자 】




저작권자 © 청년일보 무단전재 및 재배포 금지


관련기사



서울특별시 영등포구 당산로35길 4-8, 5층(당산동4가, 청년일보빌딩) 대표전화 : 02-2068-8800 l 팩스 : 02-2068-8778 l 법인명 : (주)팩트미디어(청년일보) l 제호 : 청년일보 l 등록번호 : 서울 아 04706 l 등록일 : 2014-06-24 l 발행일 : 2014-06-24 | 회장 : 김희태 | 고문 : 고준호ㆍ오훈택ㆍ고봉중 | 편집·발행인 : 김양규 청년일보 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다. Copyright © 2019 청년일보. All rights reserved. mail to admin@youthdaily.co.kr