2024.04.19 (금)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공

[청년발언대] 인공지능이 글을 이해하는 방법

 

【 청년일보 】 구글이나 파파고의 번역 서비스, 애플의 시리와 같은 인공지능 비서, 스팸 메일 필터링 등… 컴퓨터는 사람의 말과 글을 어떻게 이해할까? 그 답은 자연어 처리(natural language processing, NLP)에 있다. 


먼저 자연어(natural language)란 우리가 일상생활에서 사용하는 일반적인 언어를 말한다. 인공지능의 한 분야인 자연어 처리는 이러한 자연어를 컴퓨터가 이해하고 조작하도록 돕는 것이다. 


앞서 말한 것처럼 우리가 사용하는 text 기반 서비스 중 상당수가 자연어 처리를 이용하고 있다. 이렇게 자연어 처리로 다양한 것들을 할 수 있는데, 그중에서도 관계 추출(relation extraction, RE) 분야에 대해 자세히 알아보자.


 간단히 말해서 관계 추출이란, 단어 한 쌍이 주어졌을 때 그 두 단어의 관계가 무엇인지 알아내는 것을 말한다. 예를 들어 “대전은 한국의 도시이다. 나는 거기에 가서 성심당에 들렀다”라는 글이 있을 때, ‘대전’과 ‘한국’의 관계에 대해서는 쉽게 추론할 수 있다. 


그러나 대부분 단어들의 관계는 한 문장 내에 있지 않고 여러 문장에 걸쳐서 있다. 위 문장에서 ‘한국’과 ‘성심당’의 관계를 알아내기 위해서는, 두 문장에서 나타나는 한국-대전, 대전-성심당의 관계를 통해 성심당이 한국에 위치해 있음을 추론할 수 있게 된다. 예시 중 전자를 문장 수준 관계 추출(sentence-level RE), 후자를 문서 수준 관계 추출(document-level RE)이라고 하고, 최근에는 문서 수준의 관계 추출에 대한 연구가 많이 진행되고 있다. 


이러한 문서 수준 관계 추출을 잘하기 위해서는 여러 문장에 걸쳐서 나타나는 단어들의 관계를 잘 모델링하여 추론을 하는 것이 중요한데, 이때 사용되는 것에 단어들 간 문법적 의존 관계나 언급, 문장 내 동시 등장 등이 있다. 


위의 문장으로 예를 들어 설명하자면, ‘한국의’ 도시라는 수식, ‘거기’라는 대명사를 이용한 언급, 동일한 문장 내의 ‘거기’와 ‘성심당’ 등의 기존 단어 간 관계들이 ‘한국’과 ‘성심당’의 관계를 추론할 때 사용되고 있는 것이다. 


따라서 이러한 관계를 모델링하기 위해, 각 단어를 점(node)으로 두고 단어들과의 관계를 선(edge)으로 이어 표시한 그래프를 이용한다. 


그렇게 되면 그래프 인공신경망(graph neural network, GNN)을 적용할 수 있게 되는데, 이를 적용함으로써 좀 더 먼 문장의, 암시적인 관계들까지 추론을 할 수 있게 되는 것이다.


이러한 관계 추출을 통해서 문서 내 단어간 관계를 파악하며 인공지능은 글을 이해하고 지식을 얻을 수 있다. 이를 통해 사람, 장소, 단체, 회사 등의 개체 간 관계를 나타내는 지식 그래프를 구축할 수 있게 되는데, 이 지식 그래프를 통해서 질문 답변, 요약, 검색 등 다양한 자연어 처리 서비스를 제공할 수 있게 되는 것이다. 
 

 

【 청년서포터즈 5기 이수연 】

관련기사




청년발언대

더보기


기자수첩

더보기

배너
배너