본 연구는 독일 언론의 극심한 기후 현상 관련 기사 검색을 위해 토픽 모델을 이진 분류기로 활용하는 방법을 탐구했어요. 토픽 모델의 사후 분포를 활용하여 관련 문서를 선택하며, 훈련 과정을 수정하지 않아요.
주요 키워드를 활용하여 뉴스 데이터베이스를 검색하는 과정에서 토픽 모델의 확률 정보가 관련 기사 선택에 도움이 된다는 점을 확인했어요. 이는 기존의 텍스트 임베딩 분류기와 오픈 웨이트 LLM에 비해 정확도를 높이는 데 기여합니다.
연구 결과, 위험 요소에 따라 결과가 달라지는 점을 확인했으며, 이는 NLP 작업에서 기후 현상을 단일 범주로 취급하는 것에 대한 경고를 담고 있어요.