데이터 기반의 기술 예측/2. 데이터 기반 미래 기술 예측

LDA (Latent Dirichlet allocation)

Ever New 2023. 9. 6. 05:41

LDA (Latent Dirichlet allocation) 개념

자연어 처리에서 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 대한 확률적 토픽 모델 기법 중 하나이다. 미리 알고 있는 주제별 단어수 분포를 바탕으로, 주어진 문서에서 발견된 단어수 분포를 분석함으로써 해당 문서가 어떤 주제들을 함께 다루고 있을지를 예측할 수 있다.

LDA topic의 단어비중과 문서의 topic 비중이라는 두 가지 변수의 결합 확률분포에 따라 문서 내에서 topic을 추출하는 과정을 지칭하며 확률적으로는 번째 문서에서 번째 단어의 topic 번째에 할당될 확률을 의미한다.

아래의 개념도에서 D는 말뭉치(corpus)의 총 개수를 나타내며 K는 topic의 개수 그리고 N은 d번째 단어의 수를 의미한다.

LDA (Latent Dirichlet allocation) 활용

LDA는 대규모의 문서들의 집합에서 특정 주제, 즉 topic을 추출하는 데 유용하다. 이렇게 말뭉치에서 특정 주제를 자동적으로 추출해 주는 Topic modeling은 단어나 문서들의 집합으로부터 내포된 주제를 찾아내어 문서나 키워드별로 주제끼리 묶어주는 비지도학습 알고리즘 중 하나이다.

Topic modeling은 대규모의 데이터 베이스로부터 내용을 요약, 특정 주제를 자동으로 추출하는 자연어 분석 및 학습을 위한 머신러닝 분야에 많이 활용이 되고 있다. 아래의 그림은 특정 주제로 추출된 대규모의 말뭉치를 프로그램 R을 활용하여 LDA 분석과 topic modeling 시뮬레이션의 결과를 도식한 것이다. 특정 키워드가 우선 순위에 맞추어 추출이 되고 있고 좌측은 그 키워드간의 관계를 distance로 시각화한 다이어그램이다.