LDA (Latent Dirichlet allocation) 개념 자연어 처리에서 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 대한 확률적 토픽 모델 기법 중 하나이다. 미리 알고 있는 주제별 단어수 분포를 바탕으로, 주어진 문서에서 발견된 단어수 분포를 분석함으로써 해당 문서가 어떤 주제들을 함께 다루고 있을지를 예측할 수 있다. LDA는 topic의 단어비중과 문서의 topic 비중이라는 두 가지 변수의 결합 확률분포에 따라 문서 내에서 topic을 추출하는 과정을 지칭하며 확률적으로는 번째 문서에서 번째 단어의 topic 가 번째에 할당될 확률을 의미한다. 아래의 개념도에서 D는 말뭉치(corp..