해당 포스팅은 AIFFEL에서 제공한 학습자료를 통해 공부한 것을 정리한 것임을 밝힙니다. 학습목표 분산 표현에 대한 직관적 이해를 얻는다. 문장 데이터를 정제하는 방법을 배운다. 토큰화의 여러 가지 기법들을 배운다. 단어 Embedding을 구축하는 방법에 대해 가볍게 맛본다. 1. 들어가며 자연어(Natural Language)는 일상에서 자연히 발생하여 쓰이는 언어를 뜻한다. 자연어와 반대되는 언어 중 하나는 프로그래밍 언어라고 할 수 있다. 이 두 개의 언어의 본질적인 차이는 자연어는 '문맥 의존 문법(Context-sensitive Grammar), 프로그래밍 언어는 '문맥 자유 문법(Context-free Grammar)'이라는 각 문법을 따른다는 것이다. 기계적으로 언어를 해석하는 파서를 만..