https://docs.google.com/document/d/18SAeePJmx-GmgJqXL3oOrVQ-J4nFJq_06cbfD9CBJ54/edit

Untitled

Untitled

Untitled

텍스트마이닝

확률론 규칙을 찾고 의미있는 정보를 추출하기 위한 것. 텍스트마이닝은 자연어처리의 일부 프로세스에 속하며, 더 큰 정보를 얻기 위한 목적으로 사용한다.

자연어처리에서의 EDA

Q: 전처리 이전에 어떤 부분을 시각화로 살펴볼 수 있는지


A: 전처리 진행에 필요한 데이터의 기본정보 예를들어 데이터의 양, class imbalance 여부, 아웃라이어, 오타, 비주류 언어 및 기호 여부, 정의에 위배되는 데이터 (별점이 마이너스 등)

EDA

정제된 데이터로 인사이트를 얻는 과정이지만, 전처리 전후로 데이터가 많이 바뀔 수 있음.

보통 프로세스에서 가장 첫 단계에 EDA를 한다고 생각하지만, 처음에만 한다고 생각하지 않는 것이 중요하며, 모델링을 하면서도 추가적으로 반복하여 EDA를 진행하는 경우가 빈번하다.