딥러닝(Deep Learning)
토크나이징(Tokenizing) 이란?
SunFly
2022. 2. 21. 19:11
※NLP(Natural Language Processing) [자연어 처리]
- 자연어 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일(챗봇 엔진에 자주 사용된다.)
※토큰(token)
- 어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나눈다. 그다음 나눠진 단어를 이용해 의미를 분석한다.
이때 가장 기본이 되는 단어를 토큰(token)이라 한다.
※토크나이징(tokenizing)
- 주어진 문장에서 토큰 단위로 정보를 나누는 작업
- 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업(텍스트 전처리 과정)