자연어 처리란 무엇이며 어떻게 작동합니까?

자연어 처리를 통해 컴퓨터는 우리가 말하는 것을 실행할 수 있는 명령으로 처리할 수 있습니다. 작동 원리의 기본 원리와 우리의 삶을 개선하는 데 어떻게 사용되고 있는지 알아보십시오.

자연어 처리란?

알렉사, 시리, 구글 어시스턴트, 빅스비, 코타나 등 스마트폰이나 스마트 스피커를 가진 모든 사람들은 오늘날 음성 인식 어시스턴트를 갖고 있다. 매년 이 음성 비서는 우리가 지시한 것을 더 잘 인식하고 실행하는 것 같습니다. 그러나 이 비서들이 우리가 말하는 것을 어떻게 처리하는지 궁금해 한 적이 있습니까? 그들은 자연어 처리(NLP) 덕분에 이를 처리합니다.

역사적으로 대부분의 소프트웨어는 고정된 특정 명령 집합에만 응답할 수 있었습니다. 열기를 클릭했기 때문에 파일이 열리거나 스프레드시트에서 특정 기호 및 공식 이름을 기반으로 공식을 계산합니다. 프로그램은 코딩된 프로그래밍 언어를 사용하여 통신하므로 인식하는 입력이 주어지면 출력을 생성합니다. 이러한 맥락에서 단어는 항상 원하는 출력을 제공하는 다양한 기계적 레버 세트와 같습니다.

이것은 복잡하고 구조화되지 않은 인간의 언어와 대조되며 문장 구조, 어조, 억양, 타이밍, 구두점 및 문맥에 따라 다양한 의미를 갖습니다. 자연어 처리는 기계가 입력으로 인식하는 것과 인간의 언어 사이의 간극을 메우려는 인공 지능의 한 분야입니다. 이것은 우리가 자연스럽게 말하거나 타이핑할 때 기계가 우리가 말한 대로 출력을 생성하도록 하기 위한 것입니다.

이것은 실제 단어의 의미 위에 인간 언어의 다양한 요소에서 의미를 도출하기 위해 방대한 양의 데이터 포인트를 취함으로써 수행됩니다. 이 프로세스는 컴퓨터가 더 많은 데이터 포인트를 얻을수록 더 많이 학습할 수 있도록 하는 머신 러닝으로 알려진 개념과 밀접하게 연결되어 있습니다. 이것이 우리가 자주 상호 작용하는 대부분의 자연어 처리 기계가 시간이 지남에 따라 더 좋아지는 이유입니다.

Apple Watch에 .watchface 파일을 설치하는 방법

개념을 더 잘 설명하기 위해 NLP에서 언어와 정보를 처리하는 데 사용되는 가장 상위 수준의 기술 두 가지를 살펴보겠습니다.

토큰화

토큰화 말을 단어나 문장으로 나누는 것을 의미합니다. 각 텍스트 조각은 토큰이며 이 토큰은 음성이 처리될 때 표시되는 것입니다. 간단해 보이지만 실제로는 까다로운 과정입니다.

Google 키보드와 같은 텍스트 음성 변환 소프트웨어를 사용하여 친구에게 메시지를 보내고 있다고 가정해 보겠습니다. “공원에서 만나요”라는 메시지를 보내고 싶습니다. 휴대전화에서 녹음된 내용을 Google의 TTS(텍스트 음성 변환) 알고리즘을 통해 처리하면 Google에서 방금 말한 내용을 토큰으로 분할해야 합니다. 이러한 토큰은 “만남”, “나”, “에”, “공원” 및 “공원”입니다.

사람들은 단어 사이의 멈춤 길이가 다르며 다른 언어는 단어 사이의 가청 멈춤 길이가 거의 없을 수 있습니다. 토큰화 프로세스는 언어와 방언에 따라 크게 다릅니다.

형태소 분석 및 표제어 추출

형태소 분석과 표제어는 모두 다음과 같은 과정을 포함합니다. 추가 또는 변형 제거 기계가 인식할 수 있는 루트 단어. 이것은 모두 본질적으로 동일한 것을 의미하는 다른 단어에서 일관된 음성 해석을 수행하여 NLP 처리를 더 빠르게 만듭니다.

형태소 분석은 어근 앞이나 뒤에 붙은 단어에 추가되는 어근 단어에서 접사를 제거하는 조잡한 빠른 프로세스입니다. 이것은 단순히 문자를 제거하여 단어를 가장 단순한 기본 형태로 바꿉니다. 예를 들어:

‘걷다’가 ‘걷다’가 된다
‘빠르게’가 ‘빠르게’로
“심각함”이 “심각함”으로 바뀝니다.

보시다시피, 형태소 분석은 단어의 의미를 완전히 바꾸는 역효과를 가질 수 있습니다. “Severity”와 “sever”는 같은 의미가 아니지만 어간 추출 과정에서 접미사 “ity”가 제거되었습니다.

반면에 보조 정리는 보조 정리라고 하는 단어를 기본으로 줄이는 것과 관련된 보다 정교한 프로세스입니다. 이것은 단어의 맥락과 문장에서 어떻게 사용되는지를 고려합니다. 또한 단어 및 해당 보조 정리 데이터베이스에서 용어를 찾는 작업도 포함됩니다. 예를 들어:

‘있다’는 ‘있다’로 변한다.
“조작”이 “조작”으로 바뀝니다.
“심각함”이 “심각함”으로 바뀝니다.

도메인 이름을 구매하기 가장 좋은 곳

이 예에서 보조 정리는 “severity”라는 용어를 보조 정리 형식과 어근인 “severe”로 바꾸는 데 성공했습니다.

NLP 사용 사례와 미래

앞의 예는 자연어 처리가 무엇인지에 대한 표면적인 부분만 긁기 시작했습니다. 여기에는 우리가 일상 생활에서 사용하는 다양한 사례와 사용 시나리오가 포함됩니다. 다음은 NLP가 현재 사용 중인 몇 가지 예입니다.

자동 완성: 스마트폰에 메시지를 입력하면 문장에 맞는 단어나 이전에 사용한 단어를 자동으로 추천해 줍니다.
기계 번역: Google 번역과 같이 널리 사용되는 소비자 번역 서비스로 높은 수준의 NLP 형식을 통합하여 언어를 처리하고 번역합니다.
챗봇: NLP는 특히 고객 서비스에서 지능형 챗봇을 위한 기반으로, 실제 사람을 만나기 전에 고객을 지원하고 요청을 처리할 수 있습니다.

더 많은 것이 있습니다. NLP 사용은 현재 뉴스 미디어, 의료 기술, 작업장 관리 및 금융과 같은 분야에서 개발 및 배포되고 있습니다. 미래에는 로봇과 본격적인 정교한 대화를 나눌 수 있을지도 모릅니다.

NLP에 대해 더 자세히 알고 싶다면 다음 사이트에 환상적인 리소스가 많이 있습니다. 데이터 과학을 향하여 블로그 아니면 그 스탠포드 국립 언어 처리 그룹 확인할 수 있다는 것입니다.