NLP의 종합 분석.  안녕하세요 여러분, 이 기술에 오신 것을 환영합니다…
홈페이지홈페이지 > 블로그 > NLP의 종합 분석. 안녕하세요 여러분, 이 기술에 오신 것을 환영합니다…

NLP의 종합 분석. 안녕하세요 여러분, 이 기술에 오신 것을 환영합니다…

Jul 16, 2023

안타

따르다

--

듣다

공유하다

안녕하세요 여러분, 이 기술 블로그에 오신 것을 환영합니다.

따라서 NLP의 전체 형태는 자연어 처리입니다.

과거에 대한 약간의 맥락 전개

“ 자연어 처리 분야는 제2차 세계대전 이후인 1940년대에 시작되었습니다. 당시 사람들은 한 언어에서 다른 언어로 번역하는 것의 중요성을 인식하고 이러한 종류의 번역을 자동으로 수행할 수 있는 기계를 만들고 싶어했습니다. 하지만 그 일은 분명히 사람들이 처음 상상했던 것만큼 쉽지는 않았습니다.”

“1980년대에는 기계 학습 알고리즘을 사용하여 단어와 구문 간의 통계적 관계를 학습하는 통계적 NLP로 전환되었습니다. 통계적 NLP 시스템은 규칙 기반 시스템보다 더 강력하고 확장 가능하며 기계 번역, 음성 인식 및 텍스트 요약과 같은 다양한 NLP 작업에서 중요한 결과를 달성하는 데 사용되었습니다."

실제로 NLP가 필요한 이유

자연어 처리(NLP)는 컴퓨터가 자신의 언어로 인간과 통신하고 다른 언어 관련 작업을 확장하는 데 도움이 됩니다. 그러나 인간의 말은 대부분의 사람들이 생각하는 것보다 훨씬 더 복잡합니다. 철자법이나 문법과 같은 규칙이 있지만 음성과 텍스트를 해석하는 방법은 훨씬 덜 명확하게 정의되어 있습니다. 예를 들어, 어떤 사람이 냉소적인 말을 하는지 어떻게 알 수 있나요? 인간의 언어에서 단어는 한 가지를 말할 수 있지만 문맥과 어조에 따라 그 단어가 다른 것을 의미하게 될 수 있습니다. 인간이 언어의 미묘한 뉘앙스를 배우는 데는 반평생이 걸립니다. 따라서 NLP는 생명의 구세주로 등장하여 이를 매우 아름답게 처리합니다. NLP를 통해 컴퓨터는 인간처럼 자연어를 이해할 수 있습니다. AI를 사용하여 실제 입력을 받아 컴퓨터가 이해할 수 있을 만큼 합리적으로 처리합니다.

NLP 뒤에 기술적인 것들

데이터 전처리에는 네 가지 주요 단계가 포함됩니다.

토큰화: 이 단계에서는 텍스트를 더 작은 단위로 나누어 작업합니다. 예를 들어 문장을 단어로 토큰화할 수 있습니다.

중지 단어 제거:가장 관련성이 없는 단어는 다음과 같이 텍스트에서 제거됩니다.에, 위해, 그리고.

표제어 분석 및 형태소 분석: 이는 단어가 처리를 위해 루트 형태로 축소되는 경우입니다. 예를 들어 Caring은 Care를 반환하고, Working은 Work를 반환합니다.

품사 태그 지정:이는 명사, 동사, 형용사와 같은 품사에 따라 단어가 표시되는 경우입니다.

자연어 처리 : 인간의 언어를 말하고 쓰는 대로 이해하는 컴퓨터 프로그램의 능력입니다. AI의 구성 요소입니다.

이것은 표면적으로 데이터 전처리 단계에 관한 모든 것입니다. 이제 알고리즘 부분으로 넘어가겠습니다.

주로 두 가지 알고리즘을 사용합니다.

규칙 기반 시스템: 언어에 따른 전용 규칙을 따릅니다.

기계 학습 접근 방식 : 이 접근 방식에서는 정적으로 구동되는 방법이 사용됩니다. 기존 기계 학습 알고리즘과 마찬가지로 훈련을 기반으로 작업을 수행합니다.

이제 이해를 돕기 위해 코드를 통해 이해해 보겠습니다.

따라서 프로젝트 목표는 긴 단락을 더 작고 관련성이 높은 텍스트로 요약하는 것이었습니다.

여기서 중요한 라이브러리는 NLTK, text blob, spacy, sklearn 및 seaborn입니다.

NLTK Fullform은 자연어 툴킷으로, 기계가 이해할 수 있도록 모든 일반 문법 규칙을 포함합니다. 인간의 맥락

웹 스크래핑 방법을 사용하여 말뭉치를 추출한 다음 몇 가지 전통적인 기술을 사용하여 텍스트를 정리했습니다.

나는 Wikipedia에서 첫 번째 중립 기사를 추출한 다음 EV의 이점에 대한 몇 가지 기사를 추출했습니다. EV의 단점에 대한 기사를 발췌해봤습니다.

데이터를 정리한 몇 가지 방법은 다음과 같습니다.

세 기사의 말뭉치 이름을 Combine_corpus로 지정하고 공백과 일부 관련 없는 데이터를 제거했습니다.

그런 다음 nltk를 가져왔습니다. 불용어를 제거하기 위해 토큰화