doc2vec 예제

메서드 get_doc_list는 디렉토리에서 모든 txt 파일을 로드하는 데 사용되며 문자열 목록을 반환합니다. txts가 4인 경우 목록의 길이는 4입니다. get_doc 메서드는 주로 문자열을 정리한 다음 doc2vec에서 사용할 수 있는 일부 형식으로 데이터를 포팅합니다. 우리는 각 txt에 대한 긴 문자열을 얻을 후, 우리는 토큰화하여, 정지 단어와 숫자를 제거, 형태소 분석 (즉, 당신이 „공급“과 „공급“이있는 경우, 그들은 „suppli“로 변환됩니다). 이 단계에서 필터를 변경하고 추가할 수 있습니다. Radim 5에서 제공 한 튜토리얼에서 태그 된 문서 (LabeledSentence로 사용됨)는 다음과 같습니다 : 안녕하세요 모든 코드가 여기에 있는지 궁금했습니다 (또는 github에 있습니까?). 나는 사용하는 참조가 확실하지 않다Model() PCA의 플롯에. doc2vec에 대한 좋은 설명, 명확하게 설명. 나는 파이썬 3 (윈도우)에 있어 doc2vectest.py 실행하려고 할 때 다음과 같은 오류가 발생합니다 : 게시물에 대한 의견을 주셔서 감사합니다. 문서 분류를 위해 doc2vec을 사용하는 것이 좋습니다. 나는 문장 수준의 분류를 하기 위해 내 작품에 doc2vec을 시도했지만, 컨볼루션 신경망보다 더 나쁘다. 빠른 보기를 위해 여기 내 종이에 대 한 자세한 내용을 찾아보십시오.

이 논문은 여전히 문장 수준 분류에 대해 작업하고 있습니다. 문장에서 문서까지 더 높은 수준으로 올라가야 합니다. 내가 믿는 최첨단 방법의 상태는 계층적 모델입니다. 나는이 시도. 간단히 말해서 단어 포함을 입력으로 학습한 다음 모델은 문장 표현과 문서 표현을 학습합니다. 주의 기반 메커니즘을 추가 함으로써 (나는 개인적으로 더 긴 순서에 좋은 생각), 더 나은 결과 얻을 수 있습니다. 해당 논문에 대한 코드를 검색할 수 있으며 작성자는 코드를 게시하지 않았지만 이미 구현한 사람이 있습니다. Gensim은 LDA, word2vec 및 doc2vec과 같은 많은 모델을 제공합니다. 나는 튜토리얼의 예제 코드 중 일부는 (그들이 영어 위키 코퍼스 롤에 훈련 처럼) 길고 거대한 프로젝트를 기반으로 발견하는 동안, 여기에 doc2vec와 함께 연주를 시작하는 방법을 보여 줄 수있는 코드의 몇 줄을 제공합니다.

다음 코드는 doc2vec 모델에 대한 입력으로 교육 및 테스트 문서를 만드는 동안 사용되는 토큰화를 위해 csv 및 함수에서 데이터를 읽는 것입니다. 데이터에는 2448 개의 행이 있으며 교육을 위해 처음 2000 행을 선택하고 나머지는 테스트를 위해 선택했습니다. 불만 이야기와 관련 제품의 몇 가지 예를 살펴 보자. 문서를 로드한 후 doc2vec 모델을 빌드할 수 있습니다. 예, 한 줄만 있습니다. 우리는 문서에 전달하고 하이퍼 매개 변수를 할당 할 수 있습니다. 메서드에 대한 전체 버전은 여기에서 찾을 수 있습니다 6. dm = 0이면 dbow 모델을 훈련하고 있습니다.

크기 = 20은 문서 벡터의 차원을 정의합니다. 우리가 여기에 문서를 전달하여 초기화하는 경우, 우리는 어휘를 구축 할 필요가 없습니다, 그것은 그 자체로 이루어집니다. 학습 속도 (알파)를 변경 하 여 다양 한 시대에 대 한 훈련 수 있습니다. „신용 보고“로 태그가 지정된 불만 제기 이야기예인 교육 항목의 모습입니다.