Skip to content

humanist96/kmorph

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

KMORPH(한국어 형태소 분석기 개발)

프로젝트 개요

  • 목적
    • 본 프로젝트는 mecab 과 mecab_ko_dic 을 base 로 한국어 텍스트 문서 분석 및 기계학습에 용이한 기능을 제공하는 품사분석기를 개발제공
  • 기능 명세
    • 머신러닝을 수행하기 편리한 Python 기반의 API 제공
    • 원하는 다양한 Type(CSV, JSON, Dictionary, List, Serial, Dataframe)으로 결과 제공
    • 향후 오픈소스 데이터 솔루션( Tensorflow / Pandas / Elasticstack / Apache Spark ... ) Contribution을 목표

라이센스 정보

Mecab 분석

  • 장점
    • 현 업계에서 성능/품질이 검증 및 사용 : 카카오토픽, LG전자
    • 품사태깅 학습 방법으로 우수한 품질을 보여주는 CRF(Conditional Random Field)을 이용
    • 한국어 말뭉치를 이용한 학습된 데이터를 제공됨(mecab_ko_dic, handic)
  • 보완점
    • 지정한 형태소를 추출기능 없음
    • 원형(활용형) 반환하지 않음
    • Panda 포맷의 DataFrame 포맷 등 다양햔 type의 output 미제공(현재 String으로만 제공)
    • 동의어 / 유의어 / 한영변환 등 활용 가능한 기능 미제공
    • 기분석 / 불용어 사전처리 기능 미제공

셋업 가이드(ubuntu 기준)

  • Python 3.5 이상 설치( miniconda 추천 )
  • gcc 7.20 설치( sudo apt install gcc )
  • automake1.11 설치( sudo apt install automake1.11 )
  • natto-py 설치( pip install natto-py )
  • skleran 설치( pip install sklearn skipy)
  • mecab-0.996 설치
    • cd mecab-0.006
    • $./configure
    • $ make
    • $ sudo make install
  • mecab-ko-dic 설치
  • 은전한닢 프로젝트에서 제공하는 mecab_ko_dic 을 다운로드
    • $ tar zxvf mecab-ko-dic-x.x.x-xxxxxxxx.tar.gz
    • $ cd mecab-ko-dic-x.x.x-xxxxxxxx
    • $ cd ./configure
    • $ make
    • $ sudo make install
  • /usr/local/etc/mecabrc 을 편집하여 아래와 같이 수정
    • dicdir=/usr/local/lib/mecab/dic/mecab-ko-dic
  • mecab 한글 분석 테스트
    • $ mecab
        한글이 제대로 분해가 되나?
        한글	NNG,*,T,한글,*,*,*,*
        이	JKS,*,F,이,*,*,*,*
        제대로	MAG,성분부사/양태부사,F,제대로,*,*,*,*
        분해	NNG,*,F,분해,*,*,*,*
        가	JKS,*,F,가,*,*,*,*
        되	VV,*,F,되,*,*,*,*
        나	EF,*,F,나,*,*,*,*
        ?	SF,*,*,*,*,*,*,*
        EOS

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published