konlp.tokenize.klt package

Submodules

konlp.tokenize.klt.autospace module

Klt Tokenizer

class konlp.tokenize.klt.autospace.KltAsp(dic_path='')[source]

Bases: object

국민대학교 강승식 교수님의 자동 띄어쓰기 기능입니다. 한글 문장이 주어지면 자동 띄어쓰기를 진행 후, 공백(white-space) 기준으로 tokenize를 합니다.

Example

>>> from konlp.tokenize import KltAsp
>>> k = KltAsp()
>>> k.asp(text="국민대학교자연어처리연구실")
['국민대학교', '자연어처리', '연구실']
>>> k.asp(text="국민대학교자연어처리연구실", split=False)
'국민대학교 자연어처리 연구실'
>>> k.asp(text="국민대학교자연어처리연구실", split=True)
['국민대학교', '자연어처리', '연구실']
asp(text, split=True)[source]

국민대학교 강승식 교수님의 자동 띄어쓰기 기능입니다. 한글 문장이 주어지면 자동 띄어쓰기를 진행 후, 공백(white-space) 기준으로 tokenize를 합니다.

Parameters:
  • string (str) – 띄어쓰기를 할 문장
  • dic_path (str) – 사전 폴더의 위치
  • split (bool) – 결과를 split할지 결정 하는 변수
Returns:

tokenize된 list string: 만약 split이 `Flase`이면 한 문장

Return type:

list

dic_init(dic_path='')[source]

사전을 초기화하는 함수입니다. 만약 초기화가 안된다면 사전을 다시 load를 하여서 초기화를 해야합니다. 사전이 초기화가 안되어 있다면 자동 띄어쓰기가 작동이 안됩니다.

Parameters:dic_path (str) – 사전 위치

Module contents