konlp.misc.kconv package

Submodules

konlp.misc.kconv.kconv module

kconv - 한국어 인코딩 변환도구

kconv 는 국민대학교 강승식 교수님이 만든 한국어 인코딩 변환 도구 입니다. 파일이나 스트링에 대한 인코딩 변환을 도와주는 도구들이 있습니다. EUC-KR, UTF-8, UTF-16-LE, UTF-16-BE 간의 인코딩 변환을 지원합니다.

Example

>>> from konlp.misc import kconv
>>> sample_txt = "안녕하세요. 국민대학교 자연어처리 연구실입니다."
>>> encoded_txt = kconv.convert(sample_txt, 'EUC_KR', 'UTF_8')
>>> encoded_txt
b'안ë

•í•˜ì„¸ìš”. 국민대학 교 자연어처리 ì—°êµ¬ì‹¤ì ž 니다.’

>>> file_dir = 'input.txt'
>>> kconv.scan(file_dir)
>>> kconv.convert_file(file_dir, 'output.txt', 'UTF_8', 'UTF_16_LE')
konlp.misc.kconv.kconv.convert(string, in_enc, out_enc)[source]

스트링 인코딩 변환 함수

주어진 스트링과 인코딩 변환 규칙을 바탕으로 인코딩 작업을 수행합니다. 스트링은 str, bytes 타입이여야 하고, 반환값은 항상 bytes 타입입니다. 입력 스트링의 타입이 str 일 경우, 입력 인코딩을 자동으로 `EUC_KR`로 인식됩니다.

Parameters:
  • string (str) – 혹은 bytes 타입도 가능. 인코딩 변환할 스트링.
  • in_enc (str) – string의 현재 인코딩 타입.
  • out_enc (str) – 변환할 인코딩 타입.
Returns:

인코딩 변환된 bytes string

Return type:

bytes

konlp.misc.kconv.kconv.convert_file(infile_dir, outfile_dir, in_enc, out_enc)[source]

파일 인코딩 변환 함수

주어진 파일 경로와 인코딩 변환 규칙을 바탕으로 인코딩 작업을 수행합니다. 인코딩 변환된 파일은 저장 경로에 항상 덮어씁니다.

Parameters:
  • infile_dir (str) – 변환할 파일 경로
  • outfile_dir (str) – 변환된 파일의 경로
  • in_enc (str) – 현재 파일의 인코딩 타입
  • out_enc (str) – 변환된 파일의 인코딩 타입
konlp.misc.kconv.kconv.scan(file_dir)[source]

파일 인코딩 탐지 함수

주어진 파일 경로에서 파일의 인코딩을 탐지하는 함수입니다.

Parameters:file_dir (str) – 인코딩을 탐지할 파일 경로
Returns:인코딩 타입
Return type:int
konlp.misc.kconv.kconv.synopsis()[source]

kconv 사용 설명 함수

Module contents