konlp.misc.kconv package¶
Submodules¶
konlp.misc.kconv.kconv module¶
kconv - 한국어 인코딩 변환도구
kconv 는 국민대학교 강승식 교수님이 만든 한국어 인코딩 변환 도구 입니다. 파일이나 스트링에 대한 인코딩 변환을 도와주는 도구들이 있습니다. EUC-KR, UTF-8, UTF-16-LE, UTF-16-BE 간의 인코딩 변환을 지원합니다.
Example
>>> from konlp.misc import kconv
>>> sample_txt = "안녕하세요. 국민대학교 자연어처리 연구실입니다."
>>> encoded_txt = kconv.convert(sample_txt, 'EUC_KR', 'UTF_8')
>>> encoded_txt
b'ìë
íì¸ì. êµë¯¼ëí êµ ìì°ì´ì²ë¦¬ ì°êµ¬ì¤ì ëë¤.’
>>> file_dir = 'input.txt'
>>> kconv.scan(file_dir)
>>> kconv.convert_file(file_dir, 'output.txt', 'UTF_8', 'UTF_16_LE')
-
konlp.misc.kconv.kconv.
convert
(string, in_enc, out_enc)[source]¶ 스트링 인코딩 변환 함수
주어진 스트링과 인코딩 변환 규칙을 바탕으로 인코딩 작업을 수행합니다. 스트링은 str, bytes 타입이여야 하고, 반환값은 항상 bytes 타입입니다. 입력 스트링의 타입이 str 일 경우, 입력 인코딩을 자동으로 `EUC_KR`로 인식됩니다.
Parameters: - string (str) – 혹은 bytes 타입도 가능. 인코딩 변환할 스트링.
- in_enc (str) – string의 현재 인코딩 타입.
- out_enc (str) – 변환할 인코딩 타입.
Returns: 인코딩 변환된 bytes string
Return type: bytes
-
konlp.misc.kconv.kconv.
convert_file
(infile_dir, outfile_dir, in_enc, out_enc)[source]¶ 파일 인코딩 변환 함수
주어진 파일 경로와 인코딩 변환 규칙을 바탕으로 인코딩 작업을 수행합니다. 인코딩 변환된 파일은 저장 경로에 항상 덮어씁니다.
Parameters: - infile_dir (str) – 변환할 파일 경로
- outfile_dir (str) – 변환된 파일의 경로
- in_enc (str) – 현재 파일의 인코딩 타입
- out_enc (str) – 변환된 파일의 인코딩 타입