본문 바로가기
대학원 공부/programming language

Python : basic : 정규표현식

by 월곡동로봇팔 2019. 11. 7.

문장속에서 명확한 기준없이 (예를 들어 띄어쓰기라던지) 한글, 영어,숫자등이 섞여서 나올때가 있다.

이때 언어별 처리가 필요한 경우 regex라는 라이브러리를 사용할수 있다.

 

1. regex 설치 (맥기준, 우분투에서는 apt-get install python-regex 설치)

# sudo pip install regex

 

2. 파이선 실행

# python

 

3. regex import

>>> import regex

 

4. 한글, 영어, 한문을 모두 뽑아낸다. 숫자는 버린다

>>> regex.findall(ur'[\p{Hangul}|\p{Latin}|\p{Han}]+', u'24.resin수지')

결과)

[u'resin\uc218\uc9c0\u6a39\u8102']

 

5. 영문만 뽑아낸다. 나머지는 버린다.

>>> regex.findall(ur'[\p{Latin}]+', u'24.resin수지')

[u'resin']

 

매우 편리한 라이브러리가 아닐 수 없다.

 

[출처] python으로 한글, 영어 섞인 문장 단어별로 분류하기|작성자 IDEO

 

댓글