Python : basic : 정규표현식

문장속에서 명확한 기준없이 (예를 들어 띄어쓰기라던지) 한글, 영어,숫자등이 섞여서 나올때가 있다.

이때 언어별 처리가 필요한 경우 regex라는 라이브러리를 사용할수 있다.

1. regex 설치 (맥기준, 우분투에서는 apt-get install python-regex 설치)

# sudo pip install regex

2. 파이선 실행

# python

3. regex import

>>> import regex

4. 한글, 영어, 한문을 모두 뽑아낸다. 숫자는 버린다

>>> regex.findall(ur'[\p{Hangul}|\p{Latin}|\p{Han}]+', u'24.resin수지樹脂')

결과)

[u'resin\uc218\uc9c0\u6a39\u8102']

5. 영문만 뽑아낸다. 나머지는 버린다.

>>> regex.findall(ur'[\p{Latin}]+', u'24.resin수지樹脂')

[u'resin']

매우 편리한 라이브러리가 아닐 수 없다.

[출처] python으로 한글, 영어 섞인 문장 단어별로 분류하기|작성자 IDEO

Numpy & Pandas : DataFrame 객체 -> Sqlite3 DB에 저장 (0)	2019.11.11
Python : basic : import OS (파일, 디렉토리 조작) (0)	2019.11.11
Java : Overidding vs Overloading (0)	2019.11.03
Java : public, private, default, protected (0)	2019.10.31
Java : wordcount 코드 정리 및 class들 정리 (0)	2019.10.31

월곡동 로봇팔의 대학원일지