문장속에서 명확한 기준없이 (예를 들어 띄어쓰기라던지) 한글, 영어,숫자등이 섞여서 나올때가 있다.
이때 언어별 처리가 필요한 경우 regex라는 라이브러리를 사용할수 있다.
1. regex 설치 (맥기준, 우분투에서는 apt-get install python-regex 설치)
# sudo pip install regex
2. 파이선 실행
# python
3. regex import
>>> import regex
4. 한글, 영어, 한문을 모두 뽑아낸다. 숫자는 버린다
>>> regex.findall(ur'[\p{Hangul}|\p{Latin}|\p{Han}]+', u'24.resin수지樹脂')
결과)
[u'resin\uc218\uc9c0\u6a39\u8102']
5. 영문만 뽑아낸다. 나머지는 버린다.
>>> regex.findall(ur'[\p{Latin}]+', u'24.resin수지樹脂')
[u'resin']
매우 편리한 라이브러리가 아닐 수 없다.
[출처] python으로 한글, 영어 섞인 문장 단어별로 분류하기|작성자 IDEO
'대학원 공부 > programming language' 카테고리의 다른 글
Numpy & Pandas : DataFrame 객체 -> Sqlite3 DB에 저장 (0) | 2019.11.11 |
---|---|
Python : basic : import OS (파일, 디렉토리 조작) (0) | 2019.11.11 |
Java : Overidding vs Overloading (0) | 2019.11.03 |
Java : public, private, default, protected (0) | 2019.10.31 |
Java : wordcount 코드 정리 및 class들 정리 (0) | 2019.10.31 |
댓글