IT/Python30 problem using nltk.pos_tag() in nltk www.nltk.org 에서 nltk nltk-3.0.0.win32.exe (md5) 버전을 다운 받고 >>> import nltk>>> text = nltk.word_tokenize("And now for something completely different")>>> text['And', 'now', 'for', 'something', 'completely', 'different'] 실행 결과 잘 나왔다. 하지만 nltk.pos_tag(text) 를 했을 때, 다음과 같은 에러가 나왔다. UnicodeDecodeError: 'ascii' codec can't decode byte in position 0: ordinal not in range(128) 쉬운 해결방법:http://www.nltk.org.. 2014. 12. 19. 정규표현식 python re r' (raw string) re모듈을 사용할 때 패턴을 만들어서 사용할 수 있다. 패턴을 미리 컴파일하면, 여러 번 재사용할 때 편하기 때문이다. 패턴을 명시할 때, r 문자를 사용하는 것을 볼 수있다. ex)re.compile(r'(\d+)/(\d+)/(\d+)') r 문자는 raw string으로 백슬래시 문자를 해석하지 않고 남겨두기 때문에 정규표현식과 같은 곳에 유용하다. 예를 들어 r문자를 사용하지 않는다면ex)re.compile('(\\d+)/(\\d+)/(\\d+)') 와 같이 길어 백슬래시를 두 번 사용해야 하는 불편함이 있다. 그래서 보통 r문자를 붙여준다. 2014. 12. 19. Python Regular Expressions import re 정규식 표현, 정리가 잘된 자료 [ 반복 메타 문자 ][메타 문자][의미].줄바꿈 문자를 제외한 모든 문자와 매치됨^문자열의 시작과 매치됨$문자열의 마지막과 매치됨[ ]문자 집합 중 한 문자를 의미|또는(or)를 의미{ }정규식을 그룹으로 묶음 [ 이스케이프 기호 ][기회][의미]*?*와 같으나 문자열을 취소로 매치함+?+와 같으나 문자열을 취소로 매치함???와 같으나 문자열을 최소로 매치함{m,n}?{m,n}과 같으나 문자열을 최소로 매치함 [ 정규 표현식에서 사용 가능한 플래그 ][메소드][설명]compile(pattern[, flags])pattern을 컴파일하여 정규식 객체를 반환match(pattern, string[,flags])string의 시작부분부터 pattern이 존재.. 2014. 12. 19. str.startswith()와 str.endswith()를 사용해서 문자열의 처음 텍스트나 마지막 텍스트 매칭 문자열의 처음이나 마지막에 있는 텍스트를 매칭하는 간단한 방법이 있다. 문자열 안에서 특정 텍스트를 찾는 방법은 정말 여러가지 인데 만약 내가 찾고 싶은 문자열의 형태가 문자열 처음에 있거나 마지막에 있다면 str.startswith()와 str.endswith()를 사용해서 쉽게 찾을 수 있다. 쉬운 예- str.startswith() str = "this is string example....wow!!!";print str.startswith( 'this' ); print str.startswith( 'is', 2, 4 ); print str.startswith( 'this', 2, 4 ); >>> url='http://www.google.com'>>> url.startswith('http://')T.. 2014. 12. 19. 이전 1 ··· 4 5 6 7 8 다음 반응형