아스키(ASCII) 코드와 문자 클래스


앞서 배운 정규표현식의 문자 클래스([ ])에서 우리는 문자 클래스([ ])에 개별 문자들을 하나하나 기입하지 않고 다음의 경우처럼 범위로 제시할 수 있었다


[A-Z], [a-z], [0-9], [A-Za-z], [A-Za-z0-9]


그러면서 이런 생각을 해봤을 가능성이 있다. 구태여 [A-Za-z]라고 하지 않고 [A-z]라고 하면 대문자 A부터 소문자 z까지 모든 알파벳 대소문자를 다 대표할 수 있지 않을까?

 

알파벳 대소문자를 의미하는 문자 클래스를 구태여 [A-Za-z]라고 [A-z]하지 않는 이유를 알려면 아스키(ASCII) 코드를 보아야 한다. 


우리가 사용하는 정규표현식의 문자 클래스아스키(ASCII) 코드를 이용하고 있다. 아스키(ASCII) 코드의 간단한 구성은 다음의 표와 같다.


 10진수

16진수 

 문자

비고 

 0~31

 0x00~0x1F

 NUL, SOH, STX, ETX, EOT, ENQ, ACK, BEL, BS, HT, LF, VT, FF, CR, SOH, SI, DLE, DC1, DC2, DC3, DC4, NAK, SYN, ETB, CAN, EM, SUB, ESC, FS, GS, RS, US

 제어문자

 32

 0x20

 Space

 공백

 33~47

 0x21~0x2F

 ! " # $ % & ' ( ) * + , - . / 

 구문기호 및 심볼

 48~57

 0x30~0x39

 0~9

 숫자

 58~64

 0x3A~0x40

 : ; < = > ? @

 구문기호 및 심볼

 65~90

 0x41~0x5A

 A~Z

 알파벳 대문자

 91~96

 0x5B~0x60

 [ \ ] ^ _ `

 구문기호 및 심볼

 97~122

 0x61~0x7A

 a~z

 알파벳 소문자

 123~126

 0x7B~0x7E

 { | } ~

 구문기호 및 심볼

 127

 0x7F

 DEL

 제어문자


아스키(ASCII) 코드에는 0에서 127까지 총 128개의 문자가 있고 이 중 65~90번 까지A~Z의 알파벳 대문자이고, 중간에 구문기호 및 심볼91~96까지 들어가 있으며 그 뒤에 다시 97~122까지 a~z로 알파벳 소문자가 나온다. 만일, 문자 클래스[A-z]라고 하면 실은 아스키(ASCII) 코드 65~122까지 아우르는 것이므로 원치 않는 구문기호와 심볼까지 포함하는 문자 클래스가 되기 때문에 [A-z]라고 쓰지 않는 것이다.

 

정규표현식의 문자 클래스([ ])가 아스키(ASCII) 코드를 인식하므로 해당 문자의 16진수 코드값을 대괄호 안에 넣어서 문자 클래스를 만들 수 있다. , 원하는 문자를 문자 클래스로 묶을 때, 이제까지는 대괄호[ ] 안에 원하는 문자를 입력하여 문자 클래스로 묶었지만 해당 문자의 16진수 아스키(ASCII) 코드값을 알고 있다면 문자 대신 코드값을 넣어 해당 문자를 대괄호 안에 넣어서 문자 클래스를 만들 수 있다.

 

가령, 대문자 A아스키(ASCII) 코드에서 65번이고 16진수로는 0x41이다. 이를 문자 클래스에 16진수로 표기할 때는 x 앞에 숫자 0을 제거하고 역슬래쉬(\)를 붙여 x가 문자가 아닌 16진수를 나타내기 위한 기호라는 것을 나타내면서 다음과 같이 작성한다


[\x41] = [A]

 

그 외에 몇 가지 사례는 다음과 같다


[\x00] = NUL(제어문자)

[\x61-\x7A] = [a-z]

 

키보드를 눌러서 나타낼 수 있는 문자들은 아스키(ASCII) 코드를 일일이 알고 쓸 필요는 없지만 제어문자는 키를 눌러서 표시하기 어려우므로 정규표현식으로 이에 접근하려면 해당 제어문자의 16진수 코드값을 알아야 해서 매우 번거롭다.

 

이런 불편함을 해소하기 위해 POSIX 문자 클래스는 필요한 문자열 집합들을 제시하고 있으므로 이를 응용하면 조금 더 수월하게 정규표현식을 나타낼 수 있게 된다.

 


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 






POSIX 문자 클래스


vim은 정규표현식 내에 POSIX 문자 클래스를 지원하는데, 이런 POSIX 문자 클래스를 이용하면 정규 표현식으로 사용하기 힘든 제어 문자들을 쉽게 사용할 수 있어 유용하다


다음은 우리가 앞서 배웠던 것과 유사한 것들로 쉽게 이해할 수 있는 POSIX 문자 클래스이다. 쉬운 것부터 보자.


[:alnum:] Alphanumeric characters알파벳 대소문자와 숫자, [A-Za-z0-9]

[:word:] Word characters알파벳 대소문자와 숫자와 언더바(_), [A-Za-z0-9_]

[:alpha:] Alphabetic character알파벳 대소문자, [A-Za-z]

[:lower:] Lowercase letters알파벳 소문자, [a-z]

[:upper:] Uppercase letters알파벳 대문자, [A-Z]

[:digit:] Digits10진 숫자, [0-9]

[:xdigit:] 16진수, [A-Fa-f0-9]


다음은 공백을 나타내는 것들이다. 


[:blank:] 탭과 공백문자, [ \t]

[:space:] 모든 화이트 스페이스 [ \t\r\n\v\f]

공백( ), (\t), 캐리지 리턴(\r), 개행 문자(\n), 수직탭(\v), 폼 피드(\f)


POSIX 문자 클래스를 사용할 경우 앞서 배운 문자 클래스([ ])로 감싸야 한다. , 대괄호가 두 번 중복 사용된다. 가령 다음과 같다.


[[:digit:]]\+ [0-9]\+ 


지금까지는 앞서 배운 정규표현식으로 간단히 나타낼 수 있는 것들을 POSIX 문자 클래스로 어떻게 나타내는지 살펴보았다. 다음에는 정규 표현식으로 사용하기 힘든 제어 문자들을 나타내는 POSIX 문자 클래스를 살펴본다.

 


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


035 vim의 정규표현식(8) POSIX 문자 클래스 1.apkg


정규표현식 연습 사례


 이제까지 배웠던 vim 정규표현식 패턴을 응용해 보자.


[a-z]\+ 소문자로만 이루어진 문자열

ex) "worldcup", "john"


[a-z]\+[0-9]\+ 앞에는 소문자 문자열이 오고 뒤에는 숫자가 오는 문자열

ex) "worldcup2002", "john27"


[a-z]\+[0-9]* 앞에는 소문자 문자열이 오고 뒤에는 숫자가 오거나 소문자만 있는 문자열

ex) "john", "john1", "john27", "john2005"


Hello\ [a-z]\+[0-9]* → Hello 한칸 건너고 알파벳 소문자 문자열이 오고 뒤에는 아무것도 없거나 숫자가 오는 문자열

ex) "Hello john", "Hello john1", "Hello john27", "Hello john2005"


 ※ 역슬래쉬스페이스바(\ )는 문자 그대로 한 칸의 공백을 의미함. 공백 문자가 명령어나 인자들을 구분하는 의미로 사용되는 메타 문자이기 때문에 공백 앞에 역슬래쉬(\)를 붙여주어야 정상적인 공백으로 인식한다


^[0-9]\+.* 행의 시작에서 숫자로 시작하는 문자열

^[^0-9]\+.* 행의 시작에서 숫자로 시작하지 않는 문자열


.*[0-9]$ 행의 끝에서 숫자로 끝나는 문자열

.*[^0-9]$ 행의 끝에서 숫자로 끝나지 않는 문자열


[a-z]\+[0-9]\{4,7\} 알파벳 소문자 문자열 뒤에 숫자로 구성된 문자가 연속으로 4~7번 반복되는 문자열

 

 C에서 변수를 선언할 때 int var; 같은 문자열에 해당하는 패턴은?


int\(\ \|\t\|\n\)\+var; \(\ \|\t\|\n\)\+ 부분은 모든 화이트스페이스(공백, , 개행)의 연속을 의미함

 

Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


034 vim의 정규표현식(7) 몇 가지 예제들.apkg

정규표현식 반복하기


주민등록번호를 정규표현식으로 나타내려면 어떻게 해야 할까? 


주민등록번호는 엄밀하게 말하면 모든 자리의 수가 0에서 9까지의 숫자로 이루어진 것은 아니지만 편의상 ○○○○○○-○○○○○○○ 형식의 앞에 6개의 숫자하이픈(-) 뒤에 7개의 숫자로 이루어진 일련의 문자열로만 다룬다고 할 때 정규표현식은 어떻게 될까?


앞서 우리는 [0-9]라는 문자 클래스를 이용하여 숫자들에 해당하는 하나의 문자를 지정하는 법을 배웠다.


그렇다면 정규표현식은 다음과 같을 것이다.


[0-9][0-9][0-9][0-9][0-9][0-9]-[0-9][0-9][0-9][0-9][0-9][0-9][0-9]


너무 길다. 이렇게 반복되는 경우를 효율적으로 처리할 방법이 필요하다.


정규표현식에서는 특정한 표현식을 반복하는 방법을 아래와 같이 제공하고 있다.


\{min,max\} → 앞의 내용이 min 이상 max 이하 반복됨

* 앞의 내용이 0 이상 반복됨

\+ 앞의 내용이 1 이상 반복됨


\{min,max\}를 이용하여 주민등록번호를 지정하면 다음과 같다


[0-9]\{6,6\}-[0-9]\{7,7\}

\{6,6\}은 최소 6번 최대 6번 이므로 그냥 6번 반복한다는 뜻이다.

\{7,7\}은 최소 7번 최대 7번 이므로 그냥 7번 반복한다는 뜻이다.


\{min,max\}에서 min0으로 할 경우 반복이 전혀 없는 경우도 해당된다.


[0-9]\{0,max\} 숫자가 0번 이상 max 이하 반복되므로 숫자가 전혀 없는 경우도 해당됨


\{min,max\}에서 max를 생략할 경우 반복 횟수에 제한이 없어진다. 따라서

 

*  \{0,\}과 동일하다.

\+ → \{1,\}과 동일하다.


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


033 vim의 정규표현식(7) 반복.apkg



역슬래쉬(\)를 붙이는 문자들


문자열의 집합을 표현하는 데 사용하는 형식 언어가 정규표현식이다


문자열의 집합을 효과적으로 표시하려다 보니 다양한 문자들을 문자 외의 다른 용도로 사용하기 위하여 역슬래쉬(\)를 붙이거나 문자 외의 다른 용도로 특수하게 사용되는 문자들을 문자 그 자체로 나타내기 위해서 역슬래쉬(\)를 붙이기도 한다. 


특정 용도의 문자를 문자 그 자체로 나타내기 위하여 역슬래쉬(\)를 붙이는 경우


\. 임의의 한개의 문자가 아닌 문자로써 (.)을 나타냄

\\ 문자 역슬래쉬(\)를 나타냄

\[ 문자 왼쪽 대괄호([)를 나타냄

\] 문자 오른쪽 대괄호(])를 나타냄


특정 문자를 탭(tab), Esc 등 문자 외의 다른 용도로 사용하기 위하여 역슬래쉬(\)를 붙이는 경우


\e esc

\t tab

\r 캐리지 리턴

\b 백스페이스

\n 개행 문자



Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


032 vim의 정규표현식(6) 특수 문자.apkg


vim 정규표현식에서 or(\|) 사용하기


vim의 정규표현식에서 or\| , 역슬래쉬버티컬바로 나타낸다or(\|)은 다음과 같은 형식으로 쓴다


문자열1\|문자열2 문자열1이거나 문자열2와 일치한다.


가령, 탐색하는 문자열이 cat이거나 dog이라면 그 정규표현식은 다음과 같다.


cat\|dog


어떤 문자열 중에 첫 번째 글자가 대문자인지 소문자인지 여부와 상관없이 모두 찾고자 하면 보통 문자 클래스를 이용한다. 가령 Catcat을 동시에 찾고 싶다면 문자 클래스를 이용하여 다음과 같이 작성하면 된다.

 

[Cc]at Cat와 cat를 모두 찾는다.


이와 비슷한 표현을 조금 복잡하지만 or(\|)로 다음과 같이 할 수 있다.


\(C\|c\)at 

→ \( \) 사이에 C\|c 를 배치해서 Cat와 cat를 모두 찾는다.


\(\) 로 인하여 매우 복잡하게 보인다. 그냥 문자 클래스([ ])로 쓰는 것이 편하지 않을까? 앞에 보여준 예에서는 단 한 개의 글자가 대문자이거나 소문자인 것을 선택하는 것이므로 문자 클래스([ ])가 더 쓰기 편하다. 하지만 여러 개의 문자열 중 하나를 선택할 경우에는 or(\|)\(\) 사이에 배치하는 편이 더 쓰기 편하다.

 

가령, 다음과 같은 일련의 파일 이름에서 cat.jpg, anmimal.jpg, dog.jpg 에만 해당하는 정규표현식은 다음과 같다.


cat.jpg

cat.avi

animal.jpg

animal.avi

dog.jpg

dog.avi


\(cat\|animal\|dog\)\.jpg


역슬래쉬점(\.)은 점(.)을 어떤 임의의 한 개의 문자를 의미하는 특수한 용도로 사용하지 말고 점(.) 문자 그 자체로만 인식하라는 의미


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 



문자열의 위치


정규표현식은 문자열을 위치에 따라서 특정할 수 있다. 즉 해당 문자열이 행의 시작에 있는지 끝에 있는지에 따라 구별하여 특정할 수 있고, 단어의 시작인지 끝에 위치한 것인지를 특정할 수 있다. 


캐럿(^)과 달러($)


앞선 문자 클래스 포스팅에서 캐럿(^)이 문자 클래스에서 not의 의미로 쓰이는 것을 언급한 바 있다. 하지만 캐럿(^)이 문자 클래스 외에서 쓰일 때에는 행의 첫 문자를 의미한다. 그리고 달러($)는 정규표현식에서 행의 끝 문자를 의미한다.


캐럿(^)달러($)를 사용할 경우 캐럿(^)은 탐색하고자 하는 문자열의 에 와야 하고 달러($)에 와야 한다


정규표현식 ^cat 행의 맨 앞cat 문자열이 있을 경우 일치

정규표현식 cat$ 행의 맨 뒤cat 문자열이 있을 경우 일치


위에서 작성한 정규표현식으로 탐색한 결과는 다음과 같이 나타난다.



단어의 시작(\<)과 끝(\>)


정규표현식으로 행의 시작과 끝에 있는 문자열을 특정할 수 있듯이 단어의 시작과 끝에 있는 문자열을 특정할 수 있다. 단어의 시작\< 로 나타내고 단어의 끝\> 로 나타낸다.

 

앞서 언급한 캐럿(^)달러($)처럼 단어의 시작(\<)은 찾고자 하는 문자열의 에 와야 하고 단어의 끝(\>)에 와야 한다.

 

정규표현식 \<c.t 단어의 맨 앞ct 형식의 문자열이 있을 경우 일치(○은 임의의 문자 한 개)

정규표현식 c.t\> 단어의 맨 뒤ct 형식의 문자열이 있을 경우 일치(○은 임의의 문자 한 개)


해당 정규표현식으로 탐색한 결과는 다음과 같이 나타난다.



사진을 보면 알겠지만 단어들은 (.), 아포스트로피() 등으로 구분된다.


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


030 vim의 정규표현식(4) 문자열의 위치.apkg



문자열


앞서 문자열 탐색의 포스팅에서는 탐색할 문자열을 슬래쉬(/)나 물음표(?) 다음에 바로 입력했다. 이 때 입력한 단순한 문자열도 그 자체로 정규표현식이다. 문자열로 탐색하면 해당 문자열로만 이루어진 것을 찾아주지 않는다. 독립된 단어이든 어떤 단어의 일부이든 그저 탐색할 문자열과 일치하는 모든 것을 전부 탐색한다. 다음은 그 사례다.



점(.) 표현


정규표현식에서 (.)아무 문자나 단 한 개의 문자를 의미한다. 가령, 앞에서 cat를 탐색한 것과 다르게 3글자이고 ct는 기억이 나는데 가운데 한 글자가 기억이 나지 않는 경우가 있다. 이럴 때는 어떻게 검색해야 할까? 명령 라인에 다음처럼 입력하면 된다. 


/c.t


그 결과는 다음과 같다. 




, c임의의 한 글자 그리고 t세 글자로 이루어진 문자열을 전부 찾는다.


, 문자 클래스([ ]) 안에서 (.)표현을 쓸 때는 그냥 (.) 문자 자체를 의미하므로 c[.]tc.t만 해당되고 cat, cut 등은 전부 해당되지 않음

 

(.)으로 탐색할 때 반드시 해당하는 임의의 글자가 1개 있어야 하므로 의 특성을 사용하면 다양한 방식으로 문자열을 탐색할 수 있다


/.cat cat 문자열 앞에 최소 한 글자(공백포함)가 있어야 함. (cat가 행의 가장 앞으로 나오는 경우 제외)

/cat. cat 문자열 뒤에 최소 한 글자(공백포함)가 있어야 함. (cat가 행의 가장 뒤에 붙는 단어 제외)

/c..t c○○t 형태의 문자열

공백점(.)이 나타내는 한 개의 문자에 해당되므로 이 점은 주의를 요함




Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


029 vim의 정규표현식(3) 점(.).apkg


문자 클래스


문자열 관련 탐색을 할 때는 앞서 포스팅한 문자열 탐색에서와 같이 그냥 해당 문자열을 바로 탐색하는 것이 가장 간단하다. , 정방향으로 abc라는 문자열을 문서를 탐색할 때는 다음과 같이 명령 라인에 명령어를 입력하면 된다. 


/abc


그런데 abcAbc로 맨 앞의 a가 대문자이거나 소문자인 경우를 모두 같이 탐색하고 싶으면 어떻게 해야 할까?


다음처럼 검색하면 된다.


/[Aa]bc


여기에서 대괄호([ ])로 묶인 것을 문자 클래스라고 부른다. 문자 클래스는 이 대괄호 사이에 있는 문자 중 하나와 일치하면 해당 문자와 일치하는 것으로 본다. 따라서 해당 위치에 올 수 있는 여러 문자들을 문자 클래스([ ]) 내에 배치하면 다양한 문자열을 아래와 같이 간단하게 찾을 수 있게 된다.


정규표현식과 일치하는 문자열

[ab]c ac, bc

[Aa] Ab, ab

[1234]class  1class, 2class, 3class, 4class


문자 클래스([ ])하이픈(-)을 이용하여 범위를 지정할 수 있다


정규표현식과 일치하는 문자

[a-z] 알파벳 소문자

[A-Z] 알파벳 대문자

[1-9] 1에서 9까지의 숫자

[a-zA-Z0-9] 모든 알파벳과 숫자


또한, 문자 클래스([ ]) 내에 캐럿(^)을 이용하여 not의 의미를 부여할 수도 있다.

 

[^Ff]uck uck 문자열 중에서 F 워드를 제외

[^0-9] 숫자가 아닌 경우


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


정규표현식 개요


정규표현식을 공부하기에 앞서 정규표현식이란 무엇이고 왜 공부하는게 좋은지 조금 동기부여를 해볼 필요가 있다. 


정규표현식이란 무엇일까? 간단하게 정의하면 다음과 같다


정규표현식문자열의 집합을 표현하는 데 사용하는 형식 언어이다.


정규표현식문자열집합이라는 형태로 다루는 형식 언어이기 때문에, 단순히 몇몇 프로그램이나 vim에서 일시적으로 제공하는 도구가 아니다. 


형식 언어로 학문적인 틀을 갖추고 진지하게 연구되어 개발되었기 때문에 그 구현에 있어서 문법과 버전이 조금씩 다를 수는 있어도 그 본질이 크게 달라질 수는 없다. 그리고 대부분의 문법도 편의성 때문에 조금씩 다르게 적용되는 것 말고는 거의 유사한 것으로 알고 있다. 이 이야기는 정규표현식을 익혀놓으면 그것이 소프트웨어 개발이건, 텍스트 편집이건, 운영체제 운용이든 평생 유용하게 써먹을 수 있다는 이야기이다. 물론, 현재에도 정규표현식은 vim 뿐만 아니라 다양한 텍스트 에디터, Unix/Linux 계열의 애플리케이션소프트웨어 개발 등에서 폭넓게 사용되고 그 유용성을 인정받고 있다. 또한, 데이터 유효성 검사, 데이터 웹 스크랩핑, 문법 구현 등에서도 매우 유용하게 쓰이고 있다. 

 

처음 정규표현식을 접하게 되면 각종 기호와 문자가 복잡하게 얽혀있는 모습이 초보자에게 부담스럽게 다가오지만 유용하게 사용할 수준까지는 매우 쉽게 익힐 수 있고 익혀두면 정말 쓸 곳이 많고 유용하다. 다음이 사례를 보면 그 유용성을 느낄 수 있을 것이다. 

 

아래는 자바스크립트에서 전화번호를 입력받아서 그 전화번호가 올바른 형식으로 입력되었는지 확인하는 함수를 구현해본 것이다.


function phone(number) {

  if (number.length > 8 || number.length < 7) {

    return false;

  }

  var numFirst = number.substring(0, 3);

  var numSecond = number.substring(number.length - 4);

  if (isNaN(numFirst) || isNaN(numSecond)) {

    reuturn false;

  }

  if (number.length === 8) {

    return (number.charAt(3) === "-");

  }

  return true;

}


위의 함수는 꽤 간략하게 코드를 정리한 것이다. 하지만 정규표현식을 이용하면 이 코드가 다음과 같이 줄어든다.


function phone(number) {

  return number.match(/^\d{3}-?\d{4}$/);

}


내부 블록에 12줄로 작성된 함수가 마법처럼 1줄로 줄어들었다. 이처럼 정규표현식을 사용하면 문자열 관련 프로그래밍을 하거나 수만 줄의 코드에서 원하는 문구를 정확히 찾아내는 등 문자열 관련한 작업에서 압도적인 효율을 갖출 수 있게 된다.

 

Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 


이번 Anki는 "정규표현식문자열의 집합을 표현하는 데 사용하는 형식 언어이다." 라는 구절만 공부합니다. 


027 vim의 정규표현식(1).apkg


+ Recent posts