아스키(ASCII) 코드 POSIX 문자 클래스

                                                   

바로, 앞의 포스팅에서 문자 클래스에 16진수 코드값을 넣어 아스키(ASCII) 코드의 해당 문자를 나타낼 수 있음을 언급했고 동시에 POSIX 문자 클래스를 이용하면 16진수 코드값 없이 이를 쓸 수 있다고 했다. 이를 확인해 보자.

                                                   

아스키(ASCII) 코드POSIX 문자 클래스의 관계를 요약하면 다음 표와 같다.

                                                   

 10진수

16진수 

 문자 종류

POSIX 문자 클래스

 0~31

 0x00~0x1F

 제어문자

[:ascii:], [:cntrl:]

 32

0x20

공백(Space)

[:ascii:], [:print:], [:space:], [:blank:]

 33~47

 0x21~0x2F

구문기호 및 심볼

[:ascii:], [:graph:], [:print:][:punct:]

 48~57

 0x30~0x39

숫자(0~9)

[:ascii:], [:graph:][:print:], [:alnum:], [:digit:]

 58~64

 0x3A~0x40

구문기호 및 심볼

[:ascii:], [:graph:][:print:][:punct:]

 65~90

 0x41~0x5A

대문자( A~Z)

[:ascii:], [:graph:][:print:], [:alnum:], [:alpha:], [:upper:]

 91~96

 0x5B~0x60

구문기호 및 심볼

[:ascii:], [:graph:][:print:][:punct:]

 97~122

 0x61~0x7A

소문자( a~z)

[:ascii:], [:graph:][:print:], [:alnum:], [:alpha:], [:lower:]

 123~126

 0x7B~0x7E

구문기호 및 심볼

[:ascii:], [:graph:][:print:], [:punct:]

 127

 0x7F

제어문자

[:ascii:], [:cntrl:]

                                                   

이 중 앞 서 다루지 않았던 [:ascii:], [:cntrl:], [:graph:], [:print:], [:punct:]5개의 POSIX 문자 클래스에 대해서 자세히 알아보자.


아스키(ASCII) 문자 전체

                                                   

아스키(ASCII) 코드에 해당하는 문자 전체POSIX 문자 클래스로 나타낼 수 있다. 16진수0x00에서 0x7F까지 128개의 아스키 문자를 다음과 같이 나타낸다

                                                   

[:ascii:] 아스키(ASCII) 코드에 해당하는 문자 전체, [\x00-\x7F]


제어 문자(Control characters)

                                                   

아스키 문자 중에서 0x00~0x1F(0번부터 31번까지)0x7F(127)아스키 문자제어 문자(Control characters)라고 부르고 다음처럼  POSIX 문자 클래스로 나타낼 수 있다.

                                                   

[:cntrl:] 제어 문자, [\x00-\x1F\x7F]


그 외 볼 수 있는(Visible) 문자

                                                   

아스키 문자 중에서 제어 문자를 제외한 문자들은 알파벳 대소문자와 숫자 구문기호(?, ! ), 공백으로 실제 화면에 나타나는 문자들이다이러한 문자들은 [:graph:], [:print:], [:punct:]의 3종류로 나눈다. 

                                                   

[:graph:]는 아스키(ASCII) 코드[\x21-\x7E]에 해당하는 문자로 제어 문자와 공백 문자를 제외한 눈으로 볼 수 있는 문자들이다.

                                                   

[:graph:]  보이는 문자, [\x21-\x7E]제어 문자와 공백 문자 외의 문자

 

[:print:]는 아스키(ASCII) 코드[\x20-\x7E]에 해당하는 문자로 [:graph:]에 공백을 더한 문자들이다.

                                                   

[:print:]  보이는 문자와 공백, [\x20-\x7E]제어 문자 외의 문자


[:punct:]는 아스키(ASCII) 코드에서 구문기호 및 심볼문자 클래스 [!"\#$%&'()*+,\-./:;<=>?@\[\\\]^_`{|}~]에 해당하는 문자들이다. 

                                                   

[:punct:] 구문기호 및 심볼


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 



아스키(ASCII) 코드와 문자 클래스


앞서 배운 정규표현식의 문자 클래스([ ])에서 우리는 문자 클래스([ ])에 개별 문자들을 하나하나 기입하지 않고 다음의 경우처럼 범위로 제시할 수 있었다


[A-Z], [a-z], [0-9], [A-Za-z], [A-Za-z0-9]


그러면서 이런 생각을 해봤을 가능성이 있다. 구태여 [A-Za-z]라고 하지 않고 [A-z]라고 하면 대문자 A부터 소문자 z까지 모든 알파벳 대소문자를 다 대표할 수 있지 않을까?

 

알파벳 대소문자를 의미하는 문자 클래스를 구태여 [A-Za-z]라고 [A-z]하지 않는 이유를 알려면 아스키(ASCII) 코드를 보아야 한다. 


우리가 사용하는 정규표현식의 문자 클래스아스키(ASCII) 코드를 이용하고 있다. 아스키(ASCII) 코드의 간단한 구성은 다음의 표와 같다.


 10진수

16진수 

 문자

비고 

 0~31

 0x00~0x1F

 NUL, SOH, STX, ETX, EOT, ENQ, ACK, BEL, BS, HT, LF, VT, FF, CR, SOH, SI, DLE, DC1, DC2, DC3, DC4, NAK, SYN, ETB, CAN, EM, SUB, ESC, FS, GS, RS, US

 제어문자

 32

 0x20

 Space

 공백

 33~47

 0x21~0x2F

 ! " # $ % & ' ( ) * + , - . / 

 구문기호 및 심볼

 48~57

 0x30~0x39

 0~9

 숫자

 58~64

 0x3A~0x40

 : ; < = > ? @

 구문기호 및 심볼

 65~90

 0x41~0x5A

 A~Z

 알파벳 대문자

 91~96

 0x5B~0x60

 [ \ ] ^ _ `

 구문기호 및 심볼

 97~122

 0x61~0x7A

 a~z

 알파벳 소문자

 123~126

 0x7B~0x7E

 { | } ~

 구문기호 및 심볼

 127

 0x7F

 DEL

 제어문자


아스키(ASCII) 코드에는 0에서 127까지 총 128개의 문자가 있고 이 중 65~90번 까지A~Z의 알파벳 대문자이고, 중간에 구문기호 및 심볼91~96까지 들어가 있으며 그 뒤에 다시 97~122까지 a~z로 알파벳 소문자가 나온다. 만일, 문자 클래스[A-z]라고 하면 실은 아스키(ASCII) 코드 65~122까지 아우르는 것이므로 원치 않는 구문기호와 심볼까지 포함하는 문자 클래스가 되기 때문에 [A-z]라고 쓰지 않는 것이다.

 

정규표현식의 문자 클래스([ ])가 아스키(ASCII) 코드를 인식하므로 해당 문자의 16진수 코드값을 대괄호 안에 넣어서 문자 클래스를 만들 수 있다. , 원하는 문자를 문자 클래스로 묶을 때, 이제까지는 대괄호[ ] 안에 원하는 문자를 입력하여 문자 클래스로 묶었지만 해당 문자의 16진수 아스키(ASCII) 코드값을 알고 있다면 문자 대신 코드값을 넣어 해당 문자를 대괄호 안에 넣어서 문자 클래스를 만들 수 있다.

 

가령, 대문자 A아스키(ASCII) 코드에서 65번이고 16진수로는 0x41이다. 이를 문자 클래스에 16진수로 표기할 때는 x 앞에 숫자 0을 제거하고 역슬래쉬(\)를 붙여 x가 문자가 아닌 16진수를 나타내기 위한 기호라는 것을 나타내면서 다음과 같이 작성한다


[\x41] = [A]

 

그 외에 몇 가지 사례는 다음과 같다


[\x00] = NUL(제어문자)

[\x61-\x7A] = [a-z]

 

키보드를 눌러서 나타낼 수 있는 문자들은 아스키(ASCII) 코드를 일일이 알고 쓸 필요는 없지만 제어문자는 키를 눌러서 표시하기 어려우므로 정규표현식으로 이에 접근하려면 해당 제어문자의 16진수 코드값을 알아야 해서 매우 번거롭다.

 

이런 불편함을 해소하기 위해 POSIX 문자 클래스는 필요한 문자열 집합들을 제시하고 있으므로 이를 응용하면 조금 더 수월하게 정규표현식을 나타낼 수 있게 된다.

 


Anki 파일


아래는 본 포스팅의 내용을 갈무리하기 위한 Anki 파일입니다. 참고하시기 바랍니다. 






+ Recent posts