mirror of https://github.com/pret/pokecrystal.git
simple lexer
This commit is contained in:
parent
2b159a5ebd
commit
ad76f259ff
|
@ -0,0 +1,494 @@
|
||||||
|
# -*- coding: utf-8 -*-
|
||||||
|
|
||||||
|
import ply.lex as lex
|
||||||
|
import sys, os
|
||||||
|
|
||||||
|
|
||||||
|
FILENAME = '' # Current filename
|
||||||
|
|
||||||
|
|
||||||
|
_tokens = ('STRING', 'NEWLINE', 'LABEL',
|
||||||
|
'ID', 'COMMA', 'PLUS', 'MINUS', 'LP', 'RP', 'MUL', 'DIV', 'POW',
|
||||||
|
'UMINUS', 'APO', 'INTEGER', 'ADDR', 'RB', 'LB',
|
||||||
|
'LOCALLABEL', 'LSHIFT', 'RSHIFT', 'BITWISE_OR', 'BITWISE_AND',
|
||||||
|
'LOGICAL_NOT', 'BITWISE_COMPLEMENT',
|
||||||
|
)
|
||||||
|
|
||||||
|
reserved_instructions = {
|
||||||
|
'adc': 'ADC',
|
||||||
|
'add': 'ADD',
|
||||||
|
'and': 'AND',
|
||||||
|
'bit': 'BIT',
|
||||||
|
'call': 'CALL',
|
||||||
|
'ccf': 'CCF',
|
||||||
|
'cp': 'CP',
|
||||||
|
'cpd': 'CPD',
|
||||||
|
'cpdr': 'CPDR',
|
||||||
|
'cpi': 'CPI',
|
||||||
|
'cpir': 'CPIR',
|
||||||
|
'cpl': 'CPL',
|
||||||
|
'daa': 'DAA',
|
||||||
|
'dec': 'DEC',
|
||||||
|
'di': 'DI',
|
||||||
|
'djnz': 'DJNZ',
|
||||||
|
'ei': 'EI',
|
||||||
|
'ex': 'EX',
|
||||||
|
'exx': 'EXX',
|
||||||
|
'halt': 'HALT',
|
||||||
|
'im': 'IM',
|
||||||
|
'in': 'IN',
|
||||||
|
'inc': 'INC',
|
||||||
|
'ind': 'IND',
|
||||||
|
'indr': 'INDR',
|
||||||
|
'ini': 'INI',
|
||||||
|
'inir': 'INIR',
|
||||||
|
'jp': 'JP',
|
||||||
|
'jr': 'JR',
|
||||||
|
'ld': 'LD',
|
||||||
|
'ldd': 'LDD',
|
||||||
|
'lddr': 'LDDR',
|
||||||
|
'ldi': 'LDI',
|
||||||
|
'ldir': 'LDIR',
|
||||||
|
'neg': 'NEG',
|
||||||
|
'nop': 'NOP',
|
||||||
|
'or': 'OR',
|
||||||
|
'otdr': 'OTDR',
|
||||||
|
'otir': 'OTIR',
|
||||||
|
'out': 'OUT',
|
||||||
|
'outd': 'OUTD',
|
||||||
|
'outi': 'OUTI',
|
||||||
|
'pop': 'POP',
|
||||||
|
'push': 'PUSH',
|
||||||
|
'res': 'RES',
|
||||||
|
'ret': 'RET',
|
||||||
|
'reti': 'RETI',
|
||||||
|
'retn': 'RETN',
|
||||||
|
'rl': 'RL',
|
||||||
|
'rla': 'RLA',
|
||||||
|
'rlc': 'RLC',
|
||||||
|
'rlca': 'RLCA',
|
||||||
|
'rld': 'RLD',
|
||||||
|
'rr': 'RR',
|
||||||
|
'rra': 'RRA',
|
||||||
|
'rrc': 'RRC',
|
||||||
|
'rrca': 'RRCA',
|
||||||
|
'rrd': 'RRD',
|
||||||
|
'rst': 'RST',
|
||||||
|
'sbc': 'SBC',
|
||||||
|
'scf': 'SCF',
|
||||||
|
'set': 'SET',
|
||||||
|
'sla': 'SLA',
|
||||||
|
'sll': 'SLL',
|
||||||
|
'sra': 'SRA',
|
||||||
|
'srl': 'SRL',
|
||||||
|
'sub': 'SUB',
|
||||||
|
'xor': 'XOR',
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
pseudo = { # pseudo ops
|
||||||
|
'align': 'ALIGN',
|
||||||
|
'org': 'ORG',
|
||||||
|
'defb': 'DEFB',
|
||||||
|
'defm': 'DEFB',
|
||||||
|
'db' : 'DEFB',
|
||||||
|
'defs': 'DEFS',
|
||||||
|
'defw': 'DEFW',
|
||||||
|
'ds' : 'DEFS',
|
||||||
|
'dw' : 'DEFW',
|
||||||
|
'equ': 'EQU',
|
||||||
|
'proc': 'PROC',
|
||||||
|
'endp': 'ENDP',
|
||||||
|
'local': 'LOCAL',
|
||||||
|
'end': 'END',
|
||||||
|
'incbin': 'INCBIN'
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
regs8 = {'a': 'A',
|
||||||
|
'b': 'B', 'c': 'C',
|
||||||
|
'd': 'D', 'e': 'E',
|
||||||
|
'h': 'H', 'l': 'L',
|
||||||
|
'i': 'I', 'r': 'R',
|
||||||
|
'ixh': 'IXH', 'ixl': 'IXL',
|
||||||
|
'iyh': 'IYH', 'iyl': 'IYL'
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
regs16 = {
|
||||||
|
'af': 'AF',
|
||||||
|
'bc': 'BC',
|
||||||
|
'de': 'DE',
|
||||||
|
'hl': 'HL',
|
||||||
|
'ix': 'IX',
|
||||||
|
'iy': 'IY',
|
||||||
|
'sp': 'SP'
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
flags = {
|
||||||
|
'z' : 'Z',
|
||||||
|
'nz' : 'NZ',
|
||||||
|
'nc' : 'NC',
|
||||||
|
'po' : 'PO',
|
||||||
|
'pe' : 'PE',
|
||||||
|
'p' : 'P',
|
||||||
|
'm' : 'M',
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
preprocessor = {
|
||||||
|
'init' : '_INIT',
|
||||||
|
'line' : '_LINE'
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
# List of token names.
|
||||||
|
_tokens = _tokens \
|
||||||
|
+ tuple(reserved_instructions.values()) \
|
||||||
|
+ tuple(pseudo.values()) \
|
||||||
|
+ tuple(regs8.values()) \
|
||||||
|
+ tuple(regs16.values()) \
|
||||||
|
+ tuple(flags.values()) \
|
||||||
|
+ tuple(preprocessor.values())
|
||||||
|
|
||||||
|
|
||||||
|
def get_uniques(l):
|
||||||
|
''' Returns a list with no repeated elements.
|
||||||
|
'''
|
||||||
|
result = []
|
||||||
|
|
||||||
|
for i in l:
|
||||||
|
if i not in result:
|
||||||
|
result.append(i)
|
||||||
|
|
||||||
|
return result
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
tokens = get_uniques(_tokens)
|
||||||
|
|
||||||
|
|
||||||
|
class Lexer(object):
|
||||||
|
''' Own class lexer to allow multiple instances.
|
||||||
|
This lexer is just a wrapper of the current FILESTACK[-1] lexer
|
||||||
|
'''
|
||||||
|
states = (
|
||||||
|
('preproc', 'exclusive'),
|
||||||
|
)
|
||||||
|
|
||||||
|
# -------------- TOKEN ACTIONS --------------
|
||||||
|
|
||||||
|
|
||||||
|
def __set_lineno(self, value):
|
||||||
|
''' Setter for lexer.lineno
|
||||||
|
'''
|
||||||
|
self.lex.lineno = value
|
||||||
|
|
||||||
|
|
||||||
|
def __get_lineno(self):
|
||||||
|
''' Getter for lexer.lineno
|
||||||
|
'''
|
||||||
|
if self.lex is None:
|
||||||
|
return 0
|
||||||
|
|
||||||
|
return self.lex.lineno
|
||||||
|
|
||||||
|
lineno = property(__get_lineno, __set_lineno)
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_preproc_skip(self, t):
|
||||||
|
r'[ \t]+'
|
||||||
|
pass # Ignore whitespaces and tabs
|
||||||
|
|
||||||
|
|
||||||
|
def t_CHAR(self, t):
|
||||||
|
r"'.'" # A single char
|
||||||
|
|
||||||
|
t.value = ord(t.value[1])
|
||||||
|
t.type = 'INTEGER'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_HEXA(self, t):
|
||||||
|
r'([0-9][0-9a-fA-F]*[hH])|(\$[0-9a-fA-F]+)'
|
||||||
|
|
||||||
|
if t.value[0] == '$':
|
||||||
|
t.value = t.value[1:] # Remove initial '$'
|
||||||
|
else:
|
||||||
|
t.value = t.value[:-1] # Remove last 'h'
|
||||||
|
|
||||||
|
t.value = int(t.value, 16) # Convert to decimal
|
||||||
|
t.type = 'INTEGER'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_BIN(self, t):
|
||||||
|
r'(%[01]+)|([01]+[bB])' # A Binary integer
|
||||||
|
# Note 00B is a 0 binary, but
|
||||||
|
# 00Bh is a 12 in hex. So this pattern must come
|
||||||
|
# after HEXA
|
||||||
|
|
||||||
|
if t.value[0] == '%':
|
||||||
|
t.value = t.value[1:] # Remove initial %
|
||||||
|
else:
|
||||||
|
t.value = t.value[:-1] # Remove last 'b'
|
||||||
|
|
||||||
|
t.value = int(t.value, 2) # Convert to decimal
|
||||||
|
t.type = 'INTEGER'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_preproc_INTEGER(self, t):
|
||||||
|
r'[0-9]+' # an integer decimal number
|
||||||
|
|
||||||
|
t.value = int(t.value)
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
def t_INITIAL_ID(self, t):
|
||||||
|
r'[_a-zA-Z.]([.]?[_a-zA-Z0-9\\@\#]+)*[:]?(\\\W)?' # Any identifier
|
||||||
|
|
||||||
|
tmp = t.value # Saves original value
|
||||||
|
if tmp[-1] == ':':
|
||||||
|
t.type = 'LABEL'
|
||||||
|
t.value = tmp[:-1]
|
||||||
|
return t
|
||||||
|
if tmp[0] == "." and (tmp[-2:] == "\@" or tmp[-3:] == "\@:"):
|
||||||
|
t.type = "LOCALLABEL"
|
||||||
|
t.value = tmp[1:]
|
||||||
|
return t
|
||||||
|
|
||||||
|
t.value = tmp.upper() # Convert it to uppercase, since our internal tables uses uppercase
|
||||||
|
id = tmp.lower()
|
||||||
|
|
||||||
|
t.type = reserved_instructions.get(id)
|
||||||
|
if t.type is not None: return t
|
||||||
|
|
||||||
|
t.type = pseudo.get(id)
|
||||||
|
if t.type is not None: return t
|
||||||
|
|
||||||
|
t.type = regs8.get(id)
|
||||||
|
if t.type is not None: return t
|
||||||
|
|
||||||
|
t.type = flags.get(id)
|
||||||
|
if t.type is not None: return t
|
||||||
|
|
||||||
|
t.type = regs16.get(id, 'ID')
|
||||||
|
if t.type == 'ID':
|
||||||
|
t.value = tmp # Restores original value
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_preproc_ID(self, t):
|
||||||
|
r'[_a-zA-Z][_a-zA-Z0-9]*' # preprocessor directives
|
||||||
|
|
||||||
|
t.type = preprocessor.get(t.value.lower(), 'ID')
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_COMMA(self, t):
|
||||||
|
r','
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_ADDR(self, t):
|
||||||
|
r'\$'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_LP(self, t):
|
||||||
|
r'\('
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_RP(self, t):
|
||||||
|
r'\)'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_RB(self, t):
|
||||||
|
r'\['
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_LB(self, t):
|
||||||
|
r'\]'
|
||||||
|
return t
|
||||||
|
|
||||||
|
def t_LSHIFT(self, t):
|
||||||
|
r'<<'
|
||||||
|
return t
|
||||||
|
def t_RSHIFT(self, t):
|
||||||
|
r'>>'
|
||||||
|
return t
|
||||||
|
|
||||||
|
def t_BITWISE_OR(self, t):
|
||||||
|
r'\|'
|
||||||
|
return t
|
||||||
|
def t_BITWISE_AND(self, t):
|
||||||
|
r'\&'
|
||||||
|
return t
|
||||||
|
def t_BITWISE_COMPLEMENT(self, t):
|
||||||
|
r'~'
|
||||||
|
return t
|
||||||
|
def t_LOGICAL_NOT(self, t):
|
||||||
|
r'\!'
|
||||||
|
return t
|
||||||
|
|
||||||
|
def t_PLUS(self, t):
|
||||||
|
r'\+'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_MINUS(self, t):
|
||||||
|
r'\-'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_MUL(self, t):
|
||||||
|
r'\*'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_DIV(self, t):
|
||||||
|
r'\/'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_POW(self, t):
|
||||||
|
r'\^'
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_APO(self, t):
|
||||||
|
r"'"
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_preproc_STRING(self, t):
|
||||||
|
r'"[^"]*"' # a doubled quoted string
|
||||||
|
t.value = t.value[1:-1] # Remove quotes
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_preproc_error(self, t):
|
||||||
|
''' error handling rule
|
||||||
|
'''
|
||||||
|
self.error("illegal character '%s'" % t.value[0])
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_preproc_CONTINUE(self, t):
|
||||||
|
r'\\\r?\n'
|
||||||
|
t.lexer.lineno += 1
|
||||||
|
|
||||||
|
# Allows line breaking
|
||||||
|
|
||||||
|
|
||||||
|
def t_COMMENT(self, t):
|
||||||
|
r';.*'
|
||||||
|
|
||||||
|
# Skip to end of line (except end of line)
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_preproc_NEWLINE(self, t):
|
||||||
|
r'\r?\n'
|
||||||
|
|
||||||
|
t.lexer.lineno += 1
|
||||||
|
t.lexer.begin('INITIAL')
|
||||||
|
|
||||||
|
return t
|
||||||
|
|
||||||
|
|
||||||
|
def t_INITIAL_SHARP(self, t):
|
||||||
|
r'\#'
|
||||||
|
|
||||||
|
if self.find_column(t) == 1:
|
||||||
|
t.lexer.begin('preproc')
|
||||||
|
else:
|
||||||
|
self.error("illegal character '%s'" % t.value[0])
|
||||||
|
|
||||||
|
|
||||||
|
def __init__(self):
|
||||||
|
''' Creates a new GLOBAL lexer instance
|
||||||
|
'''
|
||||||
|
self.lex = None
|
||||||
|
self.filestack = [] # Current filename, and line number being parsed
|
||||||
|
self.input_data = ''
|
||||||
|
self.tokens = tokens
|
||||||
|
self.next_token = None # if set to something, this will be returned once
|
||||||
|
|
||||||
|
|
||||||
|
def input(self, str):
|
||||||
|
''' Defines input string, removing current lexer.
|
||||||
|
'''
|
||||||
|
self.input_data = str
|
||||||
|
self.lex = lex.lex(object = self)
|
||||||
|
self.lex.input(self.input_data)
|
||||||
|
|
||||||
|
|
||||||
|
def token(self):
|
||||||
|
return self.lex.token()
|
||||||
|
|
||||||
|
|
||||||
|
def find_column(self, token):
|
||||||
|
''' Compute column:
|
||||||
|
- token is a token instance
|
||||||
|
'''
|
||||||
|
i = token.lexpos
|
||||||
|
while i > 0:
|
||||||
|
if self.input_data[i - 1] == '\n': break
|
||||||
|
i -= 1
|
||||||
|
|
||||||
|
column = token.lexpos - i + 1
|
||||||
|
|
||||||
|
return column
|
||||||
|
|
||||||
|
|
||||||
|
def msg(self, str):
|
||||||
|
''' Prints an error msg.
|
||||||
|
'''
|
||||||
|
#print '%s:%i %s' % (FILENAME, self.lex.lineno, str)
|
||||||
|
print '%s:%s %s' % (FILENAME, "?", str)
|
||||||
|
|
||||||
|
|
||||||
|
def error(self, str):
|
||||||
|
''' Prints an error msg, and exits.
|
||||||
|
'''
|
||||||
|
self.msg('Error: %s' % str)
|
||||||
|
|
||||||
|
sys.exit(1)
|
||||||
|
|
||||||
|
|
||||||
|
def warning(self, str):
|
||||||
|
''' Emmits a warning and continue execution.
|
||||||
|
'''
|
||||||
|
self.msg('Warning: %s' % str)
|
||||||
|
|
||||||
|
# Needed for states
|
||||||
|
tmp = lex.lex(object = Lexer(), lextab = 'zxbasmlextab')
|
||||||
|
|
||||||
|
if __name__ == '__main__':
|
||||||
|
FILENAME = sys.argv[1]
|
||||||
|
tmp.input(open(sys.argv[1]).read())
|
||||||
|
tok = tmp.token()
|
||||||
|
while tok:
|
||||||
|
print tok
|
||||||
|
tok = tmp.token()
|
Loading…
Reference in New Issue