SPACY – MATCHER
O matcher é um módulo do SPACY destinado a encontrar padrões.
Um exemplo de código:
from spacy.matcher import Matcher
mat = Matcher(nlp.vocab)
padrao =[{"ORTH":"("},"SHAPE":"dd"},{"ORTH":")"},{"ORTH":"-","OP":"?"},{"IS_DIGIT":True})
doc= nlp("Meu telefone é (16) 981434112")
matches= matcher(doc)
for match_id, start, end in mat:
print(doc[start:end])
Tabela dos padrões do MATCHER
- ORTH, TEXT – Texto exato
- LOWER – Forma minuscula
- LENGTH – Tamanho do texto
- IS_ALPHA – É caracter
- IS_ASCII – É ascii
- IS_DIGIT – É numerico
- IS_LOWER – é caixa baixa
- IS_UPPER – É caixa alta
- IS_TITLE – É um titulo
- IS_PUNCT – Pontuação
- IS_SPACE – Espaco
- IS_STOP – Stop Word
- IS_SENT_START – Inicio de frase
- LIKE_NUM – Parece um numero
- LIKE_URL – Parece um endereço web
- LIKE_EMAIL – Parece um email
- SPACY – Tem espaço a direita
- POS – Tamanho
- TAG –
- MORPH –
- DEP –
- LEMMA – É lematizado
- Shape –
- ENT_TYPE –
- OP – Operador quantificador