Validação Automática⚓︎
Esta etapa também serve para oferecer informação íntegra aos usuários. Consiste em comparar se os dados de cada variável espelham fielmente a descrição contida no respectivo dicionário de dados.
Verificar a validação dos dados no Portal de Dados com o plugin ckanext-datapackage-creator⚓︎
tela 1ª validação com um recurso
Para cada edição em algum recurso em que o botão 'Publish' tenha sido acionado, haverá um novo relatório de validação acessível, como exemplificado abaixo:
No caso acima, houve uma referência incorreta de chaves primária (primary key) e chave estrangeira (foreign key).
Corrigir eventuais inconsistências (rol exemplificativo)⚓︎
- Tipo de dado da coluna: data, numeral inteiro/decimal, com vírgulas, etc.
- Chaves primária e estrangeira
- Nomes cabeçalho
- Linhas repetidas
- Encoding
Verificar relacionamento⚓︎
tela DER com 1º recurso tela DER com um chaveamento/relação entre 2 tabelas
Verificar dicionários de dados⚓︎
tela dicionário de dados
tela view metadata
Operação da validação com o framework da Frictionless Data⚓︎
O conjunto de ferramentas da especificação Frictionless permite automatizar a validação, seja no HD local, ou conectado a um repositório GitHub onde o conjuntos de dados esteja hospedado.
Na oficina "Dados abertos sem fricção" (vídeo e apresentação) realizada em novembro de 2020, durante a semana INOVA, foi demonstrado como preparar um conjunto de dados para publicação, com ferramenta online da Frictionless Data (especificação de metadados utilizada no Portal de Dados Abertos). Seu conteúdo inclui a documentação de um pequeno conjunto de dados, com a ferramenta online datapackage creator seguido da validação e limpeza.
O webnário "Como gerenciar dados abertos utilizando o DPCKAN" (vídeo e apresentação), realizado na Escola de Dados da Open Knowledge Brasil, em março de 2023, também abordou exemplos de como inferir, documentar os metadados e validá-los, com a ferramenta CLI (linha de comando) dpckan e também com a extensão (plugin) ckanext-datapackage-creator, de interface gráfica (GUI).
Uma lista compreensiva dos erros de validação mais comuns pode ser acessada na próxima sessão.
Created: March 10, 2023 15:05:51