Skip to content

Documentação: Elaboração e edição dos Metadados⚓︎

Necessidade e Diretrizes⚓︎

Na escala de maturidade de dados sugerida pela Sunlight Foundation, reduzir barreiras para acessar informações é considerada a intervenção mais básica na abertura de dados. Uma das formas de reduzir barreiras é prover um esquema de metadados. A LAI representou essa diretriz em seu artigo 8º.

Um esquema de metadados visa permitir a contextualização dos campos dos conjuntos dos dados. Em outras palavras, evidenciar a qualificação e usos dos mesmos, como por exemplo: quando ficou publicamente acessível; a data da última atualização; se é derivada de uma fonte primária, ou se foi modificada; qual sua licença de uso.

Trata-se, enfim, de informação que descreve, explica, localiza ou torna mais fácil de usar, manejar ou recuperar um dado. Quanto mais informação sobre o dado estiver provida de forma padronizada, mais valioso tal dado se torna.

Ter metadados, em um catálogo de todas as bases de dados (abertos ou não) foi um dos quesitos avaliados na Escala Brasil Transparente da CGU. Os atributos dos metadados requeridos nessa metodologia de avaliação foram: descrição do conteúdo, periodicidade de atualização, origem e responsável pelo gerenciamento, tamanho e formato.

A W3C, entidade internacional que desenvolve padrões para a web, elaborou um Guia de Melhores Práticas, em que existem três itens relacionados a metadados:

  1. Fornecer metadados (BP1) para leitura de pessoas e máquinas (computadores). Para leitura humana, poderia ser parte de uma página HTML na web ou um arquivo de texto em separado. Para leitura por máquina, os metadados poderiam ser providos em formato JSON, ou embutidos no formato HTML - sob a recomendação de reutilizar padrões de vocabulários populares.

  2. Fornecer metadados descritivos (BP2), de forma que pessoas entendam a natureza do conjunto de dados e suas distribuições (i.e. título, descrição, palavras-chave, data de publicação, entidade responsável pela publicação e contato com a mesma, cobertura temporal e espacial, data da última modificação e categorias) e os agentes de software identifiquem automaticamente tais conjuntos e distribuições.

  3. Fornecer metadados estruturais (BP3), de forma que pessoas interpretem o esquema de um conjunto de dados e agentes de software sejam capazes de processar automaticamente os dados das distribuições.

Os metadados devem, por fim, permitir a interoperabilidade entre diferentes sistemas.

Metadados no Portal de Dados Abertos de Minas Gerais⚓︎

Os conjuntos de dados (datasets) do Portal de Dados Abertos de Minas Gerais estão documentados conforme as especificações Frictionless Data (dados sem fricção), que atendem à caracterização descrita acima e possibilitam a validação automática dos dados por serviços ofertados pela comunidade.

Os padrões de epecificação da Fricitonless Data utilizam o formato json para descrição de metadados, e acompanham um conjunto de ferramentas de código aberto (bibliotecas, aplicações e instruções em diferentes linguagens) para aplicar os padrões. Dessa maneira, facilitam a gestão de metadados, a extração, a documentação, a limpeza, a organização, a validação e o compartilhamento dos dados.

Documentação é a etapa de elaborar os documentos de metadados de um conjunto de dados, enquanto que a validação corresponde à verificação se os dados estão de acordo com os metadados descritos.

Estas etapas poderiam ser custosas (i.e. tempo e esforço) demais para publicadores de dados, não fosse a possibilidade de emprego de ferramentas de código aberto, que permitem a automatização de boa parte desse trabalho.

Os padrões de especificação Frictionless podem ser consultados aqui

Datapackage (pacote de dados)⚓︎

Segundo a especificação frictionless data (Dados sem Fricção) adotada para o Portal de Dados Abertos, as propriedades das variáveis, dos arquivos (recursos) e do conjunto de dados (dataset) devem estar descritas num formato padronizado e legível por máquina.

A junção dos arquivos de dados, com os arquivos contendo a descrição (metadados) dessas três instâncias (variáveis, recursos e conjunto) formam um datapackage

A maior parte dos conjuntos têm sido descrita num formato tabular, com o arquivo separado por vírgulas (ou ponto-e-vírgula), extensão .csv, que pode ser representado assim:

tabular

As propriedades desse tipo de arquivo tabular (tabular data resource) estão descritas na especificação frictionless data.

Já para cada variável, ou coluna, a frictionless sugere um table schema, cuja especificação pode ser encontrada aqui. Pode-se elencar um conjunto mínimo de propriedades dessas variáveis/colunas:

  • Nome (legível por máquina, sem letras maiúsculas, sem acentos, espaços ou caracteres especiais);

  • Formato da variável (string, number, boolean, date, etc)

  • Título (humanamente legível)

  • Descrição (humanamente legível)

Não obstante, são exatamente essas 4 propriedades básicas que constam do Dicionário de Dados do Portal de Dados Abertos, conforme exemplo abaixo (coluna = nome, tipo = formato, rótulo = título):

dicionario

Metadados obrigatórios e facultativos no Portal de Dados Abertos de Minas Gerais⚓︎

Obrigatórios⚓︎

Conjunto (dataset):

  • Perfil (profile): para identificar a tipologia do conjunto de acordo com a especificação Dados sem Fricção (frictinoless data)

  • Nome (name): legível por máquina, sem espaços ou caracteres especiais

  • Título (title): legível por pessoas

  • Descrição (description): "Como Participar", "Controle de Alterações"

  • Catálogo origem (homepage): página (URL) do órgão onde está publicado o conjunto de dados.

  • Organização (owner_org): entidade custodiante dos dados

  • Versão (version): indica a versão do conjunto; também deve estar discriminada e detalhada na seção CHANGELOG

  • Publicador (title, role e mail): nome, papel e e-mail de contato do setor responsável pela autoria e publicação dos dados

  • Licença (name, title e path): para garantir o reúso indiscriminado dos dados abertos, com a devida atribuição da fonte

  • Palavras-chave/etiquetas (keywords)

  • Frequência de Atualização dos dados: intervalo temporal de atualização dos dados

Recursos (resources):

  • Perfil (profile): para identificar a tipologia do recurso de acordo com a especificação Dados sem Fricção (frictinoless data)

  • Nome (name): legível por máquina, sem espaços ou caracteres especiais

  • Título (title): legível por pessoas

  • Descrição (description):

  • Formato (format) do arquivo

  • Codificação (encoding) do arquivo

  • Pasta de localização do arquivo (path)

resource-json

  • Dicionário de dados (schema): características de cada variável (coluna, se tabular)

    • Nome (name)

    • Título (title)

    • Tipo (type)

    • Formato (format)

    • Descrição (description)

schema-json

Facultativos⚓︎

  • Documentação: URL de documento que expõe detalhes sobre o conjunto de dados.

  • Cobertura geográfica: localização ou região geográfica a que se referem os dados. Ex.: Recife.

  • Cobertura temporal (temporal): data ou período à que referem os dados. Ex.: 03/2012.

  • Granularidade geográfica: precisão geográfica da cobertura geográfica. Ex.: municipal.

  • Granularidade temporal: precisão temporal da cobertura temporal. Ex.: mês.

  • Referências: relações com outros conjuntos de dados.

  • Metodologia: processo de criação dos dados.

  • Vocabulário/ontologia: documentos estruturados com metadados específicos do conjunto de dados.


Last update: May 18, 2023 13:46:04
Created: March 10, 2023 15:05:51

Comments