Leitura

What

Permitir a leitura direta, com controle de versão, de conjuntos de dados do CKAN com as ferramentas frictionless (Python, R, JS)

from frictionless import Package

dp = Package('https://dados.mg.gov.br/dataset/name/datapackage.json')
df = dp.get_resource('resource_name').to_pandas()
library(frictionless)

dp <- read_package('https://dados.mg.gov.br/dataset/name/datapackage.json')
df <- read_resource(dp, 'resource_name')

Acceptance criteria

  • Snippets na interface de usuário devem indicar como fazer a leitura com diferentes ferramentas.

    Exemplos:

Open questions

  • É possível a leitura do datapackage.json a partir da URL raiz do conjunto de dados https://dados.mg.gov.br/dataset/name/?

  • Tanto o Datahub quanto o Datahub CKAN utilizam a propriedade resource.path como URLs e não como caminhos relativos. Existe alguma vantagem em alterar o resource.path dos data packages durante a importação ou exportação no lugar de alterar as rotas da aplicação? Com esse tipo de alteração o link https://dados.mg.gov.br/dataset/12253b1a-1171-4453-90f8-f84517cf147b/resource/f0486981-a883-45f2-815d-b3ebca32e6b7/download/datapackage.json passaria a funcionar para leitura.

  • Pode existir um descolamento entre a propriedade resource.path do data package e a propriedade resource.url do CKAN?

Examples/Research

  • Publish Your Data Package Online - Explicação das alternativas para disponibização na internet de pacotes de dados (It’s Only Files Online). O CKAN precisaria ser alterado para seguir as Key Tips desse artigo.

  • Conflito entre nome dos conjuntos de dados criados de forma descentralizada por ausência de namespaces #52

  • A proposta de valor do frictionless é fazer com que o capítulo não seja https://r4ds.had.co.nz/data-import.html

  • Se a instalação de ferramentas é uma fonte de custo e fricção, conseguimos permitir a integração do CKAN com notebooks computacional, como Binder? Vide Binder + Zenodo: A how-to guide e Six easy ways to run your Jupyter Notebook in the cloud