Leitura
What
Permitir a leitura direta, com controle de versão, de conjuntos de dados do CKAN com as ferramentas frictionless (Python, R, JS)
from frictionless import Package
= Package('https://dados.mg.gov.br/dataset/name/datapackage.json')
dp = dp.get_resource('resource_name').to_pandas() df
library(frictionless)
<- read_package('https://dados.mg.gov.br/dataset/name/datapackage.json')
dp <- read_resource(dp, 'resource_name') df
Acceptance criteria
Snippets na interface de usuário devem indicar como fazer a leitura com diferentes ferramentas.
Exemplos:
Open questions
É possível a leitura do
datapackage.json
a partir da URL raiz do conjunto de dadoshttps://dados.mg.gov.br/dataset/name/
?Tanto o Datahub quanto o Datahub CKAN utilizam a propriedade
resource.path
como URLs e não como caminhos relativos. Existe alguma vantagem em alterar oresource.path
dos data packages durante a importação ou exportação no lugar de alterar as rotas da aplicação? Com esse tipo de alteração o linkhttps://dados.mg.gov.br/dataset/12253b1a-1171-4453-90f8-f84517cf147b/resource/f0486981-a883-45f2-815d-b3ebca32e6b7/download/datapackage.json
passaria a funcionar para leitura.Pode existir um descolamento entre a propriedade
resource.path
do data package e a propriedaderesource.url
do CKAN?
Examples/Research
Publish Your Data Package Online - Explicação das alternativas para disponibização na internet de pacotes de dados (It’s Only Files Online). O CKAN precisaria ser alterado para seguir as Key Tips desse artigo.
Conflito entre nome dos conjuntos de dados criados de forma descentralizada por ausência de namespaces #52
A proposta de valor do frictionless é fazer com que o capítulo não seja https://r4ds.had.co.nz/data-import.html
Se a instalação de ferramentas é uma fonte de custo e fricção, conseguimos permitir a integração do CKAN com notebooks computacional, como Binder? Vide Binder + Zenodo: A how-to guide e Six easy ways to run your Jupyter Notebook in the cloud