Como fazer um dicionário de dados
A exploração de dados se inicia com uma boa organização. Um dicionário de dados é uma espécie de glossário: uma lista de termos e métricas com suas respectivas descrições e definições. O dicionário de dados é fundamental para tornar uma pesquisa reprodutível, pois possibilita que outras pessoas entendam o contexto da coleta e armazenamento do conjunto de dados. O seu propósito principal é explicar quais as variáveis do conjunto de dados, seus valores e o que significam.
Considere por exemplo o seguinte conjunto de dados:
nome_da_variavel, definicao, tipo_variavel, valores_permitidos, exemplo ID_PART, Identificador único atribuído a cada participante sequencialmente, integer, 001-999 NM_PART, Nome do participante, varchar,, DT_NASC, Data de nascimento do participante, date, 01-31/01-12/1900-2021 SEXO, Sexo do participante, int, 1=FEMININO; 2=MASCULINO
1 Nome da Variável
A primeira coluna deve conter o nome da variável exatamente como ele aparece na tabela/arquivo/planilha.
Alguns prefixos podem ajudar a identificar a natureza da variável de antemão:
- NM_
- Nomes
- TP_
- Tipo
- DT_
- Data
- CD_ ou CO_
- Código
- QT_
- Quantidade
- AN_
- Ano
- ME_
- Mês
- ID_
- Identificador
- IN_
- Presença ou ausência de uma característica
2 Definição
Definição da variável. Ela deve refletir a forma que você a utiliza, com a intenção de que outros possam entender o seu uso.
Existem várias formas de se definir a variável mas, quando possível, formulá-la na forma gênero-diferenciação: "A é um B que C.". Por exemplo, "Um A)triângulo é uma B)figura plana que C)possui três lados. 1
3 Tipo da Variável
Contém o tipo e/ou unidade de medida da variável. Em se tratando de variáveis tabulares, seguir o padrão de tipos do PostgreSQL. Por exemplo
- integer
- Variáveis numéricas inteiras (escolha mais comum no postgres)
- varchar, text
- para dados textuais. No caso de haver um tamanho máximo \(N\) para a coluna, especificar como
varchar(N)
. - real
- Variáveis numéricas de ponto flutuante
- date
- Variáveis que especificam datas.
4 Valores permitidos (opcional)
Faixa de valores permitidos para a variável. Ajuda a identificar observações (linhas) incorretas, e/ou verificar se a leitura dos dados foi efetuada corretamente.
Para variáveis do tipo date
, olhar a especificação para formatação.
5 Referências
A principal referência é a Iniciativa para Documentação de Dados (Data Documentation Initiative – DDI), um padrão internacional descrevendo dados produzidos por questionários e outros métodos observacionais em ciências sociais, econômicas e de saúde: https://ddialliance.org/
Alguns exemplos de dicionários de dados podem ser encontrados na página do Serviço Geológico dos Estados Unidos.
Footnotes:
Evitar usar definições circulares como "Uma bola de futebol é uma bola usada no futebol."