Configuração de Datasets

O ViralQC utiliza um arquivo de configuração chamado datasets.yml para definir quais vírus e datasets estão disponíveis. Este arquivo está localizado em viralqc/config/datasets.yml.

Estrutura do arquivo datasets.yml

O arquivo possui duas seções principais:

  1. nextclade_data: Datasets do repositório oficial do Nextclade

  2. github: Datasets personalizados hospedados no GitHub

nextclade_data:
  virus-identificador:
    dataset: "caminho/do/dataset"
    tag: "versão-do-dataset"
    virus_name: "Nome do Vírus"
    # ... outros parâmetros

github:
  virus-identificador:
    repository: "usuario/repositorio"
    dataset: "caminho/do/dataset"
    tag: "development"
    virus_name: "Nome do Vírus"
    # ... outros parâmetros

Datasets do Nextclade

Datasets oficiais ou da comunidade disponíveis no nextclade_data:

nextclade_data:
  denv1:
    dataset: "community/v-gen-lab/dengue/denv1"
    tag: "2025-04-02--19-11-08Z"
    virus_name: "Dengue virus type 1"
    virus_tax_id: 11053
    virus_species: "Orthoflavivirus denguei"
    virus_species_tax_id: 3052464
    segment: "Unsegmented"
    ncbi_id: "NC_001477.1"
    target_gene: "E"
    target_regions: ["C", "prM", "E"]
    private_mutation_total_threshold: 70

Datasets do GitHub

Datasets personalizados hospedados em repositórios GitHub:

github:
  zikav:
    repository: "dezordi/nextclade_data_workflows"
    dataset: "zikaV/dataset"
    tag: "development"
    virus_name: "Zika virus"
    virus_tax_id: 64320
    virus_species: "Orthoflavivirus zikaense"
    virus_species_tax_id: 3048459
    segment: "Unsegmented"
    ncbi_id: "NC_035889.1"
    target_gene: "E"
    target_regions: ["C", "prM", "E"]
    private_mutation_total_threshold: 40

Parâmetros de Configuração

Parâmetro

Tipo

Descrição

dataset

String

Caminho do dataset no nextclade_data ou GitHub

repository

String

Nome do repositório GitHub (usuario/repo)

tag

String

Versão/tag do dataset ou branch

virus_name

String

Nome completo do vírus

virus_tax_id

Integer

ID taxonômico do vírus no NCBI

virus_species

String

Nome da espécie viral

virus_species_tax_id

Integer

ID taxonômico da espécie

segment

String

Nome do segmento (“Unsegmented” para não-segmentados)

ncbi_id

String

Accession do genoma de referência

target_gene

String

Nome do gene/CDS alvo

target_regions

List

Lista de genes/CDS alvo

private_mutation_total_threshold

Integer

Limite de mutações privadas

Nota

Para vírus não-segmentados (Dengue, Zika, SARS-CoV-2), use "Unsegmented". Para vírus segmentados, especifique o nome do segmento (ex: "HA", "NA", "L", "M", "S").