Configuração de Datasets
O ViralQC utiliza um arquivo de configuração chamado datasets.yml para definir quais vírus e datasets estão disponíveis. Este arquivo está localizado em viralqc/config/datasets.yml.
Estrutura do arquivo datasets.yml
O arquivo possui duas seções principais:
nextclade_data: Datasets do repositório oficial do Nextcladegithub: Datasets personalizados hospedados no GitHub
nextclade_data:
virus-identificador:
dataset: "caminho/do/dataset"
tag: "versão-do-dataset"
virus_name: "Nome do Vírus"
# ... outros parâmetros
github:
virus-identificador:
repository: "usuario/repositorio"
dataset: "caminho/do/dataset"
tag: "development"
virus_name: "Nome do Vírus"
# ... outros parâmetros
Datasets do Nextclade
Datasets oficiais ou da comunidade disponíveis no nextclade_data:
nextclade_data:
denv1:
dataset: "community/v-gen-lab/dengue/denv1"
tag: "2025-04-02--19-11-08Z"
virus_name: "Dengue virus type 1"
virus_tax_id: 11053
virus_species: "Orthoflavivirus denguei"
virus_species_tax_id: 3052464
segment: "Unsegmented"
ncbi_id: "NC_001477.1"
target_gene: "E"
target_regions: ["C", "prM", "E"]
private_mutation_total_threshold: 70
Datasets do GitHub
Datasets personalizados hospedados em repositórios GitHub:
github:
zikav:
repository: "dezordi/nextclade_data_workflows"
dataset: "zikaV/dataset"
tag: "development"
virus_name: "Zika virus"
virus_tax_id: 64320
virus_species: "Orthoflavivirus zikaense"
virus_species_tax_id: 3048459
segment: "Unsegmented"
ncbi_id: "NC_035889.1"
target_gene: "E"
target_regions: ["C", "prM", "E"]
private_mutation_total_threshold: 40
Parâmetros de Configuração
Parâmetro |
Tipo |
Descrição |
|---|---|---|
|
String |
Caminho do dataset no nextclade_data ou GitHub |
|
String |
Nome do repositório GitHub ( |
|
String |
Versão/tag do dataset ou branch |
|
String |
Nome completo do vírus |
|
Integer |
ID taxonômico do vírus no NCBI |
|
String |
Nome da espécie viral |
|
Integer |
ID taxonômico da espécie |
|
String |
Nome do segmento (“Unsegmented” para não-segmentados) |
|
String |
Accession do genoma de referência |
|
String |
Nome do gene/CDS alvo |
|
List |
Lista de genes/CDS alvo |
|
Integer |
Limite de mutações privadas |
Nota
Para vírus não-segmentados (Dengue, Zika, SARS-CoV-2), use "Unsegmented".
Para vírus segmentados, especifique o nome do segmento (ex: "HA", "NA", "L", "M", "S").