Como Adicionar Novos Datasets

Adicionando Dataset do Nextclade

Se o dataset está disponível no repositório oficial do Nextclade:

Passo 1: Identificar o Dataset

nextclade dataset list

Passo 2: Editar datasets.yml

Adicione uma nova entrada em viralqc/config/datasets.yml:

nextclade_data:
  meu-novo-virus:
    dataset: "caminho/completo/do/dataset"
    tag: "2025-XX-XX--XX-XX-XXZ"
    virus_name: "Nome Completo do Vírus"
    virus_tax_id: 123456
    virus_species: "Nome da Espécie"
    virus_species_tax_id: 789012
    segment: "Unsegmented"
    ncbi_id: "NC_XXXXXX.X"
    target_gene: "nome_do_gene"
    target_regions: ["gene1", "gene2"]
    private_mutation_total_threshold: 50

Passo 3: Obter Informações Taxonômicas

Consulte NCBI Taxonomy para:

  • virus_tax_id: ID taxonômico do vírus

  • virus_species_tax_id: ID taxonômico da espécie

Passo 4: Testar

vqc get-nextclade-datasets --cores 2

Adicionando Dataset do GitHub

Para datasets personalizados hospedados no GitHub:

Passo 1: Preparar Repositório

Seu repositório deve conter:

seu-repositorio/
└── caminho/do/dataset/
    ├── reference.fasta
    ├── genome_annotation.gff3
    ├── tree.json (opcional)
    ├── pathogen.json
    └── sequences.fasta (opcional)

Passo 2: Adicionar ao datasets.yml

github:
  meu-virus-customizado:
    repository: "seu-usuario/seu-repositorio"
    dataset: "caminho/dentro/do/repo"
    tag: "main"
    virus_name: "Meu Vírus Customizado"
    virus_tax_id: 123456
    virus_species: "Nome da Espécie"
    virus_species_tax_id: 789012
    segment: "Unsegmented"
    ncbi_id: "NC_XXXXXX.X"
    target_gene: "gene1"
    target_regions: ["gene1", "gene2"]
    private_mutation_total_threshold: 40

Passo 3: Testar

vqc get-nextclade-datasets --cores 2

Verifique se o dataset foi baixado em datasets/external_datasets/meu-virus-customizado/.