Estrutura de Saída
Quando você executa run-from-fasta, o ViralQC cria a seguinte estrutura:
output/ # Diretório de saída especificado pelo usuário (ex: --output-dir meus_resultados)
└── .snakemake/ # Arquivos gerados na análise do Snakemake
└── outputs/ # Arquivos de saída do ViralQC
├── identified_datasets/
│ ├── datasets_selected.tsv
│ ├── viruses.tsv
│ ├── viruses.external_datasets.tsv
│ ├── unmapped_sequences.txt
│ └── <virus>/sequences.fa
├── blast_results/
│ ├── unmapped_sequences.blast.tsv
│ └── blast_viruses.list
├── nextclade_results/
│ ├── <virus>.nextclade.tsv
│ └── <accession>.generic.nextclade.tsv
├── gff_files/
│ ├── <virus>.nextclade.gff
│ ├── <accession>.generic.nextclade.gff
│ └── per_sample/
│ └── <id>_<nome_amostra>.gff
├── tbl_files/
│ ├── <virus>.nextclade.tbl
│ ├── <accession>.generic.nextclade.tbl
│ └── per_sample/
│ └── <id>_<nome_amostra>.tbl
├── logs/
│ ├── nextclade_sort.log
│ ├── blast.log
│ └── ...
├── results.tsv
├── sequences_target_regions.bed
└── sequences_target_regions.fasta
Arquivo Principal: results.tsv (ou .csv, .json)
Este é o arquivo que contém os resultados consolidados de todas as análises:
1. Identificação da Sequência
Coluna |
Tipo |
Descrição |
|---|---|---|
|
String |
Nome da sequência no arquivo FASTA de entrada |
|
String |
Nome do vírus identificado |
|
Integer |
ID taxonômico do vírus no NCBI Taxonomy |
|
String |
Nome da espécie viral |
|
Integer |
ID taxonômico da espécie |
|
String |
Segmento genômico (ex: “HA”, “NA”, “Unsegmented”) |
|
String |
Accession do genoma de referência no NCBI |
|
String |
Identificador do dataset usado |
|
String |
Versão/tag do dataset |
|
String |
Clado filogenético (quando disponível) |
3. Métricas de Qualidade (Nextclade)
Coluna |
Tipo |
Descrição |
|---|---|---|
|
Float |
Score geral de qualidade do Nextclade |
|
String |
Status de qualidade do Nextclade (good, mediocre, bad) |
|
Integer |
Total de mutações privadas (Nextclade) |
|
Float |
Score de mutações privadas (Nextclade) |
|
String |
Status de mutações privadas (Nextclade) |
|
Float |
Score de dados ausentes (Nextclade) |
|
String |
Status de dados ausentes (Nextclade) |
|
Integer |
Total de sítios mistos (Nextclade) |
|
Float |
Score de sítios mistos (Nextclade) |
|
String |
Status de sítios mistos (Nextclade) |
|
Integer |
Total de SNPs em clusters (Nextclade) |
|
Float |
Score de clusters de SNPs (Nextclade) |
|
String |
Status de clusters de SNPs (Nextclade) |
|
Integer |
Total de frameshifts (Nextclade) |
|
Float |
Score de frameshifts (Nextclade) |
|
String |
Status de frameshifts (Nextclade) |
|
Integer |
Total de códons de parada (Nextclade) |
|
Float |
Score de códons de parada (Nextclade) |
|
String |
Status de códons de parada (Nextclade) |
4. Cobertura e Regiões
Coluna |
Tipo |
Descrição |
|---|---|---|
|
Float |
Cobertura do genoma (0.0 a 1.0) |
|
String |
Cobertura de cada CDS (formato: “gene1: 0.98, gene2: 1.0”) |
|
String |
Cobertura das regiões-alvo definidas em |
|
String |
Cobertura do gene-alvo definido em |
|
String |
Lista de regiões-alvo (separadas por |) |
|
String |
Nome do gene-alvo principal |
5. Mutações Nucleotídicas
Coluna |
Tipo |
Descrição |
|---|---|---|
|
Integer |
Total de substituições nucleotídicas |
|
Integer |
Total de deleções nucleotídicas |
|
Integer |
Total de inserções nucleotídicas |
|
Integer |
Total de frameshift mutations |
|
Integer |
Total de nucleotídeos faltantes (N’s ou gaps) |
|
Integer |
Total de caracteres não-ACGTN |
|
String |
Lista de substituições (formato: gene:pos:ref>alt) |
|
String |
Lista de deleções |
|
String |
Lista de inserções |
|
String |
Lista de frameshifts |
|
Float |
Score do alinhamento |
6. Mutações de Aminoácidos
Coluna |
Tipo |
Descrição |
|---|---|---|
|
Integer |
Total de substituições de aminoácidos |
|
Integer |
Total de deleções de aminoácidos |
|
Integer |
Total de inserções de aminoácidos |
|
Integer |
Total de aminoácidos desconhecidos |
|
String |
Lista de substituições de aminoácidos |
|
String |
Lista de deleções de aminoácidos |
|
String |
Lista de inserções de aminoácidos |
7. Mutações Privadas (Detalhadas)
Coluna |
Tipo |
Descrição |
|---|---|---|
|
Integer |
Total de substituições privadas |
|
Integer |
Total de mutações privadas conhecidas/catalogadas |
|
Integer |
Total de mutações privadas não catalogadas |
|
Integer |
Total de reversões (mutações que revertem à referência ancestral) |
Nota sobre formatos de saída:
TSV/CSV: Todas as colunas são strings ou valores numéricos
JSON: Colunas como
cdsCoverage,cdsCoverageQualityetargetRegionsCoveragesão formatadas como arrays de objetos para facilitar parsing programático
Arquivos de Regiões-Alvo
sequences_target_regions.bed
seq1 94 2419 C,prM,E
seq2 0 10735 genome
sequences_target_regions.fasta
Sequências extraídas das regiões que atendem aos critérios de qualidade.
Arquivos de Anotação
gff_files/
Contém arquivos de anotação GFF3 produzidos pelo Nextclade para cada dataset de vírus. Cada arquivo abrange todas as amostras analisadas para aquele vírus (identificadas por IDs numéricos).
Arquivo |
Descrição |
|---|---|
|
GFF multi-amostra da execução padrão do Nextclade |
|
GFF multi-amostra da execução genérica do Nextclade via BLAST |
gff_files/per_sample/
Um arquivo GFF por amostra, gerado automaticamente a partir da saída combinada acima. O ID numérico utilizado internamente pelo viralQC é substituído pelo cabeçalho original da amostra em todo o arquivo (diretiva de região, coluna 1 e atributos).
Formato do nome:
{id}_{nome_amostra}.gff
tbl_files/
Contém arquivos de tabela de features (TBL) de 5 colunas produzidos pelo Nextclade para cada dataset de vírus. O formato TBL é compatível com as ferramentas de submissão do NCBI.
Arquivo |
Descrição |
|---|---|
|
TBL multi-amostra da execução padrão do Nextclade |
|
TBL multi-amostra da execução genérica do Nextclade via BLAST |
tbl_files/per_sample/
Um arquivo TBL por amostra, gerado automaticamente a partir da saída combinada acima.
O cabeçalho >Feature <id> de cada bloco é substituído pelo nome original da amostra.
Formato do nome:
{id}_{nome_amostra}.tbl
Nota: Arquivos em
per_sample/podem estar vazios (zero bytes) para amostras nas quais o Nextclade foi executado sem arquivo GFF de referência.