Estrutura de Saída

Quando você executa run-from-fasta, o ViralQC cria a seguinte estrutura:

output/             # Diretório de saída especificado pelo usuário (ex: --output-dir meus_resultados)
└── .snakemake/     # Arquivos gerados na análise do Snakemake
└── outputs/        # Arquivos de saída do ViralQC
    ├── identified_datasets/
    │   ├── datasets_selected.tsv
    │   ├── viruses.tsv
    │   ├── viruses.external_datasets.tsv
    │   ├── unmapped_sequences.txt
    │   └── <virus>/sequences.fa
    ├── blast_results/
    │   ├── unmapped_sequences.blast.tsv
    │   └── blast_viruses.list
    ├── nextclade_results/
    │   ├── <virus>.nextclade.tsv
    │   └── <accession>.generic.nextclade.tsv
    ├── gff_files/
    │   ├── <virus>.nextclade.gff
    │   ├── <accession>.generic.nextclade.gff
    │   └── per_sample/
    │       └── <id>_<nome_amostra>.gff
    ├── tbl_files/
    │   ├── <virus>.nextclade.tbl
    │   ├── <accession>.generic.nextclade.tbl
    │   └── per_sample/
    │       └── <id>_<nome_amostra>.tbl
    ├── logs/
    │   ├── nextclade_sort.log
    │   ├── blast.log
    │   └── ...
    ├── results.tsv
    ├── sequences_target_regions.bed
    └── sequences_target_regions.fasta

Arquivo Principal: results.tsv (ou .csv, .json)

Este é o arquivo que contém os resultados consolidados de todas as análises:

1. Identificação da Sequência

Coluna

Tipo

Descrição

seqName

String

Nome da sequência no arquivo FASTA de entrada

virus

String

Nome do vírus identificado

virus_tax_id

Integer

ID taxonômico do vírus no NCBI Taxonomy

virus_species

String

Nome da espécie viral

virus_species_tax_id

Integer

ID taxonômico da espécie

segment

String

Segmento genômico (ex: “HA”, “NA”, “Unsegmented”)

ncbi_id

String

Accession do genoma de referência no NCBI

dataset

String

Identificador do dataset usado

datasetVersion

String

Versão/tag do dataset

clade

String

Clado filogenético (quando disponível)

2. Métricas de Qualidade (Sistema A-D do ViralQC)

Coluna

Tipo

Descrição

genomeQuality

String

Qualidade geral do genoma (A, B, C ou D)

genomeQualityScore

Float

Score numérico normalizado (0-24)

missingDataQuality

String

Qualidade baseada em dados ausentes (A, B, C ou D)

privateMutationsQuality

String

Qualidade baseada em mutações privadas (A, B, C ou D)

mixedSitesQuality

String

Qualidade baseada em sítios mistos (A, B, C ou D)

snpClustersQuality

String

Qualidade baseada em clusters de SNPs (A, B, C ou D)

frameShiftsQuality

String

Qualidade baseada em frameshifts (A, B, C ou D)

stopCodonsQuality

String

Qualidade baseada em códons de parada (A, B, C ou D)

cdsCoverageQuality

String

Qualidade de cobertura por CDS (ex: “E: A, prM: B”)

targetRegionsQuality

String

Qualidade das regiões-alvo (A, B, C, D ou vazio)

targetGeneQuality

String

Qualidade do gene-alvo (A, B, C, D ou vazio)

3. Métricas de Qualidade (Nextclade)

Coluna

Tipo

Descrição

qc.overallScore

Float

Score geral de qualidade do Nextclade

qc.overallStatus

String

Status de qualidade do Nextclade (good, mediocre, bad)

qc.privateMutations.total

Integer

Total de mutações privadas (Nextclade)

qc.privateMutations.score

Float

Score de mutações privadas (Nextclade)

qc.privateMutations.status

String

Status de mutações privadas (Nextclade)

qc.missingData.score

Float

Score de dados ausentes (Nextclade)

qc.missingData.status

String

Status de dados ausentes (Nextclade)

qc.mixedSites.totalMixedSites

Integer

Total de sítios mistos (Nextclade)

qc.mixedSites.score

Float

Score de sítios mistos (Nextclade)

qc.mixedSites.status

String

Status de sítios mistos (Nextclade)

qc.snpClusters.totalSNPs

Integer

Total de SNPs em clusters (Nextclade)

qc.snpClusters.score

Float

Score de clusters de SNPs (Nextclade)

qc.snpClusters.status

String

Status de clusters de SNPs (Nextclade)

qc.frameShifts.totalFrameShifts

Integer

Total de frameshifts (Nextclade)

qc.frameShifts.score

Float

Score de frameshifts (Nextclade)

qc.frameShifts.status

String

Status de frameshifts (Nextclade)

qc.stopCodons.totalStopCodons

Integer

Total de códons de parada (Nextclade)

qc.stopCodons.score

Float

Score de códons de parada (Nextclade)

qc.stopCodons.status

String

Status de códons de parada (Nextclade)

4. Cobertura e Regiões

Coluna

Tipo

Descrição

coverage

Float

Cobertura do genoma (0.0 a 1.0)

cdsCoverage

String

Cobertura de cada CDS (formato: “gene1: 0.98, gene2: 1.0”)

targetRegionsCoverage

String

Cobertura das regiões-alvo definidas em target_regions

targetGeneCoverage

String

Cobertura do gene-alvo definido em target_gene

targetRegions

String

Lista de regiões-alvo (separadas por |)

targetGene

String

Nome do gene-alvo principal

5. Mutações Nucleotídicas

Coluna

Tipo

Descrição

totalSubstitutions

Integer

Total de substituições nucleotídicas

totalDeletions

Integer

Total de deleções nucleotídicas

totalInsertions

Integer

Total de inserções nucleotídicas

totalFrameShifts

Integer

Total de frameshift mutations

totalMissing

Integer

Total de nucleotídeos faltantes (N’s ou gaps)

totalNonACGTNs

Integer

Total de caracteres não-ACGTN

substitutions

String

Lista de substituições (formato: gene:pos:ref>alt)

deletions

String

Lista de deleções

insertions

String

Lista de inserções

frameShifts

String

Lista de frameshifts

alignmentScore

Float

Score do alinhamento

6. Mutações de Aminoácidos

Coluna

Tipo

Descrição

totalAminoacidSubstitutions

Integer

Total de substituições de aminoácidos

totalAminoacidDeletions

Integer

Total de deleções de aminoácidos

totalAminoacidInsertions

Integer

Total de inserções de aminoácidos

totalUnknownAa

Integer

Total de aminoácidos desconhecidos

aaSubstitutions

String

Lista de substituições de aminoácidos

aaDeletions

String

Lista de deleções de aminoácidos

aaInsertions

String

Lista de inserções de aminoácidos

7. Mutações Privadas (Detalhadas)

Coluna

Tipo

Descrição

privateNucMutations.totalPrivateSubstitutions

Integer

Total de substituições privadas

privateNucMutations.totalLabeledSubstitutions

Integer

Total de mutações privadas conhecidas/catalogadas

privateNucMutations.totalUnlabeledSubstitutions

Integer

Total de mutações privadas não catalogadas

privateNucMutations.totalReversionSubstitutions

Integer

Total de reversões (mutações que revertem à referência ancestral)

Nota sobre formatos de saída:

  • TSV/CSV: Todas as colunas são strings ou valores numéricos

  • JSON: Colunas como cdsCoverage, cdsCoverageQuality e targetRegionsCoverage são formatadas como arrays de objetos para facilitar parsing programático

Arquivos de Regiões-Alvo

sequences_target_regions.bed

seq1    94      2419    C,prM,E
seq2    0       10735   genome

sequences_target_regions.fasta

Sequências extraídas das regiões que atendem aos critérios de qualidade.

Arquivos de Anotação

gff_files/

Contém arquivos de anotação GFF3 produzidos pelo Nextclade para cada dataset de vírus. Cada arquivo abrange todas as amostras analisadas para aquele vírus (identificadas por IDs numéricos).

Arquivo

Descrição

<virus>.nextclade.gff

GFF multi-amostra da execução padrão do Nextclade

<accession>.generic.nextclade.gff

GFF multi-amostra da execução genérica do Nextclade via BLAST

gff_files/per_sample/

Um arquivo GFF por amostra, gerado automaticamente a partir da saída combinada acima. O ID numérico utilizado internamente pelo viralQC é substituído pelo cabeçalho original da amostra em todo o arquivo (diretiva de região, coluna 1 e atributos).

  • Formato do nome: {id}_{nome_amostra}.gff

tbl_files/

Contém arquivos de tabela de features (TBL) de 5 colunas produzidos pelo Nextclade para cada dataset de vírus. O formato TBL é compatível com as ferramentas de submissão do NCBI.

Arquivo

Descrição

<virus>.nextclade.tbl

TBL multi-amostra da execução padrão do Nextclade

<accession>.generic.nextclade.tbl

TBL multi-amostra da execução genérica do Nextclade via BLAST

tbl_files/per_sample/

Um arquivo TBL por amostra, gerado automaticamente a partir da saída combinada acima. O cabeçalho >Feature <id> de cada bloco é substituído pelo nome original da amostra.

  • Formato do nome: {id}_{nome_amostra}.tbl

Nota: Arquivos em per_sample/ podem estar vazios (zero bytes) para amostras nas quais o Nextclade foi executado sem arquivo GFF de referência.