Documentação ViralQC

🌐 Language / Idioma

This documentation is also available in English: Click here

ViralQC é uma ferramenta e pacote Python desenvolvido para identificação de vírus e controle de qualidade a partir de arquivos FASTA.

A ferramenta utiliza o Nextclade, o BLAST e uma série de lógicas internas para classificar sequências virais e realizar controle de qualidade de genomas completos, regiões ou genes-alvo.

A ferramenta foi desenvolvida com o objetivo de automatizar o uso das ferramentas Nextclade e BLAST pensando na integração com bancos de dados genômicos de diferentes vírus, de modo a diminuir erros de submissão (como por exemplo, submissão de genomas com informação taxonômica incorreta) e também providenciar para o usuário métricas de qualidade de genomas virais mesclando as métricas do Nextclade disponibilizadas por datasets padronizados mas também providenciar métricas generalistas e anotações com base nos genomas de referência (refseq) disponibilizados pelo NCBI.

Principais Funcionalidades

  • Identificação automática de vírus usando Nextclade e BLAST

  • Controle de qualidade de genomas virais usando Nextclade

  • Extração de regiões-alvo (CDS ou genes específicos)

  • Análise de múltiplos vírus em um único arquivo FASTA

  • Configuração flexível através do arquivo datasets.yml

Conteúdo da Documentação

Referências

Ao utilizar o viralQC para fins acadêmicos, cite também:

  • Nextclade: Aksamentov, I., Roemer, C., Hodcroft, E. B., & Neher, R. A., (2021). Nextclade: clade assignment, mutation calling and quality control for viral genomes. JOSS, 6(67), 3773.

  • BLAST: Altschul SF, et al. (1990). Basic local alignment search tool. J Mol Biol. 215(3):403-10.