FASTA: la première ligne décrit la séquence
considérée (par exemple nom de la protéine correspondante),
les lignes suivantes sont des suites de lettres choisies dans
l'alphabet adéquat (par exemple A, C, G, T pour l'ADN, 20
lettres possibles pour les protéines, cf. le tutoriel).
Sur pcm2 le répertoire /var/db/blast/data/ contient
des bases de données d'ADN et de protéines au format FASTA
ce qui peut servir d'exemple.
Le programme blast peut être exécuté en mode distant
depuis un navigateur Internet, (cherchez BLAST dans les signets
Bioinformatique, on y trouve également un tutoriel (en anglais)).
Avantages: l'interface est plus conviviale et il n'y a
pas de problème d'installation
ni de mise-à-jour du logiciel et des bases de données.
Inconvénients: il n'y a aucun contrôle de la puissance de calcul
allouée et dépend du bon fonctionnement du réseau,
ne peut être utilisé à l'intérieur d'un autre programme.
On a donc aussi installé blast sur le serveur local
pcm2 avec un nombre limité de bases de données de séquences
d'ADN et de protéines. Ce qui permet également de s'exercer à
l'usage du logiciel en évitant d'encombrer ces serveurs Internet.
En mode local, il existe deux commandes : blastall et blastpgp.
ecoli.nt (comparaison d'ADN):
blastall -p blastn -d /var/db/blast/data/ecoli.nt -i test.txt
test.txt avec
la base de donnée ecoli.nt et affiche le résultat de la
comparaison. Utilisez Shift-PageUp et Shift-PageDown pour parcourir
les résultats. En utilisant l'option -o test.out ou la redirection
> test.out, on peut envoyer le résultat dans le fichier
test.out, puis on peut le lire avec un éditeur de texte, par
exemple :
emacs test.out &
blastall:
-p ...: blastp ou blastn (protéine ou nucléotide),
blastx (nucléotide contre protéine avec toutes les possibilités
de lecture), tblastn (protéine par rapport à nucléotide,
toutes possibilités de lecture) ou tblastx (nucléotide contre
nucléotide toutes possibilités de lecture).1-d ...: nom de la base de séquences par défaut nr.
Plusieurs noms de base de donnée peuvent être donnés.
-i ...: nom du fichier contenant la séquence à tester
-o ...: nom du fichier contenant le résultat de l'analyse.
blastall - pour avoir la liste complète des options.
blastpgp:
blastp qui recherche
des profils, ce qui peut par exemple servir à rechercher des séquences
homologues2