Marseille Forum

Cherche informaticien

Rachel-Morgane · 9 · 2696

Rachel-Morgane

  • Tranquille collègue
  • *
    • Messages: 53
  • Epouse d'Odab's
Alors voila , je suis actuellement en thèse et le logiciel que je dois utiliser pour traiter mes données nécessite que je convertisse mes données car elles ne sont pas au "bon format". Je dois passer pour cela par de nombreuses étapes intermédiaires qui sont longues et qui augmentent le risque que je fasse des erreurs.
je cherche donc un informaticien qui puisse m'aider afin de mettre au point un programme qui permette de convertir ces données directement.
je ne peux pas proposer de remuneration pour ce travail, par contre, lors de publications son nom sera cité et le programme pourrait je crois être mis en ligne en étant payant.


Traces d Huile

  • Forumeu(r)/(se) aïolisé
  • **********
    • Messages: 13444
  • En route pour l'aventure...
    • Concentration motos et motards à Marseille Plan de Campagne

Rachel-Morgane

  • Tranquille collègue
  • *
    • Messages: 53
  • Epouse d'Odab's
Mes données sont des séquences d'ADN de différents individus; c'est une suite de 4 lettres différentes  : A, T, G, C; qui sont au départ sous un format text. Il y a environ 200à 300 lettres. Je dois les les alignées les unes en dessous des autres et faire en sorte qu'elle aient toutes le même nombre de lettres. (je passe pour cela par 2 logiciels). Et ensuite je dois les convertir en format "fasta"(format text spécial) et enfin en format "arp" (format texte aussi) .Je fais tous cela sans logiciel cette fois, c'est a dire , enlever les espaces, faire en sorte que mes données commencent toutes par un signe particulier etc...
J'espere que mon explication n'est pas trop embrouillée.....En résumé je dois passer d'un format text a un autre ce qui me prend beaucoup de temps ainsi qu'a tous ceux qui utilisent ces logiciels.


ralphez

  • Invité
coucou

moi je ne suis pas informaticien mais biologiste et je travaille réguliérement sur des séquences d'ADN.

Je travaille avec pas mal de logiciel et sur des sites internet pour travailler ces séquences si tu me décrit un peu mieux ton probléme je peux essayer de t'aider...

parceque là avec tes explications je suis un peu perdu  :oops:

Ralph


Rachel-Morgane

  • Tranquille collègue
  • *
    • Messages: 53
  • Epouse d'Odab's
Je vais essayer d’expliquer mon problème mais je ne suis pas sure d’être très clair(…)
Voila je travaille sur la génétique des populations et plus précisément sur l’ADN mitochondrial. Mon but est de comparer les séquences d’ADN des individus de populations différentes , ce qui permet de savoir par exemple quels sont les liens entre différentes populations etc….
Pour comparer ces ADN , je dois comparer leurs différences, donc les différentes mutations propres a chaque individu.
Au départ j’ai une séquence de référence (prise sur des bases de donnés sur le net) et j’ai une liste des positions des mutations des individus (Exemple : le nucléotide A à la position 15 est remplacé par un T chez l’individu français ; cette mutation se retrouve chez l’espagnol  et en plus il a une mutation C en T à la position 45 etc….) Ces différences je les ai dans un tableau excel.
Je dois ensuite copier la séquence de référence (a peu près 200 nucléotides et a la main trouver la position 15 chez l’individu 1, la remplacer et faire cela avec les centaines d’individu que j’ai ).
Une fois que j’ai ces séquences , je dois les aligner et faire en sorte qu’elles aient toutes la même taille. Pour cela je dois passer par 2 logiciels, clustal et seaview.
Une fois fait, je dois remettre mes données au format « arp » nécessaire pour faire marcher mon logiciel, arlequin. Ce format est un format text particulier , je dois par exemple mettre des > au début de chaque séquence etc… Si je fais une seule erreur le logiciel ne marchera pas.
En resumé , je dois passer par plusieurs étapes sous format text,( qui n’est pas le plus sympa a utiliser . ).
Voila comment je m’y prend pour avoir mes séquences :
-   A la base ma sequence de reference est obtenue sous format text.
-   La liste des mutations est sous un tableau excel.
-   Je copie colle ma séquence de référence dans word, en ajoutant des virgules a chaque nucléotides puis j’ouvre cette séquence dans excel.pour qu’il n’y ait qu’un seul nucléotide par cellule (je dois le faire 2 fois car mes séquences sont trop longues pour tenir toutes dans excel)
-   Une fois dans excel, je fais plusieurs copier coller de la séquence de référence et a l’aide du tableau, je remplace manuellement a chaque individu tout ce qui est différent par rapport a la séquence de référence.
-   Une fois cela fait je transfere mes données sous le format text.
-   Ces données, je les fais passer dans les logiciels clustal et seaview
-   Enfin je dois encore remettre ces données au format « arp » pour arlequin.

 (Bon pour faire court, si tu connais le logiciel arlequin de génétique des populations, tu dois sans savoir a quel point c’est long de mettre des données au bon format alors si t’as un truc pour aller plus vite… Apparemment il existe des logiciels un peu similaires de conversion de données.


Yogi_OM

  • Invité
l'ideal est de bosser avec la commande "awk" sous linux / unix qui fait des merveilles dans la gestion des fichiers type texte !


Traces d Huile

  • Forumeu(r)/(se) aïolisé
  • **********
    • Messages: 13444
  • En route pour l'aventure...
    • Concentration motos et motards à Marseille Plan de Campagne
Je plussoie complètement avec Yogi, c'est awk (un complément du korn shell unix) qui est le meilleur outil pour ce genre de travail sur des fichiers texte... J'avais fait un truc comme ça durant mon stage de fin d'études...

Tu devrais facilement pouvoir te trouver un stagiaire dans ta fac non ? Ou un chercheur dans les labos d'info... ?


Rachel-Morgane

  • Tranquille collègue
  • *
    • Messages: 53
  • Epouse d'Odab's
Merci pour ces renseignements.
Je ne travaille pas a la fac, et le groupe de travail que je connais planche sur d'autres sujets, il n'est donc pas facile de travailler sur ce projet.!!
Je sais que certains chercheurs qui utilisent le logiciel arlequin bossent sous linux/unix mais ce que je trouve fou c'est que malgré cela la plupart d'entre eux perdent comme moi, toujours un temps fou pour convertir ces données et je me disais qu'un informaticien pourrait trouver une bonne solution.
En tous cas je vous remercie encore pour ces conseils.


ralphez

  • Invité
salut

oula, effectivement compliqué ton truc.

Je connais bien clustlaw mais je ne connais pas le logiciel arlequin.

Désolé mais sur ce coup je ne connais pas d'astuce qui pourrait te servir pour simplifier ta méthode


 

SMF spam blocked by CleanTalk