Ich berechne Haplotypen aus mehreren Sequenz-Alignments und erhalte Wiederholungsabschnitte wie RNNNNNNNT und RNNNT. Es gibt viele Variationen, die es schwierig machen, die Daten zu verstehen.
Die Daten sind unten aufgelistet und ich bin daran interessiert, die Spalte haplotypes_2 basierend auf haplotypes_1 wie angegeben zu generieren:
%Vor%Fast genau so wie @ d.b, aber in ein paar Funktionen umgewandelt, so dass es wiederverwendbar und leserfreundlich ist:
%Vor% Verwendung von stringr
und einer benutzerdefinierten Funktion:
Dies spielt auf meinen Kommentar an, es könnte ein Problem darin bestehen, sich zu verstecken, aber das Wesentliche ist da.