R - Umwandlung einer Kette von Wiederholungs-Aminosäuren aus z.B. NNNN zu (N4)

8

Ich berechne Haplotypen aus mehreren Sequenz-Alignments und erhalte Wiederholungsabschnitte wie RNNNNNNNT und RNNNT. Es gibt viele Variationen, die es schwierig machen, die Daten zu verstehen.

Die Daten sind unten aufgelistet und ich bin daran interessiert, die Spalte haplotypes_2 basierend auf haplotypes_1 wie angegeben zu generieren:

%Vor%     
K. Wamae 27.11.2017, 19:09
quelle

6 Antworten

1

Fast genau so wie @ d.b, aber in ein paar Funktionen umgewandelt, so dass es wiederverwendbar und leserfreundlich ist:

%Vor%     
Nathan Werth 27.11.2017, 20:23
quelle
7

Verwendung von stringr und einer benutzerdefinierten Funktion:

%Vor%     
manotheshark 27.11.2017 19:30
quelle
5
%Vor%     
d.b 27.11.2017 19:29
quelle
2

Hier ist eine Option mit gsubfn und str_count

%Vor%

Oder wie @G.Grothiedick vorgeschlagen hat, kann die str_count durch nchar

ersetzt werden %Vor%     
akrun 28.11.2017 06:51
quelle
1
%Vor%

Dies spielt auf meinen Kommentar an, es könnte ein Problem darin bestehen, sich zu verstecken, aber das Wesentliche ist da.

    
Dylan Lawrence 27.11.2017 19:20
quelle
1

Ich werde einen anderen vorschlagen:

%Vor%     
storaged 27.11.2017 19:34
quelle

Tags und Links