Erstens könnte dies das falsche Forum für diese Frage sein, da es sehr spezifisch für R + Bioconductor ist. Folgendes habe ich:
%Vor%Jetzt ist cd4T ein ExpressionSet-Objekt, das eine große Matrix mit 19794 Zeilen (Sondensätzen) und 15 Spalten (Samples) umschließt. Die letzte Zeile löscht alle Sondensets, die keine entsprechenden Gensymbole haben. Nun besteht das Problem, dass die meisten Gene in diesem Satz mehr als einem Sondensatz zugeordnet sind. Sie können dies sehen, indem Sie
tun %Vor%So haben nur 6897 meiner 19794-Sondensätze ein einzigartiges Sondenset - & gt; Genzuordnungen. Ich möchte irgendwie die Expressionslevel jedes mit jedem Gen assoziierten Sondensatzes kombinieren. Mir ist die tatsächliche Sonden-ID für jede Sonde egal. Ich würde gerne mit einem ExpressionSet enden, das die zusammengeführten Informationen enthält, da meine gesamte nachgelagerte Analyse für die Arbeit mit dieser Klasse ausgelegt ist.
Ich denke, ich kann einen Code schreiben, der das von Hand macht, und einen neuen Ausdruck von Grund auf neu erstellen. Ich gehe jedoch davon aus, dass dies kein neues Problem sein kann und dass es dafür einen Code gibt, der eine statistisch fundierte Methode zur Kombination der Genexpressionsniveaus verwendet. Ich nehme an, dass es auch einen richtigen Namen dafür gibt, aber meine Googles sind nicht sehr nützlich. Kann jemand helfen?
Ich bin kein Experte, aber von dem, was ich im Laufe der Jahre gesehen habe, hat jeder seine eigene Lieblingsmethode zum Kombinieren von Sondensätzen. Die beiden Methoden, die ich am häufigsten in großem Umfang verwendet habe, verwenden nur das probeset, das die größte Varianz in der Expressionsmatrix hat, und das andere, um den Mittelwert der probe-Sets zu nehmen und ein Meta-probe-Set daraus zu erstellen . Für kleinere Blöcke von Sondensätzen habe ich gesehen, dass Leute intensivere Methoden verwenden, indem sie pro-Probe-Set-Plots betrachten, um ein Gefühl dafür zu bekommen, was passiert ... im Allgemeinen passiert, dass sich ein Sondensatz als der "gute" herausstellt Ruhe ist nicht sehr gut.
Ich habe dafür keinen generalisierten Code gesehen - als Beispiel haben wir kürzlich in meinem Labor festgestellt, dass einige von uns unsere eigenen privaten Funktionen haben, um dasselbe zu tun.
Das gesuchte Wort ist ' nsFilter
' in R Genfilterpaket. Diese Funktion weist zwei wichtige Dinge zu, sie sucht nur nach Entrez-Gen ids , der Rest der Sondensätze wird herausgefiltert. Wenn eine Entrez-ID mehrere Testsätze hat, wird der größte Wert beibehalten und die anderen entfernt. Jetzt haben Sie eine einzigartige Entrez-Gen-ID-Matrix. Hoffe, das hilft.
Tags und Links r bioconductor