Woher bekomme ich Genexpressionsdaten?

8

Ich wollte Genexpressionsdaten herunterladen, die aus Microarray-Experimenten stammen. Ich weiß nicht viel über dieses Thema, aber wie ich verstehe, Zeilen entsprechen oft Genen und Spalten entsprechen Proben. Idealerweise erwarte ich eine Matrix von Genexpressionsdaten.

Ich habe im Internet gesucht, und obwohl es so aussieht, als ob es viele Orte zum Herunterladen solcher Daten gibt, wenn ich die Daten tatsächlich herunterlade, bekomme ich die Matrix des Genausdrucks nicht. Könnte mich jemand bitte wissen lassen, ob es einen Ort gibt oder wie Genexpressionsdaten in dem Format heruntergeladen werden, das ich oben erwarte?

jede Hilfe wird geschätzt.

    
Jane Wayne 23.03.2012, 04:19
quelle

2 Antworten

6

Wenn Sie sich z.B. dieser Eintrag im Genexpression Omnibus , eines der Dateiformate ist" TXT "und enthält nach einigen Metadaten eine Matrix, nach der Sie fragen.

    
Jouni K. Seppänen 23.03.2012, 04:46
quelle
5

Im Prinzip können Microarray-Daten als Matrix mit Proben als Spalten und Zeilen als Gene ausgedrückt werden (bitte verzeihen Sie das Wortspiel). In der Praxis ist es ein wenig komplizierter, eine solche Repräsentation für die Rohdaten eines Experiments abzuleiten. Wenn Sie nur einen vorverarbeiteten Datensatz erhalten, haben Sie wenig Garantie, dass die Rohdaten so verarbeitet wurden, dass sie mit anderen Experimenten vergleichbar sind oder dass die zugrunde liegenden Rohdaten eine ausreichend hohe Qualität aufwiesen.

Sie werden auch qualitativ hochwertige Metadaten benötigen, um aus der Datenmatrix eine Bedeutung abzuleiten. Was waren die biologischen Bedingungen und Quellen, aus denen die Proben stammten? Welche Gene entsprechen die Sonden auf dem jeweiligen Array? (Beachte, dass 9890_at "probeset id" ist, ein eindeutiger Identifikator einer molekularen Sonde eines bestimmten Sequenzdesigns, der dann auf ein Gen abgebildet werden muss, wobei verschiedene Sonden für dasselbe Gen nicht genau die gleiche Antwort ergeben.) p>

Die öffentlichen Mikroarray-Datenbanken bieten daher neben einer verarbeiteten Datenmatrix viele zusätzliche Informationen. Zusätzlich zu GEO , das bereits erwähnt wurde, würde ich ArrayExpress , das meiner Meinung nach die bessere Suchoberfläche hat.

Das Werkzeug der Wahl für die Arbeit mit Microarray-Daten für viele ist die Bioconductor Software-Suite für die statistische Programmiersprache R .

Bioconductor stellt APIs zum Herunterladen von Rohdaten mit zugehörigen Metadaten aus beiden Repositories bereit, siehe GEO-Bio-Paket und ArrayExpress-Bio-Paket .

Beide Pakete, wie die meisten Bioconductor-Software, verfügen über ausgezeichnete "Vignetten", die die Software vorstellen: GEO-Bio-Vignette und Arrayexpress-Bio-Vignette

Diese Vignetten sollten Ihnen auch Beispiele geben, die Rohdaten zu nehmen und "Esets" (Ausdruckssätze) aus den Rohdaten abzuleiten. An diesem Punkt können Sie auf die Genexpressionsmatrix im Bioconductor-Eset-Objekt zugreifen, und Sie haben ein Objekt und APIs, um die erforderlichen Metadaten abzufragen.

Beachten Sie, dass es verschiedene Arten von Microarrays gibt. Ich würde empfehlen, mit Daten von Affymetrix-Arrays zu beginnen, da sie wahrscheinlich die einfachsten Analyse-APIs haben.

    
Alex Stoddard 23.03.2012 15:00
quelle

Tags und Links