ANOVA mit Blockaufbau und wiederholten Messungen

8

Ich versuche einige statistische Analysen zu einem Feldversuch durchzuführen, der über zwei Standorte in der gleichen Wachstumsperiode erstellt wurde.

An beiden Orten ( Site , Niveaus: HF | NW) war das experimentelle Design ein RCBD mit 4 (n = 4) Blöcken ( Block , Niveaus: 1 | 2 | 3 | 4 innerhalb jedes Site ). Es gab 4 Behandlungen - 3 verschiedene Formen von Stickstoffdünger und eine Kontrolle (kein Stickstoffdünger) ( Treatment , Niveaus: AN, U, IE, C). Während des Feldversuchs gab es 3 verschiedene Zeiträume, die mit der Zugabe von Düngemitteln begannen und mit der Ernte des Grases endeten. Diese Zeiträume erhielten die Stufen 1 | 2 | 3 unter dem Faktor N_app .

Es gibt eine Reihe von Messungen, die ich folgende Nullhypothese H0 testen möchte:

Treatment (H0) hatte keinen Einfluss auf die Messung

Zwei der Messungen, an denen ich besonders interessiert bin, sind: Grasausbeute und Ammoniakemissionen.

Beginnend mit Gras Ertrag ( Dry_tonnes_ha ) als hier hier ein schöner ausgewogener Datensatz

Die Daten können in R unter Verwendung des folgenden Codes heruntergeladen werden:

%Vor%

Ich habe versucht, eine ANOVA mit dem folgenden Ansatz auszuführen:

%Vor%

Ich habe ein paar Bedenken damit.

Erstens, was ist der beste Weg, um Annahmen zu testen? Für eine einfache Einweg-ANOVA würde ich shapiro.test() und bartlett.test() für die abhängige Variable ( Dry_tonnes_ha ) verwenden, um Normalität und Heterogenität der Varianz zu bewerten. Kann ich den gleichen Ansatz hier verwenden?

Zweitens mache ich mir Sorgen, dass N_app ein wiederholtes Maß ist, da die gleiche Messung über 3 verschiedene Zeiträume aus demselben Diagramm entnommen wird - was ist der beste Weg, um diese wiederholten Messungen in das Modell zu integrieren?

Drittens bin ich nicht sicher, ob Block in Site am besten verschachtelt werden kann. An beiden Standorten sind die Werte von Block 1: 4. Muss ich für jede Site eindeutige Block -Niveaus haben?

Ich habe hier einen weiteren Datensatz für NH3-Emissionen . R-Code zum Herunterladen:

%Vor%

Dafür habe ich alle obigen Bedenken mit dem Zusatz, dass der Datensatz unausgewogen ist. Bei HF für N_app 1 n = 3, aber für N_app 2 & amp; 3 n = 4 Bei NW n = 4 für alle N_app -Ebenen. Bei NF Messungen wurden nur auf den Treatment Ebenen U und IU vorgenommen. At NW Messungen wurden am Treatment levels AN , U und IU

vorgenommen

Ich bin nicht sicher, wie ich mit dieser zusätzlichen Komplexität umgehen soll. Ich bin versucht, nur als 2 separate Website zu analysieren (die Tatsache, dass die N_app -Perioden nicht an jedem Standort gleich sind, kann diesen Ansatz fördern). Kann ich hier eine Summe der Quadrate ANOVA vom Typ III verwenden?

Es wurde mir vorgeschlagen, dass ein linearer gemischter Modellierungsansatz der Weg nach vorne sein könnte, aber ich bin nicht damit vertraut, diese zu verwenden.

Ich würde Ihre Gedanken zu einem der oben genannten begrüßen. Danke für deine Zeit.

Rory

    
Rory Shaw 23.01.2017, 14:48
quelle

2 Antworten

4

Um Ihre erste Frage zu beantworten, wie Sie die Annahmen am besten testen können. Während Ihr Versuch, einen anderen statistischen Test zu verwenden, der in R implementiert ist, vernünftig ist, würde ich tatsächlich nur die Verteilung visualisieren und sehen, ob die Daten die ANOVA-Annahmen erfüllen. Dieser Ansatz mag etwas subjektiv erscheinen, aber er funktioniert in den meisten Fällen.

  • unabhängig, identisch verteilte (i.i.d) Daten: Dies ist eine Frage, die Sie möglicherweise bereits beantwortet haben, basierend darauf, wie viel Sie über Ihre Daten wissen. Es ist möglich, einen Chi-Quadrat-Test zu verwenden, um die Unabhängigkeit zu bestimmen (oder nicht).
  • normalverteilte Daten: Verwenden Sie ein Histogramm / QQ-Plot, um dies zu überprüfen. Aufgrund der Verteilung halte ich es für sinnvoll, trotz der leicht bimodalen Verteilung aov zu verwenden.

(Es scheint, dass die Log-Transformation dazu beiträgt, die Normalitätsannahme weiter zu erfüllen. Dies ist etwas, was Sie besonders für Downstream-Analysen in Betracht ziehen sollten.)

%Vor%

In Bezug auf Ihre zweite Frage, was der beste Weg ist, wiederholte Maßnahmen in das Modell zu integrieren, ist: Leider ist es schwierig, ein solches "bestes" Modell zu bestimmen, aber basierend auf meinem Wissen (hauptsächlich durch Genomics Big Data) möchte ein lineares Mixed-Effekt-Modell verwenden. Dies kann zum Beispiel durch das Paket lme4 R implementiert werden. Da Sie anscheinend bereits wissen, wie Sie ein lineares Modell in R konstruieren, sollten Sie kein Problem damit haben, lme4 functions anzuwenden.

Ihre dritte Frage, ob zwei Variablen verschachtelt werden sollen, ist schwierig. Wenn ich Sie wäre, würde ich mit Site und Block beginnen, als wären sie unabhängige Faktoren. Wenn Sie jedoch wissen, dass sie nicht unabhängig sind, sollten Sie sie wahrscheinlich verschachteln.

Ich denke, Ihre Fragen und Bedenken sind ziemlich offen. Ich empfehle Ihnen, solange Sie eine plausible Begründung haben, weiterzumachen.

    
David C. 27.01.2017 02:48
quelle
1

Ich stimme @David C bei der Verwendung visueller Diagnosen zu. Einfache QQ-Plots sollten funktionieren

%Vor%

Die Log-Transformation erscheint mir vernünftig. Sie können dies auch aus dem Dichtediagramm sehen, das langschwänzig und etwas bi-modal ist %Vor%

Alternativ können Sie Lineup-Plots (Buja et al, 2009) verwenden, wenn Sie möchten. Ich bin mir nicht sicher, ob sie in diesem Fall benötigt werden. Vignette bereitgestellt

%Vor%

Für die anderen Annahmen können Sie einfach die Standarddiagnosediagramme von lm

verwenden %Vor%

Ich sehe in diesen Plots nichts zu problematisch.

    
Alex W 01.02.2017 21:54
quelle

Tags und Links