lineare Regression mit lm () - überrascht durch das Ergebnis

8

Ich habe eine lineare Regression für die Daten verwendet, die ich habe, mit der Funktion lm . Alles funktioniert (keine Fehlermeldung), aber ich bin irgendwie überrascht von dem Ergebnis: Ich habe den Eindruck, dass R eine Gruppe von Punkten "verfehlt", d.h. Schnittpunkt und Steigung sind nicht die beste Lösung. Ich beziehe mich beispielsweise auf die Gruppe von Punkten an den Koordinaten x = 15-25, y = 0-20.

Meine Fragen:

  • Gibt es eine Funktion, die mit "erwarteten" Koeffizienten und "lm-berechneten" Koeffizienten übereinstimmt?
  • habe ich beim Codieren einen dummen Fehler gemacht, den lm zu tun das?

Im Anschluss an einige Antworten: zusätzliche Informationen zu x und y

x und y sind beide visuelle Schätzungen der Krankheitssymptome. Beide haben die gleiche Unsicherheit.   

Die Daten und der Code sind hier:

%Vor%     
NOTM 06.08.2015, 18:03
quelle

2 Antworten

8

Versuchen Sie Folgendes:

%Vor%

Die Summe der quadrierten Residuen ist unter der lm Fit-Linie niedriger. Dies ist zu erwarten, da reg_lin_int und reg_lin_slp garantiert den kleinsten quadratischen Fehler ergeben.

Intuitiv wissen wir, dass Schätzer unter quadrierten Verlustfunktionen empfindlich auf Ausreißer reagieren. Es "fehlt" die Gruppe am unteren Ende, weil es näher an die Gruppe oben links kommt, die viel weiter entfernt ist - und die quadratische Entfernung gibt diesen Punkten mehr Gewicht.

Tatsächlich, wenn wir die kleinsten absoluten Abweichungen Regression verwenden (dh eine absolute Verlustfunktion anstelle eines Quadrats angeben) Das Ergebnis ist viel näher an Ihrer Vermutung:

%Vor%

(Pro-Tipp: Verwenden Sie lwd , um Ihre Diagramme viel besser lesbar zu machen)

Was Ihrem Ziel noch näher kommt, ist Total Least Squares , wie von @nongkrong und @MikeWilliamson erwähnt . Hier ist das Ergebnis von TLS auf Ihrer Probe:

%Vor%

    
MichaelChirico 06.08.2015, 18:10
quelle
6

Du hast schon eine nette Antwort, aber vielleicht ist das auch hilfreich:

Wie Sie wissen, minimiert OLS die Summe der quadrierten Fehler in y-Richtung. Dies bedeutet, dass die Unsicherheit Ihrer x-Werte vernachlässigbar ist, was oft der Fall ist. Aber möglicherweise ist das bei Ihren Daten nicht der Fall. Wenn wir annehmen, dass Unsicherheiten in x und y gleich sind und eine Deming-Regression durchführen, erhalten wir eine Anpassung, die der von Ihnen erwarteten entspricht.

%Vor%

Sie geben keine detaillierten Informationen über Ihre Daten an. Dies könnte nützlich sein oder nicht.

    
Roland 06.08.2015 18:38
quelle