Recode Nominal Variablen In Stata Forex

Willkommen beim Institut für digitale Forschung und Erziehung Regression mit SAS Kapitel 5: Zusätzliche Codierungssysteme für kategoriale Variablen in der Regressionsanalyse Kapitelübersicht 5.1 Einfache Codierung 5.2 Vorwärtsdifferenzcodierung 5.3 Rückwärtsdifferenzkodierung 5.4 Helmert-Codierung 5.5 Reverse Helmert-Codierung 5.6 Abweichungscodierung 5.7 Orthogonales Polynom Codierung 5.8 Benutzerdefinierte Codierung 5.9 Zusammenfassung Kategoriale Variablen erfordern bei der Regressionsanalyse besondere Aufmerksamkeit, da sie im Gegensatz zu dichotomen oder stetigen Variablen nicht gleich in die Regressionsgleichung eingegeben werden können. Zum Beispiel, wenn Sie eine Variable namens Rasse, die 1 Hispanic, 2 Asiatische 3 Schwarz 4 Weiß codiert ist, dann Eingabe Rasse in Ihrer Regression wird auf die lineare Wirkung der Rasse, die wahrscheinlich nicht das, was Sie beabsichtigt. Stattdessen müssen kategorische Variablen wie diese in eine Reihe von Variablen umcodiert werden, die dann in das Regressionsmodell eingegeben werden können. Es gibt eine Vielzahl von Codierungssystemen, die beim Codieren kategorischer Variablen verwendet werden können. Idealerweise würden Sie ein Codierungssystem wählen, das die Vergleiche widerspiegelt, die Sie machen möchten. In Kapitel 3 der Regression mit SAS Web Book haben wir die Verwendung von kategorischen Variablen in der Regressionsanalyse behandelt, die sich auf die Verwendung von Dummy-Variablen konzentriert, aber das ist nicht das einzige Codierungsschema, das Sie verwenden können. Sie können beispielsweise jede Ebene mit der nächsthöheren Ebene vergleichen, wobei Sie in diesem Fall eine Quottendifferenzquot-Codierung verwenden möchten, oder Sie möchten jede Ebene mit dem Mittelwert der nachfolgenden Ebenen der Variablen vergleichen Möchten Sie quotHelmertquot-Codierung verwenden. Durch die bewusste Auswahl eines Codierungssystems erhalten Sie Vergleiche, die für die Prüfung Ihrer Hypothesen aussagekräftig sind. Unabhängig von dem Codierungssystem, das Sie wählen, wird der Test der Gesamteffekt der kategorischen Variablen (d. h. der Gesamteffekt der Rasse) gleich bleiben. Unten ist eine Tabelle mit verschiedenen Arten von Kontrasten und den Vergleich, den sie machen. Name des Kontrasts Vergleicht jeden Level einer Variablen mit dem Referenzpegel Benachbarte Ebenen einer Variablen (jede Ebene minus der nächsten Ebene) Benachbarte Ebenen einer Variablen (jede Ebene minus der vorherigen Ebene) Vergleichen Sie die Ebenen einer Variablen mit dem Mittelwert der Folge Ebenen der Variablen Vergleicht die Ebenen einer Variablen mit dem Mittelwert der vorherigen Ebenen der Variablen Vergleicht die Abweichungen von den großen mittleren orthogonalen Polynomkontrasten Es gibt ein paar Notizen über die oben aufgeführten Kodierungssysteme. Die erste ist, dass sie geplante Vergleiche und nicht posthoc Vergleiche darstellen. Mit anderen Worten, sie sind Vergleiche, die Sie vor der Analyse Ihrer Daten planen, nicht Vergleiche, die Sie denken, sobald Sie die Ergebnisse der vorläufigen Analysen gesehen haben. Auch einige Formen der Kodierung machen mehr Sinn mit ordinalen kategorischen Variablen als mit nominalen kategorischen Variablen. Im folgenden zeigen wir Beispiele mit Rasse als kategoriale Variable, die eine nominale Variable ist. Da die Einfacheffektkodierung den Mittelwert der abhängigen Variablen für jede Ebene der kategorialen Variablen mit dem Mittelwert der abhängigen Variablen für den Referenzpegel vergleicht, ist sie mit einer Nominalvariablen sinnvoll. Jedoch kann es nicht so viel Sinn machen, ein Codierungsschema zu verwenden, das die lineare Wirkung des Rennens testet. Wie wir jede Art von Codierung System zu beschreiben, beachten wir die Codierung Systeme, mit denen es nicht so viel Sinn, eine nominale Variable verwenden. Außerdem können Sie feststellen, dass wir bei der Erstellung der Kontrastcodierungsschemata mehrere Regeln befolgen. Weitere Informationen zu diesen Regeln finden Sie im Abschnitt Benutzerdefinierte Codierung. Diese Seite veranschaulicht zwei Möglichkeiten, wie Sie Analysen unter Verwendung dieser Codierungsschemata durchführen können: 1) Verwenden von proc glm mit Schätzanweisungen, um quotcontrastquot-Koeffizienten zu definieren, die Ebenen der kategorialen Variablen angeben, die verglichen werden sollen, und 2) mit proc reg. Wenn Sie proc reg verwenden, um Kontraste zu erstellen, müssen Sie zunächst k-1 neue Variablen erstellen (wobei k die Anzahl der Ebenen der kategorischen Variablen ist) und diese neuen Variablen als Prädiktoren in Ihrem Regressionsmodell verwenden. Methode 1 verwendet eine Art der Codierung, die wir quotcontrast codingquot aufrufen werden, während Methode 2 eine Art der Codierung verwendet, die wir quotregression Codingquot anrufen. Die Beispiel-Datendatei Die Beispiele auf dieser Seite verwenden das Dataset namens hsb2.sas7bdat und wir konzentrieren uns auf das kategorische Variablen-Rennen. Die vier Ebenen hat (1 Hispanic, 2 Asian, 3 African American und 4 White) und wir schreiben als unsere abhängige Variable schreiben. Obwohl unser Beispiel eine Variable mit vier Ebenen verwendet, arbeiten diese Codierungssysteme mit Variablen, die mehr oder weniger Kategorien haben. Unabhängig davon, welches Codierungssystem Sie auswählen, haben Sie immer eine weniger umcodierte Variable als die Ebenen der ursprünglichen Variablen. In unserem Beispiel hat unsere kategorische Variable vier Ebenen, so dass wir drei neue Variablen haben werden (eine Variable, die dem endgültigen Niveau der kategorischen Variablen entspricht, wäre überflüssig und daher unnötig). Bevor wir irgendwelche Analysen betrachten, betrachten wir den Mittelwert der abhängigen Variablen, schreiben. Für jede Rasse. Dies hilft bei der Interpretation der Ausgabe aus späteren Analysen. Die Ergebnisse der einfachen Codierung sind der Dummy-Codierung sehr ähnlich, da jede Ebene mit dem Referenzpegel verglichen wird. Im Beispiel unten ist Stufe 4 der Referenzpegel, und der erste Vergleich vergleicht Pegel 1 mit Pegel 4, der zweite Vergleich Pegel 2 mit Pegel 4 und der dritte Vergleich Pegel 3 mit Pegel 4. Prozeß 1: PROC GLM Die Tabelle Unten zeigt die einfache Codierung, die die oben beschriebenen Vergleiche vornimmt. Der erste Kontrast vergleicht Pegel 1 mit Pegel 4 und Pegel 1 wird mit 1 codiert und Pegel 4 mit -1 codiert. Ebenso vergleicht der zweite Kontrast Level 2 mit Level 4 durch Codierung von Level 2 als 1 und Level 4 als -1. Wie Sie mit Kontrast-Codierung sehen können, können Sie die Bedeutung der Vergleiche einfach durch Inspektion der Kontrast-Koeffizienten zu erkennen. Zum Beispiel, wenn man die Kontrastkoeffizienten für c3 betrachtet, kann man sehen, dass sie die Ebene 3 mit der Stufe 4 vergleicht. Einfache Kontrastkodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm zu bilden sind. Wie Sie sehen, wird für jeden Kontrast eine separate Schätzanweisung verwendet. Die Kontrastschätzung für den ersten Kontrast vergleicht den Mittelwert der abhängigen Variablen, schreiben. Für die Level 1 und 4 mit -7.597 und ist statistisch signifikant (plt.000). Der mit diesem Test assoziierte t-Wert ist -3,82. Die Ergebnisse des zweiten Kontrastes, die den Mittelwert des Schreibens für die Stufen 2 und 4 vergleichen, sind nicht statistisch signifikant (t 1,40, S. 1638), während der dritte Kontrast statistisch signifikant ist. Beachten Sie, dass, während wir die vollständige SAS-Ausgabe für dieses Beispiel enthalten haben, wir nur die entsprechende Ausgabe in späteren Beispielen zeigen, um Platz zu sparen. Methode 2: Regression Die Regressionscodierung ist etwas komplexer als die Kontrastcodierung. In unserem Beispiel unten ist Level 4 der Referenzpegel und x1 vergleicht Level 1 mit Level 4, x2 vergleicht Level 2 mit Level 4 und x3 vergleicht Level 3 mit Level 4. Für x1 ist die Codierung 3/4 für Level 1 und -1/4 für alle anderen Ebenen. Ebenso ist für x2 die Kodierung 3/4 für die Ebene 2 und -1/4 für alle anderen Ebenen und für x3 die Kodierung 3/4 für die Ebene 3 und -1/4 für alle anderen Ebenen. Es ist nicht intuitiv, dass dieses Regressionscodierungsschema diese Vergleiche liefert, wenn Sie jedoch einfache Vergleiche wünschen, können Sie dieser allgemeinen Regel folgen, um diese Vergleiche zu erhalten. Simple Regression Coding Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) 3 (African American) Im Folgenden zeigen wir die allgemeinere Regel für die Schaffung dieser Art von Kodierungsschema mit Regression Kodierung, wobei k die Zahl der Ebenen der kategorischen Variablen (in diesem Fall k 4). SIMPLE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. Sie werden feststellen, dass die Regressionskoeffizienten in der folgenden Tabelle dieselben sind wie die Kontrastkoeffizienten, die wir mit proc glm sahen. Sowohl der Regressionskoeffizient für x1 als auch die Kontrastschätzung für c1 sind der Mittelwert des Schreibens für die Stufe 1 der Rasse (Hispanic) minus dem Mittelwert des Schreibens für Level 4 (weiß). Ebenso sind der Regressionskoeffizient für x2 und die Kontrastschätzung für c2 der Mittelwert des Schreibens für das Niveau 2 (asiatisch) minus den Mittelwert des Schreibens für das Niveau 4 (weiß). Sie können auch sehen, dass die t-Werte und die Signifikanzniveaus auch die gleichen sind wie die der Proc-Glm-Ausgabe. Beachten Sie, dass, während wir die vollständige SAS-Ausgabe für dieses Beispiel enthalten haben, wir nur die entsprechende Ausgabe in späteren Beispielen zeigen, um Platz zu sparen. 5.2 Vorwärtsdifferenzcodierung In diesem Codierungssystem wird der Mittelwert der abhängigen Variablen für eine Ebene der kategorischen Variablen mit dem Mittelwert der abhängigen Variablen für den nächsten (benachbarten) Pegel verglichen. In unserem Beispiel unten vergleicht der erste Vergleich den Mittelwert des Schreibens für Stufe 1 mit dem Mittelwert des Schreibens für Stufe 2 der Rasse (Hispanics minus Asians). Der zweite Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 2 abzüglich des Pegels 3. Der dritte Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 3 mit dem Pegel 4. Dieser Codierungstyp kann sowohl mit einer nominalen als auch mit einer ordinalen Variablen nützlich sein. Methode 1: PROC GLM VORWÄRTSDIFFERENZ Kontrastkodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Stufe 1 v. Stufe 2 Stufe 2 v. Stufe 3 Stufe 3 v. Stufe 4 3 (African American) Mit diesem Codierungssystem werden benachbarte Ebenen der kategorischen Variablen verglichen. Somit wird der Mittelwert der abhängigen Variablen auf Ebene 1 mit dem Mittelwert der abhängigen Variablen auf Stufe 2 verglichen: 46.4583 - 58 - 11.542, was statistisch signifikant ist. Für den Vergleich zwischen den Ebenen 2 und 3 wäre die Berechnung des Kontrastkoeffizienten 58 - 48,2 9,8, was ebenfalls statistisch signifikant ist. Schließlich, Vergleich der Ebenen 3 und 4, 48.2 - 54.0552 -5.855, ein statistisch signifikanter Unterschied. Daraus lässt sich schließen, dass jede benachbarte Rasse statistisch signifikant verschieden ist. Methode 2: Regression Für den ersten Vergleich, bei dem der erste und der zweite Pegel verglichen werden, wird x1 für den Pegel 1 codiert 3/4 und die anderen Pegel mit -1/4 codiert. Für den zweiten Vergleich, bei dem der Pegel 2 mit dem Pegel 3 verglichen wird, ist x2 codiert 1/2 1/2 -1/2 -1/2, und für den dritten Vergleich, wenn Pegel 3 mit Pegel 4 verglichen wird, wird x3 codiert 1 / 4 1/4 1/4 -3/4. FORWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Ebene 1 v. Ebene 2 Ebene 2 v. Ebene 3 Ebene 3 v. Ebene 4 3 (African American) Die allgemeine Regel dafür Regressionscodierungsschema ist nachstehend gezeigt, wobei k die Anzahl von Stufen der kategorischen Variablen (in diesem Fall k & sub4;) ist. VORWÄRTS-DIFFERENZ Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Sie sehen den Regressionskoeffizienten für x1 ist der Mittelwert des Schreibens für Stufe 1 (Hispanic) minus dem Mittelwert des Schreibens für Stufe 2 (asiatisch). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für Stufe 2 (asiatisch) minus dem Mittelwert des Schreibens für Stufe 3 (African American) und der Regressionskoeffizient für x3 ist der Mittelwert des Schreibens für Stufe 3 (Afroamerikaner) minus Der Mittelwert des Schreibens für Stufe 4 (weiß). 5.3 Rückwärtsdifferenzcodierung In diesem Codierungssystem wird der Mittelwert der abhängigen Variablen für eine Ebene der kategorischen Variablen mit dem Mittelwert der abhängigen Variablen für die vorherige benachbarte Ebene verglichen. In unserem Beispiel unten vergleicht der erste Vergleich den Mittelwert des Schreibens für Stufe 2 mit dem Mittelwert des Schreibens für Stufe 1 der Rasse (Hispanics minus Asians). Der zweite Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 3 abzüglich des Pegels 2, und der dritte Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 4 abzüglich des Pegels 3. Dieser Codetyp kann sowohl mit einer nominalen als auch mit einer ordinalen Variablen nützlich sein. Methode 1: PROC GLM BACKWARD DIFFERENCE Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Ebene 1 v. Ebene 2 Ebene 2 v. Ebene 3 Ebene 3 v. Ebene 4 3 (African American) Mit diesem Codierungssystem werden benachbarte Ebenen der kategorischen Variablen verglichen, wobei jedes Niveau gegenüber dem vorherigen Niveau verglichen wird. Daher wird der Mittelwert der abhängigen Variablen auf Ebene 2 mit dem Mittelwert der abhängigen Variablen auf Stufe 1 verglichen: 58 - 46.4583 11.542, was statistisch signifikant ist. Für den Vergleich zwischen den Ebenen 3 und 2 beträgt die Berechnung des Kontrastkoeffizienten 48,2 - 58 - 9,8, was ebenfalls statistisch signifikant ist. Schließlich, Vergleich der Ebenen 4 und 3, 54.0552 - 48.2 5.855, ein statistisch signifikanter Unterschied. Daraus lässt sich schließen, dass jede benachbarte Rasse statistisch signifikant verschieden ist. Methode 2: Regression Für den ersten Vergleich, bei dem der erste und der zweite Pegel verglichen werden, wird x1 für das Niveau 1 codiert 3/4, während die anderen Pegel -1/4 codiert werden. Für den zweiten Vergleich, bei dem der Pegel 2 mit dem Pegel 3 verglichen wird, ist x2 codiert 1/2 1/2 -1/2 -1/2, und für den dritten Vergleich, wenn Pegel 3 mit Pegel 4 verglichen wird, wird x3 codiert 1 / 4 1/4 1/4 -3/4. BACKWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Ebene 2 v. Ebene 1 Ebene 3 v. Ebene 2 Ebene 4 v. Ebene 3 3 (African American) Die allgemeine Regel dafür Regression-Kodierungsschema ist unten gezeigt, wobei k die Anzahl von Stufen der kategorischen Variablen (in diesem Fall k & sub4;) ist. BACKWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Im obigen Beispiel ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für Level 2 minus dem Mittelwert des Schreibens für Level 1 (58- 46.4583 11.542). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für den Pegel 3 minus dem Mittelwert des Schreibens für den Pegel 2, und der Regressionskoeffizient für x3 ist der Mittelwert des Schreibens für den Pegel 4 minus dem Mittelwert des Schreibens für den Pegel 3. 5.4 Helmert-Codierung Die Helmert-Kodierung vergleicht jede Ebene einer kategorischen Variablen mit dem Mittelwert der nachfolgenden Ebenen. Somit vergleicht der erste Kontrast den Mittelwert der abhängigen Variablen für die Stufe 1 der Rasse mit dem Mittelwert aller nachfolgenden Rassebenen (Stufen 2, 3 und 4), wobei der zweite Kontrast den Mittelwert der abhängigen Variablen für die Ebene vergleicht 2 des Rennens mit dem Mittelwert aller nachfolgenden Rennen (Stufe 3 und 4), und der dritte Kontrast vergleicht den Mittelwert der abhängigen Variablen für Rasse Ebene 3 mit dem Mittelwert aller nachfolgenden Rassebenen (Level 4). Während diese Art von Kodierungssystem nicht viel Sinn macht mit einer Nenngröße wie Rasse. Ist es in Situationen nützlich, in denen die Ebenen der kategorischen Variablen geordnet sind, z. B. vom niedrigsten zum höchsten oder kleinsten zum größten usw. Für die Helmert-Codierung sehen wir, dass der erste Vergleichsvergleichsgrad 1 mit den Ebenen 2, 3 und 4 codiert ist 1, -1/3, -1/3 und -1/3, was den Vergleich von Stufe 1 mit allen anderen Ebenen widerspiegelt. Der zweite Vergleich wird mit 0, 1, -1/2 und -1/2 codiert, was bedeutet, dass er den Pegel 2 mit den Pegeln 3 und 4 vergleicht. Der dritte Vergleich wird mit 0, 0, 1 und -1 codiert, was das Niveau 3 widerspiegelt Verglichen mit Stufe 4. Methode 1: PROC GLM HELMERT Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Stufe 1 v. Spätere Stufe 2 v. Spätere Stufe 3 v. Später 3 (African American ) Im Folgenden wird gezeigt, wie diese Vergleiche mit proc glm mit Schätzanweisungen zu bilden. Beachten Sie, dass wir auf der ersten Schätzungsanweisung -.33333 und nicht nur -.33. Wir müssen diese vielen Dezimalstellen verwenden, so daß die Summe aller Kontrastkoeffizienten (d. h. 1 - 0,33333 - 0,33333 - 0,33333) ausreichend nahe Null ist, andernfalls wird SAS sagen, daß der Term nicht abgeschätzt werden kann. Die Kontrastschätzung für den Vergleich zwischen Pegel 1 und den verbleibenden Pegeln wird berechnet, indem der Mittelwert der abhängigen Variablen für den Pegel 1 genommen und der Mittelwert der abhängigen Variablen für die Pegel 2, 3 und 4 subtrahiert wird: 46.4583 - (58 48.2 54.0552) / 3 -6.960, was statistisch signifikant ist. Dies bedeutet, daß der Mittelwert des Schreibens für die Stufe 1 der Rasse statistisch signifikant von dem Mittelwert des Schreibens für die Ebenen 2 bis 4 verschieden ist. Wie oben erwähnt, ist dieser Vergleich wahrscheinlich nicht sinnvoll, weil der variable Rennen nominal ist. Diese Art von Vergleich wäre sinnvoller, wenn die kategorische Variable Ordinalzahl wäre. Um den Kontrastkoeffizienten für den Vergleich zwischen Level 2 und den späteren Leveln zu berechnen, subtrahieren Sie den Mittelwert der abhängigen Variablen für die Level 3 und 4 vom Mittelwert der abhängigen Variablen für Level 2: 58 - (48.2 54.0552) / 2 6.872, Was statistisch signifikant ist. Die Kontrastschätzung für den Vergleich zwischen Ebene 3 und Ebene 4 ist die Differenz zwischen dem Mittelwert der abhängigen Variablen für die beiden Ebenen: 48.2 - 54.0552 -5.855, die ebenfalls statistisch signifikant ist. Methode 2: Regression Nachfolgend sehen wir ein Beispiel der Helmert-Regressionscodierung. Für den ersten Vergleich (Vergleich der Pegel 1 mit den Pegeln 2, 3 und 4) sind die Codes 3/4 und -1/4 -1/4 -1/4. Der zweite Vergleich vergleicht Stufe 2 mit den Ebenen 3 und 4 und ist codiert 0 2/3 -1/3 -1/3. Der dritte Vergleich vergleicht den Pegel 3 mit dem Pegel 4 und ist codiert 0 0 1/2 -1/2. HELMERT-Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit porc reg ein. Wie Sie unten sehen, ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für Stufe 1 (Hispanic) gegenüber allen nachfolgenden Ebenen (Level 2, 3 und 4). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für den Pegel 2 minus dem Mittelwert des Schreibens für die Pegel 3 und 4. Schließlich ist der Regressionskoeffizient für x3 der Mittelwert des Schreibens für den Pegel 3 minus dem Mittelwert des Schreibens für den Pegel 4. 5.5 Reverse Helmert-Codierung Die Reverse-Helmert-Codierung (auch bekannt als Differenzcodierung) ist genau das Gegenteil der Helmert-Codierung: Anstatt jedes Niveau der kategorialen Variablen mit dem Mittelwert der nachfolgenden Ebene (n) zu vergleichen, wird jedes mit dem Mittelwert des vorherigen verglichen Ebene (n). In unserem Beispiel codiert der erste Kontrast den Vergleich des Mittelwerts der abhängigen Variablen für Stufe 2 der Rasse mit dem Mittelwert der abhängigen Variablen für Stufe 1 der Rasse. Der zweite Vergleich vergleicht den Mittelwert der abhängigen Variablen Stufe 3 der Rasse mit beiden Ebenen 1 und 2 der Rasse. Und der dritte Vergleich vergleicht den Mittelwert der abhängigen Variablen für die Stufe 4 des Rennens mit den Stufen 1, 2 und 3. Dieses Codierungssystem macht mit unserem Rennensbeispiel nicht viel Sinn, da es sich um eine Nennvariable handelt. Dieses System ist jedoch sinnvoll, wenn die Ebenen der kategorischen Variablen sinnvoll geordnet sind. Wenn wir zum Beispiel eine kategorische Variable hatten, in der arbeitsbedingter Stress als niedrig, mittel oder hoch kodiert wurde, wäre ein Vergleich der Mittel der vorherigen Ebenen der Variablen sinnvoller. Für die umgekehrte Helmert-Codierung sehen wir, daß der erste Vergleich, der die Pegel 1 und 2 vergleicht, mit -1 und 1 codiert wird, um diese Pegel zu vergleichen und 0 sonst. Der zweite Vergleichsvergleichsgrad 1, 2 mit dem Pegel 3 ist codiert -1/2, -1/2, 1 und 0, und die letzten Vergleichsvergleichsstufen 1, 2 und 3 mit dem Pegel 4 sind mit -1/3, -1 codiert / 3, -1/3 und 1. Methode 1: PROC GLM REVERSE HELMERT Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm mit Schätzung zu bilden sind Aussagen. Beachten Sie, dass bei der dritten Schätzungsanweisung -.33333 und nicht nur -.33. Wir müssen diese vielen Dezimalstellen verwenden, so daß die Summe aller Kontrastkoeffizienten (d. h. -.333333 - .333333 - .333333 1) hinreichend nahe Null ist, andernfalls wird SAS sagen, daß der Term nicht abgeschätzt werden kann. Eine andere Möglichkeit, die das Problem der sich wiederholenden Dezimalstellen löst, ist unten gezeigt. Nur ein Ausgang wird angezeigt, da die beiden Ausgänge identisch sind. Die Kontrastschätzung für den ersten Vergleich in dieser Ausgabe wurde durch Subtrahieren des Mittelwerts der abhängigen Variablen für Ebene 2 der kategorischen Variablen vom Mittelwert der abhängigen Variablen für Ebene 1: 58 - 46.4583 11.542 berechnet. Dieses Ergebnis ist statistisch signifikant. Die Kontrastschätzung für den zweiten Vergleich (zwischen Stufe 3 und den vorherigen Pegeln) wurde durch Subtrahieren des Mittelwerts der abhängigen Variablen für die Pegel 1 und 2 gegenüber dem Pegel 3 berechnet: 48,2 - (46,4583 58) / 2 -4,029. Dieses Ergebnis ist nicht statistisch signifikant, was bedeutet, dass es keinen verlässlichen Unterschied zwischen dem Mittelwert des Schreibens für Stufe 3 des Rennens im Vergleich zu dem Mittelwert des Schreibens für die Ebenen 1 und 2 (Hispanics und Asiaten) gibt. Wie oben angemerkt, macht diese Art von Codierungssystemen für eine nominale Variable, wie zum Beispiel die Rasse, wenig Sinn. Für den Vergleich von Level 4 und den vorherigen Leveln nehmen Sie den Mittelwert der abhängigen Variablen für diese Level und subtrahieren sie vom Mittelwert der abhängigen Variablen für Level 4: 54.0552 - (46.4583 58 48.2) / 3 3.169. Dieses Ergebnis ist statistisch signifikant. Methode 2: Regression Die Regressionscodierung für die reverse Helmert-Codierung ist nachfolgend dargestellt. Für den ersten Vergleich, bei dem die erste und die zweite Ebene verglichen werden, ist x1 codiert -1/2 und 1/2 und 0 ansonsten. Für den zweiten Vergleich werden die Werte von x2 codiert -1/3 -1/3 2/3 und 0. Schließlich werden für den dritten Vergleich die Werte von x3 codiert -1/4 -1/4 - / 14 und 3/4. REVERSE HELMERT-Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. In den obigen Beispielen wäre sowohl der Regressionskoeffizient für x1 als auch die Kontrastschätzung für c1 der Mittelwert des Schreibens für das Niveau 1 (Hispanic) minus dem Mittelwert des Schreibens für das Niveau 2 (asiatisch). Ebenso wäre der Regressionskoeffizient für x2 und die Kontrastschätzung für c2 der Mittelwert des Schreibens für die Ebenen 1 und 2, die minus dem Mittelwert des Schreibens für den Pegel 3 kombiniert wurden. Schließlich wäre der Regressionskoeffizient für x3 und die Kontrastschätzung für c3 der Mittelwert des Schreibens für die Ebenen 1, 2 und 3 kombiniert minus dem Mittelwert des Schreibens für Ebene 4. 5.6 Abweichungscodierung Dieses Codierungssystem vergleicht den Mittelwert der abhängigen Variablen für einen gegebenen Pegel mit dem Gesamtmittel der abhängigen Variablen. In unserem Beispiel unten, vergleicht der erste Vergleich Ebene 1 (Hispanics), um alle Ebenen der Rasse. Der zweite Vergleich vergleicht die Stufe 2 (Asiaten) mit allen Rassen. Und der dritte Vergleich vergleicht Ebene 3 (Afro-Amerikaner) auf allen Ebenen der Rasse. Wie Sie sehen können, ist die Logik der Kontrast-Codierung ziemlich einfach. Der erste Vergleich vergleicht den Pegel 1 mit den Pegeln 2, 3 und 4. Dem Pegel 1 ist ein Wert von 3/4 zugeordnet und den Pegeln 2, 3 und 4 wird ein Wert von -1/4 zugewiesen. Ebenso vergleicht der zweite Vergleich den Pegel 2 auf die Stufen 1, 3 und 4. Den Pegeln 2 und 4 wird ein Wert von 3/4 zugewiesen und den Stufen 1, 3 und 4 ein Wert von -1/4 zugewiesen. Ein ähnliches Muster wird für die Zuweisung von Werten für den dritten Vergleich befolgt . Beachten Sie, dass Sie 3 für 3/4 und 1 für 1/4 ersetzen könnten und Sie denselben Test von Bedeutung erhalten würden, aber der Kontrastkoeffizient wäre unterschiedlich. Methode 1: PROC GLM DEVIATION Kontrastkodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm zu bilden sind. Die Kontrastschätzung ist der Mittelwert für die Ebene 1 minus dem großen Mittelwert. Dieser große Mittelwert ist jedoch nicht der Mittelwert der abhängigen Variablen, der in der Ausgabe des obigen Befehls aufgeführt ist. Es ist vielmehr der Mittelwert der Mittel der abhängigen Variablen auf jeder Ebene der kategorischen Variablen: (46.4583 58 48.2 54.0552) / 4 51.678375. Diese Kontrastschätzung beträgt dann 46,4583 - 51,678375 - 5,220. Die Differenz zwischen diesem Wert und null (die Nullhypothese, dass der Kontrastkoeffizient null ist) ist statistisch signifikant (p0000) und der t-Wert für diesen Test von -3,20. Die Ergebnisse für die nächsten beiden Kontraste wurden in ähnlicher Weise berechnet. Methode 2: Regression Wie Sie im folgenden Beispiel sehen, wird die Regressionscodierung durch die Zuordnung von 1 zu Stufe 1 für den ersten Vergleich erreicht (weil Ebene 1 der Pegel ist, der mit allen anderen verglichen werden soll), eine 1 bis Ebene 2 für die zweite Vergleich (weil Ebene 2 mit allen anderen verglichen werden soll) und 1 bis Ebene 3 für den dritten Vergleich (weil Niveau 3 mit allen anderen verglichen werden soll). Es ist zu beachten, dass für alle drei Vergleiche ein Pegel 4 zugeordnet ist (weil er der Pegel ist, der niemals mit den anderen Pegeln verglichen wird) und allen anderen Werten eine 0 zugewiesen. Dieses Regressionscodierungsschema liefert die oben beschriebenen Vergleiche. DEVIATION-Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) 3 (African American) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. In diesem Beispiel ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für die Ebene 1 (Hispanic) minus dem großen Mittelwert des Schreibens. Ebenso ist der Regressionskoeffizient für x2 der mittlere Schreibwert für Stufe 2 (asiatisch) minus dem großen Mittelwert des Schreibens. und so weiter. Wie wir in den vorhergehenden Analysen gesehen haben, sind alle drei Kontraste statistisch signifikant. 5.7 Orthogonale Polynomkodierung Orthogonale Polynomkodierung ist eine Form der Trendanalyse, da sie die linearen, quadratischen und kubischen Trends der kategorischen Variablen sucht. Diese Art von Kodierungssystem sollte nur mit einer ordinalen Variable verwendet werden, bei der die Ebenen gleich beabstandet sind. Beispiele für eine solche Variable können Einkommen oder Bildung sein. Die folgende Tabelle zeigt die Kontrastkoeffizienten für die linearen, quadratischen und kubischen Trends für die vier Ebenen. Diese konnten aus den meisten Statistikbüchern über lineare Modelle gewonnen werden. 3 (African American) Methode 1: PROC GLM Um die Kontrastschätzungen für diese Vergleiche zu berechnen, müssen Sie den in der neuen Variablen verwendeten Code mit dem Mittelwert für die abhängige Variable für jede Ebene der kategorialen Variablen multiplizieren und dann die Werte summieren . Zum Beispiel ist der Code, der in x1 für Stufe 1 des Rennens verwendet wird, -671, und der Mittelwert des Schreibens für Stufe 1 ist 46,4583. Folglich würden Sie multiplizieren -.671 und 46.4583 und fügen Sie das dem Produkt des Codes für Ebene 2 von x1 und seinem Mittel hinzu, und so weiter. Um die Kontrastschätzung für den linearen Kontrast zu erhalten, würden Sie folgendes tun: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (mit Rundungsfehler). Dieses Ergebnis ist nicht statistisch signifikant .05 Alpha-Ebene, aber es ist nah. Die quadratische Komponente ist auch nicht statistisch signifikant, aber die kubische ist. Dies deutet darauf hin, dass, wenn der Mittelwert der abhängigen Variablen gegen die Rasse aufgetragen wurde. Würde die Linie dazu neigen, zwei Biegungen zu haben. Wie bereits erwähnt, ist diese Art von Kodierungssystem nicht sinnvoll mit einer Nennvariablen wie Rasse. Methode 2: Regression Die Regressionscodierung für orthogonale Polynomcodierung ist die gleiche wie die Kontrastcodierung. Unten sehen Sie den SAS-Code zum Erstellen von x1. X2 und x3, die den linearen, quadratischen und kubischen Trends für die Rasse entsprechen. Die aus dieser Analyse erhaltenen Regressionskoeffizienten sind die gleichen wie die unter Verwendung von proc glm erhaltenen Kontrastkoeffizienten. 5.8 Benutzerdefiniertes Coding Sie können SAS für beliebige allgemeine Codierungsschemata verwenden. Für unser Beispiel möchten wir die folgenden drei Vergleiche anstellen: 1) Ebene 1 bis Ebene 3 2) Ebene 2 bis Ebene 1 und 4 3) Ebenen 1 und 2 bis Ebenen 3 und 4. Um Stufe 1 mit Ebene zu vergleichen 3 verwenden wir die Kontrastkoeffizienten 1 0 -1 0. Um den Pegel 2 mit den Pegeln 1 und 4 zu vergleichen, verwenden wir die Kontrastkoeffizienten -1/2 1 0 -1/2. Um die Ebenen 1 und 2 mit den Ebenen 3 und 4 zu vergleichen, verwenden wir die Koeffizienten 1/2 1/2 -1/2 -1/2. Bevor Sie zum SAS-Code übergehen, der für die Durchführung dieser Analysen erforderlich ist, können wir einen Augenblick brauchen, um die Logik hinter der Auswahl dieser Kontrastkoeffizienten näher zu erläutern. Für den ersten Kontrast vergleichen wir den Pegel 1 mit dem Pegel 3, und die Kontrastkoeffizienten sind 1 0 -1 0. Dies bedeutet, daß die Pegel, die den Kontrastkoeffizienten mit entgegengesetzten Vorzeichen zugeordnet sind, verglichen werden. Tatsächlich wird der Mittelwert der abhängigen Variablen mit dem Kontrastkoeffizienten multipliziert. Daher sind die Ebenen 2 und 4 nicht an dem Vergleich beteiligt: sie werden mit Null multipliziert und ausgegeben. Sie werden auch bemerken, dass die Kontrastkoeffizienten auf Null sinken. Dies ist notwendig. Wenn die Kontrastkoeffizienten nicht auf Null summieren, ist der Kontrast nicht schätzbar und SAS wird eine Fehlermeldung ausgeben. Welchen Grad der kategorialen Variablen ein positiver oder negativer Wert zugewiesen wird, ist nicht sehr wichtig: 1 0 -1 0 ist der gleiche wie -1 0 1 0, da beide Codierungen die erste und die dritte Ebene der Variablen vergleichen. Das Vorzeichen des Regressionskoeffizienten würde sich jedoch ändern. Nun können die Kontrastkoeffizienten für den zweiten und dritten Vergleich betrachtet werden. Sie werden feststellen, dass in beiden Fällen verwenden wir Brüche, die Summe zu einem (oder minus eins). Sie müssen nicht auf eins (oder minus eins) summieren. Sie fragen sich vielleicht, warum wir Brüche wie -1/2 1 0 -1/2 anstelle von ganzen Zahlen wie -1 2 0 -1 verwenden würden. Während -1/2 1 0 -1/2 und -1 2 0 -1 beide den Pegel 2 mit den Pegeln 1 und 4 vergleichen und beide den gleichen t-Wert und p-Wert für den Regressionskoeffizienten erhalten, werden die Kontrastschätzungen / Regression Koeffizienten selbst wäre anders, als würde ihre Interpretation. Der Koeffizient für den Kontrast -1/2 1 0 -1/2 ist der Mittelwert von Stufe 2 minus dem Mittelwert der Mittel für die Stufen 1 und 4: 58 - (46.4583 54.0552) / 2 7.74325. (Alternativ können Sie die Kontraste mit dem Mittelwert der abhängigen Variablen für jede Ebene der kategorialen Variablen multiplizieren: -1 / 246.4583 158.00 048.20 -1 / 254.0552 7.74325. Dies sind eindeutig äquivalente Denkansätze für die Berechnung des Kontrastkoeffizienten. ) Im Vergleich dazu beträgt der Koeffizient für den -1 2 0 -1 - Kontrast das Zweifache des Mittelwerts für das Niveau 2 abzüglich der Mittelwerte der abhängigen Variablen für die Stufen 1 und 4: 258 - (46.4583 54.0552) 15.4865, was dasselbe ist wie - 146,458 258, 048,20 - 154,052, 15,4865. Man beachte, daß der Regressionskoeffizient, der die Kontrastkoeffizienten -1 & sub2; & sub0; -1 verwendet, doppelt so groß ist wie der Regressionskoeffizient, der erhalten wird, wenn -1/2 & sub1; & sub0; -1/2 verwendet wird. Methode 1: PROC GLM Um die Ebene 1 mit der Ebene 3 zu vergleichen, verwenden wir die Kontrastkoeffizienten 1 0 -1 0. Um die Ebene 2 mit den Stufen 1 und 4 zu vergleichen, verwenden wir die Kontrastkoeffizienten -1/2 1 0 -1/2 . Um die Ebenen 1 und 2 mit den Ebenen 3 und 4 zu vergleichen, verwenden wir die Koeffizienten 1/2 1/2 -1/2 -1/2. Diese Koeffizienten werden in den folgenden Schätzanweisungen verwendet. Die Kontrastschätzung für den ersten Vergleich ist der Mittelwert von Stufe 1 minus dem Mittelwert für Stufe 3, und die Signifikanz davon ist 0,525, d. h. nicht signifikant. Die zweite Kontrastschätzung beträgt 7,743, was der Mittelwert von Stufe 2 minus dem Mittelwert von Stufe 1 und Stufe 4 ist, und diese Differenz ist signifikant, p 0,008. Die endgültige Kontrastschätzung beträgt 1,1, was der Mittelwert der Stufen 1 und 2 minus dem Mittel der Stufen 3 und 4 ist, und dieser Kontrast ist nicht statistisch signifikant, S. 576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.

Kaufen Billig Olching (Bavaria)

Search This Blog

Recode Nominal Variablen In Stata Forex

Comments

Post a Comment

Popular posts from this blog

Ikon Group Forex Broker

Binary Options Versteuerung

Ac Forex Inversions Reclamos