HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata Annotated Output Negative Binomiale Regression Diese Seite zeigt ein Beispiel für negative Binomial Regressionsanalyse mit Fußnoten, die die Ausgabe erklären. Die gesammelten Daten waren akademische Informationen über 316 Studenten. Die Antwortvariable ist während des Schuljahres (Tageabs) fehlend, woraus wir die Beziehung zu mathematisch standardisierten Tests (mathnce), sprachstandardisierten Tests (Langnce) und Geschlecht (weiblich) erforschen. Wie für ein negatives Binomialmodell angenommen, ist unsere Reaktionsvariable eine Zählvariable, und jedes Subjekt hat die gleiche Beobachtungszeitlänge. Wäre die Beobachtungszeit für Themen unterschiedlich, müsste das Modell angepasst werden, um der unterschiedlichen Länge der Beobachtungszeit pro Motiv Rechnung zu tragen. Dieser Punkt wird später in der Seite diskutiert. Auch wird das negative Binomialmodell, verglichen mit anderen Zählmodellen (d. h. Poisson oder nulleingeblasenen Modellen), als das geeignete Modell angenommen. Mit anderen Worten, wir nehmen an, dass die abhängige Variable überdispergiert ist und keine übermäßige Anzahl von Nullen aufweist. Die erste Hälfte dieser Seite interpretiert die Koeffizienten in Form von negativen Binomialregressionskoeffizienten, und die zweite Hälfte interpretiert die Koeffizienten hinsichtlich der Inzidenzratenverhältnisse. Iteration Log a a. Iterationslog - Dies ist das Iterationsprotokoll für das negative Binomialmodell. Hinweis: Es gibt drei Abschnitte Fitting Poisson-Modell, Fitting nur Konstant-Modell und Fitting Vollmodell. Negative binomische Regression ist ein Maximum-Likelihood-Verfahren, und gute Anfangsschätzungen sind für die Konvergenz erforderlich. Die ersten beiden Abschnitte liefern gute Startwerte für das negative Binomialmodell, das im dritten Abschnitt geschätzt wird. Der erste Abschnitt, Fitting Poisson Modell, passt ein Poisson-Modell zu den Daten. Schätzungen der letzten Iteration dienen als Ausgangswerte für die Parameterschätzungen im letzten Abschnitt. Der zweite Abschnitt, Fitting-Constant-Only-Modell, findet die maximale Likelihood-Schätzung für den Mittelwert und den Dispersionsparameter der Antwortvariablen. Der Dispersionsparameter wird als Startwert für den Dispersionsparameter gesteckt. Sobald Startwerte erhalten sind, iteriert das negative Binomialmodell, bis der Algorithmus konvergiert. Die Trace-Option kann angegeben werden, um zu sehen, wie Teile der ersten beiden Iterationskomponenten für die finale Iterationskomponente verwendet werden. Modellübersicht b. Dispersion - Hier wird verstanden, wie die Überdispersion modelliert wird. Die Standardmethode ist die mittlere Dispersion. C. Log Likelihood - Dies ist die Log-Wahrscheinlichkeit des eingebauten Modells. Es wird in der Berechnung des Chancenquantentestes von Likelihood Ratio (LR) verwendet, ob alle Prädiktorvariablen Regressionskoeffizienten gleichzeitig Null sind und in Tests von verschachtelten Modellen. D. Anzahl der Obs - Dies ist die Anzahl der Beobachtungen im Regressionsmodell verwendet. Es kann kleiner sein als die Anzahl der Fälle in der Datenmenge, wenn es fehlende Werte für einige Variablen in der Gleichung gibt. Standardmäßig führt Stata ein Listenloses Löschen von unvollständigen Fällen durch. D. h. LR chi2 (3) - Dies ist die Teststatistik, dass alle Regressionskoeffizienten im Modell gleich Null sind. Sie wird als zweimal so negativ wie die Differenz der Wahrscheinlichkeit für das Nullmodell und das Einbaumodell berechnet. Das Nullmodell entspricht der letzten Iteration vom Fitting-Constant-Only-Modell. Teile aus dem Iterationsprotokoll zusammen, ist der LR chi2 (3) - Wert -2-891,24 - (-880,87) 20,74. F. Prob gt chi2 - Dies ist die Wahrscheinlichkeit, dass man eine LR-Teststatistik so extrem wie oder mehr erhält als die unter der Nullhypothese beobachtete Nullhypothese, dass alle Regressionskoeffizienten gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik zu erhalten (20.74), wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einer spezifizierten Alpha-Stufe verglichen, wobei wir bereit sind, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem LR-Test lt0.00001 würde dazu führen, dass mindestens einer der Regressionskoeffizienten im Modell ungleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, die zum Testen der Nullhypothese verwendet wird, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (3), definiert. G. Pseudo R2 - Dies ist McFaddens pseudo R-squared. Sie wird als 1 - ll (Modell) ll (Null) 0,0161 berechnet. Negative binomische Regression hat nicht ein Äquivalent zum R-Quadrat-Maß in OLS-Regression gefunden, aber viele Menschen haben versucht, eine zu erstellen. Weil diese Statistik nicht bedeutet, was R-Quadrat bedeutet in der OLS-Regression (der Anteil der Varianz für die Antwortvariable erklärt durch die Prädiktoren), empfehlen wir die Interpretation dieser Statistik mit Vorsicht. Parameterschätzungen f. Daysabs - Dies ist die Antwortvariable in der negativen Binomialregression. Darunter befinden sich die Prädiktorvariablen, der Intercept und der Dispersionsparameter. G. Coef. - Dies sind die geschätzten negativen Binomialregressionskoeffizienten für das Modell. Es sei daran erinnert, dass die abhängige Variable eine Zählvariable ist, die entweder über - oder unterdispergiert ist, und das Modell modelliert das Protokoll der erwarteten Zählung als Funktion der Prädiktorvariablen. Wir können den negativen Binomialregressionskoeffizienten wie folgt interpretieren: Für eine Änderung der Prädiktorvariablen in einer Einheit wird erwartet, dass sich die Differenz der Protokolle der erwarteten Zählungen der Antwortvariablen durch den jeweiligen Regressionskoeffizienten ändert, wenn die anderen Prädiktorvariablen in den Variablen liegen Modell werden konstant gehalten. Mathnce - Dies ist die negative Binomial-Regression-Schätzung für eine einheitliche Erhöhung der mathematischen standardisierten Testergebnisse, da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Mathematik-Test-Punktzahl um einen Punkt erhöhen würde, würde erwartet, dass die Differenz in den Protokollen der erwarteten Zählungen um 0,0016 Einheiten sinken würde, während die anderen Variablen in der Modellkonstante gehalten werden. Langnce - Dies ist die negative Binomial-Regression-Schätzung für eine einheitliche Erhöhung der sprach-standardisierten Testergebnisse, da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Langnce-Test-Punktzahl um einen Punkt zu erhöhen, würde die Differenz in den Protokollen der erwarteten Zählungen erwartet, um 0.0143 Einheit zu verringern, während die anderen Variablen in der Modell-Konstante. Weiblich - Dies ist der geschätzte negative Binomialregressionskoeffizient, der Weibchen mit Männchen vergleicht, wenn die anderen Variablen im Modell konstant gehalten werden. Der Unterschied in den Protokollen der erwarteten Zählungen wird erwartet, dass 0,4312 Einheiten höher für Frauen im Vergleich zu Männern, während die anderen Variablen konstant im Modell. Cons - Dies ist die negative Binomial-Regression-Schätzung, wenn alle Variablen im Modell bei Null ausgewertet werden. Für Männer (die Variable weiblich bei null bewertet) mit Null mathnce und langnce Testergebnisse, ist das Protokoll der erwarteten Zählung für daysabs 2.2849 Einheiten. Beachten Sie, dass die Auswertung von mathnce und langnce bei null außerhalb des Bereichs der plausiblen Testergebnisse liegt. Wenn die Testergebnisse mittig zentriert waren, hätte der Intercept eine natürliche Interpretation: das Protokoll der erwarteten Anzahl für Männer mit durchschnittlichen Mathnce - und Langnce-Testergebnissen. Lnalpha - Dies ist die Schätzung des Protokolls des Dispersionsparameters alpha. Angegeben in der nächsten Zeile. Alpha - Dies ist die Schätzung des Dispersionsparameters. Der Dispersionsparameter alpha kann durch Exponentieren von lnalpha erhalten werden. Wenn der Dispersionsparameter gleich Null ist, reduziert sich das Modell auf das einfachere Poissonmodell. Wenn der Dispersionsparameter alpha. Ist signifikant größer als Null, als die Daten über dispergiert sind und besser unter Verwendung eines negativen Binomialmodells als ein Poissonmodell geschätzt werden. H. Std. Err. - Dies sind die Standardfehler für die Regressionskoeffizienten und Dispersionsparameter für das Modell. Sie werden sowohl in der Berechnung der z-Teststatistik, als auch in den Hochsicherheitsintervallen superscript j verwendet. ich. Z und Pgtz - Dies sind die Teststatistik bzw. der p-Wert, dass die Nullhypothese, dass ein individueller Prädiktor-Regressionskoeffizient null ist, da der Rest der Prädiktoren im Modell liegt. Die Teststatistik z ist das Verhältnis des Coef. Zu den Std. Err. Des jeweiligen Prädiktors. Der z-Wert folgt einer Standardnormalverteilung, die verwendet wird, um eine zweiseitige alternative Hypothese zu testen, dass das Coef. Nicht gleich Null ist. Die Wahrscheinlichkeit, dass eine bestimmte z-Test-Statistik so extrem ist wie oder mehr als die, die unter der Nullhypothese beobachtet wurde, wird durch Pgtz definiert. J 95 Konf. Interval - Dies ist das Vertrauensintervall (CI) eines einzelnen negativen Binomialregressionskoeffizienten, wenn die anderen Prädiktoren im Modell vorliegen. Für eine gegebene Vorhersagevariable mit einem Niveau von 95 Vertrauen, sagen wir, dass wir 95 zuversichtlich sind, dass bei wiederholten Versuchen 95 der CIs den Quottruequot-Populationsregressionskoeffizienten enthalten würden. Sie wird als Coef berechnet. (Z 9452) (Std. Err.), Wobei z 9452 ein kritischer Wert auf die Standardnormalverteilung ist. Das CI ist äquivalent zu der z-Teststatistik: Wenn die CI Null enthält, kann wed die Nullhypothese nicht zurückweisen, dass ein bestimmter Regressionskoeffizient null ist, wenn die anderen Prädiktoren im Modell vorliegen. Ein Vorteil eines CI ist, dass es illustrativ ist es liefert Informationen über die Genauigkeit der Punktschätzung. K. Likelihood-Verhältnis-Test von alpha0 - Dies ist der Wahrscheinlichkeits-Verhältnis-Chi-Quadrat-Test, dass der Dispersionsparameter alpha gleich Null ist. Die Teststatistik ist zweimal die Differenz der Log-Likelihood aus dem Poissonmodell und dem negativen Binomialmodell, -2-1547.9709 - (- 880.87312) 1334.1956 mit einem zugehörigen p-Wert von lt0.0001 negativ. Die große Teststatistik würde vorschlagen, dass die Antwortvariable überdispergiert ist und durch die einfachere Poissonverteilung nicht ausreichend beschrieben wird. Inzidenzratenverhältnis Interpretation Nachfolgend wird die Interpretation der negativen Binomialregression im Hinblick auf die Inzidenzratenverhältnisse beschrieben, die durch nbreg, irr nach dem Ausführen des negativen Binomialmodells oder durch Spezifizieren der irr-Option, wenn das vollständige Modell spezifiziert wird, erhalten werden können. Dieser Teil der Interpretation gilt für die Ausgabe unten. Bevor wir die Koeffizienten im Hinblick auf die Inzidenzratenverhältnisse interpretieren, müssen wir ansprechen, wie wir aus der Interpretation der Regressionskoeffizienten als Differenz zwischen den Protokollen der erwarteten Zählungen und der Inzidenzratenverhältnisse gehen können. In der obigen Diskussion wurden Regressionskoeffizienten als die Differenz zwischen dem Protokoll der erwarteten Zählungen interpretiert, wobei formell dies als 946 log (956 x01) - log (956 x0) geschrieben werden kann, wobei 946 der Regressionskoeffizient ist, 956 der Wert ist Und die Indizes repräsentieren, wo die Prädiktorvariable, beispielsweise x, bei x 0 und x 0 1 ausgewertet wird (was eine Einheitsänderung in der Prädiktorvariablen x bedeutet). Es sei daran erinnert, dass die Differenz zweier Protokolle dem Protokoll ihres Quotienten log (956 x01) - log (956 x0) log (956 x01 956 x0) entspricht und daher auch die Parameterschätzung als logarithmisch interpretiert werden konnte Das Verhältnis der erwarteten Zählungen: Das erklärt die Quote in den Inzidenzratenverhältnissen. Darüber hinaus ist, was wir als eine Zählung bezeichnet technisch eine Rate. Unsere Antwortgröße ist die Anzahl der Tage, die über dem Schuljahr fehlen, die per Definition ein Satz ist. Eine Rate ist definiert als die Anzahl der Ereignisse pro Zeit (oder Raum). Folglich könnten wir auch die Regressionskoeffizienten als Protokoll des Ratenverhältnisses interpretieren: Dies erklärt den Quotienten im Inzidenzratenverhältnis. Schließlich wird die Geschwindigkeit, mit der Ereignisse eintreffen, die Inzidenzrate genannt, so daß wir die Koeffizienten hinsichtlich der Inzidenzratenverhältnisse aus unserer Interpretation oben interpretieren können. Auch wurde jedes Thema in unserer Stichprobe für ein Schuljahr befolgt. Wenn dies nicht der Fall war (dh einige Themen wurden für ein halbes Jahr, einige für ein Jahr und der Rest für zwei Jahre befolgt), und wir sollten die Expositionszeit vernachlässigen, würden unsere Regressionsschätzungen voreingenommen sein, da unser Modell alle Fächer übernimmt Hatte die gleiche Follow-up Zeit. Wenn dies ein Problem war, würden wir die Belichtungsoption exposition (varname) verwenden. Wobei varname der Länge der Zeit entspricht, in der eine Person gefolgt wurde, um die Poisson-Regressionschätzungen anzupassen. ein. IRR - Dies sind die Inzidenzratenverhältnisse für das negative Binomialregressionsmodell, das früher gezeigt wird. Mathnce - Dies ist die geschätzte Rate Verhältnis für eine Einheit Erhöhung der Mathematik standardisierten Test-Score, da die anderen Variablen werden im Modell konstant gehalten. Wenn ein Schüler seine Mathnce-Test-Punktzahl um einen Punkt zu erhöhen, würde seine Rate für daysabs erwartet, um einen Faktor von 0,9984, während alle anderen Variablen in der Modell-Konstante sinken. Langnce - Dies ist die geschätzte Rate Verhältnis für eine Einheit Erhöhung der Sprache standardisierten Test-Score, da die anderen Variablen werden im Modell konstant gehalten. Wenn ein Schüler sein Langnce-Testniveau um einen Punkt erhöhen würde, würde seine Rate für Daysabs um einen Faktor 0,9857 verringern, während alle anderen Variablen in der Modellkonstante gehalten werden. Weiblich - Dies ist die geschätzte Ratenquote, die Frauen mit Männern vergleicht, da die anderen Variablen im Modell konstant gehalten werden. Weibchen im Vergleich zu Männern, während die andere Variable konstant im Modell, wird erwartet, dass eine Rate 1,539-mal größer für daysabs haben. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden. NOTICE: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website, um die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen im Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata Datenanalyse Beispiele Negative Binomial Regression Version info: Der Code für diese Seite wurde in Stata 12 getestet. Negative binomische Regression ist für die Modellierung von Zählvariablen, in der Regel für über - diskrete Zählergebnisvariablen. Bitte beachten Sie: Auf dieser Seite soll gezeigt werden, wie Sie verschiedene Befehle zur Datenanalyse verwenden können. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Sie umfasst insbesondere keine Datenreinigung und - prüfung, Verifizierung von Annahmen, Modelldiagnosen oder potenzielle Folgeanalysen. Beispiele für negative Binomialregression Beispiel 1. Schulverwalter studieren das Anwesenheitsverhalten von Gymnasiasten an zwei Schulen. Prädiktoren für die Anzahl der Abwesenheitstage umfassen die Art des Programms, in dem der Schüler eingeschrieben ist, und ein standardisierter Test in Mathe. Beispiel 2. Ein gesundheitsbezogener Forscher untersucht die Zahl der Krankenhausbesuche in den letzten zwölf Monaten von älteren Bürgern in einer Gemeinschaft, die auf den Merkmalen der Individuen und den Arten von Gesundheitsplänen basiert, unter denen jeder versichert ist. Beschreibung der Daten Lets verfolgen Beispiel 1 von oben. Wir haben Anwesenheitsdaten von 314 Junioren der High School von zwei städtischen Gymnasien in der Datei nbdata. dta. Die Antwortvariable von Interesse ist Tage fehlend, daysabs. Die variable Mathematik ist die standardisierte Mathematik für jeden Schüler. Die Variable prog ist eine dreistufige Nominalvariable, die den Typ des Lehrprogramms angibt, in dem der Schüler eingeschrieben ist. Sehen wir uns die Daten an. Es ist immer eine gute Idee, mit beschreibenden Statistiken und Parzellen zu beginnen. Jede Variable hat 314 gültige Beobachtungen und ihre Verteilungen scheinen recht vernünftig. Das unbedingte Mittel unserer Ergebnisvariablen ist viel geringer als seine Varianz. Lets weiter mit unserer Beschreibung der Variablen in diesem Datensatz. Die folgende Tabelle zeigt die durchschnittliche Anzahl von Tagen, die nach Programmtyp nicht vorhanden sind, und scheint darauf hinzudeuten, dass der Programmtyp ein guter Kandidat für die Vorhersage der Anzahl der Tage ist, die nicht vorhanden sind, unsere Ergebnisvariable, weil der Mittelwert des Ergebnisses durch Prog variiert. Die Abweichungen innerhalb jeder Ebene von prog sind höher als die Mittel in jeder Ebene. Dies sind die bedingten Mittel und Abweichungen. Diese Unterschiede deuten darauf hin, dass eine Überdispersion vorhanden ist und dass ein negatives Binomialmodell geeignet wäre. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Ihnen begegnet sind. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen oder haben Einschränkungen. Negative binomische Regression - Negative binomische Regression kann für überdispergierte Zähldaten verwendet werden, dh wenn die bedingte Varianz das bedingte Mittel überschreitet. Sie kann als eine Verallgemeinerung der Poisson-Regression betrachtet werden, da sie dieselbe mittlere Struktur wie die Poisson-Regression hat und sie hat einen zusätzlichen Parameter, um die Überdispersion zu modellieren. Wenn die bedingte Verteilung der Ergebnisvariablen überdispergiert ist, sind die Konfidenzintervalle für die negative binomische Regression wahrscheinlich schmaler, verglichen mit denen aus einem Poisson-Regressionsmodell. Poisson-Regression - Poisson-Regression wird oft für die Modellierung von Zähldaten verwendet. Poisson-Regression hat eine Anzahl von Erweiterungen, die für Zählmodelle nützlich sind. Zero-inflated Regressionsmodell - Zero-inflated Modelle versuchen, übermäßige Nullen Rechnung zu tragen. Mit anderen Worten, es wird angenommen, dass zwei Arten von Nullen in den Daten existieren, quotenerosot und quotexcess nerosquot. Zero-inflated Modelle schätzen zwei Gleichungen gleichzeitig, eine für das Zählmodell und eine für die überschüssigen Nullen. OLS-Regression - Zählergebnisvariablen werden manchmal log-transformiert und mit OLS-Regression analysiert. Viele Probleme treten mit diesem Ansatz auf, einschließlich Datenverlust aufgrund von undefinierten Werten, die durch das Auslesen des logarithmischen Werts von Null (das undefiniert ist) sowie die fehlende Fähigkeit, die Dispersion zu modellieren, erzeugt werden. Negative binomische Regressionsanalyse Nachfolgend verwenden wir den nbreg-Befehl, um ein negatives binomisches Regressionsmodell abzuschätzen. Das i. Bevor prog anzeigt, dass es sich um eine Faktorvariable (d. H. Kategorische Variable) handelt und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Der Ausgang beginnt mit dem Iterationsprotokoll. Wir können sehen, dass es beginnt mit der Anpassung eines Poisson-Modells, dann ein Null-Modell (Abfang-Modell) und schließlich das negative Binomial-Modell. Da es eine Maximum-Likelihood-Schätzung verwendet, iteriert es, bis die Änderung in der Log-Likelihood ausreichend klein ist. Der letzte Wert im Iterationsprotokoll ist der Endwert der Protokollwahrscheinlichkeit für das Vollmodell und wird wieder angezeigt. Die Log-Likelihood kann verwendet werden, um Modelle zu vergleichen. Die Kopfzeileninformationen werden als nächstes dargestellt. Auf der rechten Seite wird die Anzahl der Beobachtungen, die in der Analyse (314) verwendet werden, zusammen mit der Wald-Chi-Quadrat-Statistik mit drei Freiheitsgraden für das vollständige Modell, gefolgt von dem p-Wert für das Chi-Quadrat angegeben . Dies ist ein Test, bei dem alle geschätzten Koeffizienten gleich Null sind - ein Test des Modells als Ganzes. Aus dem p-Wert können wir sehen, dass das Modell statistisch signifikant ist. Der Header enthält auch einen Pseudo-R2, der in diesem Beispiel 0,03 beträgt. Unterhalb des Headers finden Sie die negativen Binomialregressionskoeffizienten für jede der Variablen zusammen mit Standardfehlern, z-Scores, p-Werten und 95 Konfidenzintervallen für die Koeffizienten. Die variable Mathematik hat einen Koeffizienten von -0,006, der statistisch signifikant ist. Dies bedeutet, dass für jede einheitliche Erhöhung auf Mathe. Die erwartete Protokollzählung der Anzahl der abwesenden Tage um 0,006 abnimmt. Die Indikatorvariable 2.prog ist der erwartete Unterschied in der Log-Zählung zwischen Gruppe 2 (prog 2) und der Referenzgruppe (prog 1). Die erwartete Protokollzählung für die Stufe 2 von prog ist 0,44 niedriger als die erwartete Protokollzählung für Level 1. Die Indikatorvariable 3.prog ist die erwartete Differenz zwischen der Protokollgruppe zwischen Gruppe 3 (prog 3) und der Referenzgruppe (prog 1). Die erwartete Protokollzählung für die Stufe 3 von prog ist 1,28 niedriger als die erwartete Protokollzählung für Stufe 1. Um festzustellen, ob prog selbst insgesamt statistisch signifikant ist, können wir den Testbefehl verwenden, um die beiden Freiheitsgrade zu erhalten Diese Variable. Der Zwei-Freiheits-Chi-Quadrat-Test zeigt, dass prog ein statistisch signifikanter Prädiktor von daysabs ist. Zusätzlich wird der log-transformierte Überdispersionsparameter (lnalpha) abgeschätzt und zusammen mit dem untransformierten Wert angezeigt. Ein Poisson-Modell ist eines, bei dem dieser Alphawert auf Null beschränkt ist. Stata findet die maximale Wahrscheinlichkeitsschätzung des Protokolls von alpha und berechnet dann alpha aus diesem. Dies bedeutet, dass alpha immer größer als null ist und dass Statas nbreg nur eine Überdispersion erlaubt (Varianz größer als der Mittelwert). Unterhalb der Tabelle der Koeffizienten finden Sie einen Wahrscheinlichkeitsvergleichstest, dass Alpha gleich Null ist - der Wahrscheinlichkeitsverhältnistest, der dieses Modell mit einem Poisson-Modell vergleicht. In diesem Beispiel ist der zugehörige Chi-Quadrat-Wert 926,03 mit einem Freiheitsgrad. Dies legt nahe, dass Alpha nicht Null ist und das negative Binomialmodell geeigneter ist als das Poisson-Modell. Wir können die Ergebnisse auch als Inzidenzrate-Verhältnisse sehen, indem wir die irr-Option verwenden. Die obige Ausgabe zeigt, dass die Einfallrate für 2.prog das 0,64-fache der Ereignisrate für die Referenzgruppe (1.prog) beträgt. Ebenso ist die Einfallrate für 3.prog das 0,28-fache der Einfallrate für die Referenzgruppe, die die anderen Variablen konstant hält. Die prozentuale Veränderung der Inzidenzrate von daysabs ist eine 1 Abnahme für jede Einheitserhöhung in Mathe. Die Form der Modellgleichung für die negative Binomialregression ist die gleiche wie für die Poisson-Regression. Das Protokoll des Ergebnisses wird mit einer linearen Kombination der Prädiktoren vorhergesagt: log (daysabs) Intercept b 1 (prog2) b 2 (prog3) b 3 math. (B1 (prog2)) exp (b2 (prog3)) exp (b 3 math) Die Koeffizienten haben einen additiven Effekt In der log (y) - Skala und der IRR haben eine multiplikative Wirkung in der y-Skala. Der Dispersionsparameter alpha in negativer Binomialregression wirkt nicht auf die erwarteten Zählungen, bewirkt aber die geschätzte Varianz der erwarteten Zählungen. Weitere Details finden Sie in der Stata-Dokumentation. Für weitere Informationen über die verschiedenen Metriken, in denen die Ergebnisse präsentiert werden können, und deren Interpretation, siehe Regressionsmodelle für kategoriale abhängige Variablen unter Verwendung von Stata, Second Edition von J. Scott Long und Jeremy Freese (2006). Um das Modell besser zu verstehen, können wir den Ränderbefehl verwenden. Im Folgenden verwenden wir den Befehl margins, um die prognostizierten Zählungen auf jeder Ebene von prog zu berechnen. Wobei alle anderen Variablen (in diesem Beispiel Mathe) im Modell an ihren Mitteln gehalten werden. In der obigen Ausgabe sehen wir, dass die vorhergesagte Anzahl von Ereignissen für die Stufe 1 von prog etwa 10.24 ist, wobei die Mathematik in ihrem Mittelwert gehalten wird. Die prognostizierte Anzahl von Ereignissen für die Stufe 2 von prog ist bei 6,59 niedriger, und die vorhergesagte Anzahl von Ereignissen für die Stufe 3 von prog ist etwa 2,85. Es ist zu beachten, dass die vorhergesagte Zählung der Stufe 2 von prog (6.58792710.2369) das 0,64-fache der vorhergesagten Zählung für die Stufe 1 von prog ist. Dies entspricht dem, was wir in der IRR-Ausgabetabelle sahen. Nachstehend erhalten wir die vorhergesagte Anzahl von Ereignissen für Werte von Mathematik, die von 0 bis 100 in Schritten von 20 liegen. Die obige Tabelle zeigt, daß mit prog bei seinen beobachteten Werten und bei Mathematik, die für alle Beobachtungen bei 0 gehalten wird, die durchschnittliche prognostizierte Zählung (bzw. Durchschnittliche Anzahl von fehlenden Tagen) etwa 7,72 beträgt, beträgt die durchschnittliche vorhergesagte Zählung bei Mathe 100 ungefähr 4,24. Wenn wir die vorhergesagten Zählungen auf zwei beliebigen Mathematikstufen vergleichen, wie Mathematik 20 und Mathematik 40, können wir sehen, dass das Verhältnis (6.0725876.845863) 0.887 beträgt. Dies entspricht dem IRR von 0,994 für eine 20 Einheitenänderung: 0,99420 0,887. Der benutzerdefinierte Befehl "fitstat" (sowie Statas estat-Befehle) können verwendet werden, um zusätzliche Modellpassinformationen zu erhalten, die hilfreich sein können, wenn Sie Modelle vergleichen möchten. Sie können findit fitstat eingeben, um dieses Programm herunterzuladen (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Sie können die vorhergesagte Anzahl der Ereignisse mit den folgenden Befehlen grafisch darstellen. Die Grafik zeigt, dass die meisten Tage abwesend sind für die in der akademischen Programm 1 vorausgesetzt, vor allem, wenn der Schüler hat eine niedrige Mathe-Score. Die niedrigste Anzahl der vorhergesagten Tage fehlt ist für die Schüler im Programm 3. Dinge zu beachten Es wird nicht empfohlen, dass negative Binomial-Modelle auf kleine Proben angewendet werden. Eine häufige Ursache für eine Überdispersion sind überschüssige Nullen durch ein zusätzliches Datenerzeugungsverfahren. In dieser Situation sollte kein aufblasbares Modell in Betracht gezogen werden. Wenn der Datenerzeugungsprozess keine 0s zuläßt (wie die Anzahl der Tage, die im Krankenhaus verbracht werden), dann kann ein Null-trunkiertes Modell geeigneter sein. Zähldaten haben oft eine Belichtungsvariable, die angibt, wie oft das Ereignis geschehen sein könnte. Diese Variable sollte in Ihr negatives Binomial-Regressionsmodell mit der Verwendung der Option exp () integriert werden. Die Ergebnisvariable in einer negativen Binomialregression kann keine negativen Zahlen haben und die Belichtung kann nicht 0s haben. Sie können auch ein negatives Binomialmodell mit dem Befehl glm mit der Protokollverknüpfung und der Binomialfamilie ausführen. Sie müssen den Befehl glm verwenden, um die Residuen zu erhalten, um andere Annahmen des negativen Binomialmodells zu überprüfen (siehe Cameron und Trivedi (1998) und Dupont (2002) für weitere Informationen). Pseudo-R-Quadrat: Es gibt viele verschiedene Pseudo-R-Quadrate. Sie alle versuchen, Informationen ähnlich wie die von R-squared in OLS-Regression zur Verfügung gestellt, aber keiner von ihnen kann genau so interpretiert werden, wie R-Quadrat in OLS-Regression interpretiert wird. Für eine Diskussion über verschiedene Pseudo-R-Quadrate siehe Long and Freese (2006) oder unsere FAQ-Seite Was sind Pseudo-R-Quadrate. References Long, J. S. (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Long, J. S. und Freese, J. (2006). Regression Modelle für kategorische abhängige Variablen mit Stata, zweite Ausgabe. Hochschulstation, TX: Stata Press. Cameron, A. C. und Trivedi, P. K. (2009). Mikroökonometrie unter Verwendung von Stata. Hochschulstation, TX: Stata Press. Cameron, A. C. und Trivedi, P. K. (1998). Regressionsanalyse von Zähldaten. New York: Cambridge Press. Cameron, A. C. Fortschritte in der Zählungsdatenregression für den Applied Statistics Workshop, 28. März 2009. cameron. econ. ucdavis. eduracdcount. html. Dupont, W. D. (2002). Statistische Modellierung für biomedizinische Forscher: Eine einfache Einführung in die Analyse komplexer Daten. New York: Cambridge Press. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.
No comments:
Post a Comment