statistik frage (spss, chi quadrat,...)

Santiago82 · 15. März 2013

Angenommen ich habe 2 nominale Variablen, eine mit 5 Ausprägungen, eine mit 2 (zb Mann Frau), nun möchte ich wissen, ob sich die Verteilung zwischen Männer und Frauen signifikant unterscheidet. Kann ich dafür in Spss mir die Ergebnisse gesplittet ausgeben lassen, sodass ich dann für jede der 5 Ausprägungen einen bestimmten chi Quadrat wert und signifikanz bekomme?

Zeigt mir das dann, ob die Unterschiede jeweils signifikant sind?

Fallzahlen sind dabei kein Problem bei mir, wie es geht weiß ich auch, bin mir nur nicht sicher ob das so korrekt ist...

Indurus · 15. März 2013

Nein, es gibt keinen Wert der Chi-Quadrat Statistik für jede Ausprägung. Die Chi-Quadrat Statistik gibts nur als Gesamtes und ist die Summe der quadratischen Abstände der Häufigkeiten in jeder Ausprägungskombination von der dort erwarteten Häufigkeit unter der Annahme, dass die beiden Variablen unabhängig sind (d.h. dass die Zugehörigkeit zu Mann/Frau eben auf die Zugehörigkeit in der anderen Variable keinen Einluss hat). Ist diese Abweichungsquadratsumme eben "groß genug", dann sind die beiden Variablen nicht unabhängig, genau das kann man mit diesem Test überprüfen.

Was heißt nun aber "groß genug"? Diese Chi-Quadrat Statistik folgt, wie der Name schon sagt, einer Chi-Quadrat Verteilung die von den Anzahlen der möglichen Ausprägungen der beiden Variablen abhängt. Darüber brauchst du dir aber keine Gedanken machen, diese Arbeit nimmt dir SPSS ab. Du brauchst nur mehr den p-Wert checken und je nachdem dann entscheiden ob du verwirfst oder nicht!

Santiago82 · 15. März 2013

Ok dann anders gefragt, gibt es ein statistisches Verfahren dass mir bei der Frage der Unterschiede eine Antwort gibt, oder muss ich mich da mit einer simplen kreuztabelle begnügen. Eigentlich müsste es doch ein Verfahren gegen, dass mir statistisch signifikante Ergebnisse zu den unterschieden gibt oder, also dazu wie sehr sich die unterscheiden usw.

StepDoWn · 13. Mai 2013

Ich krame mal den Thread hoch.

Zufällig jemand hier, der sich mit SAS bzw allgemein logistischer Regression auskennt? :ears:

Grob beschrieben: ich habe 1 dichotome Outcome-Variable (0 gesund, 1 krank), und für den Moment 2 (metrische) Einflussvariablen. Zum einen sind ROC-Plots gewünscht, um meine beiden Einflussvariablen auf ihre Genauigkeit (mir sind Sensitivität und Spezifität klar) vergleichen zu können - und das habe ich auch schon, bzw das funktioniert bestens.

Das Problem habe ich allerdings, wenn ich aus diesem Modell einen (optimalen?) Cut-Off berechnen will, bzw mir punktuell für die Werte der schrittweisen Modellberechnung eben den Cut-Off zurückgeben lassen will.

Ich habe die Werte der Modellberechnung in der Form:

STEP / PROB / POS / NEG / FP / FN / SENS / 1MSPEC

Tatsächlich wichtig sind momentan (soweit ich das noch verstehe) eigentlich nur die ersten beiden Spalten. Ich zitiere die SAS-Dokumentation:

_STEP_, the model step number. This variable is not included if model selection is not requested.
_PROB_, the estimated probability of an event. These estimated probabilities serve as cutpoints for predicting the response. Any observation with an estimated event probability that exceeds or equals _PROB_ is predicted to be an event; otherwise, it is predicted to be a nonevent. Predicted probabilities that are close to each other are grouped together, with the maximum allowable difference between the largest and smallest values less than a constant that is specified by the ROCEPS= option. The smallest estimated probability is used to represent the group.

STEP ist bei mir ~130x 0, und ~130x 1. Von meinem PROB müsste ich jetzt angeblich auf die CutOffs zurückrechnen können - aber das krieg ich nicht hin, stehe da total auf dem Schlauch.

Ich habe mit P = exp(b0 + b1*x) / (1+ exp(b0+b1*x)) die Wahrscheinlichkeit als Funktion von x. Ich hätte aber eben gerne x als Funktion von P.

Ideen?

e: falls notwendig kann ich gern die Excel-Datei hergeben, just ask.

bearbeitet 13. Mai 2013 von StepDown

Indurus · 13. Mai 2013

Einfach umformen:

x = (ln(p/(1-p)) - b0)/b1

Mit dem Nenner multiplizieren, das p reinmultiplizieren, die terme mit dem x auf die eine Seite, das e hoch(...) rausheben, durch (1-p) dividieren, dann logarithmieren und dann nich b0 und b1 rberschupfen!

bearbeitet 13. Mai 2013 von Indurus

StepDoWn · 13. Mai 2013

Einfach umformen:

x = (ln(p/(1-p)) - b0)/b1

Mit dem Nenner multiplizieren, das p reinmultiplizieren, die terme mit dem x auf die eine Seite, das e hoch(...) rausheben, durch (1-p) dividieren, dann logarithmieren und dann nich b0 und b1 rberschupfen!

So weit war ich im Grunde schon, vom Umformen her wäre es mir klar. Aber ich komme an meinem Output an kein b0 bzw auch nicht b1. Hier mal ein Ausschnitt:


_STEP_ _PROB_ _POS_ _NEG_ _FALPOS_ _FALNEG_ _SENSIT_ _1MSPEC_
0 0,999999995 5 145 0 28 0,151515152 0
0 0,997666254 6 145 0 27 0,181818182 0
0 0,987552259 6 144 1 27 0,181818182 0,006896552
0 0,954657005 7 144 1 26 0,212121212 0,006896552
0 0,922410824 8 144 1 25 0,242424242 0,006896552
0 0,807469684 8 143 2 25 0,242424242 0,013793103
0 0,769727389 9 143 2 24 0,272727273 0,013793103
0 0,758793947 10 143 2 23 0,303030303 0,013793103

Bin ich blind, blöd, oder wurde ich eine Sackgasse geschickt?

Danke schonmal für die Hilfe!

e: scheiß formatieren hier.

bearbeitet 13. Mai 2013 von StepDown

Indurus · 13. Mai 2013

b0 und b1 (da du von einem Modell mit 2 unabhäbgigen Variablen schreibst, muss es in deinem Fall sogar noch ein b2 geben) sind die Modellparameter. Die werden von SAS geschätzt und diese Schätzungen müssten irgendwo im Output zu finden sein! Suche im Output nach "coefficients" oder "betas" oder "parameters" für b1 und b2 bzw. nach "constant" oder "intercept" für das b0!

Dein Output klingt als hättest du eine schrittweise Selektionsprozedur verwendet, die eine deiner beiden unabhängigen (erklärenden) Variable mangels Erklärkraft (signifikanz) ausgeschlossen hat und ein Modell vorschlägt, in dem nur mehr eine unabhängige Variable vorkommt. Die Konstante b0 hast du auf jeden Fall drinnen, von den weiteren Parameter b1, b2.... gibt so viele, wieviele erklärende Größen im Modell sind!

StepDoWn · 13. Mai 2013

b0 und b1 (da du von einem Modell mit 2 unabhäbgigen Variablen schreibst, muss es in deinem Fall sogar noch ein b2 geben) sind die Modellparameter. Die werden von SAS geschätzt und diese Schätzungen müssten irgendwo im Output zu finden sein! Suche im Output nach "coefficients" oder "betas" oder "parameters" für b1 und b2 bzw. nach "constant" oder "intercept" für das b0!

Dein Output klingt als hättest du eine schrittweise Selektionsprozedur verwendet, die eine deiner beiden unabhängigen (erklärenden) Variable mangels Erklärkraft (signifikanz) ausgeschlossen hat und ein Modell vorschlägt, in dem nur mehr eine unabhängige Variable vorkommt. Die Konstante b0 hast du auf jeden Fall drinnen, von den weiteren Parameter b1, b2.... gibt so viele, wieviele erklärende Größen im Modell sind!

Okay, damit müsste ich's haben. Meine geschätzten Modellparameter waren NICHT in meinem Output dabei (obwohl mir das so "versichert" wurde, vielen Dank an die verantwortliche Person ... ), ich hab sie aber über den entsprechenden Befehl jetzt generieren können ... genauer gesagt Maximum Likelihood Estimates - dank deiner Hilfe hab ich gewusst wonach ich suchen musste.

Vielen Dank für deine Hilfe - sollte es dich mal zu irgendeinem ASB Kickerl / Umtrunk / ... verschlagen, gib dich zu erkennen, du wirst definitiv mit einem Bier von mir beglückt. Hast mir gerade sehr geholfen.

StepDoWn · 23. Januar 2015

Ich grabe den Thread (und auch gleich dich ) wieder aus, weil ich wieder eine Statistik-Frage hätte: ich habe eine metrisch skalierte Variable mit ~250 Einträgen und soll daraus einen Referenzbereich herausgeben. Wie gehe ich das denn am besten an, mit welcher Begründung würden welche Quantile Sinn machen? 97,5%, 95%, ...?

Ist alles schon etwas weit weg bei mir.

Indurus · 23. Januar 2015

Ich grabe den Thread (und auch gleich dich ) wieder aus, weil ich wieder eine Statistik-Frage hätte: ich habe eine metrisch skalierte Variable mit ~250 Einträgen und soll daraus einen Referenzbereich herausgeben. Wie gehe ich das denn am besten an, mit welcher Begründung würden welche Quantile Sinn machen? 97,5%, 95%, ...?

Ist alles schon etwas weit weg bei mir.

Meinst du sicher Referenzbereich und nicht Konfidenzbereich? Mit Referenzberiech kann ich jetzt mal nix anfangen...

Ein Konfidenzbereich (oder -intervall) ist ein Wertebereich der den wahren Erwartungswert der Grundgesamtheit aus der du dein 250er Sample gezogen hast (so hab ich das jetzt mal verstanden) mit einer bestimmten Wahrscheinlichkeit beinhaltet. (man sagt Konfidenzbereich für den Mittelwertschätzer)

Wenn du einen Solchen berechnen willst, gibts im wesentlichen 2 Vorgehensweisen: Mit Hilfe der Normalverteilung (wenn die Varianz bekannt ist, was aber in den wenigstens Fällen der Fall sein wird) oder mit der t-Verteilung (wenn die Varianz unbekannt ist und erst geschätzt werden muss (das ist meistens der Fall).

Du hast also deine Stichprobe vom Umfang 250. Dazu rechnest dir mal den Mittelwert (ganz normal mit "=MITTELWERT()") und die Standardabweichung (mit "=STABW.N()) aus. Mit der Excel-Formel "=KONFIDENZ.T(wahrsch;stabw;n)" kannst du dir dann die Konfidenzlänge ausgeben lassen! Als Irrtumswahrscheinlichkeit wird meistens 5% angenommen, man nimmt also üblicherweise 95% konfidenzintervalle, das ist der Wert den du dann als ersten Parameter in die Excelfunktion klopfen musst. Der zweite Parameter "stabw" ist die eben ausgerechnete Standardabweichung und der dritte ist der "n" ist der Stichprobenumfang, also bei dir 250.

Wenn du den Wert der bei "=KONFIDENZ.T(wahrsch;stabw;n)" rauskommt dann zu deinem Mittelwert dazu rechnest und abziehst, hast du das Konfidenzintervall.

Sagen wir der Mittelwert ist 5, dieser Konfidenzwert ist 0,34 -> Dann ist das Konfidenzintervall, also der Bereich der den Wahren Mittelwert, den du aus deiner Stichprobe ja nur geschätzt hast, mit einer bestimmten Wahrscheinlichkeit beinhaltet, [4,66; 5,34]

bearbeitet 23. Januar 2015 von Indurus

StepDoWn · 23. Januar 2015

Meinst du sicher Referenzbereich und nicht Konfidenzbereich? Mit Referenzberiech kann ich jetzt mal nix anfangen...

Ein Konfidenzbereich (oder -intervall) ist ein Wertebereich der den wahren Erwartungswert der Grundgesamtheit aus der du dein 250er Sample gezogen hast (so hab ich das jetzt mal verstanden) mit einer bestimmten Wahrscheinlichkeit beinhaltet. (man sagt Konfidenzbereich für den Mittelwertschätzer)

Wenn du einen Solchen berechnen willst, gibts im wesentlichen 2 Vorgehensweisen: Mit Hilfe der Normalverteilung (wenn die Varianz bekannt ist, was aber in den wenigstens Fällen der Fall sein wird) oder mit der t-Verteilung (wenn die Varianz unbekannt ist und erst geschätzt werden muss (das ist meistens der Fall).

Du hast also deine Stichprobe vom Umfang 250. Dazu rechnest dir mal den Mittelwert (ganz normal mit "=MITTELWERT()") und die Standardabweichung (mit "=STABW.N()) aus. Mit der Excel-Formel "=KONFIDENZ.T(wahrsch;stabw;n)" kannst du dir dann die Konfidenzlänge ausgeben lassen! Als Irrtumswahrscheinlichkeit wird meistens 5% angenommen, man nimmt also üblicherweise 95% konfidenzintervalle, das ist der Wert den du dann als ersten Parameter in die Excelfunktion klopfen musst. Der zweite Parameter "stabw" ist die eben ausgerechnete Standardabweichung und der dritte ist der "n" ist der Stichprobenumfang, also bei dir 250.

Wenn du den Wert der bei "=KONFIDENZ.T(wahrsch;stabw;n)" rauskommt dann zu deinem Mittelwert dazu rechnest und abziehst, hast du das Konfidenzintervall.

Sagen wir der Mittelwert ist 5, dieser Konfidenzwert ist 0,34 -> Dann ist das Konfidenzintervall, also der Bereich der den Wahren Mittelwert, den du aus deiner Stichprobe ja nur geschätzt hast, mit einer bestimmten Wahrscheinlichkeit beinhaltet, [4,66; 5,34]

Danke für die Antwort schonmal.

Ja mit Referenzbereich meine ich in dem Fall quasi schon die Anwendung: zB für die Körpertemperatur eines gesunden Menschen ist der Referenzbereich (glaube ich, nagel mich nicht fest) zwischen 36.0-37.9 °C ... drunter = unterkühlt, drüber = Fieber, dazwischen = gesund. Das meine ich mit "Referenzbereich". Wenn ich jetzt also ein Sample von 250 Messungen mit Körpertemperaturen von GESUNDEN Leuten habe, dann werde ich (hoffentlich) den Großteil meiner Messungen in diesem Bereich (36.0-37.9) finden.

Vielleicht ist das Beispiel aber auch nicht ganz perfekt gewählt, weil was ich meine: ich will nicht den Cut-Off von 37.9 = gesund, 38.0 = krank bestätigen, sondern ich will (statistisch korrekt (!)) die Aussage treffen: Werte im Bereich von 36.0-37.9 sind mit x% Wahrscheinlichkeit gesund. Was dann natürlich auch wieder die Gegenfrage aufwirft: wie viele falsch negative habe ich mit 35.9, die perfekt gesund sind, aber außerhalb meines "Referenzbereichs".

Ich hoffe ich kann meinen Gedankenwirrwarr halbwegs in Worte fassen, deine Erklärung hilft mir auf jeden Fall schon, werde das tatsächlich auch mal im Excel durchspielen, wenn ich dann tatsächliche Werte vor mir habe sehe ich dann vermutlich auch schon ob ich auf dem richtigen Weg bin.

Anmelden

statistik frage (spss, chi quadrat,...)

Recommended Posts

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Diesen Beitrag teilen

Link zum Beitrag

Auf anderen Seiten teilen

Join the conversation

Partnerlinks

Unsere Sponsoren und Partnerseiten

Wer ist Online