Santiago82 Top-Schriftsteller Geschrieben 15. MĂ€rz 2013 Angenommen ich habe 2 nominale Variablen, eine mit 5 AusprĂ€gungen, eine mit 2 (zb Mann Frau), nun möchte ich wissen, ob sich die Verteilung zwischen MĂ€nner und Frauen signifikant unterscheidet. Kann ich dafĂŒr in Spss mir die Ergebnisse gesplittet ausgeben lassen, sodass ich dann fĂŒr jede der 5 AusprĂ€gungen einen bestimmten chi Quadrat wert und signifikanz bekomme? Zeigt mir das dann, ob die Unterschiede jeweils signifikant sind? Fallzahlen sind dabei kein Problem bei mir, wie es geht weiĂ ich auch, bin mir nur nicht sicher ob das so korrekt ist... 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
Indurus Harry Wijnvoord FuĂballgott Geschrieben 15. MĂ€rz 2013 Nein, es gibt keinen Wert der Chi-Quadrat Statistik fĂŒr jede AusprĂ€gung. Die Chi-Quadrat Statistik gibts nur als Gesamtes und ist die Summe der quadratischen AbstĂ€nde der HĂ€ufigkeiten in jeder AusprĂ€gungskombination von der dort erwarteten HĂ€ufigkeit unter der Annahme, dass die beiden Variablen unabhĂ€ngig sind (d.h. dass die Zugehörigkeit zu Mann/Frau eben auf die Zugehörigkeit in der anderen Variable keinen Einluss hat). Ist diese Abweichungsquadratsumme eben "groĂ genug", dann sind die beiden Variablen nicht unabhĂ€ngig, genau das kann man mit diesem Test ĂŒberprĂŒfen. Was heiĂt nun aber "groĂ genug"? Diese Chi-Quadrat Statistik folgt, wie der Name schon sagt, einer Chi-Quadrat Verteilung die von den Anzahlen der möglichen AusprĂ€gungen der beiden Variablen abhĂ€ngt. DarĂŒber brauchst du dir aber keine Gedanken machen, diese Arbeit nimmt dir SPSS ab. Du brauchst nur mehr den p-Wert checken und je nachdem dann entscheiden ob du verwirfst oder nicht! 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
Santiago82 Top-Schriftsteller Geschrieben 15. MĂ€rz 2013 Ok dann anders gefragt, gibt es ein statistisches Verfahren dass mir bei der Frage der Unterschiede eine Antwort gibt, oder muss ich mich da mit einer simplen kreuztabelle begnĂŒgen. Eigentlich mĂŒsste es doch ein Verfahren gegen, dass mir statistisch signifikante Ergebnisse zu den unterschieden gibt oder, also dazu wie sehr sich die unterscheiden usw. 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
StepDoWn Captain Awesome Geschrieben 13. Mai 2013 (bearbeitet) Ich krame mal den Thread hoch. ZufĂ€llig jemand hier, der sich mit SAS bzw allgemein logistischer Regression auskennt? Grob beschrieben: ich habe 1 dichotome Outcome-Variable (0 gesund, 1 krank), und fĂŒr den Moment 2 (metrische) Einflussvariablen. Zum einen sind ROC-Plots gewĂŒnscht, um meine beiden Einflussvariablen auf ihre Genauigkeit (mir sind SensitivitĂ€t und SpezifitĂ€t klar) vergleichen zu können - und das habe ich auch schon, bzw das funktioniert bestens. Das Problem habe ich allerdings, wenn ich aus diesem Modell einen (optimalen?) Cut-Off berechnen will, bzw mir punktuell fĂŒr die Werte der schrittweisen Modellberechnung eben den Cut-Off zurĂŒckgeben lassen will. Ich habe die Werte der Modellberechnung in der Form: STEP / PROB / POS / NEG / FP / FN / SENS / 1MSPEC TatsĂ€chlich wichtig sind momentan (soweit ich das noch verstehe) eigentlich nur die ersten beiden Spalten. Ich zitiere die SAS-Dokumentation: _STEP_, the model step number. This variable is not included if model selection is not requested. _PROB_, the estimated probability of an event. These estimated probabilities serve as cutpoints for predicting the response. Any observation with an estimated event probability that exceeds or equals _PROB_ is predicted to be an event; otherwise, it is predicted to be a nonevent. Predicted probabilities that are close to each other are grouped together, with the maximum allowable difference between the largest and smallest values less than a constant that is specified by the ROCEPS= option. The smallest estimated probability is used to represent the group. STEP ist bei mir ~130x 0, und ~130x 1. Von meinem PROB mĂŒsste ich jetzt angeblich auf die CutOffs zurĂŒckrechnen können - aber das krieg ich nicht hin, stehe da total auf dem Schlauch. Ich habe mit P = exp(b0 + b1*x) / (1+ exp(b0+b1*x)) die Wahrscheinlichkeit als Funktion von x. Ich hĂ€tte aber eben gerne x als Funktion von P. Ideen? e: falls notwendig kann ich gern die Excel-Datei hergeben, just ask. bearbeitet 13. Mai 2013 von StepDown 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
Indurus Harry Wijnvoord FuĂballgott Geschrieben 13. Mai 2013 (bearbeitet) Einfach umformen: x = (ln(p/(1-p)) - b0)/b1 Mit dem Nenner multiplizieren, das p reinmultiplizieren, die terme mit dem x auf die eine Seite, das e hoch(...) rausheben, durch (1-p) dividieren, dann logarithmieren und dann nich b0 und b1 rberschupfen! bearbeitet 13. Mai 2013 von Indurus 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
StepDoWn Captain Awesome Geschrieben 13. Mai 2013 (bearbeitet) Einfach umformen: x = (ln(p/(1-p)) - b0)/b1 Mit dem Nenner multiplizieren, das p reinmultiplizieren, die terme mit dem x auf die eine Seite, das e hoch(...) rausheben, durch (1-p) dividieren, dann logarithmieren und dann nich b0 und b1 rberschupfen! So weit war ich im Grunde schon, vom Umformen her wĂ€re es mir klar. Aber ich komme an meinem Output an kein b0 bzw auch nicht b1. Hier mal ein Ausschnitt: _STEP_ _PROB_ _POS_ _NEG_ _FALPOS_ _FALNEG_ _SENSIT_ _1MSPEC_ 0 0,999999995 5 145 0 28 0,151515152 0 0 0,997666254 6 145 0 27 0,181818182 0 0 0,987552259 6 144 1 27 0,181818182 0,006896552 0 0,954657005 7 144 1 26 0,212121212 0,006896552 0 0,922410824 8 144 1 25 0,242424242 0,006896552 0 0,807469684 8 143 2 25 0,242424242 0,013793103 0 0,769727389 9 143 2 24 0,272727273 0,013793103 0 0,758793947 10 143 2 23 0,303030303 0,013793103 Bin ich blind, blöd, oder wurde ich eine Sackgasse geschickt? Danke schonmal fĂŒr die Hilfe! e: scheiĂ formatieren hier. bearbeitet 13. Mai 2013 von StepDown 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
Indurus Harry Wijnvoord FuĂballgott Geschrieben 13. Mai 2013 b0 und b1 (da du von einem Modell mit 2 unabhĂ€bgigen Variablen schreibst, muss es in deinem Fall sogar noch ein b2 geben) sind die Modellparameter. Die werden von SAS geschĂ€tzt und diese SchĂ€tzungen mĂŒssten irgendwo im Output zu finden sein! Suche im Output nach "coefficients" oder "betas" oder "parameters" fĂŒr b1 und b2 bzw. nach "constant" oder "intercept" fĂŒr das b0! Dein Output klingt als hĂ€ttest du eine schrittweise Selektionsprozedur verwendet, die eine deiner beiden unabhĂ€ngigen (erklĂ€renden) Variable mangels ErklĂ€rkraft (signifikanz) ausgeschlossen hat und ein Modell vorschlĂ€gt, in dem nur mehr eine unabhĂ€ngige Variable vorkommt. Die Konstante b0 hast du auf jeden Fall drinnen, von den weiteren Parameter b1, b2.... gibt so viele, wieviele erklĂ€rende GröĂen im Modell sind! 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
StepDoWn Captain Awesome Geschrieben 13. Mai 2013 b0 und b1 (da du von einem Modell mit 2 unabhĂ€bgigen Variablen schreibst, muss es in deinem Fall sogar noch ein b2 geben) sind die Modellparameter. Die werden von SAS geschĂ€tzt und diese SchĂ€tzungen mĂŒssten irgendwo im Output zu finden sein! Suche im Output nach "coefficients" oder "betas" oder "parameters" fĂŒr b1 und b2 bzw. nach "constant" oder "intercept" fĂŒr das b0! Dein Output klingt als hĂ€ttest du eine schrittweise Selektionsprozedur verwendet, die eine deiner beiden unabhĂ€ngigen (erklĂ€renden) Variable mangels ErklĂ€rkraft (signifikanz) ausgeschlossen hat und ein Modell vorschlĂ€gt, in dem nur mehr eine unabhĂ€ngige Variable vorkommt. Die Konstante b0 hast du auf jeden Fall drinnen, von den weiteren Parameter b1, b2.... gibt so viele, wieviele erklĂ€rende GröĂen im Modell sind! Okay, damit mĂŒsste ich's haben. Meine geschĂ€tzten Modellparameter waren NICHT in meinem Output dabei (obwohl mir das so "versichert" wurde, vielen Dank an die verantwortliche Person ... ), ich hab sie aber ĂŒber den entsprechenden Befehl jetzt generieren können ... genauer gesagt Maximum Likelihood Estimates - dank deiner Hilfe hab ich gewusst wonach ich suchen musste. Vielen Dank fĂŒr deine Hilfe - sollte es dich mal zu irgendeinem ASB Kickerl / Umtrunk / ... verschlagen, gib dich zu erkennen, du wirst definitiv mit einem Bier von mir beglĂŒckt. Hast mir gerade sehr geholfen. 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
StepDoWn Captain Awesome Geschrieben 23. Januar 2015 Ich grabe den Thread (und auch gleich dich ) wieder aus, weil ich wieder eine Statistik-Frage hĂ€tte: ich habe eine metrisch skalierte Variable mit ~250 EintrĂ€gen und soll daraus einen Referenzbereich herausgeben. Wie gehe ich das denn am besten an, mit welcher BegrĂŒndung wĂŒrden welche Quantile Sinn machen? 97,5%, 95%, ...? Ist alles schon etwas weit weg bei mir. 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
Indurus Harry Wijnvoord FuĂballgott Geschrieben 23. Januar 2015 (bearbeitet) Ich grabe den Thread (und auch gleich dich ) wieder aus, weil ich wieder eine Statistik-Frage hĂ€tte: ich habe eine metrisch skalierte Variable mit ~250 EintrĂ€gen und soll daraus einen Referenzbereich herausgeben. Wie gehe ich das denn am besten an, mit welcher BegrĂŒndung wĂŒrden welche Quantile Sinn machen? 97,5%, 95%, ...? Ist alles schon etwas weit weg bei mir. Meinst du sicher Referenzbereich und nicht Konfidenzbereich? Mit Referenzberiech kann ich jetzt mal nix anfangen... Ein Konfidenzbereich (oder -intervall) ist ein Wertebereich der den wahren Erwartungswert der Grundgesamtheit aus der du dein 250er Sample gezogen hast (so hab ich das jetzt mal verstanden) mit einer bestimmten Wahrscheinlichkeit beinhaltet. (man sagt Konfidenzbereich fĂŒr den MittelwertschĂ€tzer) Wenn du einen Solchen berechnen willst, gibts im wesentlichen 2 Vorgehensweisen: Mit Hilfe der Normalverteilung (wenn die Varianz bekannt ist, was aber in den wenigstens FĂ€llen der Fall sein wird) oder mit der t-Verteilung (wenn die Varianz unbekannt ist und erst geschĂ€tzt werden muss (das ist meistens der Fall). Du hast also deine Stichprobe vom Umfang 250. Dazu rechnest dir mal den Mittelwert (ganz normal mit "=MITTELWERT()") und die Standardabweichung (mit "=STABW.N()) aus. Mit der Excel-Formel "=KONFIDENZ.T(wahrsch;stabw;n)" kannst du dir dann die KonfidenzlĂ€nge ausgeben lassen! Als Irrtumswahrscheinlichkeit wird meistens 5% angenommen, man nimmt also ĂŒblicherweise 95% konfidenzintervalle, das ist der Wert den du dann als ersten Parameter in die Excelfunktion klopfen musst. Der zweite Parameter "stabw" ist die eben ausgerechnete Standardabweichung und der dritte ist der "n" ist der Stichprobenumfang, also bei dir 250. Wenn du den Wert der bei "=KONFIDENZ.T(wahrsch;stabw;n)" rauskommt dann zu deinem Mittelwert dazu rechnest und abziehst, hast du das Konfidenzintervall. Sagen wir der Mittelwert ist 5, dieser Konfidenzwert ist 0,34 -> Dann ist das Konfidenzintervall, also der Bereich der den Wahren Mittelwert, den du aus deiner Stichprobe ja nur geschĂ€tzt hast, mit einer bestimmten Wahrscheinlichkeit beinhaltet, [4,66; 5,34] bearbeitet 23. Januar 2015 von Indurus 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
StepDoWn Captain Awesome Geschrieben 23. Januar 2015 Meinst du sicher Referenzbereich und nicht Konfidenzbereich? Mit Referenzberiech kann ich jetzt mal nix anfangen... Ein Konfidenzbereich (oder -intervall) ist ein Wertebereich der den wahren Erwartungswert der Grundgesamtheit aus der du dein 250er Sample gezogen hast (so hab ich das jetzt mal verstanden) mit einer bestimmten Wahrscheinlichkeit beinhaltet. (man sagt Konfidenzbereich fĂŒr den MittelwertschĂ€tzer) Wenn du einen Solchen berechnen willst, gibts im wesentlichen 2 Vorgehensweisen: Mit Hilfe der Normalverteilung (wenn die Varianz bekannt ist, was aber in den wenigstens FĂ€llen der Fall sein wird) oder mit der t-Verteilung (wenn die Varianz unbekannt ist und erst geschĂ€tzt werden muss (das ist meistens der Fall). Du hast also deine Stichprobe vom Umfang 250. Dazu rechnest dir mal den Mittelwert (ganz normal mit "=MITTELWERT()") und die Standardabweichung (mit "=STABW.N()) aus. Mit der Excel-Formel "=KONFIDENZ.T(wahrsch;stabw;n)" kannst du dir dann die KonfidenzlĂ€nge ausgeben lassen! Als Irrtumswahrscheinlichkeit wird meistens 5% angenommen, man nimmt also ĂŒblicherweise 95% konfidenzintervalle, das ist der Wert den du dann als ersten Parameter in die Excelfunktion klopfen musst. Der zweite Parameter "stabw" ist die eben ausgerechnete Standardabweichung und der dritte ist der "n" ist der Stichprobenumfang, also bei dir 250. Wenn du den Wert der bei "=KONFIDENZ.T(wahrsch;stabw;n)" rauskommt dann zu deinem Mittelwert dazu rechnest und abziehst, hast du das Konfidenzintervall. Sagen wir der Mittelwert ist 5, dieser Konfidenzwert ist 0,34 -> Dann ist das Konfidenzintervall, also der Bereich der den Wahren Mittelwert, den du aus deiner Stichprobe ja nur geschĂ€tzt hast, mit einer bestimmten Wahrscheinlichkeit beinhaltet, [4,66; 5,34] Danke fĂŒr die Antwort schonmal. Ja mit Referenzbereich meine ich in dem Fall quasi schon die Anwendung: zB fĂŒr die Körpertemperatur eines gesunden Menschen ist der Referenzbereich (glaube ich, nagel mich nicht fest) zwischen 36.0-37.9 °C ... drunter = unterkĂŒhlt, drĂŒber = Fieber, dazwischen = gesund. Das meine ich mit "Referenzbereich". Wenn ich jetzt also ein Sample von 250 Messungen mit Körpertemperaturen von GESUNDEN Leuten habe, dann werde ich (hoffentlich) den GroĂteil meiner Messungen in diesem Bereich (36.0-37.9) finden. Vielleicht ist das Beispiel aber auch nicht ganz perfekt gewĂ€hlt, weil was ich meine: ich will nicht den Cut-Off von 37.9 = gesund, 38.0 = krank bestĂ€tigen, sondern ich will (statistisch korrekt (!)) die Aussage treffen: Werte im Bereich von 36.0-37.9 sind mit x% Wahrscheinlichkeit gesund. Was dann natĂŒrlich auch wieder die Gegenfrage aufwirft: wie viele falsch negative habe ich mit 35.9, die perfekt gesund sind, aber auĂerhalb meines "Referenzbereichs". Ich hoffe ich kann meinen Gedankenwirrwarr halbwegs in Worte fassen, deine ErklĂ€rung hilft mir auf jeden Fall schon, werde das tatsĂ€chlich auch mal im Excel durchspielen, wenn ich dann tatsĂ€chliche Werte vor mir habe sehe ich dann vermutlich auch schon ob ich auf dem richtigen Weg bin. 0 Zitieren Diesen Beitrag teilen Link zum Beitrag Auf anderen Seiten teilen More sharing options...
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.