Die Standardsignifikanzniveaus sind Stufen. Grad der statistischen Signifikanz

Signifikanzniveau - Dies ist die Wahrscheinlichkeit, mit der wir die Unterschiede als signifikant erachtet haben, sie aber tatsächlich zufällig sind.

Wenn wir angeben, dass die Unterschiede auf dem Signifikanzniveau von 5 % signifikant sind, oder wann R< 0,05 , dann meinen wir, dass die Wahrscheinlichkeit, dass sie unzuverlässig sind, 0,05 beträgt.

Wenn wir angeben, dass die Unterschiede auf dem Signifikanzniveau von 1 % signifikant sind, oder wann R< 0,01 , dann meinen wir, dass die Wahrscheinlichkeit, dass sie unzuverlässig sind, 0,01 beträgt.

Wenn wir das alles in eine formalisiertere Sprache übersetzen, dann ist das Signifikanzniveau die Wahrscheinlichkeit, die Nullhypothese abzulehnen, solange sie wahr ist.

Fehler,bestehend ausder Einewas wirabgelehntNullhypotheseObwohl es korrekt ist, wird es als Typ-1-Fehler bezeichnet.(Siehe Tabelle 1)

Tisch 1. Null- und Alternativhypothesen und mögliche Testbedingungen.

Die Wahrscheinlichkeit eines solchen Fehlers wird üblicherweise als angegeben α. Im Wesentlichen müssten wir in Klammern angeben, nicht p < 0,05 oder p < 0,01 und α < 0,05 oder α < 0,01.

Wenn die Fehlerwahrscheinlichkeit beträgt α , dann ist die Wahrscheinlichkeit einer richtigen Entscheidung: 1-α. Je kleiner α, desto größer ist die Wahrscheinlichkeit einer richtigen Entscheidung.

Historisch gesehen wurde dies in der Psychologie akzeptiert niedrigstes Level statistische Signifikanz ist das 5 %-Niveau (p ≤ 0,05): ausreichend ist das 1 %-Niveau (p ≤ 0,01) und die höchste ist das 0,1 %-Niveau (p ≤ 0,001), daher ist es in den Tabellen der kritischen Werte normalerweise so Angegeben sind die Werte der Kriterien, die den statistischen Signifikanzniveaus p≤0,05 und p≤0,01 entsprechen, manchmal - p≤0,001. Für einige Kriterien geben die Tabellen das genaue Signifikanzniveau ihrer unterschiedlichen Erfahrungswerte an. Zum Beispiel für φ*=1,56 p=O,06.

Bis jedoch das statistische Signifikanzniveau p=0,05 erreicht, haben wir immer noch kein Recht auf Ablehnung Nullhypothese. Wir werden uns an die folgende Regel halten, um die Hypothese „keine Unterschiede“ (Ho) abzulehnen und die Hypothese der statistischen Signifikanz der Unterschiede (H 1) zu akzeptieren.

Regel für die Ablehnung von Ho und die Annahme von h1

Wenn der empirische Wert des Tests gleich oder größer als der kritische Wert ist, der p≤0,05 entspricht, wird H 0 abgelehnt, wir können H 1 jedoch noch nicht definitiv akzeptieren.

Wenn der empirische Wert des Kriteriums gleich dem kritischen Wert entsprechend p≤0,01 ist oder diesen überschreitet, wird H 0 abgelehnt und H 1 akzeptiert.

Ausnahmen : G-Zeichentest, Wilcoxon-T-Test und Mann-Whitney-U-Test. Für sie werden umgekehrte Beziehungen hergestellt.

Reis. 4. Beispiel einer „Signifikanzachse“ für Rosenbaums Q-Kriterium.

Die kritischen Werte des Kriteriums werden mit Q o, o5 und Q 0,01 bezeichnet, der Erfahrungswert des Kriteriums mit Q em. Es ist von einer Ellipse umgeben.

Rechts vom kritischen Wert Q 0,01 erstreckt sich der „Signifikanzbereich“ – dazu gehören Erfahrungswerte, die Q 0,01 überschreiten und daher durchaus signifikant sind.

Links vom kritischen Wert Q 0,05 erstreckt sich die „Zone der Bedeutungslosigkeit“ – dazu gehören empirische Q-Werte, die unter Q 0,05 liegen und daher sicherlich unbedeutend sind.

Wir sehen das Q 0,05 =6; Q 0,01 =9; Q em. =8;

Der empirische Wert des Kriteriums liegt im Bereich zwischen Q 0,05 und Q 0,01. Dies ist eine Zone der „Unsicherheit“: Wir können die Hypothese über die Unzuverlässigkeit von Unterschieden (H 0) bereits ablehnen, aber wir können die Hypothese über ihre Zuverlässigkeit (H 1) noch nicht akzeptieren.

In der Praxis kann der Forscher jedoch diejenigen Unterschiede, die nicht in die Zone der Bedeutungslosigkeit fallen, als zuverlässig betrachten und sie auf p. für zuverlässig erklären < 0,05, oder durch Angabe des genauen Signifikanzniveaus des erhaltenen empirischen Kriteriumswerts, zum Beispiel: p=0,02. Mithilfe von Standardtabellen, die in allen Lehrbüchern zu mathematischen Methoden enthalten sind, kann dies in Bezug auf die Kruskal-Wallis-H-Kriterien χ 2 erfolgen R Friedman, Page's L, Fisher's φ* .

Das Niveau der statistischen Signifikanz bzw. kritischen Testwerte wird beim Testen gerichteter und ungerichteter statistischer Hypothesen unterschiedlich bestimmt.

Bei einer gerichteten statistischen Hypothese wird ein einseitiger Test verwendet, bei einer ungerichteten Hypothese wird ein zweiseitiger Test verwendet. Der zweiseitige Test ist strenger, da er Unterschiede in beide Richtungen testet und damit den empirischen Wert des Tests, der zuvor dem Signifikanzniveau p entsprach < 0,05, entspricht jetzt nur noch dem p-Level < 0,10.

Wir müssen nicht jedes Mal selbst entscheiden, ob er ein einseitiges oder zweiseitiges Kriterium verwendet. Die Tabellen der kritischen Werte der Kriterien werden so ausgewählt, dass gerichtete Hypothesen einem einseitigen Kriterium und ungerichtete Hypothesen einem zweiseitigen Kriterium entsprechen und die angegebenen Werte die Anforderungen erfüllen, die gelten für jeden von ihnen. Der Forscher muss lediglich sicherstellen, dass seine Hypothesen in Bedeutung und Form mit den in der Beschreibung jedes Kriteriums vorgeschlagenen Hypothesen übereinstimmen.

P-Wert(Englisch) – eine Größe, die zum Testen statistischer Hypothesen verwendet wird. Tatsächlich handelt es sich hierbei um die Fehlerwahrscheinlichkeit bei der Ablehnung der Nullhypothese (Fehler 1. Art). Das Testen von Hypothesen mithilfe des P-Werts ist eine Alternative zum klassischen Verfahren zum Testen anhand des kritischen Werts der Verteilung.

Typischerweise entspricht der P-Wert der Wahrscheinlichkeit, dass eine Zufallsvariable mit einer gegebenen Verteilung (die Verteilung der Teststatistik unter der Nullhypothese) einen Wert annimmt, der nicht kleiner ist als der tatsächliche Wert der Teststatistik. Wikipedia.

Mit anderen Worten ist der p-Wert das kleinste Signifikanzniveau (d. h. die Wahrscheinlichkeit der Ablehnung einer gültigen Hypothese), für das die berechnete Teststatistik zur Ablehnung der Nullhypothese führt. Typischerweise wird der p-Wert mit den allgemein akzeptierten Standardsignifikanzniveaus von 0,005 oder 0,01 verglichen.

Wenn beispielsweise die aus der Stichprobe berechnete Teststatistik p = 0,005 entspricht, bedeutet dies, dass die Hypothese mit einer Wahrscheinlichkeit von 0,5 % wahr ist. Je niedriger also der p-Wert, desto besser, da er die „Stärke“ der Ablehnung der Nullhypothese erhöht und die erwartete Signifikanz des Ergebnisses erhöht.

Dafür gibt es bei Habré eine interessante Erklärung.

Die statistische Analyse ähnelt allmählich einer Blackbox: Die Eingabe besteht aus Daten, die Ausgabe ist eine Tabelle mit Hauptergebnissen und einem p-Wert.

Was sagt der p-Wert aus?

Angenommen, wir möchten herausfinden, ob es einen Zusammenhang zwischen der Sucht nach blutigen Computerspielen und Aggressivität gibt wahres Leben. Zu diesem Zweck wurden nach dem Zufallsprinzip zwei Gruppen von Schülern zu je 100 Personen gebildet (Gruppe 1 – Fans von Schießspielen, Gruppe 2 – diejenigen, die nicht spielen). Computerspiele). Ein Indikator für Aggressivität ist beispielsweise die Anzahl der Auseinandersetzungen mit Gleichaltrigen. In unserer Fantasiestudie stellte sich heraus, dass eine Gruppe spielsüchtiger Schulkinder tatsächlich deutlich häufiger in Konflikt mit ihren Freunden gerät. Doch wie finden wir heraus, wie statistisch signifikant die Unterschiede sind? Vielleicht ist der beobachtete Unterschied völlig zufällig entstanden? Zur Beantwortung dieser Fragen wird der p-Wert des Signifikanzniveaus (p-Wert) herangezogen – das ist die Wahrscheinlichkeit, solche oder stärker ausgeprägte Unterschiede zu erhalten, vorausgesetzt, es gibt tatsächlich keine Unterschiede in der Gesamtbevölkerung. Mit anderen Worten: Dies ist die Wahrscheinlichkeit, dass es zwischen unseren Gruppen gleiche oder sogar stärkere Unterschiede gibt, sofern Computerspiele tatsächlich keinen Einfluss auf die Aggressivität haben. Klingt nicht so schwierig. Allerdings wird diese spezielle Statistik sehr oft falsch interpretiert.

Beispiele zum p-Wert

Wir haben also zwei Gruppen von Schulkindern hinsichtlich ihrer Aggressivität mit einem Standard-t-Test (oder dem nichtparametrischen Chi-Quadrat-Test, der in dieser Situation besser geeignet ist) miteinander verglichen und festgestellt, dass der begehrte p- Das Signifikanzniveau liegt unter 0,05 (z. B. 0,04). Aber was sagt uns der resultierende p-Wert eigentlich? Wenn also der p-Wert die Wahrscheinlichkeit ist, solche oder stärker ausgeprägte Unterschiede zu erhalten, vorausgesetzt, es gibt tatsächlich keine Unterschiede in der Grundgesamtheit, was ist dann Ihrer Meinung nach die richtige Aussage:

1. Computerspiele sind der Grund aggressives Verhalten mit einer Wahrscheinlichkeit von 96 %.
2. Die Wahrscheinlichkeit, dass Aggression und Computerspiele nicht zusammenhängen, beträgt 0,04.
3. Wenn wir ein p-Signifikanzniveau von mehr als 0,05 erhalten würden, würde dies bedeuten, dass Aggressivität und Computerspiele in keiner Weise miteinander zusammenhängen.
4. Die Wahrscheinlichkeit, solche Unterschiede zufällig zu erhalten, beträgt 0,04.
5. Alle Aussagen sind falsch.

Wenn Sie sich für die fünfte Option entschieden haben, dann liegen Sie vollkommen richtig! Doch wie zahlreiche Studien zeigen, interpretieren selbst Personen mit großer Erfahrung in der Datenanalyse den p-Wert oft falsch.

Schauen wir uns alle Antworten der Reihe nach an:

Die erste Aussage ist ein Beispiel für den Korrelationsirrtum: Die Tatsache, dass zwei Variablen signifikant korrelieren, sagt nichts über Ursache und Wirkung aus. Vielleicht sind es aggressivere Menschen, die lieber Zeit mit Computerspielen verbringen, und es sind nicht Computerspiele, die Menschen aggressiver machen.

Das ist eine interessantere Aussage. Die Sache ist, dass wir zunächst davon ausgehen, dass es wirklich keine Unterschiede gibt. Und unter Berücksichtigung dieser Tatsache berechnen wir den p-Wert. Die richtige Interpretation lautet daher: „Wenn wir davon ausgehen, dass Aggression und Computerspiele in keiner Weise zusammenhängen, dann liegt die Wahrscheinlichkeit, solche oder noch ausgeprägtere Unterschiede zu erhalten, bei 0,04.“

Was aber, wenn es zu unbedeutenden Unterschieden kommt? Bedeutet dies, dass zwischen den untersuchten Variablen kein Zusammenhang besteht? Nein, das bedeutet nur, dass es Unterschiede geben kann, aber unsere Ergebnisse haben es uns nicht ermöglicht, diese zu erkennen.

Dies steht in direktem Zusammenhang mit der Definition des p-Werts selbst. 0,04 ist die Wahrscheinlichkeit, dass diese oder noch extremere Unterschiede auftreten. Es ist prinzipiell unmöglich, die Wahrscheinlichkeit abzuschätzen, genau die gleichen Unterschiede wie in unserem Experiment zu erhalten!

Dies sind die Fallstricke, die bei der Interpretation eines solchen Indikators als p-Wert verborgen sein können. Daher ist es sehr wichtig, die Mechanismen zu verstehen, die den Methoden zur Analyse und Berechnung grundlegender statistischer Indikatoren zugrunde liegen.

Wie finde ich den p-Wert?

1. Bestimmen Sie die erwarteten Ergebnisse Ihres Experiments

Wenn Wissenschaftler ein Experiment durchführen, haben sie normalerweise bereits eine Vorstellung davon, welche Ergebnisse als „normal“ oder „typisch“ gelten. Dies kann auf experimentellen Ergebnissen früherer Experimente, auf zuverlässigen Datensätzen, auf Daten aus der wissenschaftlichen Literatur basieren oder der Wissenschaftler kann sich auf andere Quellen stützen. Bestimmen Sie für Ihr Experiment die erwarteten Ergebnisse und drücken Sie diese als Zahlen aus.

Beispiel: Frühere Studien haben beispielsweise gezeigt, dass in Ihrem Land rote Autos häufiger Strafzettel erhalten als blaue Autos. Durchschnittliche Ergebnisse zeigen beispielsweise eine 2:1-Präferenz für rote Autos gegenüber blauen Autos. Wir möchten herausfinden, ob die Polizei in Ihrer Stadt eine ähnliche Voreingenommenheit gegenüber der Farbe von Autos hat. Dazu analysieren wir die wegen Geschwindigkeitsüberschreitungen verhängten Bußgelder. Wenn wir eine zufällige Auswahl von 150 Strafzetteln für rote oder blaue Autos nehmen, würden wir davon ausgehen, dass 100 Strafzettel für rote Autos und 50 für blaue Autos ausgestellt werden, wenn die Polizei in unserer Stadt so voreingenommen ist, was die Farbe von Autos angeht im ganzen Land beobachtet.

2. Bestimmen Sie die beobachtbaren Ergebnisse Ihres Experiments.

Nachdem Sie nun die erwarteten Ergebnisse ermittelt haben, müssen Sie ein Experiment durchführen und die tatsächlichen (oder „beobachteten“) Werte ermitteln. Auch hier müssen Sie diese Ergebnisse als Zahlen darstellen. Wenn wir experimentelle Bedingungen schaffen und die beobachteten Ergebnisse von den erwarteten abweichen, dann haben wir zwei Möglichkeiten – entweder ist es Zufall oder es wurde durch unser Experiment verursacht. Der Zweck der Ermittlung eines p-Werts besteht darin, festzustellen, ob die beobachteten Ergebnisse so stark von den erwarteten Ergebnissen abweichen, dass die „Nullhypothese“ – die Hypothese, dass zwischen den experimentellen Variablen und den beobachteten Ergebnissen kein Zusammenhang besteht – abgelehnt werden kann.

Beispiel: In unserer Stadt haben wir beispielsweise zufällig 150 Strafzettel ausgewählt, die entweder für rote oder blaue Autos ausgestellt wurden. Wir haben festgestellt, dass gegen rote Autos 90 Bußgelder verhängt wurden und gegen blaue 60. Dies weicht von den erwarteten Ergebnissen ab, die bei 100 bzw. 50 liegen. Ist unser Experiment wirklich (in in diesem Fall, die Änderung der Datenquelle von landesweit auf städtisch) hat zu dieser Änderung der Ergebnisse geführt, oder ist unsere Stadtpolizei genau so voreingenommen wie der nationale Durchschnitt, und wir sehen nur zufällige Abweichungen? Der P-Wert hilft uns dabei, dies zu bestimmen.

3. Bestimmen Sie die Anzahl der Freiheitsgrade Ihres Experiments

Die Anzahl der Freiheitsgrade ist der Grad der Variabilität in Ihrem Experiment, der durch die Anzahl der untersuchten Kategorien bestimmt wird. Die Gleichung für die Anzahl der Freiheitsgrade lautet: Anzahl der Freiheitsgrade = n-1, wobei „n“ die Anzahl der Kategorien oder Variablen ist, die Sie in Ihrem Experiment analysieren.

Beispiel: In unserem Experiment gibt es zwei Ergebniskategorien: eine Kategorie für rote Autos und eine für blaue Autos. Daher haben wir in unserem Experiment 2-1 = 1 Freiheitsgrad. Wenn wir rote, blaue und grüne Autos vergleichen würden, hätten wir zwei Freiheitsgrade und so weiter.

4. Vergleichen Sie erwartete und beobachtete Ergebnisse mithilfe des Chi-Quadrat-Tests

Chi-Quadrat (buchstabiert „x2“) ist ein numerischer Wert, der die Differenz zwischen den erwarteten und beobachteten Werten eines Experiments misst. Die Gleichung für das Chi-Quadrat lautet x2 = Σ((o-e)2/e), wobei „o“ der beobachtete Wert und „e“ der erwartete Wert ist. Fassen Sie die Ergebnisse dieser Gleichung für alle möglichen Ergebnisse zusammen (siehe unten).

Beachten Sie, dass diese Gleichung den Summationsoperator Σ (Sigma) enthält. Mit anderen Worten: Sie müssen ((|o-e|-.05)2/e) für jedes mögliche Ergebnis berechnen und die resultierenden Zahlen addieren, um den Chi-Quadrat-Testwert zu erhalten. In unserem Beispiel haben wir zwei mögliche Ergebnisse: Entweder ist das Auto, das den Strafzettel erhalten hat, rot oder blau. Daher müssen wir ((o-e)2/e) zweimal berechnen – einmal für die roten Autos und einmal für die blauen Autos.

Beispiel: Setzen wir unsere erwarteten und beobachteten Werte in die Gleichung x2 = Σ((o-e)2/e) ein. Denken Sie daran, dass wir aufgrund des Summenoperators ((o-e)2/e) zweimal berechnen müssen – einmal für die roten Autos und einmal für die blauen Autos. Wir werden diese Arbeit wie folgt erledigen:
x2 = ((90-100)2/100) + (60-50)2/50)
x2 = ((-10)2/100) + (10)2/50)
x2 = (100/100) + (100/50) = 1 + 2 = 3.

5. Wählen Sie das Signifikanzniveau aus

Da wir nun die Anzahl der Freiheitsgrade unseres Experiments und den Wert des Chi-Quadrat-Tests kennen, müssen wir noch etwas tun, bevor wir unseren p-Wert ermitteln. Wir müssen das Signifikanzniveau bestimmen. Apropos in einfacher Sprache Das Signifikanzniveau gibt an, wie sicher wir von unseren Ergebnissen sind. Ein niedriger Signifikanzwert entspricht einer geringen Wahrscheinlichkeit, dass die experimentellen Ergebnisse zufällig entstanden sind, und umgekehrt. Signifikanzniveaus werden als Dezimalzahlen geschrieben (z. B. 0,01), was der Wahrscheinlichkeit entspricht, dass die experimentellen Ergebnisse zufällig erhalten wurden (in diesem Fall beträgt die Wahrscheinlichkeit hierfür 1 %).

Konventionell legen Wissenschaftler das Signifikanzniveau ihrer Experimente normalerweise auf 0,05 oder 5 % fest. Das bedeutet, dass experimentelle Ergebnisse, die dieses Signifikanzkriterium erfüllen, nur mit einer Wahrscheinlichkeit von 5 % rein zufällig auftreten. Mit anderen Worten besteht eine Wahrscheinlichkeit von 95 %, dass die Ergebnisse durch die Art und Weise verursacht wurden, wie der Wissenschaftler die experimentellen Variablen manipulierte, und nicht durch Zufall. Bei den meisten Experimenten reicht eine 95-prozentige Sicherheit für das Vorliegen einer Beziehung zwischen zwei Variablen aus, um davon auszugehen, dass sie „wirklich“ miteinander in Zusammenhang stehen.

Beispiel: Für unser Beispiel roter und blauer Autos folgen wir dem Konsens unter Wissenschaftlern und setzen das Signifikanzniveau auf 0,05.

6. Verwenden Sie die Chi-Quadrat-Verteilungsdatentabelle, um Ihren p-Wert zu ermitteln.

Wissenschaftler und Statistiker verwenden große Tabellen, um den p-Wert ihrer Experimente zu berechnen. Diese Tabellen haben normalerweise links eine vertikale Achse, die der Anzahl der Freiheitsgrade entspricht, und oben eine horizontale Achse, die dem p-Wert entspricht. Verwenden Sie die Tabellendaten, um zunächst die Anzahl Ihrer Freiheitsgrade zu ermitteln, und betrachten Sie dann Ihre Reihe von links nach rechts, bis Sie den ersten Wert finden, der größer als Ihr Chi-Quadrat-Wert ist. Sehen Sie sich den entsprechenden p-Wert oben in Ihrer Spalte an. Ihr p-Wert liegt zwischen dieser Zahl und der nächsten (der Zahl links von Ihnen).

Tabellen mit der Chi-Quadrat-Verteilung können aus vielen Quellen bezogen werden (eine davon finden Sie unter diesem Link).

Beispiel: Unser Chi-Quadrat-Testwert war 3. Da wir wissen, dass es in unserem Experiment nur einen Freiheitsgrad gibt, wählen wir die allererste Zeile aus. Wir gehen von links nach rechts entlang dieser Linie, bis wir auf einen Wert größer als 3 stoßen, unseren Chi-Quadrat-Testwert. Der erste Wert, den wir finden, ist 3,84. Wenn wir uns den oberen Rand unserer Spalte ansehen, sehen wir, dass der entsprechende p-Wert 0,05 beträgt. Das bedeutet, dass unser p-Wert zwischen 0,05 und 0,1 liegt ( nächster p-Wert in der Tabelle aufsteigend sortiert).

7. Entscheiden Sie, ob Sie Ihre Nullhypothese ablehnen oder beibehalten möchten

Da Sie den ungefähren p-Wert für Ihr Experiment ermittelt haben, müssen Sie entscheiden, ob Sie die Nullhypothese Ihres Experiments ablehnen möchten (denken Sie daran, dass dies die Hypothese ist, dass die von Ihnen manipulierten experimentellen Variablen die von Ihnen beobachteten Ergebnisse nicht beeinflusst haben). Wenn Ihr p-Wert unter Ihrem Signifikanzniveau liegt, herzlichen Glückwunsch, Sie haben bewiesen, dass eine sehr wahrscheinliche Beziehung zwischen den von Ihnen manipulierten Variablen und den von Ihnen beobachteten Ergebnissen besteht. Wenn Ihr p-Wert höher als Ihr Signifikanzniveau ist, können Sie nicht mit Sicherheit sagen, ob die von Ihnen beobachteten Ergebnisse auf reinen Zufall oder Manipulation Ihrer Variablen zurückzuführen sind.

Beispiel: Unser p-Wert liegt zwischen 0,05 und 0,1. Dies ist eindeutig nicht weniger als 0,05, daher können wir unsere Nullhypothese leider nicht ablehnen. Das bedeutet, dass wir nicht die Mindestwahrscheinlichkeit von 95 % erreicht haben, mit der wir sagen können, dass die Polizei in unserer Stadt mit einer Wahrscheinlichkeit, die deutlich vom Landesdurchschnitt abweicht, Strafzettel für rote und blaue Autos ausstellt.

Mit anderen Worten: Es besteht eine Wahrscheinlichkeit von 5-10 %, dass die von uns beobachteten Ergebnisse nicht die Auswirkungen eines Standortwechsels sind (Analyse einer Stadt, nicht des gesamten Landes), sondern einfach dem Zufall geschuldet sind. Da wir eine Genauigkeit von weniger als 5 % gefordert haben, können wir nicht sagen, dass wir sicher sind, dass die Polizei in unserer Stadt weniger voreingenommen gegenüber roten Autos ist – es besteht eine kleine (aber statistisch signifikante) Wahrscheinlichkeit, dass dies nicht der Fall ist.

Signifikanzniveau - Dies ist die Wahrscheinlichkeit, mit der wir die Unterschiede als signifikant erachtet haben, sie aber tatsächlich zufällig sind.

Wenn wir angeben, dass die Unterschiede auf dem Signifikanzniveau von 5 % signifikant sind, oder wann R< 0,05 , dann meinen wir, dass die Wahrscheinlichkeit, dass sie unzuverlässig sind, 0,05 beträgt.

Wenn wir angeben, dass die Unterschiede auf dem Signifikanzniveau von 1 % signifikant sind, oder wann R< 0,01 , dann meinen wir, dass die Wahrscheinlichkeit, dass sie unzuverlässig sind, 0,01 beträgt.

Wenn wir das alles in eine formalisiertere Sprache übersetzen, dann ist das Signifikanzniveau die Wahrscheinlichkeit, die Nullhypothese abzulehnen, solange sie wahr ist.

Fehler,bestehend ausder Einewas wirabgelehntNullhypotheseObwohl es korrekt ist, wird es als Typ-1-Fehler bezeichnet.(Siehe Tabelle 1)

Tisch 1. Null- und Alternativhypothesen und mögliche Testbedingungen.

Die Wahrscheinlichkeit eines solchen Fehlers wird üblicherweise als angegeben α. Im Wesentlichen müssten wir in Klammern angeben, nicht p < 0,05 oder p < 0,01 und α < 0,05 oder α < 0,01.

Wenn die Fehlerwahrscheinlichkeit beträgt α , dann ist die Wahrscheinlichkeit einer richtigen Entscheidung: 1-α. Je kleiner α, desto größer ist die Wahrscheinlichkeit einer richtigen Entscheidung.

Historisch gesehen ist es in der Psychologie allgemein anerkannt, dass das niedrigste Niveau der statistischen Signifikanz das 5 %-Niveau (p ≤ 0,05) ist: ausreichend ist das 1 %-Niveau (p ≤ 0,01) und das höchste ist das 0,1 %-Niveau ( p ≤ 0,001). Daher enthalten die Tabellen der kritischen Werte normalerweise die Werte der Kriterien, die den statistischen Signifikanzniveaus p≤0,05 und p≤0,01 entsprechen, manchmal - p≤0,001. Für einige Kriterien geben die Tabellen das genaue Signifikanzniveau ihrer unterschiedlichen Erfahrungswerte an. Zum Beispiel für φ*=1,56 p=O,06.

Bis das statistische Signifikanzniveau p=0,05 erreicht, haben wir jedoch immer noch kein Recht, die Nullhypothese abzulehnen. Wir werden uns an die folgende Regel halten, um die Hypothese „keine Unterschiede“ (Ho) abzulehnen und die Hypothese der statistischen Signifikanz der Unterschiede (H 1) zu akzeptieren.

Regel für die Ablehnung von Ho und die Annahme von h1

Wenn der empirische Wert des Tests gleich oder größer als der kritische Wert ist, der p≤0,05 entspricht, wird H 0 abgelehnt, wir können H 1 jedoch noch nicht definitiv akzeptieren.

Wenn der empirische Wert des Kriteriums gleich dem kritischen Wert entsprechend p≤0,01 ist oder diesen überschreitet, wird H 0 abgelehnt und H 1 akzeptiert.

Ausnahmen : G-Zeichentest, Wilcoxon-T-Test und Mann-Whitney-U-Test. Für sie werden umgekehrte Beziehungen hergestellt.

Reis. 4. Beispiel einer „Signifikanzachse“ für Rosenbaums Q-Kriterium.

Die kritischen Werte des Kriteriums werden mit Q o, o5 und Q 0,01 bezeichnet, der Erfahrungswert des Kriteriums mit Q em. Es ist von einer Ellipse umgeben.

Rechts vom kritischen Wert Q 0,01 erstreckt sich der „Signifikanzbereich“ – dazu gehören Erfahrungswerte, die Q 0,01 überschreiten und daher durchaus signifikant sind.

Links vom kritischen Wert Q 0,05 erstreckt sich die „Zone der Bedeutungslosigkeit“ – dazu gehören empirische Q-Werte, die unter Q 0,05 liegen und daher sicherlich unbedeutend sind.

Wir sehen das Q 0,05 =6; Q 0,01 =9; Q em. =8;

Der empirische Wert des Kriteriums liegt im Bereich zwischen Q 0,05 und Q 0,01. Dies ist eine Zone der „Unsicherheit“: Wir können die Hypothese über die Unzuverlässigkeit von Unterschieden (H 0) bereits ablehnen, aber wir können die Hypothese über ihre Zuverlässigkeit (H 1) noch nicht akzeptieren.

In der Praxis kann der Forscher jedoch diejenigen Unterschiede, die nicht in die Zone der Bedeutungslosigkeit fallen, als zuverlässig betrachten und sie auf p. für zuverlässig erklären < 0,05, oder durch Angabe des genauen Signifikanzniveaus des erhaltenen empirischen Kriteriumswerts, zum Beispiel: p=0,02. Mithilfe von Standardtabellen, die in allen Lehrbüchern zu mathematischen Methoden enthalten sind, kann dies in Bezug auf die Kruskal-Wallis-H-Kriterien χ 2 erfolgen R Friedman, Page's L, Fisher's φ* .

Das Niveau der statistischen Signifikanz bzw. kritischen Testwerte wird beim Testen gerichteter und ungerichteter statistischer Hypothesen unterschiedlich bestimmt.

Bei einer gerichteten statistischen Hypothese wird ein einseitiger Test verwendet, bei einer ungerichteten Hypothese wird ein zweiseitiger Test verwendet. Der zweiseitige Test ist strenger, da er Unterschiede in beide Richtungen testet und damit den empirischen Wert des Tests, der zuvor dem Signifikanzniveau p entsprach < 0,05, entspricht jetzt nur noch dem p-Level < 0,10.

Wir müssen nicht jedes Mal selbst entscheiden, ob er ein einseitiges oder zweiseitiges Kriterium verwendet. Die Tabellen der kritischen Werte der Kriterien werden so ausgewählt, dass gerichtete Hypothesen einem einseitigen Kriterium und ungerichtete Hypothesen einem zweiseitigen Kriterium entsprechen und die angegebenen Werte die Anforderungen erfüllen, die gelten für jeden von ihnen. Der Forscher muss lediglich sicherstellen, dass seine Hypothesen in Bedeutung und Form mit den in der Beschreibung jedes Kriteriums vorgeschlagenen Hypothesen übereinstimmen.

Aus einer Messreihe ermittelte Probenverteilungsparameter sind Zufallsvariablen, daher sind auch ihre Abweichungen von den allgemeinen Parametern zufällig. Die Bewertung dieser Abweichungen ist probabilistischer Natur – in der statistischen Analyse kann man nur die Wahrscheinlichkeit eines bestimmten Fehlers angeben.

Sei für den allgemeinen Parameter A unvoreingenommene, auf Erfahrung beruhende Schätzung A*. Weisen wir eine ausreichend große Wahrscheinlichkeit b zu (so dass ein Ereignis mit der Wahrscheinlichkeit b als praktisch sicher angesehen werden kann) und ermitteln wir einen solchen Wert e b = F(b), wofür

Bereich praktisch möglicher Werte des beim Austausch auftretenden Fehlers A An A*, wird ±e b sein. Absolut große Fehler treten nur mit geringer Wahrscheinlichkeit auf

angerufen Signifikanzniveau. Andernfalls kann Ausdruck (4.1) als Wahrscheinlichkeit interpretiert werden, dass der wahre Wert des Parameters vorliegt A liegt in

. (4.3)

Die Wahrscheinlichkeit b heißt Konfidenzwahrscheinlichkeit und charakterisiert die Zuverlässigkeit der resultierenden Schätzung. Intervall ICH b = A* ± e b heißt Konfidenzintervall. Intervallgrenzen A¢ = A* - e b und A¢¢ = A* + e b heißen Grenzen vertrauen. Das Konfidenzintervall bei einem bestimmten Konfidenzniveau bestimmt die Genauigkeit der Schätzung. Der Wert des Konfidenzintervalls hängt von der Konfidenzwahrscheinlichkeit ab, mit der der Parameter garantiert gefunden wird A innerhalb des Konfidenzintervalls: Je größer der b-Wert, desto größer das Intervall ICH b (und e b-Wert). Eine Erhöhung der Anzahl der Experimente äußert sich in einer Verringerung des Konfidenzintervalls bei konstanter Konfidenzwahrscheinlichkeit oder in einer Erhöhung der Konfidenzwahrscheinlichkeit bei Beibehaltung des Konfidenzintervalls.

In der Praxis wird normalerweise der Konfidenzwahrscheinlichkeitswert festgelegt (0,9, 0,95 oder 0,99) und dann das Konfidenzintervall des Ergebnisses bestimmt ICH B. Bei der Konstruktion eines Konfidenzintervalls wird das Problem der absoluten Abweichung gelöst:

Wenn also das Verteilungsgesetz der Schätzung bekannt wäre A* wäre das Problem der Bestimmung des Konfidenzintervalls einfach gelöst. Betrachten wir die Konstruktion eines Konfidenzintervalls für den mathematischen Erwartungswert einer normalverteilten Zufallsvariablen X mit einem bekannten allgemeinen Standard s für eine Stichprobengröße N. Beste Schätzung für die mathematische Erwartung M ist der Stichprobenmittelwert mit der Standardabweichung des Mittelwerts

.

Mit der Laplace-Funktion erhalten wir

. (4.5)

Nachdem wir die Konfidenzwahrscheinlichkeit b angegeben haben, ermitteln wir aus der Tabelle der Laplace-Funktion (Anhang 1) den Wert . Dann nimmt das Konfidenzintervall für den mathematischen Erwartungswert die Form an

. (4.7)

Aus (4.7) geht hervor, dass die Abnahme des Konfidenzintervalls umgekehrt proportional zur Quadratwurzel der Anzahl der Experimente ist.

Wenn man die allgemeine Varianz kennt, kann man die mathematische Erwartung bereits aus einer einzigen Beobachtung abschätzen. Wenn für eine normalverteilte Zufallsvariable X Als Ergebnis des Experiments wurde der Wert erhalten X 1, dann hat das Konfidenzintervall für den mathematischen Erwartungswert für das gewählte b die Form

Wo U 1-P/2 – Quantil der Standardnormalverteilung (Anhang 2).

Gesetz der Wertverteilung A* hängt vom Verteilungsgesetz des Wertes ab X und insbesondere vom Parameter selbst A. Um diese Schwierigkeit zu umgehen, werden in der mathematischen Statistik zwei Methoden verwendet:

1) nah - bei N³ 50 Ersetzen Sie unbekannte Parameter im Ausdruck für e b durch ihre Schätzungen, zum Beispiel:

2) aus einer Zufallsvariablen A* gehe zu einer anderen Zufallsvariablen Q *, deren Verteilungsgesetz nicht vom geschätzten Parameter abhängt A, hängt aber nur von der Stichprobengröße ab N und von der Art des Verteilungsgesetzes der Menge X. Diese Arten von Größen wurden am ausführlichsten für die Normalverteilung von Zufallsvariablen untersucht. Als Konfidenzgrenzen Q¢ und Q¢¢ werden üblicherweise symmetrische Quantile verwendet

, (4.9)

oder unter Berücksichtigung von (4.2)

. (4.10)

4.2. Testen statistischer Hypothesen, Signifikanzkriterien,

Fehler erster und zweiter Art.

Unter statistische Hypothesen Einige Annahmen bezüglich der Populationsverteilungen einer bestimmten Zufallsvariablen werden verstanden. Beim Hypothesentest handelt es sich um einen Vergleich bestimmter statistischer Indikatoren, Überprüfungskriterien (Signifikanzkriterien), berechnet aus der Stichprobe, wobei ihre Werte unter der Annahme bestimmt werden, dass die gegebene Hypothese wahr ist. Beim Hypothesentest wird üblicherweise eine Hypothese getestet. N 0 versus Alternativhypothese N 1 .

Um zu entscheiden, ob eine Hypothese akzeptiert oder abgelehnt wird, wird das Signifikanzniveau festgelegt R. Die am häufigsten verwendeten Signifikanzniveaus sind 0,10, 0,05 und 0,01. Basierend auf dieser Wahrscheinlichkeit werden unter Verwendung der Hypothese über die Verteilung des Schätzwerts Q * (Signifikanzkriterium) Quantil-Konfidenzgrenzen gefunden, die normalerweise symmetrisch zu Q sind P/2 und Q 1- P/2. Q-Zahlen P/2 und Q 1- P/2 werden aufgerufen kritische Werte der Hypothese; Q-Werte*< QP/2 und Q * > Q 1- P/2 Form kritisch


der Bereich der Hypothese (oder der Bereich der Nichtakzeptanz der Hypothese) (Abb. 12).

Reis. 12. Kritische Region Reis. 13. Statistische Überprüfung

Hypothesen. Hypothesen.

Wenn das aus der Stichprobe ermittelte Q 0 zwischen Q liegt P/2 und Q 1- P/2, dann lässt die Hypothese einen solchen Wert als zufällig zu und es gibt daher keinen Grund, ihn abzulehnen. Wenn der Wert von Q 0 in den kritischen Bereich fällt, ist dies nach dieser Hypothese praktisch unmöglich. Doch seitdem sie aufgetaucht ist, wird die Hypothese selbst verworfen.

Beim Testen von Hypothesen können zwei Arten von Fehlern gemacht werden. Fehler erster Art ist das eine tatsächlich zutreffende Hypothese wird verworfen. Die Wahrscheinlichkeit eines solchen Fehlers ist nicht größer als das akzeptierte Signifikanzniveau. Fehler zweiter Art ist das Die Hypothese wird akzeptiert, ist aber tatsächlich falsch. Je höher das Signifikanzniveau, desto geringer ist die Wahrscheinlichkeit dieses Fehlers, da dadurch die Anzahl der abgelehnten Hypothesen steigt. Wenn die Wahrscheinlichkeit eines Fehlers zweiten Typs a ist, wird der Wert (1 - a) genannt Kriterium Leistung.

In Abb. Abbildung 13 zeigt zwei Verteilungsdichtekurven der Zufallsvariablen Q, die zwei Hypothesen entsprechen N 0 und N 1 . Wenn sich aus dem Experiment der Wert Q > Q ergibt P, dann wird die Hypothese abgelehnt N 0 und die Hypothese wird akzeptiert N 1 und umgekehrt, wenn Q< QP.

Fläche unter der Wahrscheinlichkeitsdichtekurve, die der Gültigkeit der Hypothese entspricht N 0 rechts vom Q-Wert P, gleich dem Signifikanzniveau R, also die Wahrscheinlichkeit eines Typ-I-Fehlers. Fläche unter der Wahrscheinlichkeitsdichtekurve, die der Gültigkeit der Hypothese entspricht N 1 links von Q P, ist gleich der Wahrscheinlichkeit eines Fehlers zweiten Typs a und rechts von Q P- Potenz des Kriteriums (1 - a). Also umso mehr R, desto mehr (1 - a). Beim Testen einer Hypothese ist man bestrebt, aus allen möglichen Kriterien dasjenige auszuwählen, das bei einem bestimmten Signifikanzniveau eine geringere Wahrscheinlichkeit für einen Fehler vom Typ II aufweist..

Typischerweise wird beim Testen von Hypothesen das optimale Signifikanzniveau verwendet P= 0,05, denn wenn die getestete Hypothese mit einem bestimmten Signifikanzniveau akzeptiert wird, sollte die Hypothese auf jeden Fall als mit den experimentellen Daten konsistent angesehen werden; Andererseits bietet die Verwendung dieses Signifikanzniveaus keinen Grund, die Hypothese abzulehnen.

Beispielsweise werden zwei Werte eines Beispielparameters gefunden, die als Schätzungen der allgemeinen Parameter betrachtet werden können A 1 und A 2. Es wird angenommen, dass der Unterschied zwischen und zufällig ist und dass die allgemeinen Parameter A 1 und A 2 sind einander gleich, d.h. A 1 = A 2. Diese Hypothese heißt Null, oder Nullhypothese. Um dies zu testen, müssen Sie herausfinden, ob die Diskrepanz zwischen und unter den Bedingungen der Nullhypothese signifikant ist. Dazu untersuchen sie üblicherweise die Zufallsvariable D = – und prüfen, ob ihre Differenz von Null signifikant ist. Manchmal ist es bequemer, den Wert / zu berücksichtigen, indem man ihn mit der Einheit vergleicht.

Indem wir die Nullhypothese ablehnen, akzeptieren wir damit die Alternative, die in zwei Teile zerfällt: > und< . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется einseitig, und um es zu überprüfen, verwenden sie einseitig Signifikanzkriterien (im Gegensatz zu den üblichen, bilateral). In diesem Fall ist es notwendig, nur eine der Hälften des kritischen Bereichs zu betrachten (Abb. 12).

Zum Beispiel, R= 0,05 bei einem zweiseitigen Kriterium entsprechen den kritischen Werten Q 0,025 und Q 0,975, d.h. Q*, die die Werte Q* annehmen, gelten als signifikant (nicht zufällig)< Q 0.025 и Q * >Q 0,975. Bei einem einseitigen Kriterium ist eine dieser Ungleichungen offensichtlich unmöglich (zum Beispiel Q *< Q 0.025) и значимыми будут лишь Q * >Q 0,975. Die Wahrscheinlichkeit der letztgenannten Ungleichung beträgt 0,025 und daher beträgt das Signifikanzniveau 0,025. Wenn also für einen einseitigen Signifikanztest dieselben kritischen Zahlen wie für einen zweiseitigen Test verwendet werden, entsprechen diese Werte dem halben Signifikanzniveau.

Typischerweise wird für einen einseitigen Test das gleiche Signifikanzniveau angenommen wie für einen zweiseitigen Test, da unter diesen Bedingungen beide Tests den gleichen Fehler vom Typ I liefern. Dazu muss aus einem zweiseitigen ein einseitiges Kriterium abgeleitet werden, das dem doppelten Signifikanzniveau des akzeptierten Kriteriums entspricht. Um das Signifikanzniveau für einen einseitigen Test aufrechtzuerhalten R= 0,05, für doppelseitig ist es notwendig zu nehmen R= 0,10, was die kritischen Werte Q 0,05 und Q 0,95 ergibt. Davon bleibt bei einem einseitigen Kriterium beispielsweise Q 0,95. Das Signifikanzniveau für einen einseitigen Test beträgt 0,05. Das gleiche Signifikanzniveau für einen zweiseitigen Test entspricht dem kritischen Wert Q 0,975. Aber Q 0,95< Q 0.975 , значит, при одностороннем критерии größere Zahl Hypothesen werden abgelehnt und daher wird es weniger Fehler der zweiten Art geben.

Das Signifikanzniveau in der Statistik ist wichtiger Indikator, was den Grad des Vertrauens in die Genauigkeit und Wahrheit der empfangenen (vorhergesagten) Daten widerspiegelt. Das Konzept wird in verschiedenen Bereichen häufig verwendet: von der Durchführung soziologischer Forschung bis hin zur statistischen Prüfung wissenschaftlicher Hypothesen.

Definition

Das Niveau der statistischen Signifikanz (oder des statistisch signifikanten Ergebnisses) zeigt die Wahrscheinlichkeit des zufälligen Auftretens der untersuchten Indikatoren. Die allgemeine statistische Signifikanz eines Phänomens wird durch den p-Wert-Koeffizienten (p-Level) ausgedrückt. Bei jedem Experiment oder jeder Beobachtung besteht die Möglichkeit, dass die erhaltenen Daten auf Stichprobenfehler zurückzuführen sind. Dies gilt insbesondere für die Soziologie.

Das heißt, ein statistisch signifikanter Wert ist ein Wert, dessen Wahrscheinlichkeit des zufälligen Auftretens extrem gering ist oder ins Extreme tendiert. Das Extrem in diesem Zusammenhang ist das Ausmaß, in dem Statistiken von der Nullhypothese (einer Hypothese, die auf Konsistenz mit den erhaltenen Stichprobendaten getestet wird) abweichen. In der wissenschaftlichen Praxis wird das Signifikanzniveau vor der Datenerhebung festgelegt und sein Koeffizient beträgt in der Regel 0,05 (5 %). Bei Systemen, bei denen genaue Werte äußerst wichtig sind, kann dieser Wert 0,01 (1 %) oder weniger betragen.

Hintergrund

Das Konzept des Signifikanzniveaus wurde 1925 vom britischen Statistiker und Genetiker Ronald Fisher eingeführt, als er eine Technik zum Testen statistischer Hypothesen entwickelte. Bei der Analyse eines Prozesses besteht eine gewisse Wahrscheinlichkeit für bestimmte Phänomene. Schwierigkeiten treten auf, wenn mit kleinen (oder nicht offensichtlichen) Prozentsätzen von Wahrscheinlichkeiten gearbeitet wird, die unter das Konzept des „Messfehlers“ fallen.

Bei der Arbeit mit statistischen Daten, die nicht spezifisch genug sind, um sie zu testen, stehen Wissenschaftler vor dem Problem der Nullhypothese, die das Arbeiten mit kleinen Mengen „verhindert“. Fisher schlug für solche Systeme die Bestimmung der Wahrscheinlichkeit von Ereignissen bei 5 % (0,05) als bequemen Stichprobenschnitt vor, der es ermöglicht, die Nullhypothese in Berechnungen abzulehnen.

Einführung fester Quoten

Im Jahr 1933 Wissenschaftler Jerzy Neyman und Egon Pearson empfahlen in ihren Arbeiten, vorab (vor der Datenerhebung) ein bestimmtes Signifikanzniveau festzulegen. Beispiele für die Anwendung dieser Regeln sind bei Wahlen deutlich sichtbar. Nehmen wir an, es gibt zwei Kandidaten, von denen einer sehr beliebt und der andere wenig bekannt ist. Es ist offensichtlich, dass der erste Kandidat die Wahl gewinnen wird, während die Chancen des zweiten Kandidaten gegen Null gehen. Sie bemühen sich – sind aber nicht gleich: Es besteht immer die Möglichkeit höherer Gewalt, sensationeller Informationen, unerwartete Entscheidungen, was die prognostizierten Wahlergebnisse verändern könnte.

Neyman und Pearson waren sich einig, dass Fishers Signifikanzniveau von 0,05 (gekennzeichnet durch α) am besten geeignet sei. Allerdings lehnte Fischer selbst 1956 die Festlegung dieses Wertes ab. Er glaubte, dass der α-Wert entsprechend den spezifischen Umständen festgelegt werden sollte. In der Teilchenphysik beträgt er beispielsweise 0,01.

p-Level-Wert

Der Begriff p-Wert wurde erstmals 1960 von Brownlee verwendet. Der P-Wert (p-Wert) ist ein Indikator, der umgekehrt mit der Wahrheit der Ergebnisse zusammenhängt. Der höchste p-Wert-Koeffizient entspricht dem niedrigsten Konfidenzniveau in der Stichprobenbeziehung zwischen Variablen.

Dieser Wert spiegelt die Wahrscheinlichkeit von Fehlern wider, die mit der Interpretation der Ergebnisse verbunden sind. Nehmen wir an, p-level = 0,05 (1/20). Es zeigt eine Wahrscheinlichkeit von fünf Prozent, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. Das heißt, wenn diese Abhängigkeit fehlt, kann man bei wiederholten ähnlichen Experimenten im Durchschnitt in jeder zwanzigsten Studie die gleiche oder eine größere Abhängigkeit zwischen den Variablen erwarten. Der p-Level wird oft als „Marge“ für die Fehlerrate angesehen.

Übrigens spiegelt der p-Wert möglicherweise nicht die tatsächliche Beziehung zwischen Variablen wider, sondern zeigt nur einen bestimmten Durchschnittswert innerhalb der Annahmen an. Insbesondere wird die endgültige Analyse der Daten auch von den gewählten Werten dieses Koeffizienten abhängen. Bei p-level = 0,05 gibt es einige Ergebnisse, und bei einem Koeffizienten von 0,01 gibt es unterschiedliche Ergebnisse.

Testen statistischer Hypothesen

Beim Testen von Hypothesen ist der Grad der statistischen Signifikanz besonders wichtig. Bei der Berechnung eines zweiseitigen Tests wird beispielsweise der Ablehnungsbereich an beiden Enden der Stichprobenverteilung (relativ zur Nullkoordinate) gleichmäßig aufgeteilt und die Wahrheit der resultierenden Daten berechnet.

Angenommen, bei der Überwachung eines bestimmten Prozesses (Phänomens) stellte sich heraus, dass neue statistische Informationen auf kleine Änderungen im Vergleich zu vorherigen Werten hinweisen. Gleichzeitig sind die Abweichungen in den Ergebnissen gering, nicht offensichtlich, aber wichtig für die Studie. Der Fachmann steht vor einem Dilemma: Treten tatsächlich Veränderungen auf oder handelt es sich um Stichprobenfehler (Messungenauigkeit)?

In diesem Fall verwenden sie die Nullhypothese oder lehnen sie ab (führen alles auf einen Fehler zurück oder erkennen die Änderung im System als vollendete Tatsache an). Der Problemlösungsprozess basiert auf dem Verhältnis von statistischer Gesamtsignifikanz (p-Wert) und Signifikanzniveau (α). Wenn p-Level< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Verwendete Werte

Der Grad der Signifikanz hängt vom analysierten Material ab. In der Praxis werden folgende Festwerte verwendet:

  • α = 0,1 (oder 10 %);
  • α = 0,05 (oder 5 %);
  • α = 0,01 (oder 1 %);
  • α = 0,001 (oder 0,1 %).

Je genauer die Berechnungen erforderlich sind, desto niedriger wird der α-Koeffizient verwendet. Natürlich erfordern statistische Prognosen in der Physik, Chemie, Pharmazie und Genetik eine größere Genauigkeit als in der Politikwissenschaft und Soziologie.

Signifikanzschwellen in bestimmten Bereichen

In hochpräzisen Bereichen wie der Teilchenphysik und Produktionstätigkeit Statistische Signifikanz wird oft als Verhältnis der Standardabweichung (bezeichnet durch den Sigma-Koeffizienten – ​​σ) relativ zu einer normalen Wahrscheinlichkeitsverteilung (Gaußverteilung) ausgedrückt. σ ist ein statistischer Indikator, der die Streuung der Werte einer bestimmten Größe im Verhältnis zu mathematischen Erwartungen bestimmt. Wird verwendet, um die Wahrscheinlichkeit von Ereignissen darzustellen.

Je nach Wissensgebiet variiert der Koeffizient σ stark. Wenn beispielsweise die Existenz des Higgs-Bosons vorhergesagt wird, ist der Parameter σ gleich fünf (σ = 5), was einem p-Wert = 1/3,5 Millionen entspricht. In Genomstudien kann das Signifikanzniveau 5 × 10 betragen. 8, was für diese Gebiete nicht ungewöhnlich ist.

Effizienz

Es muss berücksichtigt werden, dass die Koeffizienten α und p-Wert nicht vorhanden sind genaue Spezifikationen. Unabhängig vom statistischen Signifikanzniveau des untersuchten Phänomens ist dies keine unbedingte Grundlage für die Annahme der Hypothese. Zum Beispiel als weniger Wertα, desto größer ist die Wahrscheinlichkeit, dass die aufgestellte Hypothese signifikant ist. Es besteht jedoch das Risiko eines Fehlers, der die statistische Aussagekraft (Signifikanz) der Studie verringert.

Forscher, die sich ausschließlich auf statistisch signifikante Ergebnisse konzentrieren, können zu falschen Schlussfolgerungen gelangen. Gleichzeitig ist es schwierig, ihre Arbeit noch einmal zu überprüfen, da sie Annahmen anwenden (bei denen es sich tatsächlich um die α- und p-Werte handelt). Daher empfiehlt es sich immer, neben der Berechnung der statistischen Signifikanz auch einen weiteren Indikator zu bestimmen – die Größe des statistischen Effekts. Die Effektgröße ist ein quantitatives Maß für die Stärke eines Effekts.