Jop,Manking hat sich vertan. Die Folge 1/k ist zwar eine Nullfolge, aber die Reihe divergiert.
Ankündigung
Einklappen
Keine Ankündigung bisher.
User helfen Usern - Mathe
Einklappen
X
-
Gast -
Moin, mal ne kurze Frage zu Gaußverteilung:
Ich hab eine Verteilung mit Erwartungswert 10,2 einer Standardabweichung von 1,649.
Was ich aus Wiki weiß:
Im Intervall der Abweichung +/- 3σ vom Mittelwert sind 99,73% aller Messwerte zu finden.
Das wäre von 5,253 bis 15,147.
Mein Problem: Diese Verteilung ist über einen Test gemacht worden, bei den die maximale Punktzahl 14 Punkte sind. Im Endeffekt bekomme ich ja keine 100% Fläche heraus bei dieser Verteilung, wenn ich alles über 14 Pkt abschneide (weil unmöglich zu erreichen).
Da es für meine Bachelorarbeit ist, müsste ich irgendwie eine Begründung finden warum diese Verteilung doch stimmt, oder wenn Sie nicht zutrifft bei einer festen Obergrenze würde ich gern aufgeklärt werden :).
Ich hoffe man versteht mein Problem.
Danke!
Kommentar
-
Überprüfung auf Normalverteilung gemacht? (z.B. Kolmogorov-Smirnov-Test)
Wenn nicht, gehört das auf alle Fälle noch dazu, wenn es eine wissenschaftliche Arbeit ist.
Warum ist für dich das Intervall so relevant? Willst du damit nur zeigen, dass eine Normalverteilung der Ergebnisse vorliegt? Dann siehe oben.
Kommentar
-
Es wurde der gleiche Test mit verschiedenen Zeitrahmen gemacht (6 Min, 11 Min, ohne Zeitrahmen). Ich will einfach nur Aufzeigen wie die Ergebnisse bei diesen verschiedenen Zeitrahmen aussehen, deswegen kam ich auf den Gauß. Dies wurde auch nur von meinem Prof vorgeschlagen, und da ich Winf studiere und kein Mathe ist mein Wissen da eher schlecht.
Kommentar
-
Sag einfach, dass sie Approximativ normalverteilt sind? Dafür gibt es ja, siehe Fuchses Post, Tests.
Oder unterstelle eine Lognormalverteilung, bei der kannst du eine untere Schranke setzen. Daraus solltest du dir dann aber auch eine obere Schranke zusammenbauen können. Das war ein Fail xD
Im Prinzip hast du aber eine obere (14) und untere (0) Schranke.
Ich verstehe leider nicht genau, was du treibst und was du machen willst. Bist du dir sicher, dass du eine stetige Wahrscheinlichkeitsverteilung benötigst? Oder reicht dir eine diskrete Verteilung?
Kommentar
-
Ich bin mir leider absolut nicht sicher was für eine genaue Wahrscheinlichkeitsverteilung ich brauche.
Also, ich habe einen Test erstellt. Diesen Test habe ich einmal ohne Zeitvorgabe und einmal mit 6 Min Zeitlimit schreiben lassen. Der Test ohne Zeitvorgabe hat natürlich bessere Ergebnisse, als der mit 6 Min Zeitlimit. Die Durchschnittszeit von dem Test ohne Zeitvorgabe war 11 Min. Meine Behauptung ist jetzt, dass der gleiche Test mit 11 Min Zeitvorgabe genauso gute Ergebnisse hervorbringt wie der ohne Zeitvorgabe. Kann man das nachvollziehen?
Aussage ist eigentlich nur, auch wenn man für bestimmte Tätigkeiten mehr Zeit gibt, werden diese von der Qualität her nicht automatisch besser; und für jede Aufgabe gibt es eine Optimale Zeit.
Wie gesagt - habe leider nur Mathe bis (inkl.) 13. Klasse lernen dürfen, und das ist auch ein paar Jahre her.
Wenn die Gaußsche Normalverteilung hier fehl am Platz ist, bitte sagen, und am besten eine gute Alternative bzw eine richtige.
€:/ Im Prinzip will ich nur eine Notenverteilung.
Bsp: Bei 6 Min Zeitlimit ist es am wahrscheinlichsten nur 7 Punkte zu bekommen, aber noch möglich 11 Punkte (2%) zu erreichen. Sowas. Dachte das geht mit Gauß.
Kommentar
-
Okay, jetzt macht es Sinn. Was du machen kannst, ist einen linearen Zusammenhang zwischen der benötigten Zeit und der erreichten Bepunktung zu unterstellen.
Zu Statistik hast du gar nichts gemacht?
Spoiler:Es gibt eine Möglichkeit, eine Gerade durch die Punktmengen zu legen. Nennt sich Lineare Regression. Dann gibt es etwas, was sich Strukturbruch nennt und bedeutet, dass sich an einem bestimmten Punkt die Steigung der Geraden, die du durch die Punktmenge legst, ändert, also statt einer Geraden für die komplette Punktmenge zwei Geraden sinnvoller sind.
Das Problem an der Sache ist, dass du von einem Punkt (6 Minuten) keine Gerade schätzen kannst, also bräuchtest du jemanden, der z.B. nur 5:55 Minuten Zeit hatte etc.
Vllt hilft dir das:
Test auf Strukturbruch mit R
Eine andere Möglichkeit habe ich gerade nicht auf dem Schirm.
Dein Edit zeigt, dass du eigentlich nur ein Konfidenzintervall für eine Prediction haben willst, hat zwar nichts mit dem Strukturbruch zu tun, aber mit linearer Regression.
Kommentar
-
Okay, lineare Regression ausprobiert. Es kommt genau das gegenteil heraus, was ich beweisen will :D (negativer x-Wert :()
Ich stelle da ja die Anzahl der Punkte zur Zeit direkt dar? Strukturbruch schaue ich mir dann gleich an.
Was mir aber Auffällt, ich setze ja gleich einen Zusammenhang zwischen den Punkten und der Zeit fest. Das kann ich ja bei den Tests mit fester Zeitvorgabe (6, 11 Min) nicht machen, da ich dann einfach eine normale y=1x+c bekomme.
Da will ich halt einfach nur eine Verteilung der Punktzahl haben, geht das nur mit dem absoluten Verhältnis dann? Also wenn von 15 geschriebenen Test 5 Tests 10 Punkte haben, ist die Wahrscheinlichkeit 5/15 bzw 1/3, dass man 10 Punkte erreicht? Ich dachte genau sowas kann man eben mit Gauß 'schöner' darstellen mit dem Erwartungswert und eben der Standardabweichung ..
Kommentar
-
Du kannst natürlich eine approximative Verteilung erstellen. Dann sagst du, du nimmst an, dass die Verteilung der Punktzahlen der Normalverteilung unterliegt und kannst Mittelwert und Stdabweichung mit den empirischen Werten schätzen. Natürlich solltest du vorher einen Test auf Normalverteilung anwenden, wie es Fuchs vorgeschlagen hat.
Das kann ich mir kaum vorstellen, dass du bei einer linearen Regression ein negativen x-Wert hast. Wie viele Werte hast du denn?
Kommentar
-
Wenn man es ganz eng sieht können deine Daten gar nicht normal verteilt sein, weil du zum einen eine diskrte Verteilung benötigen würdest, wenn man nur ganze Punkte erreichen kann und zum anderen, wie du schon geschrieben hast dein Wertebereich nicht von -inf bis +inf ist, sondern von 0 bis 14. Geeigneter wäre eine Poisson-Verteilung (https://de.wikipedia.org/wiki/Poisson-Verteilung)Zitat von loGiC.kMoin, mal ne kurze Frage zu Gaußverteilung:
Ich hab eine Verteilung mit Erwartungswert 10,2 einer Standardabweichung von 1,649.
Was ich aus Wiki weiß:
Im Intervall der Abweichung +/- 3σ vom Mittelwert sind 99,73% aller Messwerte zu finden.
Das wäre von 5,253 bis 15,147.
Mein Problem: Diese Verteilung ist über einen Test gemacht worden, bei den die maximale Punktzahl 14 Punkte sind. Im Endeffekt bekomme ich ja keine 100% Fläche heraus bei dieser Verteilung, wenn ich alles über 14 Pkt abschneide (weil unmöglich zu erreichen).
Da es für meine Bachelorarbeit ist, müsste ich irgendwie eine Begründung finden warum diese Verteilung doch stimmt, oder wenn Sie nicht zutrifft bei einer festen Obergrenze würde ich gern aufgeklärt werden :).
Ich hoffe man versteht mein Problem.
Danke!
Wenn du nur auf Mittelwerte testen möchtest kannst du einen Zweistichproben T-Test nehmen (müsste glaube ich der für abhängige Stichproben sein, weil der Test beides mal derselbe ist, müsste ich aber nochmal checken). Der setzt voraus, dass entweder deine Stichprobenumfänge groß sind oder die Messwerte normal verteilt sind (wobei zweiteres streng genommen nicht sein kann, s.o.). Du kannst das ganze auch mit einer linearen Regression machen, wenn du als abhängige Variable y die Punkte nimmst und als x Variable einen Dummy-Variable erstellst, die 0 für die erste Gruppe und 1 für die zweite Gruppe ist:
y = beta0 + beta1 * x + epsilon
y: Punkte
beta0: konstante
beta1: parameter für Gruppe 2
epsilon: Fehlerterm, also zufällige Schwankungen
beta0 entspricht dann der durchschnittlichen Anzahl an Punkten in Gruppe 1, und beta0 + beta1 der durchschnittlichen Anzahl an Punkten in Gruppe 2. Dann kannst du testen ob der Parameter beta1 signifikant von Null verschieden ist und in welche Richtung der Effekt geht. Noch besser wäre ein GLM zu rechnen mit eine Poisson-Verteilung (https://de.wikipedia.org/wiki/Generalisierte_Lineare_Modelle).
P.S.: Das jetzt mal auf die Schnelle und ja ich habe mal Statistik studiert...
Kommentar
-
Ja genau das würde die Regression aussagen ob die Mittelwerte zwischen den Gruppen verschieden sind. Ich dachte es gibt genau zwei Gruppen, eine mit 6 Minuten Limit und eine ohne Limit und das wäre genau eine 1:1 Beziehung zu den Zeiten, also Gruppe 1 mit 6 min. und Gruppe 2 ohne Limit. Dann könnte man das so testen, ob die Tests mit diesen Vorgaben zu unterschiedlichen Ergebnissen führen. Man könnte sich auch ansehen wie sich die Verteilung ändert, für Leute die nach einer gewissen Zeit abgeben (wenn man da genug Datenpunkte dafür hat).Zitat von panda yoWürde deine vorgeschlagene Regression nicht nur sagen, dass Gruppe 2 durchschnittlich besser ist (vorausgesetzt beta1 > 0 signifikant)?
Er will ja eine Aussage über eine Schätzung der Ergebnisse für eine Zeit t=11 statt t=6
Was genau soll den jetzt getestet werden? Also was ist die Kernfrage?
Wenn man nur eine Wahrscheinlichkeitsverteilung über die Noten möchte kann man das auch ganz simpel machen und für jede Gruppe die relativen Häufigkeiten pro Punkt berechnen, dann muss man gar keine Verteilung annehmen. Man könnte schon eine annehmen und die Parameter dafür schätzen (für die Normalverteilung wären das mü = Mittelwert und sigma = Standardabweichung) für die Poisson-Verteilung lambda, wenn man die Annahmen machen möchte (oder es besser ist weil man zu wenige Datenpunkte hat).
Was hat man denn jetzt an Datenpunkten? Nur die Testergebnisse? Nach wie vielen Minuten die Teilnehmer abgegeben haben?
Wenn man aus dem zweiten Test die Ergebnisse ableiten möchte für bis zu 11 Minuten, die aber theoretisch länger Zeit gehabt hätten kann das inhaltlich problematisch sein, je nachdem wie die Studie aufgebaut war/ist. Haben alle, die eigentlich nach 11 Minuten fertig waren auch direkt abgegeben? Könnten ja noch über dem Test gebrütet haben, mit der Hoffnung ihnen fällt noch was ein. Es macht evtl. einen Unterschied in den Ergebnissen ob man fix 11 min. vorgibt oder ob man Ihnen beliebig viel Zeit lässt auch, wenn dann alle abgeben würden, wenn 11 Minuten rum sind, weil in einem die Drucksituation anders ist und die Teilnehmer am Anfang nicht abschätzen können ob die 11 Minuten jetzt knapp sind oder nicht.
Schwierig hier genau zu sagen, was man machen sollte/könnte wenn die Ausgangslage nicht so klar ist.
Kommentar
-
Kernfrage ist die Hypothese, dass es eine optimale Zeit zur Bearbeitung von Aufgaben gibt. Diese Zeit soll gleich des Durchschnitts der benötigten Zeit ohne Limit sein. Soweit habe ich das zumindest verstanden.Zitat von Schw4rzJa genau das würde die Regression aussagen ob die Mittelwerte zwischen den Gruppen verschieden sind. Ich dachte es gibt genau zwei Gruppen, eine mit 6 Minuten Limit und eine ohne Limit und das wäre genau eine 1:1 Beziehung zu den Zeiten, also Gruppe 1 mit 6 min. und Gruppe 2 ohne Limit. Dann könnte man das so testen, ob die Tests mit diesen Vorgaben zu unterschiedlichen Ergebnissen führen. Man könnte sich auch ansehen wie sich die Verteilung ändert, für Leute die nach einer gewissen Zeit abgeben (wenn man da genug Datenpunkte dafür hat).Zitat von panda yoWürde deine vorgeschlagene Regression nicht nur sagen, dass Gruppe 2 durchschnittlich besser ist (vorausgesetzt beta1 > 0 signifikant)?
Er will ja eine Aussage über eine Schätzung der Ergebnisse für eine Zeit t=11 statt t=6
Was genau soll den jetzt getestet werden? Also was ist die Kernfrage?
Denke, man hat nur (Zeit, Note) als Beziehung, aber ich rate hier auch ins Blaue.Zitat von Schw4rzWenn man nur eine Wahrscheinlichkeitsverteilung über die Noten möchte kann man das auch ganz simpel machen und für jede Gruppe die relativen Häufigkeiten pro Punkt berechnen, dann muss man gar keine Verteilung annehmen. Man könnte schon eine annehmen und die Parameter dafür schätzen (für die Normalverteilung wären das mü = Mittelwert und sigma = Standardabweichung) für die Poisson-Verteilung lambda, wenn man die Annahmen machen möchte (oder es besser ist weil man zu wenige Datenpunkte hat).
Was hat man denn jetzt an Datenpunkten? Nur die Testergebnisse? Nach wie vielen Minuten die Teilnehmer abgegeben haben?
Wie gesagt, einmal fix 6 Minuten und einmal freie Zeit. Daher mein Vorschlag von einer gemeinsamen Struktur auszugehen und Zeit gegen Punktzahl zu plotten. Dann könnte man für 11 Minuten mMn ein Konfidenzintervall angeben.Zitat von Schw4rzWenn man aus dem zweiten Test die Ergebnisse ableiten möchte für bis zu 11 Minuten, die aber theoretisch länger Zeit gehabt hätten kann das inhaltlich problematisch sein, je nachdem wie die Studie aufgebaut war/ist. Haben alle, die eigentlich nach 11 Minuten fertig waren auch direkt abgegeben? Könnten ja noch über dem Test gebrütet haben, mit der Hoffnung ihnen fällt noch was ein. Es macht evtl. einen Unterschied in den Ergebnissen ob man fix 11 min. vorgibt oder ob man Ihnen beliebig viel Zeit lässt auch, wenn dann alle abgeben würden, wenn 11 Minuten rum sind, weil in einem die Drucksituation anders ist und die Teilnehmer am Anfang nicht abschätzen können ob die 11 Minuten jetzt knapp sind oder nicht.
Schwierig hier genau zu sagen, was man machen sollte/könnte wenn die Ausgangslage nicht so klar ist.
Kommentar
-
Puh, wow, vielen Dank schon einmal! Super Ideen die ihr bringt!
Panda yo hat das schon ziemlich gut Erkannt, ich Tests ob es für Aufgaben eine Optimale Zeit gibt.
Die Frage ob das jetzt die Durchschnittszeit vom 'Freien Arbeiten' ist, ist ja zunächst mal eine andere. Gibt es aber irgendwo eine Grenze ab der Personen im Schnitt einfach nicht besser werden, auch wenn man ihnen mehr Zeit gibt?
Oder um es als Titel meiner Ba wiederzugeben: 'Qualitative Ergebnisverbesserung mithilfe von Timebox'.
Ich hab mal eine der 3 Auswertungen Screenshotted:
https://drive.google.com/open?id=0B0GE87Qtmx6LSFpTXzVVNXNGMFE
https://drive.google.com/open?id=0B0GE87Qtmx6LbFZUVmFHOTBXUlU
Da die beschriftung der Spalten nicht drauf sind, hier nochmal:
# Punkte % Richtig Zeit in s Zeit in m Pkt / Sek Pkt / Min
Auf der Fläche wo die Linerae Regression ist, ist einfach nur meine Bewerbtung der Tests, also ob die aufgabe richtig / falsch ist. Die erste Zahl ist einfach nur ne ID um welchen Test es sich handelt.
Ich schau mir jetzt mal die Poisson Verteilung an, die scheint ja auch ganz hilfreich zu sein. Vll hilft die Normalverteilung ja auch nur um ein 'Gefühl' zu bekommen? Wobei die wohl dann nicht korrekt ist leider.
Kommentar
-
Ich denke das wird schwierig sein auf der Datengrundlage Aussagen zu machen, weil die Stichprobe ziemlich klein ist um Aussagekraft zu haben und die Werte stark schwanken. In der Regression hast du:
y = beta0 + beta1 * x + epsilon
y: Zeit
beta0: konstante
beta1: parameter für Note
epsilon: Fehlerterm, also zufällige Schwankungen
Du sagst also die Zeit in Abhängigkeit der Note voraus (sollte ja egl. andersrum sein, macht aber jetzt für das folgende nichts), hier sieht man schon, dass du eine recht große Schwankung in der Zeit bei machen Punkten (also Bewertungspunkte) und dein R^2 ziemlich klein ist mit 0.06 (oder so, kann die files gerade nicht öffnen), du also nur 6% der Gesamtvarianz erklären kannst. Also Prognosemodell wäre das also ziemlich schlecht. Das heißt nicht, dass du mit einem kleinen R^2 keinen kausalen Zusammenhang messen kannst, du musst nur annehmen können, dass alles was du nicht gemessen hast zufällig ist, also nicht mit der x Variable und der y Variable korreliert ist. In diesem Fall könnte das einfach sein wie viel jemand für den test gelernt hat, bzw. wie schlau jemand ist. Das ist mit den Punkten korreliert (hoffentlich :D) und wahrscheinlich auch mit der Zeit, weil bessere Studenten idR. schneller sind. Daher ist wahrscheinlich auch dein Koeffizient negativ, also je weniger Zeit desto besser die Note...
Es gibt jetzt ein paar Sachen, die du machen könntest:
- beide Gruppen in eine Regression werfen (wie schon geschrieben)
- die Formel des Zusammenhangs verbessern
Ich denke es wird schwer eine optimale Zeit zu berechnen, wie in meinem Post vorher schon geschrieben, aber du kannst zumindest beide Gruppen vergelichen und auch in der freien Gruppe sehen, was für Punkt dort unter einer Gewissen Zeit erreicht wurden, du weißt ja aber nicht was passiert wäre für alle die über dem Threshold liegen, hätten sie früher abgegeben. Da kommt es dann auf das Design des Experiments an und was man annimmt. Ich weiß nicht ob es valide ist zu sagen, dass die Punkte mit der Zeit linear steigen (glaube ich für normale Tests eher nicht)
Ich kann mehr dazu schreiben, wenn das überhaupt noch relevant ist für dich, sonst spare ich mir die Zeit :D So jetzt muss ich zum Weihnachtsessen. Schöne Feiertage noch ;)
Kommentar
Kommentar