Grundzüge der Theorie der Statistik

- MS en AA KH, vr nz na " - ap A >. Pe a A 3 +32? + ....enfÄrr.z. Ze A u ESS HZ u ; aM U DO ] _ Be - . x era at 55, ; ® ES N Beten % SENDE. Br DES ta ee EN ER VS & . AR Pa de Sa A NSS z- Pe Spa SC 3 Sn x} In A Zr SEAN “Ü ID ES KEN. en Cr TEEN 3) AN za MS SA „St Pr FEN EEE UNS ANNE tee KEEP EEE ER ES NERERERRET ES KT HESEURODE Fass more Ba fr EI 5 3 ® f .. > Ar Sg Se. : nn Br 7 E A Br Tr TE ES > Ya“ ; A > AS BE 28 EN 5 - Z PA To © ES AD EEE AR 3 EHEN HH SEO RE 7 ren CE. < . > I I D3 4 BE 3 Sen ; 3 Ma SE HE En KEANE A? : z ER a e DREN AU Set HTEN ET RSS FE Westerpaard ie: V See EEE ME Ak Sn OA OA NM: 4 ASK X LP SE ee TER SEN ON AA OÖ B ESS 7 SEE AAN EEE ER RES EI TE EN SEI SE SER KREIS a EEE EOS JENA: CE RE ESSEN Na SKI EEE Er NN DEE FE BIKE HENKE SR EEE VEN ER ehe An DE An PS ERS A Fun Zu a HE k- FF. DEE DENTRNS OHREN ARE EBEDSNE ae Se N ER SEES " EEE EEE Ste SUSE dr SEEN. SE We A KM RER „538 RENNER RATE EEE AT Ds > SEE 35 r ea KA HA: 3 Ta HE ESSEN tie OD En A: ir a A star EEE ONE BOOT ER Fa DS I E 5 a A a a A KK $7 > - ee ALL Wa 335 WA) WE ze MA NN N AN STE DR SA MT ? es =. ELCH CE MIA 3 ed SE SR z- BIETET Ds ar Zahn h ER ER ARE EEE RP : + sed Z > are as > > 5 337 ME KE pr Ss 2 3 A 253 SE SEN Zn N SS EBEREIBSEN A AS A Jn 35 F - Se ae > z- 7 2 ah er“ SE En NN Pepe dm A SEEN A EN ME ET RE EN Ba + N ERS NEN SE Es TS He A GT ES za A RN n 3 fe Y ERDE ST PRHÄNKHMARe witz RES 3 Es : AD E BR IE EEE MESSE BIN FRKFERE RACHEN BE A SE ME SE SE“ N? NE Fa EN | PS EEE AZNE {8 “uTlabe En DE Asorgs A NBLLGEAN Be SR SE ann 2 ea a SE BR ER EREaEEIa mn Rt CA e SEC 370 FE EAN ; r XS be er Ar SANS A zFX ent ü S Een „ REN ERERS 30 SER ERSTE ie | N EP, Ab a w > a EEE ET A dan ME EEE Ce ER rer Een 17 ee 3 ir ESS m. Be en = EM A 4% Z8 ZDF Zr SE A REDEN ee Ar RAD SEES ; a A E en KR m RE, ga X SD KE AN BD An 5 KEN FE ber 2 SE ER ER En ir PAS N Sn EEE Eee > A N rE Es sb. } , =. da een Ad ER id A N + A vn S 33 a RER DD NN EeE- EA STEIN SEE were SE SR EEE ER BERN m BEE ES A ENT een RT en Rn VER ab taten Een DEE EP EEE et Da PA PER SEEN N DEE Ge SPUDDE ENDE BEN DE REM SR A Se EEE NUR TUN En Se? AS AM AR REN . ME NE 6S Ey) S ? we Wa & Say. s - uk TE EEE ES EAN - Es N In ; Da a Bi e Ei :w3 a pa Gen EEE ONE De S De zz BD 6 SEE. ER Pa or x ; Ne SE ehe EEE N EA RRES SBEBNAKKRNEN 5 TE a A DEMAND S Eee ER SH SEM Zar SA a Erde SEN SR. Ra FE MN > SE NENNEN REN AK ; 5 Hp ES ee AR CE I area DE URUANBEEONEEAN — hiunt ehr SE REDE ER EINE GNS HE SEE © Sa A MAN a fein \ Ra . + NEST E ME ER EEE RES RE HE ; ü MS GT S1ay- * scher: SE 32 TE 3 \ N 3357 SD AS! aVZEISCHRERE En ur ES Keen ZT An > wi BR X TE Li nr ’ rg a a a arg N LP 3, SE IE N SANT EN FE BROT AEG by VAREL a} es +43, 5 — Hm SEE re L A GRUNDZÜGE DER THEORIE DER STATISTIK GRUNDZÜGE DER THEORIE DER STATISTIK VON H.. WESTERGAARD UND H. C. NY BOLLE PROFESSOR A. D. AN DER UNIVERSITÄT KOPENHAGEN LEKTOR AN DER UNIVERSITÄT KOPENHAGEN ZWEITE, VÖLLIG UMGEARBEITETE AUFLAGE MIT 21 KURVEN IM TEXT JENA VERLAG VON GUSTAV FISCHER 1998 Alle Rechte vorbehalten. A nn 2, 7 Ä . „3 ! Ai, MO kp Vorwort. Im Jahre 1890_ erschien die erste Ausgabe meiner „Grundzüge der Theorie der Statistik“ in dänischer und deutscher Sprache. Im Vorwort richtete ich einen Dank an den im Jahre 1916 verstorbenen dänischen Mathematiker J. P. Gram, während das Buch sonst dem 1911 dahingegangenen Chief Registrar of Friendly Societies, John Malcolm Ludlow, gewidmet war als demjenigen meiner aus- ländischen Freunde, dem ich ganz besonders viel verdanke. Nach Verlauf von 25 Jahren erschien eine zweite Ausgabe, die auf Grund der überaus reichen Entwicklung der Statistik während der inzwischen verflossenen Zeit eine starke Umarbeitung erfahren hatte. Wegen des Weltkrieges wurde dies Buch nur in dänischer Sprache veröffentlicht, doch schilderte ich im Journal of the American Statistical Association (vol. XV, 1916) in einer längeren Abhandlung über „Scope and Method of Statistics“ den Grundgedanken meiner Arbeit. Die gegenwärtige Ausgabe hat unter der von Lektor Hans Cl. Nybglle, meinem Nachfolger als Lehrer der Theorie der Statistik an der Kopenhagener Universität, und mir geleisteten gemeinsamen Arbeit neue Gestalt bekommen und erscheint gleichzeitig auf Deutsch und Dänisch. Während die der Darstellung zugrunde liegenden Haupt- gesichtspunkte unverändert geblieben sind, haben andererseits im einzelnen erhebliche Veränderungen vorgenommen werden müssen, nicht nur auf Grund der fortwährend fruchtbaren Entwicklung der Statistik, sondern auch, um die Benutzung des Buches für den Unterricht zu erleichtern. So sind denn zahlreiche Übungsaufgaben, deren Lösung dem Leser empfohlen wird, eingeflochten und die Dar- stellung möglichst elementar gehalten worden. Die eingehende mathematische Kenntnisse erfordernden Sätze findet man im Anhang. Während überall, Punkt für Punkt, gemeinsame Arbeit geleistet ist, muß die im Vergleich mit den bisherigen Ausgaben ausführlichere Darstellung der Wahrscheinlichkeitsrechnung hauptsächlich meinem Mitarbeiter zugeschrieben werden. Die Übertragung ins Deutsche hat Dr. rer. pol. Mads Iversen, Sekretär im Statistischen Departement zu Kopenhagen, besorgt. Kopenhagen, im Oktober 1927. Harald Westergaard. Inhaltsverzeichnis. Einleitung . . . . . I. Die Geschichte der Statistik A. Die Lehre von den „Staatsmerkwürdigkeiten“ ... 0... . B. Die politische Arithmetik und die Wahrscheinlichkeitstechnung C. Die moderne Statistik . . . „x. II. Beschaffung und Bearbeitung der Massenbeobachtungen UI. Das Exponentialgesetz A. Die Regelmäßigkeit bei Glückspielerfahrungen . . . . . B. Die Hauptsätze der Wahrscheinlichkeitsrechnung . sn C. Das Binomial- und Exponentialgesetz . . . D. Eindimensionale Verteilungen. . 0... .. E. Zweidimensionale Verteilungen (Korrelationstheorie) F. Unkorrelierte Größen . .. G. Empirische Frequenzen . . . . „0 IV. Die Anwendung des Exponentialgesetzes A. Allgemeine Bemerkungen . . . , B. Anthropometrische Messungen. . . C. Bevölkerungsstatistische Anwendungen D. Die Wirtschaftsstatistik . . . . . V. Interpolation und Ausgleichung A. Allgemeine Bemerkungen . . . B. Interpolationsmethoden . U. Flächenberechnungen . D. Ausgleichungsmethoden E. Statistische „Gesetze“ VI. Berölkerungsstatistik A. Das Anwachsen der Volkszahl B. Die menschliche Sterblichkeit C. Die Wanderungen. . . . D. Statistisches Gleichgewicht . . . - VII. Abgeleitete statistische Ausdrücke A. Mängel der Beobachtungen. . . . B. Die Methode der berechneten Anzahl C. Preis- und andere Indexzahlen. . . VII. Versicherungswesen und Statistik Schluß , Anhang Deite 11 22 50 75 107 134 155 187 201 219 294 266 267 288 310 318 333 353 379 113 130 139 482 301 507 524 559 507 601 515 Zufügung. Betr. Fußnote S. 49 (vgl. S. 391) wird bemerkt, daß die Gauß’sche Abhandlung auch in deutscher Sprache zugänglich ist in der Übersetzung von A. Börsch und P, Simon, C. F. Gauß, Abhandlungen zur Methode der kleinsten Quadrate, Berlin 1887. Einleitung. 1. Wie man auch immer Statistik und statistische Untersuchungen betrachten mag, stets ist eine Eigenschaft allen Versuchen der Cha- rakterisierung gemein, nämlich der zahlenmäßige Ausdruck der Sta- tistik und der statistischen Untersuchungen. Zahlenmäßige Angaben und Ausdrucksformen, die eigentliche Sprache des Statistikers, besitzen in einer Menge von Verbindungen ein selbständiges Interesse. Die Bevölkerungszahl eines Landes, ihre Verteilung nach Alter oder anderen Merkmalen, der Wert der Ein- oder Ausfuhr eines Landes oder das Ergebnis einer Bearbeitung der Anzahl der Krankentage an einer Hospitalabteilung usw. sind nume- rische Angaben, die alle unmittelbar Anwendung finden. Eine andere Seite des Wesens zahlenmäßiger Angaben tritt bei der Untersuchung dessen, was die Zahlen der Statistik für unsere Erkenntnis bedeuten, zutage. Wenn man von Zeit zu Zeit oder von Ort zu Ort statistisches Material über die gleichen Gegenstände sammelt, wird man oft eine gewisse Regelmäßigkeit der Zahlen entdecken können, eine Regelmäßigkeit, hinter der man etwas Festes und Bieibendes ahnt. Diese Erscheinung ist so häufig, daß die meisten Menschen sie unwillkürlich als ganz selbstverständlich auf- fassen. Jedes Jahr wird z. B. in einem Lande oder innerhalb einer Bevölkerungsklasse ungefähr dieselbe Anzahl von Ehen eingegangen, und die Zahlen der Geburten und Sterbefälle, der Selbstmordfälle und Verbrechen kehren ziemlich regelmäßig von .Jahr zu Jahr wieder. Den Ergebnissen des Glücksspiels wie denen des Post- und Eisen- bahnverkehrs, der Schiffahrt und des Handels, allen ist ein gewisses Gepräge der Regelmäßigkeit eigen. 23. Diese Stabilität in den numerischen Tatsachen ist nun von hoher Bedeutung für die menschliche Gesellschaft. Ohne eine solche Regelmäßigkeit könnte kein Finanzbudget aufgestellt werden; man Westergaard und Nvybolle, Theorie der Statistik, 2. Aufl. 2 würde nie wissen, ob ein Land hinlänglich mit Krankenhäusern, Ärzten, Hebammen usw. versehen ist; man würde nicht wissen, mit wieviel Zollbeamten man sich begnügen kann; man würde stets Gefahr laufen, die Armenhäuser oder Gefängnisse bald um ein Be- deutendes erweitern zu müssen, bald dieselben leer zu finden. Man würde nie die Bedürfnisse einer Stadt oder einer Provinz beurteilen können; die Versorgung einer Großstadt mit Lebensmitteln würde auf die größten Schwierigkeiten stoßen; die Stadt würde bald Über- fluß haben, bald der Hungersnot ausgesetzt sein. Auf dieser Regelmäßigkeit fußend, kann man eine Wissenschaft begründen, deren wichtigste Aufgabe es ist zu untersuchen, worauf solche Regelmäßigkeit beruht und was sie bedeutet; wird dies erst klar, dann kann man besser präzisieren, was man bei der Beschaffung konkreter Zahlen erfahren kann und was nicht, und dabei dann des näheren angeben, in welchem Umfange die beobachteten Vorgänge als voneinander abhängig aufgefaßt werden können. Faßt man die statistische Wissenschaft als eine Lehre der nu- merischen Beobachtungen überhaupt auf, dann ist die erste Aufgabe dieser Wissenschaft die, zu untersuchen, wie ihr Zahlenmaterial mit größtmöglicher Genauigkeit zuwegegebracht werden kann, welche Fehlerquellen man befürchten muß und wie man solche am besten beseitigt... Aber als Wissenschaft betrachtet hat die Statistik dann auch zu untersuchen, welche Schlüsse aus den Erfahrungen gezogen werden können, die die Beschaffung des Zahlenmaterials lehrt. Hierbei kommen dann, wie erwähnt, natürlich insbesondere solche Schlüsse in Betracht, die zum Verständnis der beobachteten Vorgänge in ihrem ursächlichen Zusammenhang beitragen können. Es ist indes kaum möglich, diese verschiedenen Aufgaben voneinander zu trennen. Sie bilden insofern eine Einheit, als man mit der angestrebten Beurteilung der Genauigkeit statistischer Be- obachtungen auch gleichzeitig das Mittel zur Nachspürung der Ur- sachen der beobachteten Erscheinungen hat. Läßt man sich über- haupt auf Erwägungen über die Glaubwürdigkeit der Zahlen und deren Nutzen ein, dann gilt es stets in allererster Linie, die Be- dingungen für die größere oder für die kleinere statistische Regel- mäßigkeit zu untersuchen. Diese Untersuchung wird freilich in Wirklichkeit nur darauf hinauslaufen, die numerischen Tatsachen als Resultate einer Reihe gleichzeitig einwirkender Kräfte zu verstehen. Ob es sich um das Resultat rein physischer Kräfte, oder um Kräfte, die sich in der menschlichen oder einer anderen A Gemeinschaft geltend machen, handelt, nie ist die Regelmäßigkeit eine starre Form, in der die jeweilige Erscheinung ein für allemal gegossen ist; ganz im Gegenteil wird man trotz der Regelmäßig- keiten bei näherer Untersuchung die größten Verschiedenheiten in den statistischen Erscheinungen finden können; aus dem Gebiete der sozialen Statistik kann als Beispiel hierfür gelten, daß die Sterblich- keit in einem Lande viele Male größer sein kann als in einem anderen und daß die Sterblichkeit vielerorts heutzutage geringer ist als z. B. vor einem halben Jahrhundert. Die Verschiedenheiten treten also nicht nur räumlich, sondern auch zeitlich zutage und müssen offenbar auf durchgreifende Verschiedenheiten in den wirkenden Ursachen zurückzuführen sein. Bald sieht man denn auch, daß die Sterblich- keit an epidemischen Krankheiten in einer Stadt nach Verbesserung der Wasserversorgung bedeutend abnimmt, oder man kann beobachten, daß in wirtschaftlich schwierigen Zeiten die Zahl der Feuerschäden wächst, die Ehefrequenz dagegen sinkt. Im Grade der Klarstellung der Kausalitätsverhältnisse erweitert sich auch die menschliche Erkenntnis, und in entsprechendem Um- fange dürfen wir Schlüsse auf die nächste Zukunft wagen. Zu- zugeben ist jedoch, daß die Regelmäßigkeit in den statistischen Be- obachtungen es allein nicht machen kann. Wo zwar die Zahlen große Verschiedenheiten aufweisen, wo man aber nicht die Ursachen solcher kennt, da darf man nicht einmal auf die allernächste Zukunft Schlüsse ziehen; kann doch eine festgestellte Gleichmäßigkeit ohne jegliche Bedeutung sein. 3. Die Aufgabe, die somit in erster Linie der Statistik gestellt wird, erweist sich nun allerdings oft als unlösbar. Wenn auch theo- retisch genommen die Möglichkeit vorhanden ist, die wirkenden Ur- sachen ausfindig zu machen, so ist dieses doch bei der tatsächlichen Sachlage häufig äußerst schwierig, weil nicht eine einzelne, sondern viele, oft eine ungemein große Zahl von wirkenden Ursachen Be- rücksichtigung finden muß. Man erhöht z. B. die Getränkesteuer und beobachtet ein Abnehmen der Trunksucht; jene Maßregel ist aber wahrscheinlich nicht die einzige Kraft, welche dieses Resultat geschaffen hat; man hat es vielleicht gleichzeitig mit der Wirkung eines strengeren Strafgesetzes, mit einer Reduktion der Anzahl von Schankstellen oder mit einer Enthaltsamkeitsbewegung zu tun, mit Faktoren, die sämtlich aus einer allmählich entstandenen allgemeinen Mißstimmung gegen die alkoholischen Getränke hervorgegangen sein können. Nun kann man meistens nicht eine einzelne Ursache aussondern, um die Wirkung derselben zu erforschen. Je gründlicher man die Sache untersucht, desto mehr Ursachen kommen zum Vorschein, bis sich unter dem Mikroskop des Forschers eine fast unübersehbare Zahl gegen- und miteinander wirkender Kräfte enthüllt. Daß es unter diesen Bedingungen in sehr vielen Fällen dennoch möglich ist, zu einer Erkenntnis vorzudringen, ist allerdings der ganz besonderen Form, in der die Statistik ihre Resultate gibt und der Tatsache, daß diese Ergebnisse nur unter gewissen Bedingungen erreicht werden können, zu verdanken, Die Untersuchung solcher Bedingungen wird weiter unten unsere Aufgabe sein. Diese Tatsache ist bei näherer Erwägung nicht so merkwürdig, wie es im ersten Augenblick scheinen könnte. Würde man beispiels- weise eine Betrachtung darüber anstellen, wieviel Feuchtigkeit wäh- rend eines Regenschauers einem Acker zugeführt wird, dann steht oder fällt eine solche Betrachtung nicht mit der Möglichkeit, Ort und Zeit der Bildung jedes einzelnen Regentropfens in jeder auf- tauchenden Wolke vorausberechnen und in allen Einzelheiten Wasser- menge und Bahn und damit Zeit und Ort des Einschlags der ein- zelnen Tropfen feststellen zu können. Um dieses zu erkennen, genügt es, alltägliche statistische Erfahrungen, wie man sie beim Glücks- spiel machen kann, ins Auge zu fassen. 4. Bei jedem geordneten Glücksspiele, bei Lotterien, Würfel- spielen usw. ist offenbar alles zunächst so zurechtgelegt, daß die die Ergebnisse jedes Spieles bestimmenden Ursachen, jedenfalls anscheinend, von Spiel zu Spiel genau dieselben sind. Und dennoch wechseln die Ergebnisse auf eine Art und Weise, die sich durchaus nicht vorher- sagen läßt. Stellen wir uns einen Beutel mit Kugeln vor, die Hälfte der Kugeln von weißer, die übrigen von roter Farbe; die Kugeln sind von derselben Größe, von demselben Holz, demselben Gewicht, kurz und gut, völlig gleich. Man entnimmt nun dem Beutel eine Kugel, notiert die Farbe und wirft die Kugel in den Beutel zurück. Diesen Versuch wiederholt man mehrere Male, wobei man vor jeder neuen Ziehung den Beutel stets gut schüttelt. Anscheinend wird eine jede Kugel denselben Kräften ausgesetzt. Will man jedoch den Glauben an die unbedingte Gültigkeit des Kausalitätsgesetzes bewahren, gleich- zeitig jedoch die Möglichkeit, nur eine und stets nur eine Kugel dem Beutel zu entnehmen, erkennen, dann muß man — wenn es sich nicht etwa unmittelbar feststellen läßt — annehmen, daß die Kugeln trotz aller Bemühungen dennoch bei keinem der Versuche genau denselben Verhältnissen unterlagen. Sie können nun auch gar nicht „mathematisch“ gleich sein; jede Kugel muß die ihr eigene Ab- weichung von der genauen Kugelgestalt, jede eine von allen anderen abweichende Schwere und Größe haben. Dazu können sie unmöglich den gleichen Platz im Beutel einnehmen. Es ist ferner anzunehmen, daß die vielfach ganz unbedeutenden Verschiedenheiten der Kugeln für das unbewaffnete Auge unsichtbar sind und sich somit der Be- rechnung vollständig entziehen. Daher ist es denn auch unmöglich, im voraus anzugeben, ob das Ergebnis einer Ziehung eine weiße oder eine rote Kugel wird, wieviele Male man weiß, wieviele Male man rot erhält, wenn der Versuch mehrfach wiederholt wird. Hiernach jegliche Form einer Vorausberechnung des Ergebnisses als hoffnungslos anzusehen, wäre jedoch nur berechtigt, wenn es sich darum handelte, genau festzustellen, wieviele Male man im Laufe einer Versuchsreihe weiß und wieviele Male rot erhalten würde. Aber wie bereits erwähnt, ist eine genaue Feststellung unmöglich. Dagegen lehren uns die Erfahrungen, daß, selbst wenn das Resultat bald dies, bald jenes wird, und selbst wenn kleinere Abweichungen vom speziellen Ergebnis: zur Hälfte weiß, zur Hälfte rot, häufig vor- kommen werden, so doch größere Abweichungen seltener sein und eine verhältnismäßig stets geringer werdende Rolle spielen werden, je weiter man die Versuchsreihe führt. Mit anderen Worten: das Er- gebnis ist nicht ganz so unbestimmt, wie es zuerst scheinen möchte. Eine Menge der unbekannten, das Ergebnis des einzelnen Versuches beeinflussenden Ursachen werden gleichsam im Endresultat eliminiert, sofern man nur eine größere Reihe von Versuchen anstellt. d. Entnimmt man dem Beutel 10000 mal eine Kugel, dann ist es beispielsweise so gut wie sicher, daß die Anzahl der weißen Kugeln nicht mehr als etwa 200 von 5000 abweichen wird, daß man also eine Anzahl weißer Kugeln erhält, die zwischen 4800 und 5200 liegt. Meist wird aber nicht einmal von einer auch nur annähernd so großen Abweichung die Rede sein; und sollten tatsächlich größere Abwei- chungen vorkommen, dann wird es sich fast immer verlohnen zu unter- suchen, ob diese Unregelmäßigkeit nicht von zwar zugrundegelegten, aber tatsächlich unerfüllten Voraussetzungen herrührt. Auf gleiche Art und Weise kann man z. B. annähernd genau berechnen, wieviele der im Laufe eines Jahres geborenen Kinder Knaben, wieviele Mäd- chen sind. Dies läßt sich ebensowenig wie bei den Kugeln exakt machen; jedoch darf man, wie im folgenden bewiesen wird, damit rechnen, daß ganz besondere Verhältnisse, die nicht berücksichtigt worden sind, sich geltend gemacht haben, falls die tatsächliche Ver- hältniszahl der im Laufe eines Jahres geborenen Knaben im Vergleiche mit der Gesamtzahl, die in Dänemark etwa 70 000 ausmacht, beispiels- weise auch nur um mehr als 1 oder 2 Proz. von der berechneten Verhältniszahl abweichen sollte. Wie mit diesen einfachen Beispielen, so ist es auch mit kom- plizierteren. Die Mannigfaltigkeit der Ursachen legt jeder Voraus- berechnung, die sämtliche Ursachen berücksichtigen will, unüberwind- liche Schwierigkeiten in den Weg. Verzichtet man jedoch darauf, jedem einzelnen Individuum einer größeren Masse zu folgen — seien es Menschen, Regentropfen oder Luftmoleküle —, um statt dessen seine Aufmerksamkeit auf die Gesamtwirkung der Ursachen, von denen die Einheiten beeinflußt werden, zu lenken, dann liegt es im Bereich des Möglichen, allgemeine Ergebnisse festzustellen, wenn auch nur mit einer gewissen Genauigkeit, die jedoch oft mehr als hinlänglich sein wird. 6. Bei statistischen Untersuchungen wird also auf die Gesamt- wirkung Gewicht gelegt; man interessiert sich nicht für das Schicksal des einzelnen Menschen, stellt vielmehr Massenbeobach- tungen an. Wo es sich nicht um eine bloße nüchterne Darstellung numerischer Tatsachen handelt, da gilt es, solche Massenbeob- achtungen zu machen und sie so zu verarbeiten, daß die Wirkung der Mehrzahl von Ursachen verschwindend klein wird und nur ainzelne Ursachen bleiben, so daß die Gesetzmäßigkeit im Haupt- resultate hervortritt. Welche Ursachen wir auf diese Weise untersuchen können und welche sich eliminieren lassen, das muß uns die Erfahrung lehren. Zu guter Letzt gibt es, wie wir gesehen haben, Ursachen, deren Wir- kungen sich nicht ausscheiden lassen. Dies schließt jedoch nicht aus, auf statistischem Wege wichtige Schlüsse zu ziehen. So hat es sich erwiesen, daß die Sterblichkeit im Schankwirtsgewerbe für größer als in den meisten übrigen Berufsklassen angesprochen werden muß; ja der Unterschied ist so erheblich, daß, unterm Bewußtsein der Un- sicherheit statistischer Betrachtungsweise, angenommen werden muß, daß bei Gastwirten Ursachen zur Geltung kommen, die nicht mit entsprechender Stärke bei anderen Gewerbetreibenden wirken. Wel- ches nun diese Ursachen sind, das bleibt eine ganz andere Frage; wieviel dem Alkohol, wieviel einer ungesunden Lebensweise (Auf- enthalt in schlechtgelüfteten Räumen, Mangel an Schlaf usw.) zu- zuschreiben ist, läßt sich nur äußerst selten feststellen. Es ist mög- lich, daß die Totalwirkung zweier vereinter Ursachen größer ist als der von jeder einzelnen Ursache erzielte Effekt. Dennoch aber ist es von Bedeutung, als recht wahrscheinlich festnageln zu können, daß das Gastwirtsgewerbe gesundheitsschädlichen Einflüssen ausgesetzt ist, selbst wenn man diese nicht in ihre Komponenten zerlegen kann. Wie mit diesem Beispiel, so ist es mit allen übrigen. Die eigent- liche zahlenmäßige Behandlung kann uns höchstens zu der Annahme zwingen, daß besondere Kräfte mitgewirkt haben; über den Charakter dieser Kräfte können die Zahlen dagegen nichts aussagen. In man- chen Fällen wird man jedoch aus anderen Gründen nicht über die Art der vermuteten Ursachen im Zweifel sein. Auch ist es keines- wegs undenkbar, daß eine erneute Untersuchung in Fällen, wo Zweifel möglich ist, uns ein gutes Stück vorwärtsbringen kann; man muß nur eben erst darauf aufmerksam geworden sein, daß es überhaupt zu erforschende Ursachen gibt. 7. Das angeführte Beispiel lehrt uns, daß eine solche Abtrennung besonderer Ursachen nicht möglich wäre, wenn man nicht bereits vorderhand eine gewisse Meinung darüber hätte, welche Verschieden- heiten in Erscheinung treten können, allein schon infolge notwen- diger Nichtberücksichtigung einer Menge der Ursachen, die tatsäch- lich die einzelnen Individuen der betrachteten Gruppen beeinflußt haben; Verschiedenheiten, welche also entstehen können, ohne daß es möglich wäre, Ursachen aufzudecken, die sich nicht in beiden Gruppen geltend gemacht hätten. Hat man z. B. zwei Beutel mit Kugeln obiger Art, und ent- nimmt man jedem eintausendmal eine Kugel bei gleichzeitiger Notie- rung der Farbe, dann wird das Ergebnis: 525 weiße Kugeln des einen und 485 des anderen Beutels keineswegs überraschen. Der Unterschied kann allein den zahlreichen Ursachen zuzuschreiben sein, die sich bei jeder einzelnen Ziehung geltend machen, die festzustellen jedoch völlig aussichtslos ist. Er kann aber auch daher kommen, daß falsch aufgezählt wurde oder daß — allerdings gegen unsere Voraussetzung — ursprünglich nicht gleichviele rote und weiße Kugeln in beide Beutel getan wurden; wenn der Unterschied jedoch nicht größer ist als hier, ist man gänzlich außerstande, etwas hin- sichtlich eines etwaigen verschiedenen Inhalts der Beutel zu er- kennen. Wäre das Ergebnis dagegen z. B. 600 weiße Kugeln des einen und 490 des anderen Beutels gewesen, dann würde die Vorstellung von der möglichen Größe der Abweichung in den Ziehungsergeb- nissen aus Beuteln gleichen Inhalts unseren Zweifel erwecken: man \ würde sofort die Ursache dieses großen Unterschiedes aufzuklären suchen und in diesem einfachen Falle sofort entweder die Richtig- keit der Aufzählung der Ziehungsergebnisse oder die Voraussetzung eines gleichen Bestandes an roten und weißen Kugeln anzweifeln. Allerdings führt diese besondere Form der Erkenntnis, charakte- ristisch für die Statistik, mit sich, daß sich möglicherweise solcher Zweifel als unberechtigt erweist. Unbedingt ausgeschlossen ist das Resultat nämlich nicht, daß man bei je 1000 Ziehungen aus zwei Beuteln mit gleichviel weißen und roten Kugeln dem einen 600 und dem anderen nur 490 entnimmt. So gibt es eben keine festen Grenzen für die Größe der möglichen Verschiedenheiten in den Ziehungsresultaten bei Beuteln gleichen Inhalts, oder, wie man sich oft ausdrückt, für die Größe der durch „zufällige“ Ursachen hervor- gerufenen Unterschiede. Diese Eigenart führt jedoch nur dazu, die Vermutung, daß fest- gestellte Verschiedenheiten besonderen Umständen (Ursachen) zu- zuschreiben sind, abzuschwächen, und zwar in dem Grade, wie die Verschiedenheiten statistischer Ergebnisse geringer werden. Es muß also als mehr oder weniger fruchtbar angesehen werden, in der Frage der Unterschiedsquelle neue Betrachtungen anzustellen und neue Untersuchungen vorzunehmen. 8. Jene Elimination der Wirkung zufälliger Ursachen oder, wie man sich vielleicht besser ansdrücken könnte, der Wirkung der In- dividualursachen kann also nie ganz vollständig werden. Die statistischen Vorausberechnungen lassen sich, wie erwähnt, eben nie mit absoluter Genauigkeit durchführen. Andererseits aber geht aus obigen Ausführungen hervor, daß die Verschiedenheiten bedeutend sein können und daß das vermutete Auftreten besonderer Ursachen — Ge- meinursachen — sich bewahrheitet. Die Erfahrung lehrt denn auch, daß das Nachspüren nach solchen Gemeinursachen sich selbst da ver- lohnte, wo die Verschiedenheiten nicht überwältigend waren oder den Forscher ihre Existenz nicht einmal mit Sicherheit vermuten ließen. Schlüsse von zahlenmäßigen Ausdrücken auf die dahinter liegen- den Ursachen setzen eine feste Abgrenzung der Verschiedenheiten voraus; eine solche ist nach obigem jedoch unmöglich. Die besondere statistische Forschungsmethode verlangt daher, daß auf andere Weise zum Ausdruck kommt, inwieweit konstatierte Verschiedenheiten auf die Anwesenheit von Gemeinursachen deuten. Ist z. B. für eine Bevölkerung die Sterblichkeit jährlich etwa 15 Promille, während man in einer bestimmten Beyölkerungsklasse in einem Jahre 20 Pro- mille beobachtet hat, so entsteht die Frage, ob dieser Ausschlag ein „zufälliger“ ist, ob also nur individuelle Ursachen die Abweichung veranlaßt haben, oder ob eine bleibende Ursache, z. B. hygienischer Natur, die große Sterblichkeit hervorgebracht hat. Dies muß man unbedingt entscheiden können; denn sonst wird man nie wissen, ob in der Zukunft auf ein Wiederauftreten der gefundenen Sterblichkeit zu rechnen ist oder ob nicht vielleicht schon in kürzester Zeit sich die Sterblichkeit sogar günstiger als in der Gesamtbevölkerung gestalten wird. Eine wichtige Aufgabe der Statistik ist es also, festzustellen, wie man die Probleme löst und unter welchen Bedingungen eine Lösung Gültigkeit hat. Hier sei nur die allgemeine Regel erwähnt, daß der sich von den Individualursachen herleitende Spielraum bei zunehmender Anzahl von Beobachtungen kleiner wird. Die ganze Lehre: teils die Lehre von den Bedingungen, unter denen man trotz störender Einflüsse der Individualursachen die Regelmäßigkeit in den statistischen Phänomenen erklären kann, teils die Lehre davon, wie man denn von solchen Phänomenen weiter schließt, wird daher im allgemeinen zusammengefaßt unter der von Poisson stammenden Bezeichnung: das Gesetz der großen Zahl. Dieser Ausdruck hat oft zu Mißverständnissen Veranlassung gegeben, da er fehlerhafterweise den Gedankengang auf solche exakten Gesetze, wie man sie z. B. in der rationellen Mechanik vorfindet, leitet; er hat sich jedoch allmählich ein gewisses Bürgerrecht in der Statistik erworben und wird daher auch im folgenden gelegent- lich benutzt werden. Wie erwähnt, gibt das „Gesetz“ das Haupt- mittel dazu ab, den Spielraum wirkender Individualursachen zu be- stimmen und dabei die Anwesenheit etwaiger Gemeinursachen zu erkennen. 9. Viele ältere Statistiker nahmen auf diesen Spielraum keine Rücksicht. Obzwar man natürlich keineswegs um die Einflüsse der Individualursachen herumkam, suchte man sich jedoch in der Regel nicht über den Grad des Einflusses solcher Ursachen klar zu werden. Da es.sich bald erwies, daß die Regelmäßigkeit in den statistischen Ergebnissen im allgemeinen mit wachsender Anzahl von Beob- achtungen steigen müsse, begnügte man sich mit der allgemeinen Annahme, nur mit sehr großen Zahlen operieren zu brauchen, um Trugschlüsse zu vermeiden; es blieb aber die Frage, wie groß denn eigentlich die Zahlen sein müßten, um das angestrebte Ziel zu er- reichen. Solange diese Frage unbeantwortet blieb, konnte man nur dank großer Übung und Vorsicht Trugschlüsse vermeiden, und in den meisten Fällen war man zur Sammlung eines allzu umfassenden Materials gezwungen, eines Materials, welches gleichzeitig auch zur Begründung mehrerer anderer Schlüsse hätte ausreichen können. Die Behandlung war somit jedenfalls nicht ökonomisch, und in dem Bestreben, ein möglichst reichhaltiges Material zu erhalten, lief man außerdem Gefahr, erhebliche Verschiedenheiten zu verschleiern; was man an Umfang des Stoffes gewann, verlor man an Gleichförmig- keit desselben. Die Frage, von welchem Umfange das zureichende Material sein muß, hat man gelegentlich durch Zerlegung desselben in zwei oder mehrere Gruppen zu beleuchten versucht; sobald die einzelnen Teile zleiche Resultate aufwiesen, nahm man dies als Beweis für die hin- längliche Größe des Gesamtmaterials. Selbst wenn ein solches Er- gebnis natürlich beruhigend wirken kann, so ist damit doch keines- wegs der Beweis für die Richtigkeit geliefert, schon aus dem ainfachen Grunde nicht, weil „Zufälligkeiten“ gar leicht haben mit- spielen können; jedenfalls ist es sehr gut möglich, daß eine andere Teilung ein anderes Resultat ergäbe. Wie in einem späteren Kapitel näher zu begründen sein wird, ist es außerdem denkbar, daß die Zahlen, ganz abgesehen von verschiedenen Resultaten der einzelnen Teile des zerlegten Materials, groß genug sind, um ein gewisses Ergebnis zu zeitigen. Das Kriterium ist somit weder ausreichend noch not- wendig. Die erwähnte Methode hat dann noch einen weiteren Mangel: Sie fordert naturgemäß ein Material, das zwei- oder drei- oder mehreremal größer ist als das für die Prüfung der Ergebnisse not- wendige. Wenn man mit großer Mühe erst das notwendige Material gesammelt hat, kann man nach obiger Regel Gefahr laufen, dieses um ein Mehrfaches vergrößern zu müssen, dann nämlich, wenn eine Teilung der Gruppen nicht das festgestellte Resultat bestätigt. Einer solchen Forderung kann man aber oft nur schwierig, oft überhaupt nicht Rechnung tragen. 10. Solange die Wirkungen der Individualursachen noch keiner gründlichen Untersuchung unterworfen waren, konnte keine Wissen- schaft statistischer Untersuchungen, deren Resultaten man übrigens ft mit Fug und Recht mißtraute, entstehen. Andererseits ist das Studium der Erscheinungen, bei welchen solche Ursachen auftreten, von großer Bedeutung geworden, auch außerhalb des Gebietes der Wirtschaftswissenschaften, z. B. für die Anthropologie, die Meteorologie, die Medizin, die Biologie und nicht zum mindesten für die moderne Physik, die heutzutage durch das Studium der Bewegungen der Moleküle einen stets größeren Kreis von Phänomenen zu erklären sucht; ganz natürlich führt daher ein bedeutungsvolles und umfangreiches Gebiet innerhalb der Physik ge- radezu den Namen Statistische Mechanik. Da nach dem Plan dieses Buches das Schwergewicht auf die Behandlung der Statistik als Gesellschaftswissenschaft fällt, wird die folgende Darstellung der Grundzüge in der Geschichte der Statistik zu zeigen haben, wie man allmählich so weit gekommen ist, daß man — wenigstens annähernd und in großen Umrissen — die Bedingungen für die statistische Regelmäßigkeit in den sozialen und wirtschaftlichen Erscheinungen, namentlich mit Hinblick auf gewisse weniger komplizierte Aufgaben, feststellen kann. Das Ver- hältnis anderer Wissenschaften zur Statistik kann nur ausnahms- weise gestreift werden. Il. Kapitel. Die Geschichte der Statistik. A, Die Lehre von den „Staatsmerkwürdigkeiten‘. 11. Das Wort Statistik stammt her von dem italienischen Worte Stato, welches neben anderen Bedeutungen wie Stand, Zu- stand usw. auch die weitere Bedeutung Staat besitzt. Das italienische Statista bezeichnete demgemäß einen Mann, welcher sich mit Staatsangelegenheiten beschäftigte (homme d’Etat), während unter Statistik eine Sammlung von Tatsachen verstanden werden mußte, die auf die öffentlichen Verhältnisse verschiedener Länder (die Machtstellung der Staaten, ihre Steuer- und Heereskraft usw.) sich bezogen und für Staatsmänner von Interesse sein konnten. Anfangs konnte diese Disziplin allerdings kaum etwas mit der Statistik im modernen Sinne des Wortes gemein haben. Spät erst kam man so weit, daß man Mitteilungen in ziffernmäßiger Form geben konnte; die damalige Statistik war im wesentlichen eine Staatenkunde, welche die Verfassungen und andere Verhältnisse der einzelnen Staaten schilderte. Weit mehr mit dem verwandt, was wir heute Statistik nennen, war die sogenannte politische Arith- 12 metik. Auch sie stand mit politischen Interessen in intimer Ver- bindung; Petty fragt in allererster Linie, ob die Engländer Fran- zosen und Holländern überlegen seien; Lavoisier macht seine be- rühmten Berechnungen namentlich, um eine Grundlage für wirt- schaftliche Gesetzgebung zu schaffen. Der Doppelname „politische Arithmetik“ ist somit eine recht treffende Zusammensetzung. Um den Ursprung der Statistik zu verstehen, muß man ferner eine dritte Quelle betrachten: die ersten Anläufe zur Wahr- scheinlichkeitsrechnung. Diese Disziplin beschäftigte sich ursprünglich mit anscheinend völlig unbedeutenden Spielaufgaben, erhielt aber doch zuguterletzt eine ungemein große wissenschaftliche und praktische Bedeutung. Es genügt, Namen wie Pascal und FWermat zu erwähnen, 13. Kein geringerer als Aristoteles kann an der Spitze der langen Reihe von Schriftstellern, die sich mit Statistik im ursprüng- lichen Sinne des Wortes befaßt haben, aufgeführt werden. In seinen leider zum größten Teil verloren gegangenen Politeiai behandelt er sine große Anzahl von Staatsverfassungen einzeln der Reihe nach. Er berücksichtigte sowohl die Entwicklungsgeschichte als auch den tatsächlichen Zustand der beschriebenen Kleinstaaten, und er hatte dabei nicht allein die politischen Verhältnisse der Nachbarstaaten vor Augen, sondern auch die ganze Staatsverwaltung und Rechts- pflege, Wissenschaft und Kunst, Religion, Sitten und Gebräuche usw., alles in einer zusammenhängenden Darstellung, wie sie nur solch weit- umspannendem Geiste möglich war. Diese Darstellung der Staatsverfassungen war mit Aristoteles’ berühmter Staatslehre innig verknüpft und war schon daher von hoher Bedeutung. Und ganz natürlich mußte das blühende Staats- leben Italiens zu Beginn der neueren Zeit zu ähnlichen Unter- suchungen und Beschreibungen anspornen. Zwei wohlbekannte Namen können hier erwähnt werden: Francesco Sansovino 1521-—1586) schrieb sein Werk Del governo e amministra- zione di diversi regni e republiche (Venetia 1562 und ver- schiedene spätere Ausgaben), und Giovanni Botero (1540—1617) veröffentlichte im Jahre 1593 sein Hauptwerk auf diesem Gebiete, Le relazioni universali, das ebenfalls zahlreiche Neuauflagen erlebte. Sansovino behandelt alles in allem 22 Staaten, hierunter das alte Rom, Sparta und Athen, wie er auch ein Kapitel auf die „Utopia“ verwendet. In der Darstellung seiner Zeit scheint er aufs eifrigste 1° nach Vollständigkeit zu streben. So beschäftigt er sich in einem Kapitel über England mit der englischen Thronfolge, den Gerecht- samen des Königs, der Krönung, den Rittern des Hosenbandordens, dem Parlament usw. Natürlich darf man sein Werk nicht mit der Elle moderner Wissenschaft messen. Seine Mitteilungen über die einzelnen Staaten waren — das lag in der Natur der Sache — alies andere als vollständig; die englischen Staatseinnahmen werden auf einer einzigen Seite erledigt, die Rechtspflege mit 8 Zeilen usw. Erst viel später konnte von größerer Vollständigkeit und tieferem Eindringen in den Stoff die Rede sein. Botero geht bei seiner Darstellung von ähnlichen Gesichts- punkten aus, obzwar er seinen Stoff etwas anders ordnet und dabei klareren Überblick gewinnt. Er teilt sein Werk in drei Abschnitte: Zuerst wird das Territorium in einer ziemlich knappen und im wesentlichen geographischen Darstellung behandelt; darnach be- schreibt er den Zustand der einzelnen Staaten (Verwaltung, Ur- sachen der Größe der Staaten, Wohlstandsverhältnisse) und schließlich in einer Reihe kirchengeschichtlicher Betrachtungen den religiösen Kultus Land für Land. 13. In den folgenden Jahrhunderten wächst nun ein ganzer Literaturzweig heran in engerer oder weiterer Anknüpfung an die erwähnten Werke, und namentlich wurde die Staatenkunde eifrigst von deutschen Universitätsprofessoren gepflegt. So mag der bekannte Polyhistor Hermann Conring (1606—1681), Professor an der Jlamals blühenden Universität zu Helmstedt in Braunschweig, er- wähnt werden. Von 1660 an hielt er eine Reihe von Jahren hin- durch unter großer Beteiligung in seiner Wohnung Vorträge über Staatenkunde. Er hatte seine Vorlesungen nicht schriftlich ausge- arbeitet, sondern stützte sich ausschließlich auf sein glänzendes Ge- dächtnis. Erst im Jahre 1730 erschien eine Ausgabe seiner ge- samten staats- und rechtswissenschaftlichen Werke, in denen seine Vorträge über Staatenkunde nach Aufzeichnungen der Zuhörer, welche Notizen er dann wieder hatte abschreiben lassen, Aufnahme fanden. Conring behandelt der Reihe nach Spanien mit seinen Ko- lonien, Portugal, Frankreich usw., zuletzt Japan, Marokko und Abessinien. Die Hauptquelle für die Darstellung Japans, die nur wenige Seiten füllt, sind die Schilderungen der Jesuiten. Conrings Darstellungsweise ähnelt der seiner Vorgänger; er zitiert viel, bringt aber selbstredend durchweg kein Zahlenmaterial, beschränkt sich gewöhnlich auf mehr allgemeine Ausdrücke wie: Ein Land ist dicht 14 bevölkert usw. Conring sucht den Zusammenhang der Ver- hältnisse im Anschluß an Aristoteles und die Scholastiker zu schildern, wobei er vier Prinzipien aufstellt: causa materialis, finalis, formalis und efficiens. Unter materia des Staates behandelt er Land und Leute, unter forma Verfassung und Verwaltung, während die Staatszwecke die causa finalis ausmachen; und schließlich folgt die causa efficiens, welche Finanzen und Land- und Seestreitkräfte ımfaßt. L4. Die meisten Berührungspunkte mit Conring hatte Achen- wall (1719—1772), Professor an der Universität Göttingen. Dieser bezeichnete die neue Disziplin als Statistik, nachdem übrigens schon stliche Jahre früher von einem anderen Universitätslehrer ein Col- legium politico-statisticum gelesen worden war. Achenwall definiert die Statistik oder Staatsbeschreibung als die Lehre von der Staatsver- fassung im weiteren Verstande, welche als Inbegriff der wirklichen Staatsmerkwürdigkeiten eines Reiches oder einer Republik bezeichnet werden könne. Auch historische Staatslehre oder Staatskunde könne man dieselbe nennen. Um ihren Umfang zu begrenzen, müsse man aus der Menge der Staatsmerkwürdigkeiten die notwendigsten her- ausnehmen, ohne welche die Einrichtung und der Grad der Stärke oder Schwäche eines Staates sich nicht würde begreifen lassen. Der Hauptzweck der Statistik solle darin bestehen, daß man ein Urteil über Staatsangelegenheiten gewinnt und geschickt wird, an der Staatsleitung mitzuwirken. Die Statistik solle den gegen- wärtigen, nicht den ehemaligen Staat kennen lehren; nur als Einleitung solle eine Geschichte der Staatsveränderungen VOorauSs- yeschickt werden. Wie wenig Achenwalls Staatsbeschreibung als Statistik im heutigen Sinne des Wortes bezeichnet werden kann, geht aus einer kurzen Übersicht über den Inhalt seiner Beschreibung Spaniens in Jer fünften Ausgabe seiner im Jahre 1768 erschienenen „Staatsver- fassung der heutigen vornehmsten Europäischen Reiche“ hervor, Auf eine wenige Seiten umfassende Geschichte Spaniens folgt eine kurze Beschreibung des Klimas, der geographischen Lage, der Ein- seilung und der Erzeugnisse des Landes; die Kolonien werden auf- gezählt und deren Erzeugnisse und übrigen Verhältnisse mit wenigen Worten berührt. Daran reiht sich ohne jede kritische Bemerkung über die Berechnungsweise eine von Ustariz auf Grund einer Zählung aller steuerpflichtigen Familien berechnete Volkszahl und eine Betrachtung über die Ursachen der dünnen Bevölkerung, ferner 15 eine Schilderung des spanischen Nationalcharakters, eine Darstellung der Staatsverfassung mit Bemerkungen über die Inquisition, die Pflege der Wissenschaften, den „Fleiß und die Manufakturen“ der Spanier, so- wie den spanischen Handel, aber fast ohne jede Zahlenangabe, weiter eine Beschreibung des Münzwesens und des Staatshaushalts, ebenfalls mit nur ganz wenig Zahlen, sodann eine kurze Übersicht über die Land- und See- macht und endlich als Hauptergebnis ein Abschnitt über „das Inter- esse Spaniens“, wo auf einer Seite diskutiert wird, was das Wohl des Landes beeinträchtigt hat und in der Zukunft zu fördern ge- eignet ist. Dieser Abschnitt über Spanien eröffnet nach Conringschem Muster die Reihe der in dem Achenwallschen Buche enthaltenen Staatsbeschreibungen; insgesamt fanden 8 europäische Staaten Auf- nahme; aber selbst für Länder wie Großbritannien und Schweden, welche schon damals bevölkerungsstatistische Untersuchungen auf- zuweisen hatten, wird nur die wahrscheinliche Volkszahl angegeben und das vorhandene statistische Material überhaupt nicht erwähnt. 15. Eine wesentliche Änderung herbeizuführen, gelang weder dem Nachfolger Achenwalls, A. L.v. Schlözer (1735—1809), noch den übrigen Vertretern dieser Universitätsstatistik, auch vermochten sie nicht den Begriff der Statistik klarzustellen und über die Unbe- stimmtheit des Conring-Achenwallschen Begriffes „Staatsmerkwürdig- keiten“ hinauszukommen. Schlözer erkannte selbst die Relativität dieses Begriffes; was zu einer Zeit als merkwürdig zu bezeichnen wäre, sagte er, würde zu einer andern Zeit vielleicht gleichgültig sein *). Aber eine Folge dieser Unsicherheit war ganz natürlich der Mangel echter wissenschaftlicher Kraft. Die deutsche Universitätsstatistik konnte nur langsam zu einer wissenschaftlichen Disziplin werden, und zwar nicht auf Grund von Hindernissen, die sich bei der Beschaffung positiven Materials in den Weg stellten. Denn zwar lag das Material zum großen Teil in fürstlichen Archiven, ohne daß man wie heut- zutage ein Benutzungsrecht hatte oder die Aktenstücke gar abge- druckt in Quellensammlungen der Öffentlichkeit zugänglich waren; dies war jedoch eher ein Ansporn: Je tiefer sich die Quellen in den Staatsarchiven verbargen, desto eifriger stöberte man sie auf, so daß sich nach und nach denn auch viele, wenn auch sehr bunt gemischte, Beobachtungen in Zeitschriften und größeren Werken aufhäuften. Trotz allem aber war und blieb die „Statistik“ ein praktisches \ Schlözer, Theorie der Statistik, erstes Heft, Einleitung, 1804, S. 47 u. 53. 156 Fach. Was man im Staatsdienste brauchte, das sollte ihr Gegen- stand sein. Diese praktische Richtung tritt auch darin zutage, daß sie nur den gegenwärtigen Zustand schilderte. Hätte man sich jedoch damit begnügen wollen, so würde ein statistisches Werk bald nach seinem Erscheinen veraltet sein und in die Makulatur wandern gönnen. Die Universitätsstatistiker mußten also ihr Ziel weiter stecken, als bloß ein Bild der Gegenwart zu geben. Schlözer gestand denn auch die Möglichkeit zurückgreifender Statistiken Zu; man könnte, wie er sagt, „die Geschichte stille stehen lassen“ . Es brach sich also die Erkenntnis Bahn, daß man auch frühere Zu- stände statistisch beschreiben könne und daß die Aufgabe der Sta- tistik darin zu suchen sei, die jetzigen Zustände aus den ver- gangenen zu erklären und die Wechselwirkung zwischen den ein- zelnen Verhältnissen des Staates darzustellen. Schlözer wollte in der eigentlichen Statistik nur Tatsachen mitgeteilt wissen, der Sta- tistiker müsse aber, um seinen Vortrag weniger „trocken“ zu machen, „durch Einmischung von Geschichte, Ursachen und Folgen“ dem Vortrag „Leben und Interesse geben“ 2). Es förderte nur anscheinend den wissenschaftlichen Charakter der Statistik, daß Schlözer, wie seinerzeit Conring, eine bestimmte Einteilungsformel für diese Disziplin aufstellte, so lautend: vires unitae agunt®). Vires, die Grundmächte, sind Menschen, Land, Erzeugnisse und zirkulierendes Geld; in der Staatsverfassung ver- einigen sich diese Kräfte; und schließlich ergeben Regierung und Verwaltung der Formel drittes Glied, sie sind es, die wirken ’agunt). Solche altertümlichen Formeln zeigen dem modern den- kenden Menschen mit aller Deutlichkeit den großen Abstand, von dem aus neuzeitlich denkende Menschen diese gesamte Disziplin detrachten. Obwohl man sie mit großer Begeisterung pflegte, trug sie doch stets das Gepräge der Geistesarmut. 16. Eine von der gewöhnlichen Staatsbeschreibung etwas ab- weichende Stellung nahm der Geograph Büschin g (1724—1793) ein, ler die Statistik der Geographie unterordnen wollte. Mit Bienen- fleiß sammelte er, nicht immer unter günstigen Verhältnissen, eine ungeheure Menge Stoff, wovon seine im Jahre 1754 begonnene „Neue Erdbeschreibung“ deutlich zeugt. Allerdings trägt diese Beschreibung ') Schlözer, Theorie a. a. O., S. 86—87. *) Ebenda 8. 86. Y Ebenda 8. 59. 17 ein etwas chaotisches Gepräge und weist auch keine geographischen Gesichtspunkte im modernen Sinne auf; trotzdem aber hat sich Büsching um die Statistik sehr verdient gemacht und seine zahlenmäßig dar- gestellten Beobachtungen sind durchaus als absoluter Fortschritt anzu- sprechen. Interessant ist in dieser Beziehung sein Versuch, die Volks- zahl Portugals zu bestimmen (a. a. O. II, 1754, S. 7—8). Er konnte sich hier auf einen portugiesischen Verfasser stützen, der in einer Ab- handlung über Portugal ein Verzeichnis über Volkszahl und Anzahl der Feuerstellen der Städte und Gerichtsbezirke im Jahre 1732 mit- geteilt hatte. Obzwar dieser Autor das Verzeichnis als äußerst zu- verlässig bezeichnete, hatte er doch nicht die Volkszahl für das ganze Reich zu errechnen versucht. So etwas hat ihm offenbar ganz fern gelegen, während sich Büsching bestrebte, die Zahlen zu verwerten und — unter Mitzählung der Geistlichkeit — zu einem Ergebnis von 2 Millionen Einwohnern gelangte. Die Berechnung der Volkszahl anderer Länder war schwieriger. So suchte Büsching z. B. die Bevölkerung Deutschlands zu erfassen, indem er die Volkszahl Frankreichs zum Ausgangspunkt nahm. Diese war auf 20 Millionen veranschlagt worden, und da Deutsch- land dicht bevölkert sei und „darinnen vor Frankreich eher einen Vorzug“ habe, so könne man „Deutschland auf eine wahrscheinliche Weise gern ohngefähr 24 Millionen Menschen zuerkennen“ (a. a. O. LIT, 1757, S. 22—23). 17. Da die deutsche Universitätsstatistik bei der Schilderung der einzelnen Länder nach einem ganz bestimmten Schema vorging, erhielt sie mitunter ihren ganz natürlichen Ausdruck in der typo- graphischen Aussteuer. Bereits im Jahre 1741 ward diese schematische Form vom dänischen Historiker und Philologen Anchersen (1700—1765) in seiner Descriptio statuum cul- tiorum in tabulis benutzt. Ganz natürlich ergab diese typo- graphische Anordnung die kürzestmögliche Darstellungsform. So enthält seine Beschreibung in der ersten Tafel eine synoptische Dar- stellung von 15 europäischen Ländern, wo — unter der physischen Rubrik — Italien als „Paradisus Europae“ bezeichnet und die Reli- gion dieses Landes als „papistica“ beschrieben wird. Diese „Tabellenstatistik“ ging an und für sich nicht darauf aus, in größerem Umfange als gewöhnlich numerische Darstellungen zu geben, ganz natürlich wurde man jedoch in dieser Richtung beeinflußt. Es ist hier besonders Crome (1753—1833) zu nennen. Er gibt in einer Westergyaard und Nybelle, Theorie der Statistik, 2. Aufl. L8 seiner Arbeiten!) z. B. eine allgemeine Übersicht, worin nach ver- schiedenen Quellen für die einzelnen Staaten der Flächenraum und die Bevölkerungszahl, die Einwohnerzahl per Quadratmeile, die Kriegs- macht zu Wasser und zu Lande mitgeteilt, sowie Angaben und Be- merkungen über Einnahmen und Schulden der Staaten enthalten sind. In einem größeren Werke?) stellt Crome in einer Reihe recht ungeschickt angelegter Tafeln Volkszahl, Flächeninhalt, Bevölkerungs- dichte und die „mögliche Menschenzahl, wenn 3000 auf einer Quadratmeile leben“ für die verschiedenen Staaten mit Angabe der Quellen zusammen und bespricht im Texte die verschiedenen zur Schätzung der Volksmenge angewandten Methoden. Selbst wenn Tabellen dieser Art ziemlich unvollkommen und die zur Verdeutlichung benutzten graphischen Darstellungen oft gar unpraktisch waren, und selbst wenn die damalige Bevölkerungs- schwärmerei zu großer Einseitigkeit führte, so sind Werke wie die Cromeschen doch von wahrem wissenschaftlichen Geiste durch- irungen, und trotz ihrer Trockenheit mußte diese Richtung not- wendigerweise die Conring-Achenwallsche Richtung beeinflussen. 18. Ohne Widerstand ging dies allerdings nicht. Zu Beginn des 19. Jahrhunderts brach ein Streit zwischen beiden Richtungen aus%. Die deutsche Universitätsstatistik, die „Göttinger Schule“, erkannte zwar die Notwendigkeit eines ziffernmäßigen Materials an, behauptete jedoch, die "Tabellenstatistik befasse sich nur mit materiellen Dingen, während die Universitätsstatistik die „höhere und edlere“ Richtung sei. So heißt es in einer Besprechung in den „Göttingische gelehrte Anzeigen“, 1806: „Die Tabellen-Methode ist zu bequem und einleuchtend für die große Menge der Geschäfts- männer in hohen und niederen Stellen, als daß sie nicht hätte all- gemeinen Eingang finden sollen. Hat man hier in einigen Columnen die Zahl der Quadratmeilen, der Einkünfte, der Einwohner und des lieben Viehes vor Augen, so hat man auch die Übersicht von den Kräften des Staates; für Nationalgeist, Freyheitsliebe, das Genie und den Charakter großer oder kleiner Männer an der Spitze gibt es keine Columnen.“ Die Tabellenstatistik wurde als „hirn- loses Machwerk“, ihre Verfasser als „Tabellenknechte und Skelet- ') Crome, Über die Größe und Bevölkerung der europäischen Staaten, als der sicherste Maßstab ihrer verhältnismäßigen Kultur. Neue Aufl, 1794, 3 Crome, Über die Größe und Bevölkerung der sämtlichen europäischen Staaten, 1785. 3) Siehe u. a. John, Geschichte der Statistik, 1884, S. 128. 15 Nomen Terrz Limites ad Divi- fio. | Civi- tates Pri- ma- rizx. | Religio. ! Status Civilis, Menfura. Regna PORTUGALLLFA, olim LUSITA- NIZ, & ALGARBLE. Septentrionem & Orientem Galliciam Ad meridiem & Ocidentem Legionem Algarbiam & Oceanum Extremaduram Atlanticum. Andalufiam Hifpaniez, INTER- ! TRANS- amnıa. montana,. Entre- Tralos Minho, montes, & Douro. | Mm “RE moCura. TRANS tagana.ı Alantejo, ALGAR- biz, Regnum., ] BRA- ganza. Miranda de Gvımara- Douro. nes. Lat, Villa-Real | Vimari- villa Re- num. galis. Port ä Montcor- Port v: vo, Porto. Pinhel. Lima Almeyda vel Academ. Ponte de | 1733. Lima, ıCaftel: COIM- LISABON EVORA bra. Acıadem: vel Academ Setubal 'Ebora , 1290. hod:ı Academ: Aveiro, St. Hübes. Eftremos, Lat Alcafler diVilla vico- Averium. Sal fa. Lamego, Santarein Portalegre Vifeo. L.Scalabis. Lat. Gvarda. Tomar, Portus ala- Caftelbran- Leiria. cris, co, & Alanqver ı Campoma- Salvaterra4 Sintra, jor | Caftella a Elvas L LAGOS Lat, Lacobriga. Silves Sil- ve. Tavira Pharus. Caitro ma- rino. Papiftica horrendo Inqvifitionis Tribunali munita, Rex JOHANNES V. ex Gente Braganza. cujus poteftas & Statibus, qvi Cortes dicuntur circumferipta, natus 1689, Primogenitus dicitur Princeos Brafili? in America, Longa KL 90. Mil, Germ. Lata ; ; . so. Mil. Germ. 18. mil. 30.mil. 35. mil. 35, mil. Longa. _ 27.mil 36. mil, , 8. mıl. Abdruck einiger einer Seite des Anchersenschen Descriptio statuum entnommener Bruchstücke. 20 tirer der Statistik“ bezeichnet, die Statistik der Göttinger Schule dagegen als eine der edelsten Wissenschaften gepriesen. Die Tabellenstatistik blieb die Antwort nicht schuldig. In der Zeitschrift „Germanien“ verteidigte Crome scharf seine Anschauung (1808) und bezeichnete die Kritik seines Hauptgegners A. F.Lueder (1760—1819) als „das declamatorische Geschwätz des über alles raisonirenden, oft nach falschen Ansichten und vorgefaßten Mei- aungen deraisonirenden, Hrn. Lueder“. Lueder scheint denn auch nicht ganz unschuldig gewesen zu sein. Nach seinen Abhandlungen zu urteilen, war er ein heißes Blut, ein Mann, der mit Begeisterung sich eine Theorie zu eigen machte, um sie bald wieder kurz entschlossen fallen zu lassen. Dies tritt in auffallendem Grade in seiner „Kritik der Statistik und Politik“ (1812) hervor. Er fällt hier ein scharfes Urteil über die von ihm selber früher so gelobte Universitätsstatistik: „Wir wissen nicht einmal, wie viel Mark wir in den Knochen ... haben: und wir wollen bestimmen die Kraft des Willens ganzer Völker, ihre Empfänglichkeit für den Enthusiasmus, ihre Energie und Resignation, ihre allgemeine und sittliche Kultur, ihr Vertrauen auf Gott und jen Muth ihrer Tugend!“ ($ 155). Die Zahlenangaben seien teils yanz falsch und, auf Dienstlügen fußend, teils vollständig irreführend: „Entscheidet die Volksmenge, so gilt der eine Kopf, was der andere gilt... ein Sully so viel als ein Scharfrichter; ein Kant nicht mehr als ein Laternenanzünder“ ($ 90). Und ganz dasselbe tritt in seiner leidenschaftlich geschriebenen „Kritischen Geschichte der Statistik“ (1817), die fast auf Monomanie schließen läßt, zutage. Die Statistik !sei nichts anderes als ein Traumbild, die Zahlenangaben seien ungenau. Er spottet über die Versuche, durch Verzeichnisse über uneheliche Geburten usw. eine „Himmelsbuchführung“ anlegen zu wollen (S. 377); „was man außer Bedlam sonst nirgends vereinigte, finden wir vereinigt in unseren Statistiken, im Abschnitt von der Staatsverwaltung“ usw. (S. 271). Es war nun nicht bloß die Kritik Lueders, die eine Änderung der Anschauung bewirkte, auch andere Verhältnisse spielten hinein. So mußte der Umstand, daß die Statistik so oft über Macht und Bedeutung der Länder prophezeite (vgl. das „Interesse“ bei Achen- wall) und damit ein politisches Gepräge erhielt, unausbleiblich zum Abfall von der Göttinger Schule beitragen, nachdem die politischen Ereignisse zu Beginn des 19. Jahrhunderts die Unrichtigkeit der meisten Prophezeiungen über Deutschland erwiesen hatten. 2 wa 10 Das Herzogthum Bayern, 9) Religion. Die Landegsreligion if rein römifch. Fatholifh. Die Seißllidhfeit if zahlreich, mächtig mwirkend, und bez fißt 968 Vfarren, 1904 Filialen und 548 Sapel- len; ferner. 119 Manns- Nöfler, 23 Hofpitien, 36 Nonnenflößter , man bes rechnet den ganzen Klerus zu 7300 Köpfen. Das Land hat weder einen Erzbifhof, noch einen einzigen inlän= difdHen Biflhof;z (dmmtlis he Neligiongangelegenhei= ten merden von dem Erzbi- (hof zu Salzburg, den Bi: fböfen zu Paßan, Freifing, Eichflätte, Yugsburg, Bam: derg und Coftanz geleitet. . 10) Kunftprodukte. 10) Kunftprodukte, Keine der teutfhenStaas Manufacturen nnd Ges ten foummt den Fatholiilhen werbefland liegt noch da- Yliederlanden an Höherer nieder. Kunfiprodueteufultur , in Leinmand von Mit: Manufacturen, Fabriken, tfelgewebe, am häufigften und Sewerben gleich, die: im füdlihen Theil nach fe Ldnder Haben Kunfiproz Tyrol zu. Leinmeber 6224 ducte, deren innere uud im Jahr 1776. Sußere Schönheit, feldft Tucdherzeugung vor Englifde, Sranzöfifhe und Hundert Jahr fehr beiracht: HoNländifhe Inbufrie bis lich; im Jahr 1780 wur: jegtuichterreichet Hai, Dies den nur 5000 Stird ges fe find: madt. Im Jahr 1770, Zudmacher 333. Ignaz de Luca, Statistische Fragmente, Wien 1797. Zusammengestellt aus 8. 10 und 11, Anfang. 292 19. Diese Episode in der Entwicklungsgeschichte der Statistik ist allerdings recht alleinstehend, jedoch keineswegs unbedeutsam, wo es sich um das Verständnis der gegenseitigen Beziehungen zwischen den Richtungen innerhalb der Statistik handelt. An- scheinend setzte die deutsche Universitätsstatistik nach diesen Stürmen ihre Arbeit fort; blättert man jedoch die Beiträge des 19. Jahrhunderts zur Staatenkunde durch, so erkennt man sofort, laß diese Disziplin nicht von der Kritik unbeeinflußt blieb. Die „Tabellenstatistik“ bildet, wie oben erwähnt, eine Brücke zwischen der Universitätsstatistik und den übrigen Richtungen der Statistik. Man kann sie als einen Ausläufer der politischen Arith- metik bezeichnen, deren Entwicklung in großen Zügen weiter unten geschildert wird. Der Streit zwischen der Göttinger Schule und der Tabellen- statistik wurde, wie gewöhnlich bei solchen Debatten, nicht förmlich abgeschlossen. Hinsichtlich der Universitätsstatistik kann eine Jugend- schrift des späteren berühmten Nationalökonomen Carl Knies (1821 —1898), „Die Statistik als selbstständige Wissenschaft“ (1850) ange- führt werden, die mit musterhafter Klarheit den Unterschied zwischen der Statistik als Staatenkunde und als politische Arithmetik fest- legte. Für die letztere schlug er den Namen Statistik, für die erstere die Bezeichnung „Gegenwartskunde“.oder „Staatenkunde der Gegenwart“ vor. Dies stimmt zu der jetzigen allgemein herrschenden Auffassung. Man wird hiernach dann im wesentlichen die Uni- versitätsstatistik als ein Fach betrachten können, das nur indirekt die eigentliche Statistik berührt und nur auf Grund der geschehenen eigenartigen Namensänderung einen Platz in der Geschichte der Statistik gewonnen hat. B. Die politische Arithmetik und die Wahrscheinlichkeits- rechnung. 20. Die Wiege der politischen Arithmetik stand in London, wo im Jahre 1662 ein Kaufmann, John Graunt (1620—1674), ein eigenartiges Buch herausgab: Natural and wolitical Observations upon the Bills of Mortality. London hatte im 17. Jahrhundert mit seinen einigen Hundert- tausend Einwohnern eine bedeutende Größe erreicht. Schon eine weit geringere Anhäufung von Menschen verursachte in jenen Zeiten große Schwierigkeiten. Schwer war die tägliche Versorgung der Bevölkerung mit Lebensmitteln; viel schlimmer jedoch stand es um ). die hygienischen Verhältnisse, wie denn auch die Geschichte Londons zahlreiche Pestjahre aufweist. So wütete im Jahre 1348 der schwarze Tod, zu einer Zeit, wo die Stadt 30—40000 Menschen zählte. In den Jahren 1563 und 1592 trat ebenfalls die Pest auf, dann ver- schiedene Male im 17. Jahrhundert, nämlich 1603, 1625 und 1665. Während einer solchen Epidemie starben mehrere Prozent der Be- völkerung, so daß es nicht Wunder nimmt, daß die öffentlichen Mit- teilungen über Begräbnisse und Kindtaufen mit größter Aufmerk- samkeit von den Einwohnern verfolgt wurden. Bereits im 16. Jahr- hundert hatte man wöchentliche Verzeichnisse über Geburten und Sterbefälle, die ab und zu, namentlich zu Ende des Jahrhunderts, veröffentlicht wurden. Nach der großen Pest im Jahre 1603 er- schienen diese wöchentlichen Verzeichnisse regelmäßig und so, daß am letzten Donnerstag vor Weihnachten eine Gesamtübersicht über das ganze vorhergehende Jahr herauskam. Die Listen enthielten Angaben über die Anzahl der Kindtaufen und Begräbnisse, außer- dem besondere Mitteilungen über die durch die Pest verursachten Todesfälle. Die Todesursachen wurden vom Jahre 1629 an ver- öffentlicht. Die Veröffentlichungen beruhten auf den Angaben alter vereidigter Frauen, die die Leichenschau vorzunehmen hatten. Selbst- verständlich war die Nomenklatur sehr unvollständig und die Dia- gnose vermutlich gar oft falsch. Überhaupt hafteten diesem Material große Mängel an; nichtsdestoweniger aber glückte es Graunt, bei der Bearbeitung solcher Beobachtungen der wissenschaftlichen For- schung ein ganz neues Gebiet zu erschließen. Graunt hatte keine akademische Ausbildung genossen. Sein Vater war Tuchhändler, und er selbst lernte als Manufakturhändler (Haberdasher). Aber in seiner freien Zeit eignete er sich verschiedene Kenntnisse an. Unglücklicherweise kam er während dieser Studien nicht auf die Mathematik, es wäre ihm dies eine unschätzbare Hilfe geworden. Bei seinen Zeitgenossen genoß er großes Ansehen, nicht zum wenigsten in der akademischen Welt; nach Erscheinen seines Buches ward er zum Mitglied der neugestifteten wissenschaftlichen Gesellschaft „Royal Society“ gewählt. Einer der mit ihm befreun- deten Akademiker war William Petty (1623—1687), der Erfinder der Benennung: Politische Arithmetik ?!). Pettys Name ist so ‘) Die von Graunt und Petty verfaßten Schriften sind am leichtesten zu- gänglich in Ch. H. Hull, The economic writings of Sir William Petty, 1899. Dieses Werk enthält teils die Schriften Pettys, teils die 5. Ausgabe (1676) der Graunt- schen Observations, welche nur wenig von der l. Ausrabe abweicht. 7 eng mit dem Graunts verknüpft, daß er mitunter als der eigentliche Verfasser des Grauntschen Buches aufgefaßt worden ist, was jedoch keineswegs Wahrheit ist. Graunts „Observations“ scheinen das Resultat langjähriger Er- wägungen zu sein, indem seine Gedanken nach und nach, unter Be- rücksichtigung der verschiedenen auftauchenden Probleme, Form gewonnen haben. Dies ist eine Erklärung dafür, daß seine Schlüsse nicht immer in vollem Einklang miteinander stehen. Wie wenig man von Bevölkerungsverhältnissen wußte, geht deut- lich aus seinem Buche hervor. Er erwähnt die Schätzung eines Mannes von „eminenter Reputation“, wonach London im Jahre 1661 2 Mil- lionen Einwohner gehabt hätte, eine Zahl, die erst spät im 19. Jahr- hundert erreicht wurde. Es war eine recht verbreitete Auf- fassung, daß innerhalb der Bevölkerung mehr als drei Frauen auf jeden Mann entfielen, daß jedem Regierungswechsel Pestseuchen folgten und daß die Bewegungen des Mondes den Gesundheits- zustand beeinflußten. 21. Wie erwähnt, war das Material recht unvollkommen; aber Graunt versteht, es kritisch auszunutzen. Er ist mit den großen Mängeln der Geburtenstatistik namentlich seit Mitte des Jahrhunderts im reinen. In den Verzeichnissen über Todesfälle fehlten Katholiken und Nonkonformisten, die auf ihrem eigenen Friedhof beigesetzt wurden. Es gab Krankheiten, die nicht immer als Todesursache ge- nannt wurden; insbesondere mißtraut Graunt den Angaben über Todesfälle nach „französischen Pocken“ (Syphilis); und er versucht zu zeigen, daß in Pestjahren viele Todesfälle vorkommen, die anderen Ursachen zugeschrieben werden, in Wirklichkeit aber durch die Pest verursacht sind. Ganz natürlich fühlt Graunt sich sehr überrascht durch die Regelmäßigkeit der Zahlen auf vielen Gebieten, und diese Regel- mäßigkeit wird eines der Grundmotive des Buches. Er sucht zu beweisen, daß die relative Anzahl von Todesfällen nach chronischen Krankheiten, Unglücksfällen und Selbstmord konstant ist, während epidemische Krankheiten unregelmäßig auftreten. Man darf sich nicht darüber wundern, daß er sich infolge seiner Auffassung über die große Regelmäßigkeit verleiten läßt, auf Grundlage einiger von einer einzelnen Landgemeinde erhaltenen statistischen Beobachtungs- ergebnisse (Pettys Geburtsort Romsey) weitgehende Schlüsse zu ziehen. Das Material enthielt keine Altersangaben. Nur eine Minderzahl von Toten wurde auf der Todesursachenliste als „alt“ rubriziert. 25 Graunt ist sich über die Bedeutung dieses Ausdrucks im unklaren; er schwankt zwischen 60 und 70 Jahren, benutzt jedoch die Zahl nicht. Dagegen sucht er bei einer Untersuchung der Todesursachen festzustellen, wieviele Menschen vor Erreichung des 6. Lebens- jahres sterben. Während der 20 Jahre, 1629—1636 und 1647—1658, starben insgesamt ungefähr 229000 Menschen. Unter Auslassung von 16000 Sterbefällen infolge Pest findet er, daß etwa 71000 Todes- fälle durch Kinderkrankheiten verursacht werden; ferner waren 12000 an Blattern, Masern und anderen Krankheiten gestorben, also an Krankheiten, die auch Erwachsene befallen können; er nimmt an, daß die Hälfte dieser Toten nicht das 6. Lebensjahr erreicht habe. Das Resultat ist demnach, daß 36 Proz. der Todesfälle vor dem 6. Lebensjahre eintreten. Und dies Ergebnis stimmt nicht schlecht mit späteren Beobachtungen überein. Geringeres Glück war seinem Versuch beschieden, den Rest der Sterbefälle nach Altersgruppen zu verteilen. Dies geschieht nämlich ganz willkürlich nach sehr schneller Progression. Im 16. Lebensjahr sollten von 100 Geborenen nur noch 40, im 26. Jahr nur 25 und im 46. Jahr nur 10 usw. am Leben sein. Selbst wenn man etwas über die Altersgruppierung gewußt hätte, so würde man doch keineswegs auf Grund des vorliegenden Materials haben berechnen können, wie viele von 100 Neugeborenen nach und nach noch am Leben wären (eine Überlebenstafel), da ja die Bevölkerung stark wuchs und der jährliche Zuwachs zu berück- sichtigen war. Aber wie wenig nun auch die Zahlen mit der Wirk- lichkeit übereinstimmten, so muß man doch diesen ersten bahn- brechenden Anfang zu einer Sterblichkeitsstatistik bewundern. Recht interessant ist der Versuch Graunts, die Einwohnerzahl Londons festzustellen. Er geht von einer normalen jährlichen An- zahl Kindtaufen von 12000 aus, einer Zahl, die einer Anzahl von 24000 gebärfähigen Frauen („Teeming-Women“) entspricht. Die Anzahl von Familien wird seiner Ansicht nach dann 48000 sein; setzt man für jede 8 Mitglieder, nämlich Mann, Frau, 3 Kinder und 3 Dienstboten, so ergibt sich eine Bevölkerung von 384000 Seelen. Dieses Ergebnis stimmt mit den Resultaten einer auf Grundlage einiger Kirchspiele angestellten Untersuchung überein; für diese Kirchspiele konstatierte Graunt 3 Sterbefälle jährlich auf je 11 Fa- milien, und da die Normale der Todesfälle in London 13000 ist, kommt er wieder zu ungefähr 48 000 Familien. Innerhalb der Mauern wohnen etwa 12000 Familien, und ein Studium der Karte Londons läßt die dreifache Zahl außerhalb der Mauern vermuten, womit man 26 wiederum zu 48000 Familien gelangt. Auf diesem langen Umwege kommt er also zu einem Resultat; seine Nachfolger wählen in der Regel den kürzeren Weg, eine gewisse Verhältniszahl für Sterbefälle ‘oder Geburten) vorauszusetzen. Eine jährliche Sterblichkeit von 3,4 Proz. würde rund 380000 Einwohner ergeben; da eine solche Sterblichkeit vermutlich den Tatsachen recht gut entspricht, mag Graunt einigermaßen richtig geschätzt haben. Dagegen waren seine Berechnungen der Altersgruppierung un- klar. Er wünscht die Zahl der wehrhaften Männer (zwischen 16 und 56 Jahren) festzustellen. Nach seiner oben erwähnten mittels Schätzung gewonnenen Verteilung sollten von 100 Neugeborenen 40 im 16. Lebensjahre und 6 im 56. Jahre noch am Leben sein. Der Unterschied ist 34, und er meint nun, daß diese Zahl die relative Anzahl von Personen des gegebenen Alters angibt. Er sieht nicht, Jaß er die Anzahl der Todesfälle, nicht aber die Anzahl der dem Tode ausgesetzt gewesenen Personen gefunden hat. Er hätte fol- yendermaßen schließen können: zwischen 26 und 36 ‚Jahren ist die Zahl von 25 auf 16 gesunken; durchschnittlich sind also in jeder der 10 Altersklassen 20,5 dem Tode ausgesetzt gewesen; für je 100 Neugeborene müßten demnach 205 Personen zwischen 26 und 36 Jahren sein; auf diesem Wege fortsetzend, würde man finden, daß as für je 100 Neugeborene 740 Personen zwischen 16 und 56 Jahren gab und in der gesamten Bevölkerung (sämtlichen Altersklassen) 1822, Einer jährlichen Zahl Geburten und Todesfälle von 13000 würde eine Einwohnerzahl von 237000 entsprechen, also viel weniger als nach obiger Schätzung; diese niedrige Zahl hätte wohl Graunt zur Re- vision seiner Sterbetafel veranlassen können. Graunt stellt auch interessante Betrachtungen über das Verhältnis zwischen Knaben- und Mädchengeburten an und knüpft daran — allerdings nicht gerade klar — Bemerkungen über die Sterblichkeit beider Geschlechter; trotz der augenscheinlichen Mängel der Graunt- schen Untersuchungen darf man doch sagen, daß diese ersten Ver- suche der Behandlung eines bevölkerungsstatistischen Materials von siner Initiative und‘ Frische im Anfassen der vorliegenden Probleme zeugen, die Graunt stets einen Ehrenplatz in der Geschichte der Sta- jistik sichern werden. 23. Petty, Graunts Freund, war ein begabter Mann, der sich von bescheidenen Verhältnissen zu bedeutendem Wohlstand und an- yesehener sozialer Stellung (1661 ward er geadelt) emporgearbeitet hatte. Wie bereits erwähnt, waren es vorzugsweise Fragen politischer Natur, die ihn interessierten, während er sich weniger mit den 2 Grauntschen Problemen befaßte und die Forschungsresultate Graunts ohne Nachprüfung direkt ausnutzte. Starke Einbildungskraft kenn- zeichnet seine Schriften. Seine Untersuchung über die Einwohner- zahl Londons?) ist eines der vielen Beispiele hierfür: Zuerst sucht er die Zahl der Häuser Londons festzustellen. Die große Feuers- brunst im Jahre 1666 legte 13200 Häuser in Asche; auf der rela- tiven Anzahl von Todesfällen dieses zerstörten Stadtteils fußend, gelangt Petty zu dem Resultat, daß die 13200 ein Fünftel sämtlicher Häuser Londons ausmachten. Demnach solle es im Jahre 1666 in London 66000 Häuser geben; und da nun die Anzahl der Sterbefälle von 1666—1686 im Verhältnis 4:3 gewachsen sei, ergebe sich, unter der Voraussetzung eines entsprechenden Zuwachses, eine Häuserzahl von etwa 88000. Beim Studium der Karte Londons gelangt Petty zu einem ähnlichen Resultat, indem danach im Jahre 1682 etwa 84000 Häuser vorhanden sein sollten. Da nun seiner Meinung nach die Einwohnerzahl Londons sich im Laufe von 40 Jahren verdoppeln müsse, veranschlagt er den Zuwachs im Laufe von 4 Jahren auf 10 Proz., um demnach für das Jahr 1686 zu einer Häuserzahl von 92400 zu gelangen. Eine rationellere Berechnung auf Grundlage der Hypothese über die Verdoppelung während der 40 Jahre hätte übrigens die Zahl etwas verkleinert, so daß er damit seiner ersten Schätzung näher gekommen wäre. Seine Veranschlagung der Einwohnerzahl fußt jedoch nicht auf diesen Berechnungen. Er stellt für Dublins 6400 Häuser 29325 Feuerstellen fest, und den 388000 Feuerstellen Londons würden — nach einer nicht ganz genauen Berechnung — demnach 87000 Häuser entsprechen. Ähnliche Berechnungen mit Bristol würden 123000 ergeben, und Petty ist jetzt mit der Mittel- zahl von 105000, die den Mitteilungen des Hearth Office genau ent- spricht, zufrieden. Rechnet man nun durchschnittlich auf jede Fa- milie 6 Personen, 10 Proz. der Häuser zu 2 Familien, den Rest zu 1 Familie, dann wäre die gesamte Einwohnerzahl etwa 695000. Fast ein gleiches Resultat erhält man, wenn man die Sterblichkeit in einem Normaljahre zu !/s ansetzt und die durchschnittliche An- zahl von Sterbefällen, nämlich von 1684—1685 23212, als Ausgangs- punkt nimmt; hierbei ergibt sich die Zahl 696 360. Schließlich setzt Petty voraus, daß ein Fünftel der Bevölkerung in Pestjahren drauf- gehe. Da im Jahre 1665 etwa 98000 an der Pest starben, müsse die damalige Einwohnerzahl 490000 und 20 Jahre später vermutlich ein Drittel mehr, also 653000 sein. Solche Berechnungen enthalten Five essays in Political Arithmetic (1687), siehe Hull a. a. O. S. 533{. 28 so viele Zwischenglieder, daß die Schlußergebnisse bei Änderungen der Voraussetzungen sehr stark variieren können. In einer anderen Abhandlung!) berührt er die Frage der Ver- doppelungsperiode. Auf dem Lande stirbt jährlich 1 von 50, und 24 Geburten kommen auf je 23 Sterbefälle. Er rechnet damit, daß dies im Laufe von 1150 Jahren eine Verdoppelung der Bevölkerung ergebe. Wenn die Sterblichkeit */3g ist und 5 Geburten auf je 4 Todesfälle kommen, ist der jährliche Geburtenüberschuß 1 auf je 120, and die Verdoppelungsperiode sollte dann 120 Jahre sein (in Wirk- lichkeit würde man bei Anwendung der Formel über den Zinseszins 33 Jahre bekommen). Für Petty gilt es nun, zu einem Durchschnittsergebnis zu ge- 'angen. Bei einer Sterblichkeit von !/,, auf dem Lande und !/39 in London rechnet er mit !/,, als der Normalen für Stadt und Land zu- sammengenommen. Für die Geburten hat er die oben erwähnten Quotienten ?/,3 und 5/,; hieraus bildet er, etwas willkürlich, !%/ als Normale. Der natürliche jährliche Zuwachs solle somit !/;;9 und die Verdoppelungsperiode 360 Jahre sein (Zinseszinsrechnung würde etwa 250 Jahre ergeben). Da nun die Einwohnerzahl Londons sich in 40 Jahren verdoppele, müsse sie anno 1800 über 5 Millionen sein, und außerhalb der Stadt müßten 4 Millionen leben. Wenn dieser Punkt erreicht sei, würde London stagnieren. Petty betrachtet eine Verdoppelung im Laufe von 10 Jahren als physiologisch möglich, aine Hypothese, die bekanntlich über 100 Jahre später von Malthus yenutzt ward. Auf dem ganzen Erdenball leben nach Petty 320 Millionen Menschen. Er stellt nun darüber Betrachtungen an, wie die Bevöl- kerung der Erde seit der Sintflut gewachsen sein könne bei einer anfänglichen Verdoppelung in 10 Jahren und später in längerer und längerer Zeit. Zu Mose Zeiten sei die Gesamtbevölkerung der Erde \6 Millionen gewesen. 23. Während Graunt und Petty mathematischer Strenge ent- behrten, war dies nicht mit dem berühmten englischen Astronomen Edm. Halley (1656—1742) der Fall; er brachte die politische Arithmetik durch seine Untersuchungen über die Bevölkerungs- verhältnisse der Stadt Breslau ein beträchtliches Stück vorwärts. {n Breslau hatte man lange schon periodische Verzeichnisse über Geburten und Todesfälle geführt und konnte demnach die Entwicklung seit der Mitte des 16. Jahrhunderts verfolgen. Ein 1) a. a. O0. 8. 460£. 20 Pfarrer, Caspar Neumann (1648 —1715), hatte sich etwas mit diesem Material beschäftigt !). Mit seinen Untersuchungen verfolgte er das Ziel, „schöne Anmerkungen göttlicher Providenz über unser Leben und Tod“ zu gewinnen und „vielerlei Aberglauben desto besser aus der Erfahrung“ zu widerlegen. So ging z. B. aus seinen Beobachtungen hervor, daß die Mondphasen für die Gesundheit un- schädlich seien und daß die „klimakterischen“ Jahre nur einen ge- ringen Einfluß haben könnten. Weniger klar waren seine Unter- suchungen über die klimakterischen Wochen; es handelt sich hier um die sogenannten septenarii und nonarii, Kinder im 1. Lebens- jahre, deren in Wochen ausgedrücktes Alter durch 7 oder 9 teil- bar ist. Die Arbeit Neumanns ist an und für sich nicht ohne Verdienst, das benutzte Material sollte jedoch in der Hand Halleys noch weit reichere Ausbeute geben. Neumanns Arbeiten gelangten zur Royal Society in London, womöglich durch die Vermittlung von Leibnitz; es entstand dann ein Briefwechsel, welcher Halley die Mitteilung der Beobachtungen in der von ihm gewünschten Form ermöglichte. Das Resultat war jene berühmte Abhandlung ?), die Halley in den Philo- sophical Transactions of the Royal Society of London des Jahres 1693 ‚mit späterer Beilage) veröffentlichte. Hierin behandelte er das Material für die 5 Jahre 1687—1691 mit einer ganz eigenartigen Klarheit und Schärfe. Unglücklicherweise verstanden seine Nach- folger nicht immer die von ihm gelösten Probleme, so daß seine Abhandlung nicht den ihr zukommenden Einfluß ausübte. Halley scheint auf der Voraussetzung einer einigermaßen kon- stanten Bevölkerung zu fußen. Er hat sich vielleicht vorgestellt, daß der kleine Geburtenüberschuß durch die Militäraushebungen aufgewogen werde. Die Zahlen behandelt er mit einer ge- wissen Freiheit; so nimmt er die am Christ-Church-Hospital in London gemachten Beobachtungen zu Hilfe, und durch kleine Ver- änderungen an den Zahlen bringt er den Geburtenüberschuß zum Verschwinden. 24. Er stellt sich nun die Aufgabe, die Einwohnerzahl Breslaus, und zwar nach Altersklassen verteilt, zu finden. Die Listen um- ’) J. Grätzer: Edmund Halley und Caspar Neumann, 1883. °) An estimate of the degrees of the mortality of mankind drawn from curious tables of the births and funerals of the city of Breslau. Siehe auch R. Böckh: Halley als Statistiker im Bulletin de Institut international de Sta- tistique, Tome VII, 1893 und Westergaard, Die Lehre von der Mortalität, 2, Aufl., 1901. 8. 34 £. — 30 fFaßten die „Augsburgschen Konfessionsverwandten“ der Stadt und enthielten 5869 Todesfälle und 6193 Geburten. Durchschnittlich wurden jährlich 1238 geboren; weiter starben 348 im 1. Lebensjahre. Wenn diese Zahlen normal sind, müssen demnach jährlich 890 Kinder den 1. Geburtstag erreichen. Aber wieviele Kinder unter einem Lebensjahr werden dann an einem gegebenen Tage eines Jahres, z. B. am 31. Dezember, vorhanden sein? Die zu suchende Zahl ist offenbar zrößer als 890, indem ein Teil der 0—1jährigen Kinder im folgenden Kalenderjahr sterben wird. Feststellungen hierüber hat Halley auf jeden Fall fürs Jahr 1691 gehabt. Von den 1218 in diesem Jahre geborenen starben 226 im Laufe des Geburtsjahres, so daß bei Jahres- schluß 992 am Leben waren. Diese Zahl hat er dann auf 1000 ab- yerundet; und er geht also davon aus, daß Breslau 1000 Kinder unter einem Jahre zählte. Danach berechnet er — wie erwähnt, mit etwas freier Ausnutzung der Zahlen — wieviele 1—2jährige, 2—3jährige usw. existieren, um so die Zusammensetzung der Bres- lauer Bevölkerung nach Altersklassen zu konstruieren. Alles in allem fand er, daß die Einwohnerzahl 34 000 sein müsse, und dies stimmt ganz gut mit Resultaten nach anderen be- völkerungsstatistischen Quellen Breslaus überein. Die Idee der Sonderung in solche, die im Laufe des Geburts- jahres und solche, die überhaupt vor Erreichung des 1. Geburtstages sterben, ist trotz des anscheinend einfachen Gedankenganges von Jen älteren Statistikern nicht immer verstanden worden. Die Nachfolger Halleys faßten in der Regel das Verhältnis so auf, als ob die 1000 Einjährigen entweder neu geboren oder gerade den 1. Geburtstag erreicht hätten. Für die rein praktische Aufgabe der Bestimmung einer Einwohnerzahl würde ein solcher Fehler übrigens ohne wesentliche Bedeutung sein, vielleicht nur 1 Proz. der Zahl ausmachen. Daß Halley aber in diese Frage hat eindringen können, ist ein Beweis für seine große Geistesschärfe. 25. Er zeigt uns ferner, daß die gefundene Altersgruppierung auch die Sterblichkeit angibt, indem man aus den Zahlen ersieht, wie 1000 Personen zwischen 0 und 1 Jahr allmählich hinsterben» Und wiederum folgen weitreichende Schlüsse hinsichtlich der Ver- wendbarkeit der Zahlen. So will er z. B. das wahrscheinliche Lebensalter (das Alter, in dem die Hälfte der Geborenen verstorben sind), die Zahl wehrhafter Männer (indem er davon ausgeht, daß as wenigstens ebensoviele Männer wie Frauen gebe) oder die Zahl yzebärfähiger Frauen und zuguterletzt Lebensversicherungs- prämien für ein, zwei oder mehrere Leben berechnen. In diesem z letztgenannten Punkte ward der geniale Forscher allerdings auch nicht verstanden. Es entstanden zu Halleys Lebzeiten verschiedene Lebensversicherungsgesellschaften, sie waren jedoch technisch sehr un- vollkommen, und außerdem wußte das Publikum auch kaum zwischen Lebensversicherung und Hazardspiel zu unterscheiden. Übrigens ist es sehr die Frage, ob Halleys Tafel einer Lebens- versicherungsgesellschaft die ausreichend feste Grundlage gegeben hätte. Zwar darf man im großen und ganzen wohl davon aus- gehen, daß Halleys Zahlen, jedenfalls für eine längere Periode des Lebens, nicht besonders viel von der tatsächlichen Sterblichkeit in Breslau zu jener Zeit abwichen, und er war sicher der Wahrheit viel näher als Graunt. Aber in dem betreffenden Zeitraum war die Sterblichkeit in Breslau ungewöhnlich gering; es gab kein Pestjahr, und zweifellos raffte ebensowohl hier wie in London die Pest sonst oft ungeheuer viele Menschen dahin; so starben z. B. allein im Jahre 1633 13231, wahrscheinlich zwei Fünftel der Bevölkerung! Und wenn nun auch nicht gerade so große Katastrophen eintrafen, so konnte doch die Sterblichkeit oft recht erheblich sein. In den zehn auf die von Halley untersuchte Periode folgenden Jahren starben z. B. 2000 mehr als getauft wurden. 26. Der Weg lag nun einer Weiterentwicklung der politischen Arithmetik offen. Solche Entwicklung konnte teils mit der Be- handlung ökonomischer, teils mit der Untersuchung bevöl- kerungsstatistischer Probleme geschehen. Die ökonomische Statistik ward besonders von Gregory King (1648—1712) und Sir Charles d’Avenant (oder Davenant, 1656—1714) gepflegt. King, dem von amtswegen Register über Steuern und über Ein- nahmen und Ausgaben des Staates zur Verfügung standen, hatte im Jahre 1696 sein Werk: Natural and Political Observations and Conclusions upon the State and Condition of England vollendet. Dies Werk, das zahlreiche numerische Angaben enthielt, ward nicht veröffentlicht, doch teilweise dank einer von Davenant geschriebenen Abhandlung zugänglich !). Davenant ging hinsichtlich des statistischen Materials dieselben Wege wie King, indem er in seiner Beamteneigen- schaft, erst als Akzisenkommissar, später als Generalinspektor für die Ein- und Ausfuhr, die Gelegenheit hatte, sich seine zahlen- mäßigen Unterlagen zu verschaffen. *) Essay upon the probable methods of making a people gainers in the balance of trade, 1699. Eine Gesamtausgabe der Schriften Davenants ist von Sir Charles Whitworth (1771) besorgt worden 39 King scheint mit großem Ernst die Aufgabe der Bestimmung der Größe der Bevölkerung Englands aufgenommen zu haben. Er kam zu dem Resultat, daß England mit seinen 1,3 Millionen Häusern 51 Millionen Einwohner habe. Die Normale der Geburten sei L90 000, der Todesfälle etwa 170000, aber der normale jährliche Geburtenüberschuß sei im 17. Jahrhundert auf einen Bevölkerungs- zuwachs von nur 9000 reduziert worden, da durchschnittlich 4000 an der Pest, 3500 im Kriege und 2500 auf dem Meere stürben, während 1000 in die Kolonien auswanderten. Er macht einen kühnen Versuch, die Teilung nach Altersklassen zu finden, wie er auch seine Vermutung über die Gliederung nach Beruf, Verbrauch und Ein- kommen, über die Ernte und die sonstige landwirtschaftliche Pro- duktion aufstellt. Die berühmte, so oft von Preistheoretikern zi- tierte King-Davenantsche Skala für die Abhängigkeit der Getreide- preise von der Ernte möge in diesem Zusammenhang erwähnt werden. Eine wirklich numerische Grundlage hat diese Skala jedoch nicht; sie beruht sicherlich im wesentlichen auf Schätzung. Davenant referiert die Kingschen Berechnungen, indem er selbst etwas hinzufügt und versucht, eine Theorie der politischen Arith- metik zu entwickeln. Er kritisiert die Methoden und Resultate vettys; Petty habe sich z. B. hinsichtlich der Kräfte Frankreichs in die Irre führen lassen. Gleichzeitig gibt Davenant jedoch zu, daß der politische Arithmetiker überhaupt auf Schätzung angewiesen sei; man könne ganz gut die wahrscheinliche Einwohnerzahl Frank- reichs veranschlagen, wenn man z. B. die Einwohnerzahl Englands, die Bodenfläche Frankreichs, die Lebensweise der Bevölkerung kenne und andere Verhältnisse in Betracht ziehe. Ebenso könne man bei einem Vergleich zwischen holländischen und englischen Zuständen von den Einnahmen Englands aus dem Handel mit dem Auslande auf diejenigen Hollands schließen, indem man Fleiß und Genügsamkeit der Holländer, die verschiedenen Handelszweige, die Plätze, mit denen sie Handel treiben und den Umfang ihrer Schiffahrt berück- sichtige. Ob es gelte, einem Lande Steuereinnahmen zu verschaffen, oder ob es die Beurteilung der Frage gelte, wie lange ein Land die Unkosten eines Krieges zu ertragen vermöge, man könne dieselbe Methode gebrauchen; unter Berücksichtigung der Verschiedenheiten könne man Schlüsse von einem gut bekannten Lande auf ein anderes ziehen. Davenant versucht jedoch keine tiefergehende Theorie auf- zustellen; er berührt nicht die Frage, wie denn solche Schätzungen im einzelnen auszuführen und welche Grenzen der Genauigkeit der gewonnenen Resultate gezogen seien. Dennoch aber zeugt die Art 33 und Weise, wie er sein Material anfaßt, von recht guten Kritiker- eigenschaften, so z. B. hinsichtlich der handelsstatistischen Dar- legungen. Der Gedanke einer Volkszählung lag ihm noch fern. Er wollte mehr indirekte Methoden verfolgen. Die Feuerstellensteuer sollte die Feststellung der Anzahl von Familien ermöglichen, oder er ver- suchte, nach gebührender Revision, auf der Statistik von Gebühren bei Trauungen, Geburten und Todesfällen seine Ergebnisse auf- zubauen. 27. Fast gleichzeitig mit der Wirksamkeit Davenants fällt in Frankreich der Versuch des berühmten Vauban (1633—1707), die französischen Verhältnisse zu beleuchten. Seine Schrift, Projet d’une dixme royale, erschien im Jahre 1707, lag jedoch bereits 1699 als fertiges Manuskript vor. Das Buch enthält manche interessanten Schätzungen über die Wirkungen des von Vauban vorgeschlagenen Steuersystems, ferner einen ebenso interessanten Versuch, vermittelst Studiums verschiedener Karten die Bodenfläche Frankreichs festzu- stellen. Die Unsicherheit erhellt daraus, daß die höchste Schätzung 23 Proz. über der niedrigsten liegt. Mit verschiedenen Hypothesen kommt er zu dem Ergebnis, daß Frankreich rund gerechnet 20 Milli- onen Menschen zähle, viel weniger, als unter glücklichen Verhält- nissen dort leben könnten. Von großem Interesse ist der dringende Vorschlag Vaubans, unmittelbare, amtliche statistische Erhebungen vorzunehmen. Er wünscht z. B. eine Religionsstatistik, eine Statistik über Ausländer und öffentliche Gebäude. In seinem Vertrauen auf solche offizielle Statistik ist er seinen Zeitgenossen weit voraus. 28. In der folgenden Zeit fließen die französischen Beiträge zur politischen Arithmetik nur spärlich; aber in der letzten Hälfte des Jahrhunderts erscheinen eine Reihe interessanter Arbeiten. Vor allem sucht man die Einwohnerzahl des Staates festzustellen. Hierbei ist die Methode so ungefähr die, Geburtenhäufigkeit, Sterb- lichkeit oder Eheschließungsfrequenz einzelner Gegenden zu be- stimmen und hiervon auf Grundlage der Anzahl dieser Vorgänge auf die Bevölkerung des ganzen Landes zu schließen; und man ward sich darüber klar, daß die Zahl der Geburten als die regelmäßigste die beste Grundlage abgebe. Im Anschluß hieran wurden Repräsen- tativzählungen benutzt, um die Verteilung nach Alter, Geschlecht und Zivilstand zu finden. Die hinsichtlich der Einwohnerzahl ge- wonnenen Resultate müssen im großen und ganzen als einigermaßen Westergaard und Nybolle, Theorie der Statistik, 2. Aufl 9 +. zuverlässig angenommen werden, volle Zuverlässigkeit konnte jedoch erst mit der von Laplace (1749—1827) empfohlenen Methode er- reicht werden. Bereits im Jahre 1786 veröffentlichte Laplace eine Abhandlung über Geburten, Eheschließungen und Todesfälle in Paris, in der er vorschlug, die Einwohnerzahl auf Grundlage der Geburten- häufigkeit in einem Teile des Landes und auf Basis der gesamten Anzahl von Geburten zu berechnen, und er untersuchte die Wahr- scheinlichkeit für .eine Abweichung des gefundenen Resultats von der wahren Volkszahl. Die Verwirklichung seines Vorschlages be- yann, nachdem sich die französische Regierung zur Beschaffung statistischen Materials für die Feststellung der Einwohnerzahl be- veit erklärt hatte. In seiner im Jahre 1812 erschienenen 7Zheorie analytique des probabilites behandelt er diese Frage. In 30 ‚über das ganze Land verteilten Departements wurden solche Gemeinden ausgewählt, bei denen man auf die Intelligenz und den Eifer ies Maire sich verlassen konnte, und am 22. September 1802 ward die Bevölkerung dieser Gemeinden gezählt (insgesamt etwas über 2 Millionen). Er hatte schon im Jahre 1801 eine Zählung der Bevölkerung des ganzen Landes versucht, die Resultate dieser Zäh- lung wurden jedoch mit Mißtrauen betrachtet. Für den Zeitraum vom 22. September 1799 bis 22. September 1802 (nach der Zeit- rechnung der Republik begann das Jahr gerade mit dem 22. Sept.) wurde dann auch die Zahl der Geburten festgestellt, und es ergab sich eine relative jährliche Geburtenfrequenz von etwa 100 auf je 2835 Menschen. Unter der Voraussetzung, daß Frankreich jährlich L Million Geburten hat, was nach der Laplaceschen Auffassung der Wahrheit sehr nahe kommt, ergibt sich eine Bevölkerung von 28,35 Millionen Seelen. Der Schlußstein der Untersuchung wäre eine Er- klärung gewesen darüber, wie sich die Zahlen der einzelnen Ge- meinden um eins oder mehrere Durchschnittsergebnisse gruppierten, indem man dann die Grenzen der der Methode vielleicht anhaftenden Ungenauigkeit zu berechnen hätte. Aber die Laplacesche Me- thode bezeichnet durchaus einen absoluten Fortschritt. Man darf sich nicht darüber wundern, daß Laplace die Aufgabe durch die Voraussetzung einer konstanten Einwohnerzahl vereinfachte. Der Zuwachs war so klein, daß man mit der Benutzung der obigen drei- jährigen Periode — anstatt einer Periode mit dem Zählungstage als Mittelpunkt — keinen großen Fehler beging. 29. Einen eigenartigen Beitrag zur politischen Arithmetik ver- lankt man dem berühmten französischen Chemiker Lavoisier 35 (geb. 1743, guillotiniert 1794), welcher gelegentlich auf diese Pro- bleme einging!). Unter Bezugnahme auf einen früheren Verfasser geht Lavoisier von einer 25 Millionen zählenden Bevölkerung aus, die er — als ein „premier apercu“ — schätzungsweise nach Erwerbs- zweigen verteilt. Seine Hauptaufgabe ist dann die Berechnung des Verbrauchs und der Produktion der Bevölkerung. Er ge- winnt auf Grundlage von Hypothesen über den Durchschnittsver- brauch einen Überblick über die Getreideproduktion. Wo es sich um notwendige Waren wie Lebensmittel handele, sei eine solche Schätzung seines Erachtens im großen und ganzen zuverlässig. Unter Berücksichtigung der verschiedenen Bevölkerungsklassen veranschlagt er den gesamten Getreidekonsum auf 14000 Millionen livres pesant. Ein mit Ochsen bespannter Pflug werde, nach eigenen Erfahrungen und nach Untersuchungen in verschiedenen Provinzen, ungefähr 10000 livres entsprechen und werde 60 arpents kultivieren können, während die entsprechenden Zahlen für einen mit Pferden bespannten Pflug 27500 livres und 90 arpents (ca. 31 ha) seien. Er berechnet dann (indem er das Land in Gegenden mit überwiegenden Pferde- gespannen und solche mit Ochsenvorspann teilt) die Zahl der vor- handenen Pflüge und die Größe der Anbauflächen. Als Resultat ergibt sich: 1%, Mill. Pferde, 7 Mill. Stück Rindvieh, und etwa ?/s des französischen Bodens sei kultiviert. Letzteres Resultat über- raschte ihn, er stellt daher den Lesern eine Nachprüfung anheim. Ganz allgemein wünscht er eine unmittelbare Produktionsstatistik für die Landwirtschaft; habe man erst diese, dann würde man die ganze politische Ökonomie auf einer geringen Anzahl Seiten darstellen können, oder besser, diese Wissenschaft würde dann nicht mehr existieren, da sämtliche Probleme endlich gelöst seien. Solche Worte klingen etwas an physiokratische Gedankengänge an. 30. Als Lavoisier seine Abhandlung schrieb, war der Wunsch nach einer offiziellen Statistik bereits teilweise für Schweden erfüllt. Lange schon hatte in diesem Lande die Geistlichkeit die Pflicht gehabt, Kirchspielsregister mit vollständigen Verzeichnissen der Ge- meindemitglieder, der Trauungen, Geburten und Todesfälle, der zu- und abwandernden Personen zu führen. Dieses Material wurde die Grundlage der schwedischen Bevölkerungsstatistik und ist es noch heute. Wie in vielen anderen Ländern war die geringe Bevölke- rungsdichte ein großes Übel für das von Mißernten und Seuchen ı) De la richesse territoriale du Royaume de France, 1791. a ga JIU heimgesuchte Land; ganz besonders empfand man dies nach dem unglücklichen Kriege gegen Rußland (1741—1743), und der Wunsch, Klarheit über die Bevölkerungsverhältnisse zu erhalten, war daher recht natürlich. Der Mathematiker Pehr Elvius (1710—1749), der im Jahre 1744 Sekretär der neugestifteten schwedischen Aka- Ademie der Wissenschaften geworden war, übernahm zwecks Berech- nung der Einwohnerzahl die Bearbeitung der Listen über Geburten und Todesfälle des gesamten Königreichs. Das Ergebnis war ein Bericht (1746), den die Akademie dem Reichstag übersandte und Jjer vermutlich dazu beigetragen hat, das Gesetz vom 3. Februar 1748 über das „Tabellenwerk“, welches 1749 in Kraft treten sollte, zu schaffen ?). Elvius’ Bericht fußte auf recht mangelhaftem Material, den- noch aber dürfte das Resultat seiner Berechnungen einigermaßen der Wirklichkeit entsprechen. Bezeichnend war es, daß der Bericht nicht veröffentlicht wurde; es waren Staatsgeheimnisse. Die reich- lich freie Behandlung seiner Beobachtungen läßt eine ganz genaue Rekonstruktion seiner Berechnungen nicht zu, wenn auch die Methode xlar zutage tritt. Elvius nimmt 70000 als die normale jährliche Anzahl von Todesfällen an. Diese Zahl verteilt er nach Alters- klassen auf der Grundlage von Feststellungen aus gewissen Teilen des Reiches. Von den 70000 waren ungefähr ein Drittel unter 3 und etwa 29300 unter 10 Jahren. Will man dasselbe Endergebnis wie Elvius gewinnen, dann kann man voraussetzen, daß 21300 vor Vollendung des 3. Lebensjahres und 8000 zwischen 3 und 10 Jahren starben; 70000 Neugeborene würden dann insgesamt 1,5 - (70000 + 48700) = ca. 178 000 Jahre vor dem 3. Geburtstage und 3,5 - (48 700 + 40700) = 313000 zwischen 3 und 10 Jahren zubringen. Ins- yesamt erhält Elvius also 491000 Lebensjahre, und diese Zahl ist unter der Voraussetzung einer konstanten Bevölkerung mit der An- zahl lebender Personen unter 10 Jahren identisch. Für den folgenden Teil des Lebens gebraucht er Altersklassen von 10 Jahren. Alles in allem findet er für Schweden und Finland zusammen 2097000; dies weicht wenig von der Zahl ab, die man einige Jahre später bei direkter Beobachtung fand. Wie man sieht, entspricht die Methode der Halleyschen. Nach dem Gesetz vom 3. Februar 1748 sollte jeder Pastor jähr- 1) Der Bericht ist abgedruckt in August Hjelt, Det svenska tabellverkets uppkomst, Helsingfors 1900. 377 lich für seine Pfarre eine Zusammenstellung der Trauungen, Ge- burten und Todesfälle sowie die Feststellung der Gesamtbevölkerung vornehmen. Die Ausarbeitung einer Generaltabelle ward einem Komitee anvertraut, zu dessen Mitgliedern namentlich der Astronom Per Wargentin (1717—1783) zählte; einige Jahre später ward eine permanente Tabellenkommission gebildet. Deren Berichte wurden geheim gehalten, die Bearbeitungsergebnisse jedoch in den Schriften der Akademie abgedruckt‘). Es war ein recht kompliziertes System von Fragebogen, die von den Pastoren auszufüllen waren. Für jeden Kalendermonat sollten Aufzeichnungen erfolgen über Taufen ehelicher wie unehe- licher Kinder, nach Geschlecht getrennt, über Trauungen und Zahl der durch den Tod eines der Gatten aufgelösten Ehen, über Todes- fälle unter Teilung nach Geschlecht für Kinder unter 10 Jahren, im übrigen mit Sonderung zwischen Verheirateten und Unver- heirateten; ferner wurden Mitteilungen über Totgeburten und Viel- geburten verlangt. Ein Schema gab die Verteilung der Verstorbenen nach Alter, Geschlecht und Todesursache. Von einem modernen Standpunkte aus war die Nomenklatur freilich mangelhaft, aber die gewonnenen Ergebnisse haben natürlich bedeutendes historisches Interesse. Nach dem ersten Bericht (1749) entfallen 12 Proz. sämt- licher Todesfälle auf Pocken und Masern, 6 auf Scharlach, 5 auf Keuchhusten; das sind Zahlen, die unsere heutigen vielfach übersteigen. Außer der Beschaffung des Materials sollte die Einwohnerzahl (hierbei Sonderung nach Alter, Geschlecht, Zivilstand, Rang und Erwerb) und die Anzahl von Haushaltungen usw. festgestellt werden. In den Städten fiel ein Teil der mit der Führung der Bevöl- kerungslisten verbundenen Arbeit dem Magistrat zu, in der Haupt- sache aber trugen die Pastoren die Bürde. Sie beklagten sich denn auch bitterlich über die große Arbeit, erhielten jedoch als einzige Erleichterung nur die, daß die Bevölkerungslisten nur alle 3 Jahre ‘später alle 5 Jahre) abzuschließen seien. Nach Elvius’ frühem Tode im Jahre 1749 ward Wargentin Sekretär der Akademie der Wissenschaften und nahm einige Jahre rege an der Bearbeitung des statistischen Materials teil. Von seinen Arbeiten möge eine Abhandlung aus dem Jahre 1766 mit Sterbe- tafeln für die 9 Jahre 1755—1763 erwähnt werden. Er gibt z. B. ?) August Hjelt, De första officiela relationerna om svenska tabellverket ären 1749—1757, Helsingfors 1899. 38 die Durchschnittszahl der Todesfälle von 1755—1757 in 21 Alters- klassen an und vergleicht diese Zahl mit der Einwohnerzahl im Jahre 1757, indem er die Frage stellt, wie groß die Zahl von Per- sonen sei, von denen jährlich eine sterbe. Die Volkszahl stammte vermutlich vom Schlusse des Jahres, und wenn die Bevölkerung in ler Zunahme gewesen ist, ist die Sterblichkeit etwas unterschätzt worden. Wargentin setzte seine Untersuchungen auf diesem Gebiete nicht weiter fort; er berechnete somit keine Dekrementtafel oder mittlere Lebensdauer und scheint sich nicht für statistische Fragen theoretischer Natur interessiert zu haben. Er hat jedoch mit seinen Sterbetafeln die Statistik entschieden bereichert. Beispielsweise sei angeführt, daß man einen Überblick über den Unterschied in der Sterblichkeit beider Geschlechter gewann. Man hat Wargentin vor- geworfen, nicht ganz die Halleysche Methode verstanden zu haben; jazu berechtigt die erwähnte Abhandlung jedoch kaum, und solcher Mangel wiegt nur wenig im Vergleich mit seinen Verdiensten um die Statistik. 31. Ungefähr gleichzeitig mit diesen‘ Fortschritten in Schweden yeschahen bedeutungsvolle Versuche in Holland. Hier florierten Leibrenten und Tontinen, ein sehr interessantes Studienmaterial. Struyck (1687—1769) veröffentlichte im Jahre 1740 selbständige Sterbetafeln für Männer und Frauen, in denen er ganz rationell ainigen Jahrgängen von Leibrentenkäufern von Jahrfünft zu Jahr- fünft folgte. Er untersuchte auch die Sterblichkeit während längerer Seereisen, beleuchtete die Theorie der klimakterischen Jahre, be- rechnete die Sterblichkeit für Wöchnerinnen und zeigte die große Sterblichkeit bei Zwillingen auf. Er war sich klar über die Halleysche Methode und betrachtete selbst eine Gruppe von Kindertodesfällen a1ach Geburtsjahren. Die Studien Kerssebooms (1691—1771) über Leibrenten- material (1737—1748) sind ebenfalls von Bedeutung. Wenn er frei- lich den Unterschied in den Lebensaussichten für Männer und Frauen untersuchen will und dabei die mittlere Lebensdauer ohne Beachtung der Sterblichkeit der einzelnen Altersklassen berechnet, oder wenn er zur Feststellung der Einwohnerzahl Londons eine Verteilung der Todesfälle nach Alter vornimmt, so sind zwar seine Methoden nicht immer unanfechtbar; sein Verdienst ist aber trotzdem sehr erheblich. Seine Schlüsse sind im allgemeinen vollkommen korrekt, und seine Verwendung des. Leibrentenmaterials zur Aufstellung von Über- lebenstafeln zeugt von Klarheit und Schärfe. 30 Fast gleichzeitig wirkte Deparcieux (1703—1768) in Frank- reich. Sein berühmter Essat sur les probabilites de la duree de la vie humaine erschien im Jahre 1746. Er beschäftigte sich teils mit den Resultaten von zwei noch nicht ausgestorbenen Ton- tinen, vollständig korrekt berechnend, wie viele Personen dem Tode ausgesetzt gewesen seien. Daß andere Beobachtungsreihen ganz ab- geschlossen waren, vereinfachte die Aufgabe wesentlich. So unter- suchte er Sterbelisten der Benediktinermönche, die in der Periode von 1607—1669 im Alter von 17—25 Jahren ins Kloster traten und im Jahre 1745 vollständig ausgestorben waren. Das Ma- terial wird für die ganze Periode geschlossen behandelt. Es wäre eine nur geringe technische Mehrarbeit gewesen, die Beobachtungs- reihen in Perioden zu zerlegen und dann für jede Periode die An- zahl von Personen festzustellen, die in jedem Altersjahr dem Tode ausgesetzt waren. Zu jener Zeit bevorzugte man oft ungeteilte Be- obachtungsreihen, weil man kein Auge hatte für die überaus großen Verschiebungen in der Sterblichkeit von einer Periode zur anderen. Für das Studium der Geschichte der Sterblichkeit ist eine Tafel wie die für die Benediktinermönche berechnete von großer Wichtigkeit. Deparcieux hat auch verschiedene unvollkommene Tafeln mitgeteilt, die übrigens mit geringer Mehrarbeit technisch unangreifbar hätten gemacht werden können. Um schnell die mittlere Lebensdauer berechnen zu können, schlägt Deparcieux eine recht unvollkommene Methode vor, die noch ein paar Menschenalter leben sollte. Er geht davon aus, daß die mittlere Lebensdauer größer sei als der Quotient, den man durch Division der Volkszahl mit der jährlichen Geburtenzahl erhalte. Versuche man dagegen eine entsprechende Berechnung mit Todesfällen, dann würde man als Ausdruck für die mittlere Lebensdauer eine allzu große Zahl erhalten. Deshalb müsse man als Nenner die Durchschnittszahl aus Todesfällen und Geburten benutzen. Allerdings war die Unsicher- heit solcher Methode damals lange nicht so groß wie heutzutage, da die Geburtenzahl sehr oft der Anzahl von Sterbefällen un- gefähr gleich kam; trotz solcher Mängel aber darf gesagt werden, daß der Sterblichkeitsstatistik eine rationelle Grundlage geschaffen war. Auch in anderen Ländern erschienen verdienstvolle Arbeiten über dieses Gebiet, so in England; und man machte große Fort- schritte in den Versicherungsberechnungen. In dieser Beziehung soll für Dänemark der Mathematiker Tetens (1738—1807) erwähnt werden, dessen „Einleitung zur Berechnung der Leibrenten und An- 40 wartschaften“ (1785—1786) eine verdienstvolle Arbeit ist; er ging aber bei der Wahl der Sterbetafeln nicht gerade kritisch vor. 32. Wer sich einen Überblick über den Stand der Statistik um die Mitte des 18. Jahrhunderts verschaffen will, mag das von J. P. Süßmilch (1707—1767, gestorben als Pastor in Berlin) veröffent- lichte berühmte Werk „Die göttliche Ordnung in den Veränderungen des menschlichen Geschlechts, aus der Geburt, dem Tode und der Fortpflanzung desselben erwiesen“ zur Hand nehmen. Dies Werk er- schien zum erstenmal im Jahre 1741, die zweite, stark erweiterte Auflage 1761. Das Buch kann als ein Hauptwerk der statistischen Literatur des 18. Jahrhunderts betrachtet werden und ist eine reiche Quelle für alle, die sich mit der Entwicklungsgeschichte der Statistik befassen. Süßmilch sammelte sein Material mit großem Eifer, davon zeugt unter anderem sein Briefwechsel mit Wargentin. Nach Süß- milchs Tode besorgte sein Schwiegersohn Baumann eine Neu- ausgabe; er fügte einen dritten Teil (1775—76) hinzu. Süßmilchs Theorie offenbart sich bereits im Titel des Werkes. Auf allen Gebieten erkennt er eine göttliche Ordnung. Die vielen Arten von Krankheiten: Pocken, Masern usw., „alle diese Feinde les menschlichen Lebens haben ihre abgesteckte Gränzen, und stehen ınter der Lenkung der unsichtbaren Hand des Unendlichen, vermöge welcher sie ihre gesetzte Anzahl zu dem in jeden Alter geordneten Maass des Todes abliefern müssen“ !). Diese göttliche Ordnung sei veständig und allgemein. „So war die Dauer des Lebens schon vor 3000 Jahren, und zwar im Orient, eben so, wie sie noch jetzt ist. So wie die Menschen in Deutschland geboren werden, leben und sterben: eben so geschiehts in Finnland, Schweden, Engelland, Hol- land und Frankreich“ ?), „So gar die Kinder, so todt zur Welt kommen, die Zwillingsgeburten und die sogenannten Unglücksfälle, haben ihre gewisse Zahlen und Verhältnisse zum Ganzen“ %. Er gibt allerdings zu, daß Abweichungen von diesen feststehenden Zahlen, z. B. in Seuchen- jahren, vorkommen; sie vermögen aber jedenfalls nicht den Haupt- eindruck der Regelmäßigkeit zu stören. Daher schreibt er denn auch bezüglich der auf verschiedenen Erfahrungen fußenden Sterblichkeit: „Nimmer war ich mir dergleichen Harmonie zwischen den Closter- ljeuten in Paris und unsern brandenburgischen Bauern vermuthen. ') Göttliche Ordnung, 4. Ausgabe, 2. Teil, S. 288, Berlin 1775. ?) ebenda, 1. Teil, S. 51. 3) ebenda, 1. Teil, S. 51. 11 Ich staunte, da ich sie entdeckte, und ein ausnehmendes Vergnügen über die göttliche Ordnung war die Belohnung meiner Mühe“ 1). Nach modernen Begriffen ist diese Harmonie allerdings nicht groß- Von 100 21 jährigen Mönchen starben nach Süßmilchs Aufstellungen binnen 10 Jahren ungefähr 8, von 100 Brandenburgern etwa 11. Mittels 4 Tafeln berechnet er die durchschnittliche Kindersterblich- keit im 2. Lebensjahre; die kleinste dieser Zahlen ist 49 von 1000, die größte 104. Dennoch wagt man zu behaupten, daß Süßmilch, vom Standpunkt seiner Zeit aus betrachtet, vollständig Recht hatte, War ja doch der Verlauf der Sterblichkeit nach Altersklassen fest- gelegt, ihre Form überall dieselbe, obzwar die Dimensionen vYver- schieden sein konnten. Kein Wunder, daß man ob dieser Überein- stimmung die Variationen nicht berücksichtigte oder besser der Nachwelt die Bestimmung solcher Variationen überließ. Wer sollte in Wirklichkeit vorauswissen können, daß die Sterblichkeit in allen Ländern im Alter von 5—15 Jahren so verschwindend klein ist, daß sie dann langsam steigt, so daß eine graphische Darstellung in großen Zügen so gut wie überall dieselbe Form ergab? Ihrer Bewunderung für die „göttliche Ordnung“ haben denn auch spätere Statistiker, obwohl mit anderen Worten, Ausdruck ver- liehen. Nur werden die statistischen Phänomene meistens als „Natur- gesetze“ erwähnt, nämlich als „Budget der Gefängnisse, Galeeren und Schaffotte“. Heißt es bei Süßmilch: „Ein jedes Alter liefert beständig einen Zins zum Maß der Sterblichkeit“, so redet Quetelet, wie weiter unten dargestellt wird, im 19. Jahrhundert genau dieselbe Sprache. Es war ganz natürlich, daß Süßmilch die gefundenen Sterbe- tafeln als typisch für alle Zeitalter ansah; „die gleiche Dauer des Lebens“ ist ihm ein Axiom, doch auch dieses Axiom wird man spät im 19. Jahrhundert wiederfinden. Von diesem Standpunkt aus behandelt Süßmilch nun die einzelnen Gegenstände, welche zu damaligen Zeiten statistisch beleuchtet werden konnten. Er beschäftigt sich z. B. mit dem Verhältnis zwischen Mädchen- und Knabengeburten und zeigt, daß selbst in so abgelegenen Gegenden wie Trankebar und Batavia das Verhältnis so ungefähr dasselbe sei wie in Europa; und er betont die Bedeutung des Über- gewichts der Knabengeburten für das Gleichgewicht der Geschlechter, auf die größere Knabensterblichkeit hinweisend. Als ein Verdienst Süßmilchs kann auch hervorgehoben werden, *) Göttliche Ordnung, 4. Ausg. 2. Teil, S. 295. 42 daß er umsichtig die Genauigkeit der statistischen Beobachtungen nachprüft. Er macht darauf aufmerksam, daß in den Städten ein erheblicher Teil der Verstorbenen Zugewanderte seien. Er bespricht eine höchst interessante Doppelzählung der bürgerlichen Bevölkerung Berlins im Jahre 1747, wo zuerst die Polizei und 8 Tage später die königlichen Beamten eine Zählung vornahmen; diese Zählungen er- gaben nur sehr geringe Unterschiede. Er bewies die Ungenauigkeit der Altersangaben, und deshalb häufen sich die Zahlen bei den runden Altersjahren, so daß also der Glaube an klimakterische Jahre leicht entstehen konnte. Aus den vielen zerstreuten Beobachtungen sucht Süßmilch einen allgemeinen Sterblichkeitsquotient zu bestimmen und ähnlich das Verhältnis der Eheschließungen und Geburten zur Volkszahl fest- zustellen. Er glaubt aus den Zahlen ersehen zu können, daß die Sterblichkeit in den Städten größer sei als auf dem Lande, was allerdings richtig ist, aber ohne Berücksichtigung der Altersverteilung nicht bewiesen werden kann. Wir haben hier eines der zahlreichen Beispiele in der Geschichte der Statistik von einer richtigen Anti- zipation auf Grundlage eines unvollkommenen Materials. Süßmilch macht auch den Versuch, das Verhältnis der Geburten zu den be- stehenden Ehen zu bestimmen, wozu nur äußerst dürftige statistische Ermittelungen vorhanden waren. Auf Grund dieser Untersuchungen nun stellt Süßmilch Berech- nungen über die Zunahme und Verdoppelungszeit der Bevölkerung an, in einem Abschnitt, welcher durch einige von Kuler angestellte, später von Malthus in seiner Bevölkerungstheorie besprochene Be- rechnungen bekannt geworden ist. Er sucht ferner das überaus Jürftige Material zur Bestimmung der Bevölkerung der Erde zu verwerten, wozu nur sehr wenige eigentliche Volkszählungen vor- lagen. Die Methode kommt meist darauf hinaus, daß er berechnet, wie viele Menschen in dem betreffenden Lande unter Voraussetzung einer gewissen allgemeinen Bevölkerungsdichtigkeit leben würden, und daß er diese Zahlen mit dem vergleicht, was man über den Kulturzustand, die Wohlstandsverhältnisse usw. der Bevölkerung wußte. Für Spanien fußt er auf einer Zählung der Familien, für Portugal nimmt er eine entsprechende Dichtigkeit an; Polen und Litauen sollten nach der Durchschnittsberechnung 40 Millionen Ein- wohner zählen, aber auf Grund der kümmerlichen Zustände des Landes: der großen Wälder, Sümpfe und Moräste, der unsicheren Zustände für die Pächter, der niedrigen Getreidepreise, des 43 Mangels an Fabriken usw. schätzt er die tatsächliche Bevölkerung nur auf ein Drittel jener möglichen. Ein großer Teil des Werkes wird von der Bevölkerungs- politik eingenommen. Nach dieser soll sich der Regent, um sein Land volkreich, glücklich, mächtig und reich zu machen, bemühen, die Zahl der Eheschließungen und die eheliche Fruchtbarkeit zu ver- größern, die Eingeborenen im Lande zu halten und Fremde herein- zulocken — also die gewöhnliche merkantilistische Bevölkerungs- politik zu treiben. Er behandelt auch die alten römischen Agrar- gesetze, untersucht den Nutzen der Fabriken, die Schädlichkeit des Luxus usw. Von einer statistischen Behandlung dieser Fragen ist aber kaum zu reden. Süßmilch beschäftigt sich selbstverständlich ausführlich mit der Sterblichkeitsstatistik. Was die Todesursachen anbetrifft, so hatte er hierfür im wesentlichen nur die Londoner Listen zur Ver- fügung und zur Beurteilung des Einflusses des Alters auf die Todes- ursachen überhaupt kein Material, Süßmilchs Sterbetafel hat seinerzeit eine bedeutende Rolle gespielt, wenn sie auch sehr unvollkommen war; diese Unvoll- kommenheit erklärt sich teilweise aus seiner Auffassung der Sterb- lichkeit, die typisch ist und sich überall geltend macht. Süßmilch geht zuerst darauf aus, eine Tafel für die Landbevölkerung und für ausgelesene Personen zu berechnen. Er berechnet z. B. eine Sterbe- tafel, indem er bloß für ein brandenburgisches Kirchspiel die Todesfälle nach dem Alter der Verstorbenen gruppiert; die Bevölke- rung scheint übrigens keineswegs stationär gewesen zu sein, und die erwähnte Berechnung ist somit nicht zu verantworten. Daß 1072 Todesfälle auf 1437 Getaufte fallen, erhöht das Gefühl der Unsicher- heit. Eine andere Tafel gilt 10 brandenburgischen Kirchspielen mit 4—5mal so vielen Sterbefällen. Ferner benutzt er 2 Tabellen über Sterbefälle in Schweden, die eine für „6 gute Provinzen“, die zweite für „andere epidemische Provinzen“. Aus diesen 4 Tafeln berechnet Süßmilch den Durchschnitt: Wenn z. B. unter 1000 Todesfällen jeweils 49, 59, 100 und 104 auf das 2. Lebensjahr fallen, nimmt er ganz einfach 78 als Zahl der auf dieses Alter kommenden Sterbefälle an. Diese Tafel nun wird für das 20. und die höheren Altersjahre durch 3 Deparcieuxsche Tafeln für Benediktinermönche, Nonnen und Ton- tinenmitglieder ergänzt. In den Tafeln für Mönche und Nonnen wird die Verteilung von 523 Todesfällen angegeben, in den auf Ton- tinen bezüglichen von 537. während nach den 4 deutschen und 44 schwedischen Tafeln durchschnittlich 521 auf das Alter über 20 Jahre fallen. Diesen Unterschied läßt Süßmilch ganz außer Betracht; die Deparcieuxschen Tafeln behandelt er überhaupt etwas frei. Während diese Zusammenstellung sich von seiner Auffassung der 7 Tafeln als Beobachtungen über dieselbe Größe aus rechtfertigen läßt, gilt das gleiche weniger von seiner entsprechenden Übersicht für Stadt und Land, da Süßmilch selbst auf den hier hinsichtlich der Sterblichkeit vorliegenden Unterschied aufmerksam gemacht hat. Er berechnet seine Haupttafel aus drei Tafeln, von denen eine die Landbezirke, eine die kleineren und eine die größeren Städte um- “aßt, indem er den Durchschnitt aus diesen Tafeln bildet... Die da- malige Landbevölkerung sollte also nur !/ der Gesamtvolkszahl ausgemacht haben. Daß eine solche Verteilung der Bevölkerung zu der Zeit nicht den Tatsachen entsprach, bedarf kaum der Erwähnung. Auf die gefundene Haupttafel, welche keine einjährigen Alters- klassen enthielt, wandte Süßmilch ein rohes Ausgleichsverfahren an, indem er, gestützt auf Tafeln mit einjährigen Intervallen, die Zahlen ler Haupttafel „proportionierte“, Süßmilch wollte seine Sterbetafel als Ausdruck für die Sterb- lichkeit in einem durchschnittlichen europäischen Lande auffassen. Dies läßt sich kaum machen, auch nicht, nachdem Baumann einige Fehler berichtigt hatte. Die Sterblichkeit in den jüngeren Jahren, die nach dem Säuglingsalter kommen, ist möglicherweise etwas übertrieben; das gleiche gilt vielleicht auch für die älteren Jahrgänge; etwas Sicheres läßt sich hierüber jedoch nur schwierig aussagen. Übrigens bringt Baumann in seinem Ergänzungsband interessante Beobachtungen, z. B. über die Sterblichkeit der außer- 3helich Geborenen; im großen und ganzen aber blieb die Berechnung ınverändert. 30. Einen wichtigen Beitrag zur Fortbildung der Statistik lieferte der Schweizer Daniel Bernoulli (1700—1782)!%. Er stellte sich die Aufgabe, die Wirkung der Impfung gegen die Pocken — zine der brennendsten Fragen jener Zeit — zu untersuchen. Dabei benutzt er ein ganz neues Prinzip hinsichtlich der Bearbeitung von Beobachtungen, die sogenannte kontinuierliche Methode; er setzt nämlich voraus, daß sich die Zahlen nicht sprungweise, sondern ganz allmählich mit unendlich kleinen Teilen und in un- 1) Essai d’une nouvelle analyse de la mortalite causee par la petite verole, et les avantages de l’inoculation pour la prevenir (Histoire de l'acad. royale des seiences, ann6e 1760, Paris 1766). 45 endlich kleinen Zeitintervallen verändern. Dadurch wird die An- wendung der Differential- und Integralrechnung ermöglicht, was eine große Vereinfachung der Aufgaben bedeutet. Leider aber ward diese geniale Arbeit nur wenig beachtet; die Methode scheint die Folgezeit nicht beeinflußt zu haben, erst im 19. Jahrhundert kam sie zu ihrem Recht. Daß Daniel Bernoulli auch Fehler begehen konnte, vermag sein Verdienst um die Statistik keineswegs zu verkleinern. Kin Fehler wars, daß er die Halleysche Tafel so auffaßte, als ob sie mit 1000 im Alter von einem Jahre anfange und daß er dann willkürlich die Geburtenzahl, die den Ausgangspunkt bilden sollte, auf 1300 er- höhte. Ein solcher Fehlgriff ist jedoch ebenso verzeihlich wie die Unklarheit, welche den von ihm in die Wahrscheinlichkeitsrechnung eingeführten Begriffen „moralisches Vermögen“ und „moralische Hoffnung“ anhaftet. Durch die Formulierung solcher Begriffe er- weist er sich in Wirklichkeit als Vorläufer der modernen Grenz- wertlehre. Von Bernoullis Zeitgenossen richtete namentlich der fran- zösische Mathematiker d’Alembert scharfe Angriffe gegen B.s Ab- handlung, ohne jedoch tiefer in die Materie eingedrungen zu sein. 34. Die politische Arithmetik hatte in mancher Beziehung Be- rührungspunkte mit der Wahrscheinlichkeitsrechnung, welche im Laufe des 19. Jahrhunderts eine gewisse Vollkommenheit erreichte. Anscheinend bedeutungslose Spielaufgaben veranlaßten interessante mathematische Untersuchungen, die die Entwicklung der Statistik ungemein beeinflußten. Die ersten Anläufe zu dieser Disziplin wurden in Italien und Frankreich gemacht, und als Pioniere sind besonders zwei berühmte Italiener zu erwähnen: Cardan (1501—1576) und Galilei (1564—1642). Ersterer hat eine kleine Abhandlung: De Ludo Aleae geschrieben, worin er berechnet, welche Chancen die verschiedenen Würfe mit Würfeln haben. Ähnliche Aufgaben stellte sich Galilei. Ein Spieler hatte beobachtet, daß, wenn man mit 3 Würfeln spielte, 10 Augen häufiger geworfen würden als 9, und Galilei bewies, daß auf 25 Würfe, welche 9 Augen gäben, 27 Würfe der anderen Art kämen. Diese Berechnung kann man leicht nach- prüfen. Die eigentliche Grundlage für die Wahrscheinlichkeitsrechnung wurde jedoch von Pascal (1623—1662) und Fermat (1601—1665) gegeben. Kine seinerzeit bekannte Persönlichkeit, Chevalier (später Marquis) de Mere, der selbst, wie es scheint, Dilettant war. stellte 7 im Jahre 1654 Pascal verschiedene Spielaufgaben, und Pascal stand in dieser Angelegenheit mit Fermat im Briefwechsel!). Eine der Aufgaben war z. B. die, wie Spieler bei vorzeitigem Abbruch des Spieles sich in den Einsatz teilen sollten. Als einfaches Beispiel kann folgendes angeführt werden: Von zwei gleich tüchtigen Spielern hat jeder einen Einsatz von 32 Pistolen (Louisdors) gemacht. Der, welcher zuerst drei Points bekommt, hat gewonnen. Nachdem nun der eine Spieler schon zwei Points, der andere dagegen nur einen be- kommen hat, werden sie darüber einig, das Spiel abzubrechen. Nach Pascals Lösung wird der erste Spieler, wenn er in der nächsten Runde einen Point erhält, das Spiel gewinnen und auf 64 Pistolen Forderung stellen können; wenn der Partner jedoch 1 Point erhält, stehen sie gleich und jeder kann 32 Pistolen verlangen. In jedem Falle ist also der erste Spieler zu 32 Pistolen berechtigt, während er die übrigen 32 ebensogut gewinnen wie verlieren kann; ihm kommen daher 48, dem Partner 16 zu. In der Sprache der Wahr- scheinlichkeitsrechnung würde man die Aufgabe wie folgt lösen: Die Wahrscheinlichkeit zu gewinnen ist !/, für den Spieler, der ainen Point gewonnen hat; denn die Wahrscheinlichkeit dafür, nach einem Wurf 2 Points zu haben, ist !/,, und dafür, im nächsten Wurf wieder einen Point zu gewinnen, ebenfalls !/,, und nur wenn beide diese Begebenheiten eintreffen, wird er das Spiel gewonnen haben; er soll dann beim Abbruch des Spieles !/, des Einsatzes oder 16 Pistolen haben, während der Gegner die übrigen 48 erhält. Diese Aufgaben geben nun Pascal und Fermat die Gelegenheit, sich mit verschiedenen mehr oder weniger schwierigen Fragen zu beschäftigen; aber sie bemühten sich kaum, ihre Gedanken zu ver- breiten; namentlich Pascals Interesse ward von ganz anderen Unter- suchungen in Anspruch genommen. Und da nun Newton und Leibniz die Differentialrechnung erfanden und damit den Mathe- matikern ein ungeheures Tätigkeitsfeld eröffneten, ward die Auf- merksamkeit derart von den erwähnten Problemen abgelenkt, daß ungefähr 50 Jahre verstrichen, ehe man sich wieder mit Energie auf lie Wahrscheinlichkeitsrechnung warf ?). Ein besonders wichtiger Fortschritt wurde von Jacob Ber- noulli (1654—1705) gemacht, der derselben Familie wie Daniel 1) Dieser Briefwechsel ist zum größten Teil bewahrt. Siehe Oeuvres de Blaise Pascal publiges par Leon Brunschvigg et Pierre Boutroux, 111, 1908, S. 369—431, wo auch Fermats Briefe abgedruckt sind. 2) Siehe Todhunter, History of the Theory of Probability, 1865, 8. 21. Bernoulli angehörte. Diese Familie hat nämlich eine Reihe aus- gezeichneter Mathematiker hervorgebracht und hat besonders in der Geschichte der Wahrscheinlichkeitsrechnung eine große Rolle gespielt. Sein Werk Ars conjectandi, das nicht ganz vollendet wurde, er- schien 1713, acht Jahre nach dem Tode des Verfassers, nachdem einige Mathematiker der Familie sich vergebens angestrengt hatten, es zu vollenden. In diesem Werk ist das berühmte Bernoullische Theorem enthalten, welches in moderner Form als „Gesetz der großen Zahlen“ die Grundlage für die Theorie der Statistik bildet. Bernoulli zeigt, daß, je größer die Anzahl von Versuchen, desto größer die Wahr- scheinlichkeit dafür ist, daß die Abweichung zwischen der faktischen Häufigkeit der betreffenden Begebenheit und der Wahrscheinlichkeit für diese Begebenheit innerhalb ganz bestimmter Grenzen liegt, und daß man durch Vergrößerung der Anzahl von Versuchen die Grenzen nach Belieben einengen kann?!). Die Untersuchung war rein theo- retischer Art; es fehlte noch ein Nachweis dafür, daß diese Be- rechnungen mit den tatsächlichen Verhältnissen übereinstimmten. Man ging in jener Zeit in der Regel davon aus, daß die Begeben- heiten nach theoretisch aufgefundenen Gesetzen eintreffen würden. Dieser Lehrsatz gab Bernoulli Veranlassung zu tiefsinnigen Be- trachtungen im Anschluß an die Philosophie Platos: Könnte man die Beobachtungen ins Unendliche fortsetzen, dann würde man zum Schluß alles mit vollkommener Sicherheit berechnen und die Gesetzmäßigkeit der Zufälligkeiten erkennen können; Platos Lehre über die Wieder- kehr aller Dinge nach Verlauf unzähliger Jahrhunderte stimme mit liesem Resultat überein (a. a. O. S. 239). Eine Reihe Mathematiker faßten allmählich die Wahrscheinlich- keitsrechnung an, die ungemein viele Aufgaben darbot, und zwar solche, die scharfsinnige Analysen erforderten. Am meisten be- schäftigten sie sich im Geiste Pascals und Fermats mit einer Reihe von Aufgaben, bei welchen man die Aussichten dafür, daß gewisse Er- eignisse eintreffen würden, berechnen sollte. Der französische Mathe- matiker Abraham de Moivre (1667—1754) ging auch auf das Bernoulli-sche Problem ein, das er auf eine ebenso geniale wie frucht- bringende Art und Weise behandelte. Somit war also eine sorgfältig ausgebildete wissenschaftliche Diszi- plin an scheinbar unbedeutenden Aufgaben entwickelt worden. Aller- dings wurde sie nicht von allen gutgeheißen und sie entbehrte Ja, wie 1) Ars conjectandi, Pars Quarta, S. 227 ff. ACC erwähnt, noch zum größten Teil der Bestätigung durch die Erfahrung. Speziell der oben erwähnte große französische Mathematiker d’Alembert (1717—1783) gehörte der Opposition an!), während Euler als Verteidiger auftrat. D’Alembert wollte z. B. behaupten, daß, wenn eine Münze mehreremale Avers gezeigt habe, die Wahr- scheinlichkeit dafür, bei einem neuen Wurf wieder Avers zu be- kommen, geringer sein müsse, als Revers zu erhalten. In dieser Be- ziehung war d’Alembert offenbar im Einklang mit dem unmittel- baren Eindruck jedes Spielers. Derjenige, welcher in der Zahlen- ‚otterie beobachtet hatte, daß eine Zahl lange nicht gezogen worden sei, würde bei seinem Einsatz gerade zur Wahl dieser Zahl neigen, und zahlreiche, die Lotterieliteratur betreffende Broschüren mit unfehlbaren Anweisungen fürs Spiel deuten zur Genüge auf die Verbreitung derartiger Anschauungen hin. Euler verteidigte mit großer Klarheit mit apriorischen Gründen die entgegengesetzte Ansicht. Es versteht sich von selbst, daß man sich nur schwerlich eine Wirkung wie die, welche d’Alembert sich vorstellte, denken konnte, indem dann die Ziehungen in der Zahlenlotterie, obzwar sie mit langen Zwischenräumen vor sich gingen, als gewissermaßen miteinander in Verbindung stehend gedacht werden mußten. Anders steht die Sache indes da, wo wie beim Würfelwurf das Spiel in verhältnismäßig kurzer Zeit beendigt wird. Hier könnte man sich vielleicht denken, daß sich gewisse Muskelbewegungen sozusagen automatisch wiederholten und somit einen gewissen Rhythmus der Spielergebnisse hervorriefen. Trotz der Gedankenklarheit, welche d’Alembert auf anderen Ge- bieten besaß, glückte es ihm hier nicht, in den Kern der Sache hin- einzudringen, und seine Kritik, die keineswegs ganz ohne fruchtbare Zlemente war, kam daher im großen und ganzen zu keiner Be- deutung. Die meisten Mathematiker, die sich mit diesem Problem befaßten, schlossen sich der apriorischen Auffassung an, so daß es lange Zeiten hindurch nicht die Bedeutung erlangte, die es hätte haben können. D’Alembert deutet an (a. a. 0. XIV), man könne Versuche zur Nachprüfung der Resultate der Wahrscheinlichkeitsrechnung anstellen. Er selbst hat jedoch, soviel man weiß, nie diese Ver- suche unternommen. Hätte man diesen Faden aufgegriffen, so hätte man vielleicht schon damals den bedeutungsvollen Schritt getan, die Hauptsätze der Wahrscheinlichkeitsrechnung nachzuprüfen. ı) Röflexions sur le Caleul des Probabilite&s, Opuscules II, 176L. AC, Glänzend gefördert ward die Wahrscheinlichkeitsrechnung durch Laplace (1749—1827), der ihr eine Reihe meisterlicher Abhandlungen widmete und zuletzt eine Gesamtdarstellung seiner Theorie gab, welche noch heutigentags als das Hervorragendste innerhalb dieser Disziplin bezeichnet werden kann (7heorie analytique des probabilites, 1812). Hieran schließt sich sein Essat philosophique sur le calcul des probabilites (1814) an, worin er versucht, die Theorie ohne Ver- wendung der mathematischen Zeichensprache darzustellen. Laplace beschäftigt sich unter anderem auch mit Untersuchungen über die Chancen der verschiedenen Ergebnisse bei Abhörung von Zeugen, bei Rechtssprüchen und Abstimmungen, mit Fragen, welche später Poisson (1781—1840) aufnahm und zum Gegenstand ausführlicher Untersuchungen machte und deren Ergebnisse in seinen Recherches sur les probabilites des jugements (1837) veröffentlicht sind, einem Werke, das zugleich eine allgemeine Darstellung der Theorie der Wahrscheinlichkeitsrechnung enthält und in dem das Bernoullische Theorem auf den Fall erweitert wird, wo zwei oder mehrere Wahr- scheinlichkeitswerte vorliegen. 35. Eine weitere wichtige Aufgabe, welche namentlich für die Physik und Astronomie von Bedeutung wurde, galt der Verwertung einer Reihe von verschiedenen Beobachtungen, z. B. desselben Ge- stirns. Diese Aufgabe beschäftigte einige Mathematiker und führte zur Empfehlung der Methode der kleinsten Quadrate, wo- nach man ganz einfach als gemeinsamen Ausdruck für mehrere Be- obachtungen die Zahl wählen müsse, deren Abweichungen von den Beobachtungen eine möglichst kleine Quadratsumme ergeben würde. Die Methode wurde namentlich von dem berühmten Mathematiker Gauss (1777—1855) entwickelt; er hat als erster diese Methode mit der Wahrscheinlichkeitsrechnung verknüpft. Seine erste Arbeit über diesen Gegenstand erschien im Jahre 18095. Diese Untersuchungen waren eine notwendige Bedingung für die Entwicklung einer wissenschaftlichen Theorie der Statistik. Leider entbehrte die Wahrscheinlichkeitsrechnung, wie oben aus- einandergesetzt, lange einer umfassenderen erfahrungsmäßigen Unter- lage. Zwischen ihr und der Statistik bestand so gut wie keine Ver- bindung. Der Begriff Wahrscheinlichkeit wurde rein abstrakt de- finiert und in verwickelten, rein mathematischen Untersuchungen verwendet, ohne daß man sich darum kümmerte, ob die gefundenen !) Theoria motus corporum coelestium ; u. a. zugänglich in Bertrands Über- setzung (Methode des moindres carre6s, Paris 1885). Westergaard und Nybe@lle, Theorie der Statistik, 2. Aufl. 50 mathematischen Gesetze mit den Erfahrungen übereinstimmten. Selbst die Beobachtungen beim Spiel und dergleichen, welche von jedermann zu machen waren, wurden nur vereinzelt herangezogen, Andernfalls würden die Mathematiker sicherlich gelernt haben, ihre Resultate in solche Formen zu kleiden, daß sie den Statistikern leichter zugänglich geworden wären. Wie die Verhältnisse lagen, kam die Wahrscheinlichkeitsrechnung zwar den Naturwissenschaften, aber nur in geringem Grade den sozialen Wissenschaften zugute. Zu Anfang des 19. Jahrhunderts waren manche Bausteine zu einer wissenschaftlichen Statistik gesammelt. Noch fehlte allerdings viel, und besonders hatten die einzelnen Richtungen in der Regel noch nicht gelernt, einander zu verstehen und sich gegenseitig zu beeinflussen. Das statistische Beobachtungsmaterial war wenig um- lassend und wenig befriedigend; erst der folgenden Zeit sollte es vorbehalten sein, die reichen Quellen der offiziellen Statistik zu er- schließen. Und erst nachdem allmählich dieses Beobachtungsmaterial erhoben war, konnte eine fruchtbare Entwicklung der Technik und der theoretischen Behandlung der Aufgaben erwartet werden. C. Die moderne Statistik. 36. Wie auf so vielen anderen Gebieten, so ist auch für die Statistik das 19. Jahrhundert eine wahre Revolutionsperiode. Wenn man die Siebenmeilenschritte beobachtet, welche die einzelnen sta- tistischen Disziplinen in unseren Tagen gemacht haben, wird man fast daran zweifeln, überhaupt eine zusammenhängende Darstellung dieser Bewegungen geben zu können, die oft fast sprungweise vor sich zu gehen scheinen. Es gilt dies allerdings nicht für die ersten drei Jahrzehnte des 19. Jahrhunderts, die am besten nur als Vorbereitungszeit aufzu- fassen sind. Erst die Zeit ums Jahr 1830 bezeichnet den eigentlichen Wendepunkt. Vor dieser Zeit hatte die Statistik im wesentlichen das alte überlieferte Gepräge; noch lesen die Universitätsprofessoren, getreu der Tradition, über Statistik als Staatenkunde; noch sind die numerischen Tatsachen zum Teil Staatsgeheimnisse. Einen Augenblick schien es, als ob man mit dem neuen Staaten- leben beim Übergang zum 19. Jahrhundert einen ganz anderen Ent- wicklungsgang hätte erwarten können. Die nordamerikanischen Freistaaten z. B. hatten in der Unionsverfassung als Grundlage für die Wahlen regelmäßig zu wiederholende Volkszählungen festgesetzt, deren erste denn auch im Jahre 1790 stattfand. Frankreich erhielt 1796 ein statistisches Bureau, und für 1801 ward eine Volkszählurg befohlen; in Großbritannien hatte man bereits 1753 eine allgemeine Volkszählung beschlossen, die jedoch erst 1801 stattfand; im gleichen Jahre ward auch eine Volkszählung in Dänemark, Norwegen und Island abgehalten, wo jedoch bereits früher schon Zählungen durch- geführt worden waren, so 1769 und 1787 in Dänemark; in Nor- wegen hatte man schon im Jahre 1662 alle Männer über 12 Jahre gezählt und auf Island ward 1703 eine reguläre Volkszählung ver- anstaltet. Das schwedische Tabellenwerk ist oben erwähnt worden. In Preußen trat ein statistisches Bureau im Jahre 1805 ins Leben. Aber der Umschwung kam bald. In den Kriegswirren und unter der darauf folgenden Reaktion konnte eine amtliche Statistik nur schwerlich gedeihen. Bereits im Jahre 1806 ward dem preußischen statistischen Bureau verboten, Mitteilungen über Staatsfinanzen, Geldinstitute und Privateigentum zu bringen, und Napoleon verbot gleichzeitig im großen und ganzen statistische Veröffentlichungen über französische Verhältnisse. Die Volkszählung in Frankreich im Jahre 1801 scheint übrigens nur sehr wenig geglückt zu sein, und mit den für 1806 und 1811 geplanten Zählungen wurde kaum Ernst gemacht. Wie wenig statistisches Beobachtungsmaterial man in Wirk- lichkeit zu sammeln vermochte, sieht man aus der statistischen Zeitschrift (Annales de Statistique), welche seit 1802 unter den Auspizien der französischen Regierung erschien. Allerdings enthält diese Zeitschrift einen Teil numerische Tatsachen, aber nur wenig Statistik in des Wortes moderner Bedeutung; der Hauptinhalt be- steht in Beschreibungen der einzelnen Departements. Eine ungeheure Langsamkeit der Bearbeitung der Beobachtungen charakterisiert häufig diese Periode. Die Bearbeitung der dänischen Volkszählung von 1787 war zwar 1791 so weit fertig, daß eine aus- führliche — übrigens nicht veröffentlichte — Darstellung gegeben werden konnte, aber ergänzende Tabellen waren erst im Jahre 1798 vollendet. Die Bearbeitung der Volkszählung des Jahres 1801 ward dem im Jahre 1797 errichteten Tabellenkontor übertragen. Sie scheint anfangs nur äußerst geringe Fortschritte gemacht zu haben; erst 1810 konnte das Kontor den baldigen Abschluß der Arbeit ver- künden, und vorläufige Ergebnisse kommen nun ab und zu der Öffentlichkeit zur Kenntnis. Der tatsächliche Abschluß der Be- arbeitung aber scheint erst viel später stattgefunden zu haben, und 5% ein vollständiger Bericht erschien erst im Jahre 1835 in Verbindung mit einer Darstellung der Volkszählung des Jahres 1834%). 37. Aber trotz allem ist diese Periode keineswegs ohne Interesse, und es können auch einige Namen, die für die Statistik von Be- deutung sind, angeführt werden, Der schwedische Astronom Ni- cander nahm die Arbeit Wargentins auf und berichtigte seine Resultate. In England machte die Sterblichkeitsstatistik gute Fort- schritte, so namentlich gefördert durch ein Werk von J. Milne ‘1776—1851), das besonders durch die Carlisle-Tafel bekannt ist, welche eine Zeitlang eine Rolle innerhalb der Lebensversicherung spielte ?). Die Geschichte dieser Tafel wirft ein Licht auf die Schwierig- keiten, welche man in jenen Zeiten zu überwinden hatte. In dem kleinen Orte Carlisle hatte ein Arzt, John Heysham, sich sehr für die Bevölkerungsstatistik interessiert und unter än- lerem Listen über Geburten, Trauungen und Krankheiten geführt. L797 veröffentlichte er seine Beobachtungen der zwei Volkszählungen der Jahre 1780 und 1787 und über 1840 Todesfälle in der Periode von 1779—1787. Dieses Material ward von Milne zur Untersuchung zufgenommen. Er benutzte es für seine Tafel und zwar nach einem weitläufigen und umsichtigen Briefwechsel mit Heysham, um die Be- obachtungen so genau und so gleichartig wie nur irgend möglich zu machen. Es war bei dieser Tafel ein Fortschritt, daß Milne, um die Anzahl der Lebenden, die dem Tode ausgesetzt gewesen waren, zu finden, zwei Volkszählungen benutzte. Allerdings waren seine Ausgleichung der Sterbetafel und seine Interpolationen recht un- vollkommen; aber diese Art Mängel hatte er mit andern gemein, und sie hinderten nicht die praktische Verwendbarkeit der Tafel. 38. Einer weit feineren mathematischen Analyse begegnet man in Duvillards (1755—1832) außerordentlich interessanten Unter- suchungen über die Einwirkung der Pockenkrankheit auf die Sterblichkeit. Durillard hatte von 1805—1815 die Leitung der französischen Bevölkerungsstatistik.‘ Seine Arbeit, die sich würdig Daniel Bernoullis oben erwähnter Untersuchung anreiht, ist leider nur wenig bekannt; nur die von ihm als Ausgangspunkt benutzte Sterbetafel, der er übrigens keine selbständige Bedeutung bei- ') Holck, Dansk Statistiks Historie 1800—1850,7 Kobenhavn 1901, S. 44 und 150 ff. 3 Milne, A treatise on the valuation of annuities and assurances, 1815. Vgl. Henry Lonsdale, The life of John Heysham, M. D. and his Corre- spondance with Mr. Joshua Milne relative to the Carlisle Bili of Mortality, 1870. 53 legte, ist häufig zitiert und abgedruckt und von den meisten, die überhaupt Duvillards Arbeit erwähnen, als die Hauptsache aufgefaßt worden. Wie Daniel Bernoulli, benutzt auch er mit Vorteil in ele- ganten Formeln die kontinuierliche Methode‘). Auf Grundlage von Beobachtungen über Pockenkrankheiten und die von diesen verursachten Todesfälle fragt er, welche Wirkung ein eventuelles Verschwinden dieser Krankheit haben würde. Seine Analyse ist wie die Bernoullis durchweg vollständig korrekt, aber seine Voraussetzungen sind verwickelter und seine Formeln daher weniger einfach. Er teilt die Bevölkerung, welche er als Berech- nungsgrundlage voraussetzt, in verschiedene Gruppen, in solche, die nach der Hypothese nie von Pocken betroffen werden, solche, die an dieser Krankheit sterben und solche, die die Pocken überstehen und später anderen Krankheiten unterliegen werden; und endlich rechnet er aus, wie die Altersgruppierung der Bevölkerung werden würde, wenn die Pocken vollständig ausgetilgt werden könnten. Seine Gedanken wurden kaum verstanden und die allgemeine Auffassung war vorderhand gegen seine Resultate. Nach der herr- schenden Bevölkerungstheorie, so wie sie von Malthus geformt worden war, war es zwar möglich, eine Krankheit wie die Pocken auszurotten, aber zu guter Letzt würden dann nur andere Krankheiten an ihre Stelle treten; die Sterblichkeit sei also konstant?). So sagt auch der französische Nationalökonom J. B. Say, daß, wenn der Tod die eine Tür geschlossen finde, öffne er nur gleich eine andere; die ärztliche Kunst rette den einen, während sie den anderen zum Tode verurteile. Diese Anschauung über eine konstante Sterblich- keit ist wohl auch die Grundlage für die zahlreichen Versuche, die Abhängigkeit der Sterblichkeit vom Alter durch eine mathematische Formel auszudrücken; solche Bestrebungen treten deutlich in den 20er und 30er Jahren hervor. In erster Linie kann auf Grund ihrer Einfachheit eine von Gompertz aufgestellte Formel (1825) erwähnt werden, die später von Makeham (1860) geändert wurde; in der so geänderten Form hat sie für das Versicherungswesen eine bedeutende Rolle gespielt. Von Bedeutung, wenn auch ebenfalls fast unbeachtet, waren die Arbeiten des ausgezeichneten Mathematikers Fourier (1768 —1830). *) Analyse et tableaux de Vinfluence de la petite v6&role sur la mortalite. Paris 1806. °) Malthus, An essay on the principle of population, 3. Ausgabe 1806, II, 5. 361ff. 54 Im Jahre 1817 hatte man für die Stadt Paris eine regelmäßige Sta- tistik eingerichtet, eine Institution, zu der Fourier in Beziehung trat. Er führte mehrere Untersuchungen durch, teils über die Be- wegung der Bevölkerung (1821)*), teils über die aus den Beobach- ‚ungen abgeleiteten Durchschnittszahlen (1826 und 1829). Diese Ar- beiten bezeichnen den ersten Versuch einer Theorie des Bevölke- rungswechsels, da er nicht allein Geburten und Todesfälle berück- sichtigte, sondern auch den Einfluß der Ein- und Auswanderungen vor Augen hatte. 39. Die genannten Arbeiten in den ersten Jahrzehnten des 19. Jahrhunderts bilden das Präludium zur folgenden reichen Ent- wicklung. Nach der Julirevolution scheinen mit einem Schlage viele Hindernisse für eine offizielle Statistik verschwunden zu sein. Im Jahre 1833 wurde in Frankreich ein statistisches Bureau, in England 1832 eine statistische Abteilung im Board of Trade und 1836 ein General Register Office errichtet; letzteres war der Aus- gangspunkt der folgenden Blüte der englischen Bevölkerungsstatistik. Will. Farr (1807—1883), der ein Menschenalter hindurch die sta- tistische Arbeit dieser Institution leitete, verstand schnell der eng- 'ischen Bevölkerungsstatistik Ansehen zu verschaffen 2). Auch in Deutschland wurden große Fortschritte gemacht. Die Gründung des Zollvereins machte die Abhaltung regelmäßiger Volkszählungen zur Notwendigkeit, das bayrische statistische Bureau wurde 1834 umgebildet, vorläufig sollten jedoch keine Mitteilungen veröffentlicht werden. Dieses Bureau wurde viele Jahre von dem angesehenen Nationalökonomen Hermann geleitet. Im Königreich Sachsen entstand 1831 ein statistischer Verein, welchen die Regierung zur Vornahme statistischer Untersuchungen bevollmächtigte. E. Engel ‘1821—1896) leitete eine Zeitlang das sächsische statistische Bureau; später erhielt er einen Ruf als Leiter der preußischen Statistik nach Berlin, wo er einen bedeutenden Einfluß auf die Regierungsstatistik ausübte. {n Belgien ward im Jahre 1841 eine Commission cen- trale de statistique gebildet, deren Seele der belgische Astronom und Statistiker Ad. Quetelet (179% 6—1874) war. In‘ Italien 1) Recherches statistiques sur la Ville de Paris et le Departement de la Seine, Anne 1821, vgl. Knapp, Theorie des Bevölkerungs-Wechsels, 1874, S. 78{ff. ”) Seine Arbeiten sind in einem Sammelwerk aufgenommen: Vital Statistics, A memorial volume of selections from the reports and writings of Will. Farr. Edited by Noel A. Humphreys, 1885. 55 wurde die amtliche Statistik im Jahre 1861 organisiert und seit 1872 von Bodio geleitet. In den nordamerikanischen Freistaaten sam- melte sich das Interesse im wesentlichen um die alle Jahrzehnte abgehaltenen Volkszählungen. Hinsichtlich Skandinaviens kann bemerkt werden, daß Dänemark 1834 eine Tabellenkommission er- hielt, die mit nicht geringem Eifer arbeitete, während 1837 in Nor- wegen ein statistisches Bureau errichtet wurde; Schweden baute be- züglich des Bevölkerungswesens auf dem System des 18. Jahrhunderts weiter, während die Statistik auf anderen Gebieten verschiedenen Organen überlassen war. Eine Schwierigkeit lag darin, daß man für eine Zentralisation der Statistik nur wenig Sorge trug. Schweden ist in dieser Be- ziehung ein Beispiel; in Frankreich gab es, außer dem eigentlichen statistischen Bureau, ein Bureau für Bergwerksstatistik und ein anderes für Rechtsstatistik; wie oben erwähnt, hatte in England die Bevölkerungsstatistik ihr eigenes Zentrum, während das Board of Trade die Handelsstatistik pflegen sollte. Charakteristisch für diese Zeit ist die Gründung statistischer Vereine. Von diesen erlangte die 1834 in London gestiftete sta- tistische Gesellschaft die größte Bedeutung; die American Statistical Association ward 1839 gegründet. Verschiedene Zeitschriften wirkten für die Entwicklung der Statistik. Eine wahre Begeisterung für numerische Tatsachen hatte die gesamte gelehrte Welt ergriffen. Etwas später trat ein anderes Phänomen auf, das in wesent- lichem Grade zur Förderung des Interesses für die Statistik beitrug; es waren dies die internationalen statistischen Kon- gresse, welche der Initiative Quetelets ihre Entstehung verdankten. Der erste dieser Kongresse fand 1853 in Brüssel statt; später folgten eine Reihe anderer, ebenso wie statistische Fragen auch auf anderen Kongressen, z. B. für Hygiene und Demographie, erörtert wurden. 1885 trat in London die internationale statistische Gesellschaft ins Leben (Institut international de statistique), die als Sammelpunkt für statistische Fachinteressen eine bedeutende Rolle gespielt hat. 40. Es versteht sich von selbst, daß man nicht erwarten kann, daß all diese unter solch starker Begeisterung zustande gekommenen Untersuchungen auf rationellen Prinzipien fußten. Ganz im Gegen- teil erschien eine Menge von Arbeiten mit leicht erkauften und schlecht unterbauten Resultaten. Mehrere Verfasser jener Zeit zeichnen sich mehr durch Fruchtbarkeit als durch Gründlichkeit aus. Namentlich bot allmählich die Medizinalstatistik, auf Grund 56 der fehlerhaften bis weit ins 19. Jahrhundert hinein verwendeten Methoden, ein Bild der Verwirrung. Zur Bestimmung der Ein- wirkung des Berufes auf die Sterblichkeit fußte man z. B. auf Be- obachtungen über Patienten eines Hospitals, also auf einem Material, das vollständig aus seinem Zusammenhang mit anderen Verhältnissen gerissen war, oder man zählte die Todesfälle innerhalb eines Er- werbszweiges in den einzelnen Altersgruppen, um dann das Durch- schnittsalter auszurechnen, oder man betrachtete die Altersverteilung in einer Bevölkerungsgruppe, ohne an den Einfluß der Wanderungen oder des Geburtenüberschusses zu denken. Ein großes Zerrbild war das Ergebnis all dieser Untersuchungen, selbst wenn man die gleichen Wege dazu einschlug; bald wurde behauptet, die Statistik zeige, daß Schneider kürzer als Schuster lebten, bald war es umgekehrt; aller- hand Behauptungen entbehrten, wie sich bei späteren rationellen Jntersuchungen herausstellte, denn auch jeglicher Grundlage, so z. B. die Behauptung eines Verfassers, die Lebensdauer der höheren Ge- sellschaftsklassen Englands sei kürzer als die der durchschnittlichen Bevölkerung. Daß man oft mit ganz außerordentlich kleinen Zahlen operierte, machte die Verwirrung vollständig. Erst allmählich glückte es, und namentlich bei der amtlichen englischen Bevölkerungsstatistik, Ordnung in dieses Chaos zu bringen. Es ist eins der Verdienste Will. Farrs, im Anschluß an die Volkszählung Untersuchungen über lie Sterblichkeit innerhalb verschiedener Berufe in Gang gesetzt zu haben. Hierbei ergaben sich gewisse Hauptzüge, während im übrigen zahlreiche Ursachen, auf die man früher sehr viel Gewicht gelegt aatte, als relativ unbedeutend aufgefaßt werden mußten. Bei dem sich so vollziehenden starken Umschwung war es ganz natürlich, daß manche statistischen Verfasser in vorausgefaßten Mei- aungen befangen waren. Man kann sagen: wie die Quantitätstheorien in der Nationalökonomie Verbreitung fanden, so ging es auch in der Statistik. Man hatte oft die Aufmerksamkeit zu sehr auf das Ty- pische, das Feststehende gelenkt, während man das ewig Ver- änderliche im Leben und Treiben der menschlichen Gesellschaft ibersah. Und wenn man mit so großer Begeisterung die inter- nationalen statistischen Kongresse um die Mitte des vorigen Jahr- nunderts begrüßte, so hängt das in einigem Grade mit dieser Auf- fassung zusammen, indem man mehr an die Gleichartigkeit als an die Verschiedenheiten des Zahlenmaterials in den verschiedenen Ländern dachte. Ebenso wie man sich bei einem Studium Süßmilchs ein Bild 537 vom Stande der Statistik um die Mitte des 18. Jahrhunderts zu schaffen vermag, ebenso kann man, ein Jahrhundert vorwärts schreitend, sich an den belgischen Astronom und Statistiker Ad. Quetelet!) halten, welcher eine zentrale Stellung in der Statistik dieser Periode einnahm, wenn er auch hinsichtlich mathematischer Begabung und Schärfe vor Fourier und Laplace zu- rücksteht. 41. Quetelet hat eine vielseitige und fruchtbare schriftstellerische Wirksamkeit entfaltet; Astronomie und Meteorologie haben ihn stark in Anspruch genommen, und er hat eine stattliche Reihe von Ar- beiten über Statistik und Wahrscheinlichkeitsrechnung herausgegeben. Seine Hauptwerke auf den letzterwähnten Gebieten beginnen mit seinen Untersuchungen „über den Menschen“ (Sur lhomme et le developpement de ses facultes, 1835) ?). Später folgen manche andere und zahlreiche Abhandlungen und Notizen. Jedoch bezeichnet diese umfangreiche Produktion nicht fortgesetzte Neuschöpfung. Zum großen Teile hat sich Quetelet in diesen Arbeiten wiederholt. Längere Stücke späterer Arbeiten bestehen oft aus Stellen, welche fast wört- lich früheren Monographien entnommen sind. Die Notizen hat er zu monographischen Abhandlungen gesammelt, und diese dienten wiederum als Grundlage für die größeren Werke. Bereits vor der Veröffentlichung der Schrift „Sur l’homme“ hatte er seine Haupt- theorien entwickelt, und er war nur wenig zur Änderung dieser ge- neigt. Längst veraltete, oft schon zur Zeit des Erscheinens wertlose Schriften werden mit sonderbarer Beharrlichkeit immer aufs neue zitiert. Ein im Jahre 18535 erlittener Schlaganfall, der seine Pro- duktivität ungemein beeinträchtigte, erklärt diesen Stillstand?) zum Teil. Wie ein Jahrhundert vorher Süßmilch, so gibt auch Quetelet seine Hauptgesichtspunkte bereits im Titel seiner Werke. Wie Süßmilch überall in den Lebensäußerungen der Menschheit eine gött- *) Hinsichtlich der Tätigkeit Quetelets kann u. a. auf J. Lottin verwiesen werden: Quetelet, Statisticien et Sociologue, 1912, und auf Frank H. Hankins: Ad. Quetelet as Statistician, 1908, ferner auf Knapp: Bericht über die Schriften Quetelets in Jahrb. f. N. u. St. XVII], 1871, S. 169 u. 343. ’) Im Jahre 1836 erschien ein Nachdruck als Zeugnis von dem Aufsehen, das das Buch erregt hatte, und 1869 eine Neuausgabe unter dem Titel: Physique Sociale. Außerdem mag erwähnt werden: Lettres sur la theorie des probabilites (1846), Du systeme social et les lois qui le regissent (1848) und schließlich Anthro- pometrie ou mesure des differentes faculte&s de l’homme (1871). s) Hankins, a. a. O0. 8. 31. m SS liche Ordnung erkannte, so will Quetelet aus seiner naturwissen- schaftlichen Vorbildung heraus überall physische Gesetze erkennen. Er liebt es überhaupt, seine Bilder und Gleichnisse den Naturwissen- schaften zu entlehnen. Er spricht von einer Physik der Gesell- schaft, von perturbierenden Einflüssen, von einem Schwer- punkte der Gesellschaft, um welchen deren Elemente oszillieren. Solange diese Gleichnisse nur als beredte Darstellungsform aufzufassen sind, ist nichts dagegen einzuwenden; es geht aber Quetelet, wie so vielen anderen in der Geschichte der Sozialwissenschaften, er wird von seinen Vergleichen gefesselt und legt zu viel in sie hinein. Wenn z3r „Sur ’homme“ mit den Worten beginnt: „Die Geburt, die Ent- wicklung und der Tod des Menschen erfolgen nach gewissen Ge- setzen“, dann denkt er sich diese Gesetze als wirkliche Naturgesetze, die nur eines Newton harren, um enthüllt zu werden. Durch perturbierende (zufällige) Einflüsse sollen Veränderungen in den Wir- kungen der natürlichen Ursachen bewirkt werden, z. B. eine Ver- längerung der mittleren Lebensdauer infolge von Verbesserungen der Wohnungs- und Wohlstandsverhältnisse, aber diese Perturbationen sollen bei einer ersten Untersuchung ganz außer Betracht bleiben können. Die Wahrheit dürfte dagegen die sein, daß „das Gesetz der großen Zahlen“ sich sozusagen in lauter perturbierende Ursachen auf- löst, wodurch man auf immer neue Teilungen des Materials hin- gedrängt wird. Die ungeheure Abnahme der Geburtenhäufigkeit in vielen Ländern und die Verlängerung der mittleren Lebensdauer in unseren Tagen sind hierfür beredte Zeugnisse. Nicht nur will Quetelet die statistischen Gesetze auf die ein- zelnen Gruppen der Menschen anwenden, sondern er betrachtet auch das Volk als Individuum innerhalb der ganzen Menschheit und sucht dann Gesetze zu finden, nach welchen die Völker sich ent- wickeln, leben und absterben; um die mittlere Lebensdauer der Staaten zu berechnen, vergleicht er übrigens ganz heterogene Tatsachen und scheut sich nicht, rein mythische Ereignisse zur Bestimmung der diesbezüglichen Zahlen heranzuziehen. N Die naturalistische Auffassung Quetelets erklärt mehrere Äuße- rungen über die Kriminalstatistik: „Es gibt ein Budget, das mit einer schauerlichen Regelmäßigkeit bezahlt wird, nämlich das der Gefängnisse, der Galeeren und Schaffotte.“ „Es gibt eine Abgabe, die der Mensch regelmäßiger bezahlt als diejenige, welche er der Natur oder dem Staatsgesetze entrichtet, es ist diejenige, die er dem Verbrechen zollt.“ Es sei die Gesellschaft, welche die Keime aller 59 Verbrechen berge; „sie ist es gewissermaßen, die diese Verbrechen vorbereitet, und der Schuldige nichts als das Werkzeug, das sie voll- führt.“ Daher solle man die Menschen bessern „durch Verbesserung der gesellschaftlichen Einrichtungen, der Sitten und Gebräuche, durch bessere Aufklärung“ usw.!) Oben ist auf die Übereinstimmung zwischen diesen Bemerkungen des Naturalisten Quetelet und des Theologen Süßmilch hingewiesen worden 2). Wie bemerkt, will Quetelet den Schwerpunkt der Gesellschaft bestimmen, was die Hauptaufgabe der sozialen Physik sein solle. Dieser Schwerpunkt ist der berühmte „Durchschnittsmensch“ (’homme moyen), ein fingiertes Wesen, bei dem alle Vorgänge den für die ganze Gesellschaft anzunehmenden mittleren Ergebnissen ent- sprechen. Solange dieses fingierte Wesen nur als Rechnungseinheit zu betrachten ist, ist dies mit den Grundsätzen der Statistik wohl vereinbar, da sich die Statistik ja beständig mit Durchschnitten be- schäftigt; aber Quetelet läßt sich ständig dazu verleiten, den Durch- schnittsmenschen mit Fleisch und Blut auszustatten. So kann ‚er nicht umhin, in unlösliche Widersprüche zu geraten. Gesetzt z. B. den Fall, daß man bei einer Reihe von Menschen am Körper drei Linien gemessen hat, die ein rechtwinkliges Dreieck bilden, und daß man nun das entsprechende Dreieck beim Durchschnittsmenschen zu bestimmen wünsche, so wird sich in der Regel zeigen, daß diese drei Durchschnitte kein rechtwinkliges Dreieck ergeben. Wenn diese Größen bei den beobachteten Menschen proportional sind, was im allgemeinen nicht der Fall ist, dann wird ein rechtwinkliges Dreieck entstehen, sonst in der Regel nicht. Eine wirkliche Be- deutung für die Physiologie wie für die Kunst wird der Durchschnitts- mensch daher kaum erlangen; nur die einzelnen Durchschnittsgrößen, aber nicht die Verbindungen zwischen ihnen, können als typisch betrachtet werden. Dieser Durchschnittsmensch aber müsse nach Quetelet die ideale Schönheit besitzen, er müsse der Typus sein, nach welchem sozusagen die Natur alle Menschen mit wechselndem Glück gebildet habe; das Studium des Durchschnittsmenschen würde daher große Bedeutung für die Kunst haben. Ein Mensch z. B., dessen Arm nur um !/,o länger als gewöhnlich sei, würde jedermann als mißgestaltet erscheinen. Die Unhaltbarkeit dieser Theorie springt übrigens ins Auge, auch » Vgl. „Sur l’homme“, deutsch von Riecke, 1838, S. 6—7. Siehe auch Oettingen, Die Moralstatistik, 3. Ausg. 1882, S. 23. 30 wenn man ganz davon absieht, daß ein Mensch aus sämtlichen Durchschnittseigenschaften nicht konstruiert werden kann. Ein Durchschnittsprofil würde wahrscheinlich von idealer Schönheit weit antfernt sein; bei der Mehrzahl der Menschen weichen die körper- lichen Eigenschaften nach derselben Seite von der Schönheit ab ‘runde Schultern, flacher Brustkasten, Warzen und Gewächse }). Wie der physische Durchschnittsmensch für Quetelet das Schön- heitsideal darstellte, so war der moralische Durchschnittsmensch [nhaber der idealen geistigen Kraft und repräsentierte das Ideal des Guten, trotz seines mittleren Hanges zum Verbrechen. Der Durch- schnittsmensch ist nach ihm von allen leidenschaftlichen Exzessen gleich weit entfernt, stellt also den goldenen Mittelweg dar (Systeme social, S. 273). Übrigens ist Quetelet in diesem Punkte oberflächlich; eine eigentliche Beweisführung sucht man vergeblich. Jener Durch- schnittsmensch, welcher in sich alle Eigenschaften eines Volkes vereinigt, wird zugleich ein „homme superieur“; er ist der Schwer- punkt, um den sich das ganze System bewegt (Systeme social S. 281). 12. Der Standpunkt Quetelets tritt auch deutlich in seiner Auf- fassung des Typischen zutage. Er glaubte, der Typus sei im ganzen konstant. Der Schönheitstypus solle keinen größeren Ver- änderungen unterliegen; nur die Grenzen der Abweichungen vom Durchschnitt würden unter günstigen Verhältnissen enger, wodurch lie Zahl der schönen Menschen also wachsen würde. Die Sterb- lichkeit war seiner Auffassung nach ebenfalls im wesentlichen die- selbe wie im Altertum. Wenn auch die Kunst der Ärzte. an ein- zelnen Punkten siege, werde dies nur den Reichen zugute kommen, während die Armen dafür um so kürzere Zeit zu leben hätten. Er stellt sich hier also auf denselben Standpunkt, den früher Malthus und J. B. Say vertraten. Im übrigen hatte er nur wenig Material für statistische Untersuchungen über die Bewegung der Sterblichkeit zur Verfügung. Er glaubt, einen Beweis für obige Behauptung in ler Zusammenstellung des Todesalters von 60 berühmten Männern aus verschiedenen Zeitaltern zu finden; weil 5 dieser großen Männer im Alter von 35 bis 40 Jahren starben, schloß er, daß dieses Alter für Menschen mit zu wirksamer KEinbildungskraft gefährlich sei ‘yeritablement fatal, Anthropometrie S. 380 f£.). Auf die Unzulänglich- ‘) Vgl. Held, Adam Smith und Quetelet, Jahrb. f. Nat. u. Stat., IX, 1867, S, 276. Siehe auch Westergaard, Teorien om Gennemspitsmennesket in Nor- disk Tidsskrift, 1884, ferner Axel Holck, Quetelet og Kunsten in National- dkonomisk Forenings Festskrift, 1897. 61 keit solcher Beweisführung braucht heute, wo man über weit bessere Beobachtungen verfügt, nicht hingewiesen zu werden. Die Sterblichkeits- und Trauungsquotienten sollen nach Quetelet als typische Eigenschaften des Durchschnittsmenschen zu betrachten sein. Eine einfache Probe wird uns zeigen, daß dieses keineswegs zutrifft. Wenn man z. B. für eine Periode die Heiratswahrschein- lichkeit für beide Geschlechter und die einzelnen Altersklassen be- rechnet hat, kann man auf dieser Grundlage für ein einzelnes Jahr ein „Budget“ der Eheschließungen aufstellen. Es wird sich dann in der Regel, auf Grund der fortwährenden Verschiebungen inner- halb der Bevölkerung, zeigen, daß sich die Zahl der Trauungen ver- schieden ergibt, je nachdem man die Zahl der Bräute oder der Bräutigame berechnet. Es müssen sich also notwendigerweise die Wahrscheinlichkeitswerte mit den Verschiebungen innerhalb der Bevölkerung ändern; lägen feste, unveränderliche Naturgesetze vor, würden solche Verschiebungen nicht denkbar sein. Übrigens ist schon deshalb die Theorie des Durchschnittsmenschen nicht anwendbar, weil eine Verhältniszahl wie der Sterblichkeits- quotient überhaupt nicht als Eigenschaft eines einzelnen Menschen betrachtet werden kann. Beträgt die Sterblichkeit 2 Proz. der Be- völkerung, so besagt dies nur soviel, daß unter 100 zwei sterben werden; von 100 Durchschnittsmenschen, welche also alle genau dieselben Eigenschaften hätten, würden aber alle gleichzeitig vom Tode betroffen werden oder alle am Leben bleiben. Unklar ist auch der Queteletsche Begriff einer tendance au mariage. In Wirklichkeit ist die Heiratsfrequenz ein kombinierter Ausdruck, ein Ausdruck nämlich sowohl für die Häufigkeit des Sieges der Menschen über die sich der Verehelichung entgegen- stellenden Schwierigkeiten als auch für den Wunsch, verheiratet zu werden. Quetelet unterscheidet allerdings eine scheinbare von einer wirklichen Zuneigung zur Ehe (Systeme social, S. 77 ff.); man könne zur Ehe geneigt sein, ohne jemals verheiratet zu werden, ebenso wie ein Spieler, trotz guter Chancen zu gewinnen, doch ständig verlieren kann. Wenn man mit großen Zahlen operierte, würde sich jedoch, wie er meint, der Unterschied ausgleichen; kurz und gut, er hat für den eigentlichen Kern der Sache kein Auge gehabt. 43. Auf dem Gebiete des rein Physischen, wo es sich um die Anthropometrie handelte, dürften die Verdienste Quetelets am unbestreitbarsten sein. Hier hat er interessante und anregende 62 Untersuchungen angestellt und hat die Anwendbarkeit der Wahr- scheinlichkeitsrechnung auf diese Disziplin, namentlich in bezug auf die Körpergröße, erkannt. Allerdings verleitete ihn seine Grund- anschauung auch hier zur Überschätzung der Ergebnisse; ganz natürlich glaubte er, ein physiologisches Gesetz für das Wachstum des Menschen gefunden zu haben, wo es sich auf jeden Fall zum Teil um die Wirkungen einer Auswahl handeln könnte. Gesetzt den Fall, man habe direkte Messungen an einer großen Zahl von Indi- viduen in verschiedenen Altersklassen vorgenommen und es ergebe sich dann z. B., daß die durchschnittliche Größe erst ihr Maximum im Alter von 25—30 Jahre erreicht und nach Erreichung des 50. Lebensjahres abzunehmen beginnt, welche Bedeutung hat dann liese Tatsache? Es liegt anscheinend die Möglichkeit vor, daß z. B. ler Tod eine Anzahl schwächlicher Personen unter Normalgröße im Alter zwischen 20 und 30 Jahren hingerafft hat. Bevor man ıntersucht hat, ob die Körpergröße der Verstorbenen der der Lebenden sntspricht oder ob sie wenigstens ohne nennenswerten Einfluß auf las Gleichmaß ist, kann von einem physiologischen Gesetz für das. Wachstum keine Rede sein. Anders, wenn man einer Anzahl Per- sonen von der Wiege bis zum Grabe folgen könnte, anstatt wie hier für jede neue Altersklasse eine neue Anzahl Individuen zu nehmen. Geringere Bedeutung hat Quetelet für die Entwicklung der Sterblichkeitsstatistik gehabt. Teils lag ihm auch hier zu sehr das Typische im Sinne, als daß er auf die vielen Abweichungen vom Durchschnitt hätte aufmerksam werden können, teils stand er zu sehr im Banne schon damals veralteter Methoden. Die außer- ordentliche Beweglichkeit der Bevölkerung, die höchst ungleiche Zusammensetzung nach Gesellschaftsschichten usw. scheinen ihm verborgen geblieben zu sein. Oft begnügt sich Quetelet auch mit summarischen Sterblichkeitsquotienten, wo die verschiedene Alters- verteilung unzweifelhaft einen Einfluß ausüben mußte. In dem Werke „Sur ”’homme“ beschäftigt er sich ausführlich mit dem Gleichgewicht der beiden Geschlechter, bezüg- lich dessen Hofacker in Deutschland und Sadler in England ihre Hypothese aufgestellt hatten. Hiernach solle das Alter der Eltern in der Weise eine Rolle spielen, daß, wenn der Mann älter sei als die Frau, mehr Knaben als Mädchen geboren würden, und umgekehrt. Wenn also z. B. in Kriegszeiten die Reihe der Männer gelichtet werde und nur verhältnismäßig wenig junge Männer er- 55 halten blieben, würde die Natur durch Mehrung der Knabengeburten das Gleichgewicht der Geschlechter wiederherstellen; und ent- sprechend würde die Natur beim Mangel an jungen Frauen aus- gleichend wirken. Es glückte Quetelet jedoch nicht, das entscheidende Wort zu sprechen, da er nicht die Kriterien der Wahrscheinlich- keitsrechnung anwendete; er bedauert nur im allgemeinen den ge- ringen Umfang des Materials. 44. Quetelet interessierte sich sehr für die sogenannte Moral- statistik; dieser Ausdruck ist zuerst von A. M. Guerry in seinem Essai sur la statistique morale de la France, 1833, angewandt worden. Wie die politischen Arithmetiker des 18. Jahrhunderts hatte auch Quetelet die große Regelmäßigkeit auf diesem Gebiete vor Augen. Er behauptete sogar, daß Ereignisse, welche vom menschlichen Willen abhängig seien, regelmäßiger eintreffen würden als solche, die aus- schließlich physischen Ursachen zuzuschreiben seien. Der Weise werde in allen seinen Handlungen sehr wenig vom Durchschnitt abweichen; nur bei Menschen, die blind ihren Leidenschaften folgen, könnten unberechenbare Abweichungen vom Durchschnitt vor- kommen. Je mehr die menschliche Willensfreiheit herrsche, desto regelmäßiger müßten sich die Ereignisse gestalten und desto enger werde der Spielraum der zufälligen Ursachen. Quetelet hat jedoch nie untersucht, ob die moralstatistischen Beobachtungen diese Theorie bestätigen. Als er zum ersten Mal die Lehre vom Budget der Ge- fängnisse und Galeeren aufstellte, hatte er nur die Erfahrungen dreier Jahre zu Gebote, und als „Sur l’homme“ erschien, erstreckte sich sein — übrigens nicht einmal gleichartiges — Material nur über 6 Jahre. Wenn Quetelet mit Hilfe der Wahrscheinlichkeits- rechnung seine Theorien einer erfahrungsmäßigen Prüfung unter- worfen hätte, würde er selbst die Unrichtigkeit vieler seiner Be- hauptungen erkannt haben. Wie er eine tendance au mariage berechnen wollte, so hat er auch eine Theorie von einem Hang zum Verbrechen (pen- chant au crime) aufgestellt. Er sucht die Laufbahn des Verbrechers zu beschreiben. Der Hang zum Diebstahl solle sich in frühem Alter durch Diebstahl im Heime, später durch Diebstahl anderswo be- kunden, bis er, genährt durch den Drang des Verbrechers danach, seine Manneskraft zu erproben, in Gewalttätigkeit und Mord auf offener Straße ausartet, während die letzte Stufe der Verbrecher- laufbahn sich durch Hinterlist kennzeichne, welche gewissermaßen an die Stelle der physischen Kraft trete, indem der Verbrecher als 64 Fälscher auftrete und seine Feinde im Dunkeln zu treffen suche usw. Erst seit der modernen Entwicklung der Kriminalstatistik, die heutzu- tage über zahlreiche Individualbeobachtungen verfügt, war man dazu imstande zu untersuchen, in welchem Umfang dieselben Personen, die in ihrer Jugend Diebstahl begangen haben, sich später als Fälscher oder Meuchelmörder erwiesen haben. Auf ähnlicher Stufe Jlürften Quetelets Betrachtungen über die mit dem Alter {fort- schreitende Entwicklung poetischer Begabung stehen. 45. Daß dieser interessante Verfasser so ausführlich gewürdigt wurde, liegt darin, daß er überhaupt ein getreues Abbild seiner Zeit ist; viele seiner Fachgenossen standen entweder unter seinem Ein- {[lusse, oder sie waren selbständig zur gleichen Anschauung gelangt. Seine naturalistische Statistik hatte etwas Blendendes und verschaffte ihm viele Anhänger, So war der englische Geschichtsschreiber Buckle von diesen Ideen ergriffen, und Ad. Wagner bekannte sich in seiner Jugendschrift: Die Gesetzmäßigkeit in den scheinbar willkürlichen menschlichen Handlungen (1864) zu dem Dogma der großen Regelmäßigkeit. Er denkt sich ein Märchenland (a. a. O. 3. 44 ff.), in welchem für jedes Jahr im voraus gesetzlich festgelegt wird, „wie viele Paare heirathen dürfen, welche Altersclassen unter einander heirathen, wie viel junge Mädchen alte Männer ... be- zommen ... Das Loos bestimmt alsdann unter den einzelnen Ge- schlechtern, Alters-, Civilstands- Berufsclassen, die Einzelnen in der gesetzlichen Zahl, welche sich heirathen sollen. Ein anderes Gesetz der Staatsgewalt normiert im Voraus die Zahl derjenigen Personen, welche ihrem Leben in dem nächsten Jahre durch Selbst- mord ein Ende zu machen haben ... Ein drittes Gesetz . . . setzt in ähnlicher Weise fest, wie viele und welche Verbrechen im nächsten Jahre begangen werden sollen... und auch hier entscheidet dann das Loos wieder über den Einzelnen . .., welcher das Verbrechen zu begehen und dafür zu leiden hat... Am Schlusse jedes Jahres .. findet sich ..., daß die Gesetze in der vorgeschriebenen Weise erfüllt wurden, zwar sind mitunter ganz kleine Abweichungen Vor- gekommen ..., aber das wird dadurch wieder gutgemacht, daß in dem ‚Budget der vorzunehmenden Handlungen‘ für das nächste Jahr das Plus oder Minus auf die nächste Jahresrechnung übertragen... wird ...“ Diese merkwürdige Ordnung vollzieht sich nun von selbst in der heutigen Gesellschaft, infolge der natürlichen Organi- sation derselben, mit einer Regelmäßigkeit, „welche wir nirgends bei der Befolgung eines menschlichen Gesetzes beobachten“, es ist 65 „ein dem Einzelnen unfühlbares Gesetz der Natur zur Ausführung gelangt.“ Man kann vielleicht sagen, daß in gewisser Beziehung die anthropologisch-kriminalistische Schule, die namentlich in Italien Anhänger hatte, das Erbe Quetelets angetreten hat. Nicht zum mindesten gilt dies von Lombroso (1836—1909) mit seinem Werk L’uomo delinquente (1871—1876). Er sucht zu zeigen, daß das Ver- brechen als „notwendige Naturerscheinung“ zu betrachten ist, daß der Verbrecher gewisse „typische Rasseneigentümlichkeiten“ hat, die an den Mongolen erinnern und sich morphologisch im Schädel- und Gesichtsbau, im Haarwuchs usw. aussprechen. Diese Theorien wurden einer im ganzen beistimmenden Kritik von Ferri unter- worfen, welcher namentlich zu beweisen suchte, daß die vielen Merk- male, welche Lombroso sämtlichen Verbrechern zugeschrieben hatte, nur einzelnen Gruppen derselben, wie Räubern und Raubmördern, zukämen. Diese naturalistische Schule verneint die Willensfreiheit und betrachtet die Auffassung der positiven Philosophie über diese Frage als durch die Statistik bestätigt. Das Strafrecht wird dann einfach als eine „notwendige Konsequenz des der menschlichen Gesellschaft zustehenden Rechtes der Selbstbehauptung“ begründet, und das Schwer- gewicht muß auf vorbeugende Maßregeln, wie die Bekämpfung der Trunksucht, die Überwachung der Prostitution und den Schutz der Arbeiter, gelegt werden. Als Statistiker waren die Mitglieder dieser Schule im wesent- lichen nur Dilettanten. Lombrosos anthropologisches Material hat wegen des ihm fehlenden statistischen Verständnisses oft nur geringe Beweiskraft. Die Zahlen sind vielfach so klein, daß die Kriterien der Wahrscheinlichkeitsrechnung keine Anwendung finden können. Lombroso teilt z. B. die Ergebnisse einer Untersuchung über 50 Sträf- linge mit, welche bei 8 Proz. (also im ganzen 4 Individuen) Stra- bismus, bei 1 Proz. flache Stirn ergabl). Seine statistischen Be- trachtungen über die Vitalität der Sträflinge waren völlig wertlos. Die naturalistische Auffassung begegnete lebhaftem Widerstande, nicht zum mindesten von seiten deutscher Statistiker. Zu diesen gehörte der Theologe Alex v. Oettingen, dessen großes Werk „Die Moralstatistik“?) oben genannt wurde und als Kompendium ') Vgl. die französische Ausgabe des L’uomo delinquente: L’homme erimi- nel, 1887, S. 320 ff. °) Erste Ausgabe 1868 —1873, die dritte 1882. Westergaard und Nybolle, Theorie der Statistik, 2. Aulfl. 66 der ganzen diesbezüglichen Literatur fast eine ähnliche Rolle spielt wie Süßmilchs „Göttliche Ordnung“. Oettingen, der aus der Moral- statistik statt einer Sozialphysik eine Sozialethik entwickeln will, betrachtet den Menschen als persönlich freies Wesen, welches aber zugleich als Glied der Gesellschaft an dem „geistig sittlichen Ge- meinleben“ teilnimmt und unter dem Einflusse „geistig wie sittlich hemmender oder fördernder Kulturmächte“ !) steht. Trotz aller An- strengung, wirklichkeitsgetreue Resultate zu erreichen, gelang ihm lies nicht immer, und daran war die Unvollkommenheit seiner Me- ;hoden schuld. Besonders ums Jahr 1870 wurde die Frage der Willensfreiheit im Lichte der Statistik lebhaft diskutiert, ohne daß ibrigens eine endgültige Abklärung dieses Problems gelang ?%). 46. Außer den genannten Richtungen könnte man auch von ainer soziologischen Behandlung der statistischen Beobachtungen reden und als Vertreter hierfür G. v. Mayr nennen, der in seinem 1895 begonnenen Werk „Statistik und Gesellschaftslehre“ mit un- geheurem Fleiß das gesamte statistische Wissen unserer Zeit zu sammeln und zu beherrschen verstand. Zahlreiche deutsche Statistiker naben sich um ihn gesammelt®. Unter demselben Gesichtswinkel wie Mayr und seine Schüler kann der Norweger Eilert Sundt “1817—1875) betrachtet werden, dessen recht umfangreiche und eigenartige Produktion erheblich früher als Mayrs Werk vorlag. Dieses soziologische Interesse hat auch die vielen Untersuchungen beherrscht, durch die man in unseren Tagen die statistischen Beob- achtungen entschwundener Zeiten gesammelt und bearbeitet hat, ein Material, das in den verschiedenen Archiven zu finden ist, aber früher zum großen Teil nicht zugänglich war. Das gilt nicht nur von Studien der Bevölkerungsverhältnisse, wodurch unser Wissen über diese Frage bedeutend erweitert wurde, sondern auch von Ge- bieten ökonomischer und sozialer Natur (Löhne, Preise, Landwirt- schaft usw.), so daß ein bedeutendes Material zur Beleuchtung des konomischen und sozialen Lebens früherer Jahrhunderte zuwege zebracht worden ist. Während der letzten Jahrzehnte hat die amtliche Statistik ungemein große Fortschritte gemacht, so daß die Statistiker jetzt viel festeren Boden unter den Füßen haben als seinerzeit Quetelet, ‘') a. a. O. 3. Ausg., S. 39. *) Kaufmann, Theorien und Methoden der Statistik, Jena 1913, S. 161. ’) Vgl. z. B. die von Fr. Zahn redigierte Festschrift zu v. Mayrs 70. Geburts- ‚age: Die Statistik in Deutschland (1911). 67 und seine Zeitgenossen. Die statistischen Bureaus der verschiedenen Länder sowie andere statistische Institutionen arbeiteten mit stets größerem Zielbewußtsein an der Beschaffung möglichst genauen und klaren Tatsachenmaterials, gestützt durch eine hochentwickelte Technik (elektrische Zählmaschinen, Rechenmaschinen usw.), und durch das wachsende Zutrauen der Bevölkerung zum Statistiker, Nicht unwesentlich trugen die kommunal-statistischen Bu- reaus, die hier und dort errichtet wurden und an denen einige der bekanntesten Statistiker wirkten, zu dieser Entwicklung bei. Die Be- wegung zur Errichtung solcher Lokalbureaus stammt hauptsächlich aus den 60er Jahren. Als eins der hervorragendsten mag das im Jahre 1862 in Berlin errichtete Bureau (seit 1882 das statistische Amt der Stadt Berlin) erwähnt werden. Auch die Entwicklung der Arbeiterstatistik verdient eine Erwähnung; sie wurde gefördert teils durch neue Abteilungen der statistischen Bureaus, teils durch selbständige Institutionen wie das im Jahre 1869 in Massachusetts errichtete Bureau of Labor, das in der ganzen Union viele Nachahmungen fand. 17. Die internationalen Bestrebungen zur gemeinsamen Bearbeitung einzelner Aufgaben können ebenfalls in diesem Zu- sammenhang berührt werden. Eine Zeitlang mußte hier auf Grund des Weltkrieges die Arbeit ruhen, sie hat aber jetzt wieder aufge- nommen werden können, teils im Anschluß an den Völkerbund in Genf (z. B. eine Health Section), teils auch unabhängig von diesem; so ist 1905 das internationale Landwirtschaftsinstitut in Rom ge- stiftet worden, und als Ableger der internationalen statistischen Gesellschaft ist im Jahre 1913 das internationale statistische Bureau mit Sitz im Haag ins Leben getreten. Es würde sehr schwer sein, die Fortschritte auf dem Gebiete der amtlichen Statistik im einzelnen geschichtlich zu be- leuchten, und besonders schwierig wäre es, die Schilderung mit be- stimmten Namen zu verknüpfen. Viele der verdienstvollsten Arbeiten innerhalb der amtlichen Statistik sind anonym, so daß es nicht leicht sein würde, den Anteil der einzelnen Verfasser an dem Fortschritte anzugeben. Man kann jedoch unleugbar ein ständig wachsendes Be- streben nach Feststellung der Fehlerquellen und nach Beschaffung möglichst klaren und unzweideutigen Materials bemerken. Damit ist hinsichtlich der Sterblichkeitsstatistik die frühere Unsicherheit zum großen Teil verschwunden und nicht zum mindesten hinsichtlich der Sterblichkeit nach Erwerbszweigen. Auch die Kriminalstatistik 68 hat große Fortschritte gemacht, namentlich seitdem man hier und Jort auf die Behandlung der Einzelfälle gekommen war und so ge- rade zur Klärung der Frage des Rückfalls beitrug. Die Wirtschafts- statistik, die erhebliche Schwierigkeiten zu überwinden hatte, Jarf ebenfalls als durchaus fortschrittlich bezeichnet werden. 48. Ohne Kampf sind diese Resultate nicht erreicht worden. Man kann sozusagen die Geschichte der Statistik an dem Zutrauen verfolgen, welches mehrere Generationen den Volkszählungen als brauchbarem Mittel zur Erforschung der Bevölkerungsverhältnisse zollten. Bei den politischen Arithmetikern des 18. Jahrhunderts ge- nossen sie dies, wie erwähnt, oft nur in geringem Maße, und noch im 19. Jahrhundert begegnet man sehr kräftig bekundetem Miß- trauen. Wo es die Aufstellung einer Sterbetafel galt, suchte man oft die Volkszählungen zu umgehen. Hermann, der, ‚wie ben gesagt, eine Reihe von Jahre hindurch die bayerische Statistik leitete, wollte eine Sterbetafel in der Weise anfertigen, daß er Jahr für Jahr eine Generation von der Wiege bis zum Grabe behandelte wobei er auf Geburten und Todesfälle aufbaute und zur Berichti- zung die Militäraushebungen mit in Betracht zog. Kin interessanter Versuch, die Militäraushebungen zur Verbesserung des Beob- achtungsmaterials zu benutzen, wurde 1838—1839 in Frankreich von Demonferrand unternommen. Ein belgischer Mathematiker suchte auf Grundlage von Sterbelisten für Belgien für die Zeit von 1841—1850 eine Sterbetafel zu berechnen, indem er einen gewissen Bevölkerungszuwachs voraussetzte. Bei der Wahl eines solchen konnte man natürlich verschiedene Wege gehen. Es muß sehr schwer gewesen sein, diese Verhältnisse klar zu durchdenken; denn ain zweiter Belgier, der Statistiker Heuschling, wollte ganz einfach den Geburtenüberschuß dadurch berücksichtigen, daß er ihn pro rata auf die Todesfälle innerhalb der einzelnen Altersgruppen verteilte, Er sah nicht, daß er bei Benutzung der so gefundenen Zahlen für die Berechnung einer Dekrementtafel zu genau denselben Resultaten gelangte, wie wenn er gar nicht diese pro rata-Berechnung Vvorge- nommen hätte. Daß Heuschling auf diesen Denkfehler nicht aufmerksam wurde, liegt jedenfalls wohl daran, daß er bei seiner Berechnung vom Li. Lebensjahr absah; in der folgenden Diskussion (1854), an der sich auch Quetelet beteiligte, war Heuschling der Unterlegene, und zwar nicht ohne Bitterkeit, da er namentlich einen seiner Gegner des Plagiats beschuldigte. Mittlerweile siegte die Volkszählung in der amtlichen Statistik. 69 Will. Farr berechnete im Jahre 1843 eine Sterbetafel für England und Wales auf Grundlage von Todesfällen des Jahres 1841 und der Volkszählung des gleichen Jahres. Später folgte eine Tafel, welche auf den Sterblichkeitserfahrungen der Jahre 1838—1844 fußte, und 1864 endlich erschien in einem stattlichen Band Life Table Nr. 3 mit zahlreichen Formeln und Hilfstafeln; durch diese Formeln und Tafeln hoffte er seine Arbeit für Zwecke der Lebensversicherung verwendet zu sehen, doch vergebens. Diese Tafel gründete sich auf Todesfälle während der 17 Jahre von 1838—1854 und auf die Volks- zählungen der Jahre 1841 und 1851. In Dänemark behandelte E. Fenger mit Umsicht die Sterblichkeit in Dänemark von 1835 bis 1839; er benutzte hierbei die Volkszählungen der Jahre 1834 und 1840. Die Zeit war jetzt auch reif für eine theoretische Behandlung Jer Fragen, die durch die Volkszahl und ihre Verschiebungen auf- geworfen wurden. Namentlich in Deutschland machte man Fort- schritte; hier können mehrere zwischen 1868 und 1875 erschienene Arbeiten von G. F, Knapp, G. Zeuner und W. Lexis hervorge- hoben werden; die beiden letztgenannten Forscher benutzten mit Vorteil stereometrische Darstellungsmethoden. KEin praktisches Er- gebnis dieser Bestrebungen, einen Einblick in die Bewegungen der Bevölkerung zu gewinnen, war namentlich die in betreff der Kinder- sterblichkeit gewonnene Klarheit. Wenn jedes Kind, welches stirbt, mit Alter, Geburts- und Todesjahr registriert wird, sind rationelle Berechnungen der Lebensaussichten, von Wanderungen und Ver- schiebungen von einer Gesellschaftsklasse zur anderen abgesehen, möglich. 49. Hand in Hand nun mit der großen Entwicklung innerhalb der amtlichen Statistik gingen die Bestrebungen, welche von seiten der Lebensversicherungsgesellschaften namentlich zur Beschaffung zuverlässiger Sterbetafeln entfaltet wurden. Diese Ge- sellschaften werden gewöhnlich nicht über ein so großes Beob- achtungsmaterial verfügen können wie die amtliche Statistik; was jedoch an Umfang fehlte, das ersetzten Gleichartigkeit und Ge- nauigkeit, da die Gesellschaften mit Hilfe ihrer Bücher jeden ein- zelnen Versicherten genau vom Augenblick seines Eintritts an bis zu seinem Austritt oder Tod beobachten können. Unter Anwendung stets feinerer Technik wurde dieses Material für eine Reihe von Sterblichkeitsuntersuchungen benutzt, die von großer Bedeutung für das Lebensversicherungswesen wurden. 1829 gab John Finlaison 70 einen offiziellen Bericht über die an Staatsleibrentenempfängern in England gewonnenen Sterblichkeitserfahrungen heraus; einige Jahre später folgte ein Bericht der alten englischen Lebensversicherungs- gesellschaft Equitable, und 1843 erschien eine 17 englische Lebensversicherungsgesellschaften umfassende gemeinsame Sterblich- keitsuntersuchung. Damit war man einen großen Schritt vorwärts gekommen. Ein Problem, welches man damals nur streifen konnte, das aber bei späteren Untersuchungen eine Hauptrolle gespielt hat, war die Bestimmung des Einflusses, den die Dauer der Versicherung auf die Sterblichkeit hat; vor allem galt es, die Sterb- lichkeit kurz nach Abschluß der Versicherung zu finden. Jetzt folgte eine Reihe von Untersuchungen, so ein gemeinsamer Bericht, welcher 1899—1903 herauskam und auf den Erfahrungen englischer Gesellschaften von 1863—1893 beruhte: 1883 erschien eine ent- sprechende Untersuchung in Deutschland, die mehreren deutschen Gesellschaften ihre Entstehung verdankte. Gleichzeitig bearbeiteten auch viele einzelne Versicherungsgesellschaften selbständig ihre Er- fahrungen, so die angesehene Gothaer Lebensversicherungsbank. Man hatte bei diesen Untersuchungen besonders den normalen Lebensverlauf vor Augen; jedoch verfolgten unter anderem die skandinavischen Gesellschaften nach einem im Jahre 1898 gefaßten Beschlusse die Aufgabe, die Sterblichkeit für den unter dem Durchschnitt liegenden Lebensablauf zu bestimmen. Etwas ähnliches gilt hinsichtlich der im Jahre 1903 von 34 amerikanischen Lebensversicherungsgesellschaften herausgegebenen Massenuntersu- chung, die allerdings nicht als ganz geglückt bezeichnet werden kann. 1912—1914 wurde ein nordamerikanischer Allgemeinbericht (Medico - Actuarial Mortality Investigation) vom Standpunkte der Versicherungsärzte aus abgegeben. Ein Problem, das besonders bei der Berechnung von Sterbe- jafeln Bedeutung erhielt, war die Ausgleichung; damit befaßten sich viele Mathematiker, die auf die bestmögliche Art und Weise zufällige Unebenheiten zu beseitigen suchten, um so ein wahrheits- getreueres Bild der tatsächlichen Verhältnisse zu gewinnen. Auf Jiesem Gebiete haben sich die dänischen Mathematiker Opper- mann, Thiele und Gram bedeutende Verdienste erworben. Thiele hat u. a. auf die Sterbetafeln der skandinavischen Lebensversicherungs- yesellschaften das Ausgleichsverfahren angewandt. Auch K. Pear- son und seine Schüler haben sich mit dem Ausgleichungsproblem beschäftigt. 71 Damit waren jedoch die statistischen Aufgaben des Versiche- rungswesens keineswegs erschöpft. In England hatte schon im 18. Jahrhundert das Krankenkassenwesen Bedeutung erlangt, und der Philosoph Richard Price hatte einen interessanten Ver- such unternommen, die Abhängigkeit der Kränklichkeit vom Alter festzustellen, indem er diese in ein gewisses Verhältnis zur Sterb- lichkeit setzte. Das 19. Jahrhundert brachte nun eine Reihe inter- essanter Ergebnisse, z. B. mehrere Berichte des großen Kranken- kassenordens The Manchester Unity of Odd Fellows, und eine vom Staatskontor für die englischen Friendly Societies bearbeitete Krankenkassenstatistik. In Deutschland erschien 1910 ein ausführ- licher Bericht über die Krankheits- und Sterblichkeitsverhältnisse der Ortskrankenkasse für Leipzig und Umgegend. Das Material zum Studium der Invaliditätsstatistik ist namentlich Deutschen zu verdanken. Die erste Grundlage für diese Art Untersuchungen gaben Beobachtungen über das Personal der deutschen Eisenbahnverwaltung ab; die ersten Resultate erschienen im Jahre 1876, später folgten Untersuchungen über Bergarbeiter und in diesem Jahrhundert endlich offizielle Mitteilungen über die deutsche Alters- und Invaliditätsversicherung. Der Medizinalstatistik hafteten lange bedeutende Mängel an; oft waren die Verfasser dazu unfähig, das bunte und gewöhn- lich bruchstückartige Material der Krankheits- und Todesursachen- statistik mit erforderlicher Kritik zu sichten und zu bearbeiten. In dieser Beziehung aber hat das 20. Jahrhundert einen wesentlichen Fortschritt gebracht, indem viele der Verfasser jetzt bestrebt sind, die Fallgruben, in denen ihre Vorgänger vielfach verunglückten, zu vermeiden und andererseits die Hilfsmittel, welche ihnen die Theorie der Statistik darbietet, zu benutzen. 50. Ein Mangel war es, daß lange nur eine geringe Verbindung zwischen den Pflegern der Wahrscheinlichkeitsrechnung und den Vertretern der praktischen Statistik bestand. Oben wurde erwähnt, daß die Wahrscheinlichkeitsrechnung schon zu An- fang des vorigen Jahrhunderts eine hohe Entwicklungsstufe erreicht hatte. Eine Vervollständigung der Wahrscheinlichkeitsrechnung ver- dankt man Poisson mit seinem früher genannten Buche: Recherches sur la probabilite des jugements, 1837. Nunmehr wurde es möglich, die zufälligen Abweichungen von den gefundenen statistischen Werten zu beurteilen unter der Voraussetzung, die man allerdings viel später erst gründlich untersuchte, daß sich die Beobachtungen im 72 großen und ganzen nach der Theorie der Wahrscheinlichkeitsrech- 1ung richteten. Mit der Behandlung der Aufgabe durch Poisson bekam man z. B. ein einfaches Mittel zur Lösung der Frage in die Hand, inwieweit zwei Berufszweige, von denen man Mitgliederzahl und Zahl der Todesfälle kennt, einen typischen Unterschied hin- sichtlich der Sterblichkeit aufweisen. Damals aber konnte man noch kaum an die Anwendung solcher Formeln denken. Ein einzelner Statistiker, Gavarret, welcher im Jahre 1840 eine Medizinal- statistik herausgab*!), suchte zwar die Hauptsätze der Wahrschein- lichkeitsrechnung populär darzustellen, wobei er Beispiele einer Be- weisführung für ihre Verwendbarkeit in der Statistik gab; dieser Versuch wurde jedoch kaum beachtet, und einige Jahre später suchte ein Verfasser im Journal of Statistical Society zu beweisen, daß „die Formeln des Mathematikers“ nur eine sehr beschränkte Ver- wendung in der Statistik finden könnten. Die in der Praxis stehenden Statistiker dieser Periode begnügten sich damit, höchstens mit einigermaßen großen Zahlen zu rechnen, in der Hoffnung, daß „das Gesetz der großen Zahl“ auf diese Weise ganz von selbst zur Geltung kommen werde, und nicht zum mindesten schien man in England die betreffenden Resultate zu ignorieren. Dennoch aber war gerade England dasjenige Land, wo solche Untersuchungen gegen Ende des Jahrhunderts zu Ehren und An- sehen gelangen sollten. Bereits im Jahre 1872 hatte Woolhouse in einer lesenswerten Abhandlung (On the Philosophy of Statistics, Ass. Mag. XVII, 1872) seine Vertrautheit mit der Frage gezeigt. Im folgenden Jahrzehnt trat Edgeworth (1845—1926) für die Benutzung der Wahrscheinlichkeitsrechnung?) in die Schranken. Damit war eine entscheidende Wendung in der englischen statisti- schen Literatur eingetreten, wovon namentlich das Journal of the Royal Statistical Society Zeugnis ablegt. In Deutschland gab W. Lexis 1877 einen gewichtigen Beitrag, besonders durch die Beleuchtung der Abweichung im Verhältnis zwischen Knaben- und Mädchengeburten, womit er unmittelbar eine Verbindung zwischen den Erfahrungen und der Wahrscheinlichkeitsrechnung herstellte 3). Das Erblichkeitsproblem gab, namentlich in England, zu tiefgehenden statistischen Untersuchungen Veranlassung. Mit großem Eifer war diese Frage von Francis Galton (1822—1911), dem ') Prineipes generaux de statistique medicale. ?) Methods of Statistics. Jubilee Vol. of the Stat. Society, 1885. ) Zur Theorie der Massenerscheinungen in der menschlichen Gesellschaft. 73 Vetter Ch. Darwins, ‘behandelt worden, welcher am Mathematiker Karl Pearson einen tatkräftigen Mitarbeiter hatte. Pearson gründete in Verbindung mit Galton die Zeitschrift „Biometrika“, die 1901 als Sammelpunkt für Erörterungen über diese Art Fragen zum erstenmal erschien. 1884 hatte Galton ein anthropometrisches Laboratorium gegründet, später eine „Research Fellowship“ in „Natio- nal Eugenics“ zu London; und 1907 trat „The Francis Galton Eugenic Laboratory“ in Tätigkeit. Galtons testamentarische Dispositionen ermöglichten eine Erweiterung dieser Einrichtung. Pearson untersuchte unter verschiedenen Voraussetzungen ein- gehend die Formen für die Abweichung vom Mittelwert statistischer Beobachtungen und behandelte überhaupt mit unermüdlichem Eifer die mathematischen Probleme, welche die gesamten Untersuchungen mit sich führten. Von anderen Mathematikern, die sich um die Entwicklung der theoretischen Statistik in England verdient gemacht haben, können A. Bowley und G. Udny Yule erwähnt werden. Auf der Suche nach den Ursachenverbindungen zwischen ver- schiedenen Zahlenreihen kam man auf die von dem französischen Astronomen Bravais (1811—1863) im „Jahre 1846 aufgestellte Korrelationstheorie, die jetzt stark ausgebaut wurde und sich die Aufmerksamkeit einer Menge Mathematiker zuzog, teils in England und Nordamerika, teils aber auch allmählich in verschiedenen anderen Ländern. Hier können die Zeitschrift der nordamerikanischen Ge- sellschaft und verschiedene Zeitschriften in Europa, wie das 1920 von dem italienischen Statistiker Gini gestiftete „Metron“ er- wähnt werden. Viele der Untersuchungen, die nicht allein über das Erblichkeitsproblem, sondern auch über andere Fragen vorgenommen wurden, standen im Zeichen der Korrelationstheorie. Diese Theorie enthält in gewisser Beziehung keine anderen Prinzipien als die in älteren Zeiten auf der Wahrscheinlichkeitsrechnung fußenden Ver- gleichungsmethoden, ist aber dennoch als selbständiges Werkzeug im Dienste der Statistik betrachtet worden. Als ungünstiges Moment darf vielleicht angeführt werden, daß noch auf manchen Punkten die Zusammenarbeit versagt, so daß verschiedene Forscher in allzu hohem Grade isoliert arbeiten und somit die Ausbeute der intensiven Arbeit verkleinert wird; und ganz besonders darf man wohl sagen, daß bei vielen ein gewisser Mangel an Wirklichkeitssinn vorliegt. 51. Schließlich sei bemerkt, daß man nicht zum mindesten in Nordamerika in den letzten 20 Jahren sich stark auf das Studium der Wirtschaftsstatistik gelegt hat, die ebenso wie die Erb- 74 lichkeitsprobleme unter mathematische Behandlung genommen worden ist. Es sind gerade die periodischen Bewegungen in den öko- nomischen Phänomenen, auf welche sich die Aufmerksamkeit lenkte, teils die Perioden innerhalb eines Kalenderjahres, teils Perioden längerer Dauer. Man sucht dabei die Lehre von den Krisen, den guten und schlechten Zeiten zu unterbauen und womöglich Material zur Voraussage der Ereignisse im Wirtschaftsleben zu gewinnen. Mehrere Universitäten haben tatkräftig solche Untersuchungen, deren Ziel das „Business Forecasting“ ist, aufgenommen, und verschiedene Nationalökonomen und Statistiker sind eifrig mit solchen Problemen beschäftigt, so z. B. H. L. Moore und Warren M. Persons. Es handelt sich teils um Erhebung, Sichtung und Bearbeitung des Materials, teils darum, Formeln aufzufinden, welche bei den Unter- suchungen verwandt werden, Periodogramme, die normale periodische Bewegungen angeben können; man wird somit dazu imstande sein, lie Abweichungen der Beobachtungen von solchen Werten zu messen und näheren Erwägungen zu unterziehen. Da diese Untersuchungen zurzeit so jung sind, dürfte es noch verfrüht sein, eine Beurteilung zu versuchen. Sie haben jedenfalls die Wirkung gehabt, daß die gesamte Wirtschaftsstatistik jetzt viel rationeller behandelt wird als früher. Es versteht sich von selbst, laß die Entwicklung auf diesem Gebiete so besonders kräftig ge- wesen ist, weil heutzutage das Arbeitstempo überhaupt weit rascher ist als einst, und diese Untersuchungen haben den großen Vorteil gehabt, auf den theoretischen Fortschritten bauen zu können, welche auf anderen Gebieten der Statistik, besonders innerhalb der Be- völkerungsstatistik, gemacht worden sind. 52. Vergleicht man den Zustand und die Lebensbedingungen der Statistik zu Anfang des 20. Jahrhunderts mit den entsprechenden Verhältnissen zu Beginn des 19. Jahrhunderts, kann man nicht um- hin, die ungeheuren Fortschritte, die diese Disziplin gezeitigt hat, bewundernd anzuerkennen. Wo man früher unsicher im Dunkeln umhertastete, da arbeitet man jetzt zielbewußt in schnellem Tempo; wo man in alten Tagen nur mit Mühe und häufig auf Umwegen sich das notwendige und oft sehr karge Material beschaffen konnte, Ja steht jetzt eine außerordentlich große Fülle von Beobachtungen — ein wahres embarras de richesses — zur Verfügung. Es steht somit das Horoskop der Statistik heute weit günstiger als damals, and im Spiegel des bereits Geleisteten wagt man, der statistischen Forschung eine glückliche Zukunft zu prophezeien. 75 II. Kapitel. Beschaffung und Bearbeitung der Massen- beobachtungen. 53. Wie in der Einleitung erwähnt, ist es für die Statistik charakteristisch, daß sie mit Massenbeobachtungen operiert; welche Massen hier in Betracht kommen, ist ganz abhängig vom Gegen- stand und Zweck der Untersuchung; aber selbst wenn man, wie es im folgenden beabsichtigt ist, sich im wesentlichen auf die Statistik der menschlichen Gesellschaft beschränkt, können die beobachteten Massen nach Art und Natur sich sehr weit voneinander unter- scheiden und brauchen keineswegs nur solche zu sein, mit denen man sich besonders in der Bevölkerungsstatistik beschäftigt, näm- lich Massen, die sich aus menschlichen Individuen zusammensetzen. In der Handelsstatistik z. B. wird die Masse der umgesetzten Waren oder Menge und Wert der Zirkulationsmittel, in der Produktions- statistik die Masse der produzierten Waren oder der Produktions- mittel, in der Statistik der Erwerbszweige die Zahl der Betriebe beobachtet und so fort. Die beobachtete Masse sucht man zu definieren oder muß man zu definieren suchen durch eine begriffsmäßige Abgrenzung darüber, welche Individuen zur Masse gehören und welche nicht. Formell kann diese Abgrenzung gar leicht sein, die Praxis aber weist fast immer Fälle auf, welche Zweifel erwecken, ob eine größere oder kleinere Anzahl von Individuen mit zur Masse gehört oder nicht. In einem so einfachen Falle wie dem, wo die zu beobachtende Masse sämtliche Personen umfaßt, welche z. B. in Dänemark im Laufe eines gegebenen Kalenderjahres gestorben sind, und wo die Kennzeichen des Todes nicht zweifelhaft zu sein brauchen, kann in einzelnen Fällen die Bestimmung von Zeit und Ort des Eintretens des Todes (angeschwemmte Leichen, Sterbefälle auf Reisen, Selbst- mordfälle usw.) entweder garnicht vorgenommen werden oder zweifel- haft sein. Die formelle (begriffsmäßige) Abgrenzung indes kann auch an Mängeln leiden. Schwierigkeiten, die daher stammen, trifft man schon in der Geburtsstatistik an, wo der Begriff lebendgeboren nicht überall und zu allen Zeiten gleich aufgefaßt wird, sondern 76 sich natürlich um so stärker geltend macht, je mehr die Begriffe differenziert werden. Beispiele hierfür geben die folgenden Aus- Führungen. ö4. Ist es indessen auf irgendeine Art und Weise abgemacht, welche Individuen zur Masse gehören, dann mißt man ihren Umfang ladurch, daß man die Zahl der Individuen, aus denen sie zusammen- gesetzt ist, angibt. Bei manchen Aufgaben wird man oft Ver- anlassung haben, zwischen verschiedenen Arten von Individuen zu unterscheiden, entweder für ganz bestimmte Zwecke oder um im allgemeinen ein Bild von der Zusammensetzung der Masse zu geben. Das, was hierbei geschieht, ist indes nichts anderes als eine Ab- grenzung neuer Massen, die schon in der ursprünglich betrachteten enthalten sind; und insofern liegt keine Veranlassung vor, zwischen der Abgrenzung einer Masse überhaupt und ihrer Teilung in andere Massen zu unterscheiden. 55. Wenn eine Masse in neue Gruppen zerlegt wird, geschieht dies nämlich ganz einfach damit, daß dem Begriff, der die zu einer Gruppe gehörenden Individuen definiert, eins oder mehrere Kenn- zeichen zugelegt werden neben den Merkmalen, welche zuerst die Masse abgrenzten; hierdurch erweitert sich der Inhalt des Begriffes, während der Umfang der Masse abnimmt. Die ergänzenden Kenn- zeichen (Einteilungsgründe) können höchst verschiedener Art sein. Hier soll besonders der Unterschied hervorgehoben werden zwischen Einteilungsgründen, die sich zahlenmäßig ausdrücken lassen (Eigen- schaften, welche gemessen oder gezählt werden können) und quan- titativ genannt werden können und solchen Einteilungsgründen, die sich jedenfalls nicht unmittelbar auf diese Weise ausdrücken jassen und als qualitativ bezeichnet werden können. Beispiele quantitativer Einteilungsgründe sind: die Geburtsnummer geborener Kinder, der Zeitpunkt des Eintretens eines Ereignisses, die Anzahl der Kronblätter und Staubgefäße bei Blumen, die Körpergröße von Rekruten oder andere Körpermaße, Alter oder Einkommen von Personen usw.; dagegen sind KEinteilungsgründe wie Geschlecht, Zivilstand, Erwerb, Enthaltsamkeit, Haar- oder Augenfarbe und Todesursache qualitativ. Man kann auch zwischen Einteilungsgründen, die nicht eine Masse in mehr als eine gewisse endliche Anzahl von Gruppenteilen, and Einteilungsgründen, die gegebenenfalls die Betrachtung einer unbegrenzten Anzahl von Gruppen veranlassen können, unterscheiden ; letztgenannte kann man als kontinuierlich bezeichnen. 4 Nur bei einer quantitativen Einteilung kann davon die Rede sein, den Einteilungsgrund als kontinuierlich anzusehen (Beispiele hierfür sind: Alter, Einkommen, Körpergröße, Zeitpunkt für das Eintreten eines Ereignisses usw.). Aber bei weitem nicht alle quan- titativen Einteilungsgründe können unmittelbar als kontinuierlich angesprochen werden. Bei der zahlenmäßigen Charakterisierung ge- wisser Eigenschaften (Kennzeichen) hat man z. B. nur für gewisse diskret gelegene (d. h. nicht kontinuierliche), in der Regel ganze Zahlen, Verwendung; beispielsweise wird man, wenn man einem Beutel mit weißen und roten Kugeln solche entnimmt, nie eine gebrochene An- zahl von Kugeln der verschiedenen Farben erhalten können; dasselbe gilt bei der Beobachtung der Geburtsnummern geborener Kinder, der Anzahl von Kronblättern bei Blumen und der Anzahl von Flossen- strahlen bei Fischen usw. Im folgenden wird dazu Gelegenheit sein, auf die praktische Seite der Frage einzugehen, wie weit ein Einteilungsgrund quali- tatiy oder quantitativ oder vielleicht kontinuierlich ist; aber schon an dieser Stelle soll besonders bemerkt werden, daß die Grenze zwischen diesen verschiedenen Arten tatsächlich sehr fließend ist, und zuguterletzt ist es in vielen Fällen eine Frage der Zweckmäßigkeit, wieweit man einen Einteilungsgrund als zur einen oder zur anderen Art gehörig betrachten will oder behandeln kann. Dies gilt besonders hinsichtlich der Frage, ob ein quantitativer Einteilungsgrund kon- tinuierlich ist oder nicht. Eine Einteilung nach einem kontinuier- lichen Kennzeichen wie dem Alter führt nicht notwendigerweise mit sich, daß man unendlich viele und unendlich kleine Altersinter- valle betrachtet, was bei der praktischen Durchführung auch nicht möglich ist; aber bei manchen Aufgaben kann man eine außerordent- liche Vereinfachung und Anschaulichkeit des Resultats erreichen, wenn man direkt oder bei passender Umschreibung die Differenzial- rechnung mit ihren kontinuierlichen Einteilungsgründen verwendet. Da die vorliegende Darstellung keine Kenntnis der Infinitesimal- rechnung voraussetzt, wird indessen weder hierauf noch auf den Kreis der im Anschluß daran entstehenden besonderen Probleme ein- gegangen werden. Was von der Grenze zwischen quantitativen und kontinuier- lichen Einteilungsgründen gilt, gilt bis zu einem gewissen Grade auch von der Grenze zwischen qualitativen und quantitativen Ein- teilungsgründen; in vielen Fällen (z. B. bei einer Teilung nach Ge- Schlecht, Zivilstand, Todesursache usw.) gibt es überhaupt keine 78 Möglichkeit, auf natürliche Art und Weise das betreffende Kenn- zeichen (Einteilungsgrund) durch eine einzelne Zahl auszudrücken. Auf der anderen Seite bietet die zahlenmäßige Ausdrucksweise in gewissen Verbindungen so große Vorteile, daß man, wo die Mög- lichkeit ihrer Benutzung überhaupt zuwege gebracht werden kann, unbedenklich Umschreibungen anwendet, obgleich sich dadurch oft der Ausdruck für die Beobachtung erheblich von der Beobachtung selbst entfernt. Als Beispiel hierfür kann die Umschreibung ainer Reihe von Examensleistungen in ein einzelnes Durchschnitts- prädikat erwähnt werden. Eine notwendige Bedingung für die Durchführbarkeit ist es jedoch, daß die betreffenden Beobachtungen sich in einer gewissen, nicht willkürlichen Reihenfolge ordnen lassen; als zweites Beispiel kann daher auch die Einteilung nach Farbe angeführt werden, welches Kennzeichen man oft un- mittelbar als qualitativ auffassen wird. Da die Farbe indes als Ausdruck für Licht von einer bestimmten Wellenlänge angesprochen werden kann, werden Farben sich in einer gewissen, durch das Sonnenspektrum gegebenen Reihenfolge anordnen und daher auch wiedergeben lassen entweder durch eine zahlenmäßige Angabe der eigentlichen Wellenlänge oder durch Zahlen, die durch diese aus- yedrückt werden. In einem folgenden Kapitel wird ein Versuch, auf ganz anderem Wege die Augenfarbe zahlenmäßig zu bestimmen, erwähnt werden, ein Versuch, der indes auch auf der Tatsache fußt, daß die Farben sich in einer im voraus gegebenen natürlichen Reihen- folge ordnen lassen. 56. Während hier nicht näher darauf eingegangen werden soll, wie die statistischen Beobachtungen überhaupt vorgenommen werden können oder müssen, wie man sie am besten einsammelt und wieder- zibt?), ist doch im allgemeinen zu bemerken, daß die Beantwortung Jieser Frage im wesentlichen teils von dem mit der Beschaffung der Beobachtungen verfolgten Zweck, teils von den oft sehr wechseln- den Bedingungen, unter denen Beobachtungen überhaupt beschafft werden können, abhängig ist. Da es, wie oben erwähnt, besonders die Vorgänge in der menschlichen Gesellschaft sind, welche uns hier interessieren, werden die Beobachtungen, die im folgenden den Gegenstand der Erörterung bilden sollen, zur Hauptsache, wenn nicht gar ausschließlich, solche sein, die im Interesse der geordneten ı) Siehe hierüber z. B. G. Jahn, Statistikkens Teknik og Metode, Kristiania 1990. 7“ Gesellschaften und ihrer Organe angestellt werden, und die heutzu- tage großenteils eingesammelt und öffentlich zugänglich gemacht werden, entweder von den durch Staaten oder Gemeinden errichteten statistischen Instituten oder von anderen Administrationszweigen der Gesellschaften. Von gewissen ganz speziellen Beobachtungen abgesehen, welche für die Ausübung der Gesellschaftsleitung von direkter Bedeutung sind, dienen die von der amtlichen Statistik ge- gebenen Aufschlüsse in erster Linie zur Beschreibung der Zustände in der Gesellschaft und der Kräfte, welche diese verursachen. Im übrigen liegt sowohl aus älterer wie aus neuerer Zeit eine Menge von Material vor, das von anderen Institutionen (z. B. Versiche- rungsgesellschaften, Krankenkassen usw.) entweder geradezu in gleicher Absicht oder zu speziellen Zwecken eingesammelt worden ist, aber sich nichtsdestoweniger zur Beleuchtung gewisser Verhältnisse inner- halb der Gesellschaft eignet. Im großen und ganzen hat in unseren Tagen die amtliche Statistik in weit höherem Maße als früher die gesamte Bevölkerung als Mitarbeiter gewonnen. Früher wehrte sich die Bevölkerung vielfach gegen die Einsammlung statistischer Beobachtungen; in jeder Volkszählung sah sie ein Mittel in der Hand der Regierung zum Herauspressen der Steuern. Dieses Vorurteil, das teils durch die in jenen Zeiten übliche Verheimlichung der Resultate ver- schuldet war, dürfte nunmehr fast überall verschwunden sein ?). Die Folge ist denn auch die, daß viele Aufgaben, die früher fast für unlösbar galten (selbst eine so einfache wie die Feststellung der Einwohnerzahl einer Gesellschaft durch eine Zählung), jetzt ver- hältnismäßig leicht lösbar sind; dies gilt nicht nur hinsichtlich der Volkszählungen, sondern auch in bezug auf die Erhebung des Materials zur Arbeiterstatistik, zur Verbrauchsstatistik usw. 5%. Wenn man die Erhebung so veranstaltet, daß die ganze Bevölkerung oder große Kreise derselben zu Mitarbeitern heran- gezogen werden, dürfen die gestellten Fragen nicht ebenso ver- wickelt sein, wie wenn ein ganz enger Kreis von Personen Beob- achtungen anstellt; es ist daher notwendig, die gestellten Fragen so einfach zu formulieren, daß sie so wenig wie möglich zu Mißver- ständnissen Veranlassung geben, und daß somit am meisten Aussicht vorhanden ist, genaue Beantwortungen zu erzielen. !) Siehe hierüber z. B. Det statistiske Departement 1896—1920, Kobenhavn 1920, S. 20—29 30) Die Geschichte der Volkszählungen ist in dieser Beziehung iehrreich !). In älteren Zeiten kümmerte man sich häufig nur wenig darum, die Volkszahl an einen einzelnen bestimmten Tag zu knüpfen. Noch im Jahre 1801 wurde für Dänemark vorgeschrieben, daß die Landbevölkerung sich am 1. Februar, einem Sonntag, beim Pastor melden sollte; könnte man nicht an diesem Tage die Aufzeichnungen beenden, dann müßte der Pastor auch die folgenden Sonntage ausnutzen. Heutzutage strebt man immer danach, die Volkszählung auf einen ainzelnen Tag zu begrenzen, indem man voraussetzt, daß die Personen, welche vor einem bestimmten Zeitpunkt gestorben, und die, welche nach diesem Zeitpunkt geboren sind, nicht mitgezählt werden. Faktisch wird man jedoch kleine Fehler kaum vermeiden können, und es dürfte schwierig sein, eine Volkszählung an einem einzelnen Tage voll und ganz durchzuführen, In einem modernen Kulturstaat, wo nur wenige Tage zur Durch- führung einer Volkszählung gebraucht werden, werden die unsteten Bevölkerungselemente in der Regel nur geringe Aussicht und auch keine große Veranlassung dazu haben, sich der Zählung zu entziehen. Einige Vagabunden werden vielleicht übersehen, einzelne, die gerade umziehen, vielleicht zweimal gezählt werden; Personen, welche un- mittelbar nach dem Zähltage sterben, werden vielleicht nicht auf die Liste kommen; aber die ganze Hauptmasse wird ohne Schwierigkeit zefunden und registriert werden. Die eigenartige schwedische Bevölkerungsstatistik hat die Mittel zu einer diesbezüglichen Kon- trolle. Diese Statistik beruht hauptsächlich auf gemeindeweisen Verzeichnissen der Einwohner und ausführlichen Berechnungen über lie Volkszahl aller 10 Jahre; außerdem werden jetzt auch Volks- zählungen vorgenommen. Die sich aus diesen beiden Quellen her- leitenden Zahlen lassen sich überraschend gut miteinander in Über- einstimmung bringen. Anläßlich einer Neubearbeitung des Volks- zählungsmaterials der Landgemeinden Fünens zwecks Berechnung der Sterblichkeit in den verschiedenen Gesellschaftsklassen, ergab sich ebenfalls nur ein unbedeutender Unterschied von höchstens ),4 Promille ?). Bei der Wahl des Zählungstages (Stichtages) wünscht man in unserer Zeit einen Tag zu finden, an dem möglichst viele zu ı) Über Methoden und Technik der Volkszählungen siehe u. a. A. Kauf- mann, a. a. O. 8. 313 ff. 2?) Rubin und Westergaard, Landbefolkningens Dodelighed i Fyens Stift, 1886, S. 20 H. MX Hause sind, z. B. wie im Deutschen Reiche den 1. Dezember; durch Zu- und Abschreibung kann man dann mit dem Zählungsresultat als Ausgangspunkt einigermaßen genau die Volkszahl am 1. Januar be- stimmen, und man erhält dann wahrscheinlich diese Zahl genauer, als wenn man den 31. Dezember oder 1. Januar als Zählungstag genommen hätte. Anders verhält es sich mit einer gewerblichen Betriebszählung; hier wird eine Sommerzählung bessere Bedingungen für Vollständigkeit abgeben als eine Winterzählung. Man unterscheidet in der Bevölkerungsstatistik zwischen der anwesenden (faktischen), der rechtlichen und der ansäs- sigen Bevölkerung usw. In der Regel wird man in unseren Tagen die faktische (ortsanwesende) Bevölkerung zum Ausgangspunkt wählen, um die größtmögliche Genauigkeit zu erreichen. Es zeigt sich indes recht häufig, daß zeitweilig abwesende Personen in dem Hausstand mitgerechnet werden, wo sie ihr Heim haben, und so viel- leicht doppelt gezählt werden. Die Grenze für den hierbei ent- stehenden Fehler ist für Deutschland 4000001). Es entsteht somit die Frage, ob man es doch nicht zu guter Letzt vorziehen solle, die orts- ansässige Bevölkerung als Ausgangspunkt in der Demographie zu nehmen anstatt der faktischen. Übrigens versteht es sich von selbst, daß die Frage nach der vorliegenden Aufgabe entschieden werden muß. Wo es die Versorgung einer Stadt mit Lebensmitteln gilt, würde man vorzugsweise nach der faktischen Bevölkerung fragen; bei der Berechnung von Sterbetafeln wäre es vorzuziehen, die orts- ansässige Bevölkerung und die auf sie entfallenden Todesfälle in Erfahrung zu bringen. Wenn die Beobachtungen — was der Fall sein muß, wo es sich um Massenbeobachtungen handelt — von einem sehr großen Kreis von Personen gemacht werden, welche nicht vorher eingeübt oder in umfangreichem Grade belehrt werden können, muß man überhaupt damit rechnen, daß die Originalbeobachtungen fehlerhaft ausfallen können und es auch oft sind, was entscheidend sein kann, wenn man den Unterschied zwischen den Verhältnissen innerhalb zweier oder mehrerer Gruppen zu erklären sucht. 58. Mitunter fehlen gewisse Angaben ganz, so z. B. die Alters- angabe, und es entsteht dann die Frage, wie man solche Fälle behandeln kann. In der Regel ist diese Art Mängel übrigens be- deutungslos. In Berlin wurden im Jahre 1910 im ganzen unter ” Beukemann, in der Festschrift für von Mayr, a. a. O. S. 203. Westergaard und Nybeile, Theorie der Statistik, 2. Aufl. T 82 2,07 Millionen nur 419 Personen gezählt, für die kein Alter an- gegeben war. Diese 419 Personen verteilten sich zwar nicht regel- mäßig wie die gesamte Bevölkerung nach Zivilstand (für 51 Personen fehlte Mitteilung hierüber); aber die Verteilung war doch so, daß man ohne Bedenken Personen, bei denen Angaben über Zivilstand fehlten, pro rata gemäß der Verteilung der bekannten Fälle in der betreffenden Klasse oder nach der Anzahl von Personen mit Alters- angabe verteilen würde. Und danach würde man wieder die ge- fundene Zahl unbestimmter Fälle pro rata nach Alter verteilen, falls man nicht vorzieht, diese Zahl ganz außer acht zu lassen, was man ebenfalls in den meisten Fällen ohne ein ernstlicheres Bedenken tun könnte. Anders stellt sich die Frage da, wo es sich um die Genauigkeit der Altersgliederung handelt, teils auf Grund der Anhäufung bei den runden Jahreszahlen, teils daher, daß das Alter systematisch zu hoch oder zu niedrig angegeben wurde. Wenn ein Kind wenige Tage oder Wochen nach dem Zählungstage 1 Jahr erreicht, wird man ganz natürlich das Kind als 1jährig angeben. Im Greisenalter werden viele aus Stolz über ihr hohes Alter dieses noch erhöhen, während jüngere Jahrgänge sich vielleicht zu allzu niedrigen An- gaben verleiten lassen. Hinzu kommt Geneigtheit zum Gebrauch runder Altersjahre. Diese Fehlerquelle kann man bekämpfen, in- lem man nicht direkt nach Alter, sondern nach Geburtsjahr und ‚tag fragt. Alle Fehler lassen sich hierdurch jedoch nicht beseitigen. Viele Menschen wissen ihr Geburtsjahr nicht genau, und man gibt vielleicht in der Regel nicht systematisch das Geburtsjahr zu hoch der zu niedrig an, sondern ist zur Wahl runder Zahlen geneigt. Eine bei der im Februar 1890 abgehaltenen Volkszählung für die Kopenhagener Vorstadt Sundbyerne gemachte Stichprobe ergab das Resultat, daß 988 Personen sowohl Alter, als Geburtsjahr und Geburts- tag angegeben hatten. Bei 1/3 dieser Fälle stimmten die Angaben nicht überein. Durchschnittlich lag das mitgeteilte Alter 0,2 Jahre höher als das nach dem angegebenen Geburtsjahr zu berechnende. Zu hoch wurde das Alter besonders häufig angegeben, wenn die betref- fende Person kurz nach der Zählung Geburtstag hatte. Eine ge- wollte Unterschätzung des Alters scheint dagegen nur selten vor- yekommen zu sein. Für Livland hat eine Nachforschung über Ver- storbene erwiesen, daß das Alter durchschnittlich etwa 4 Monate zu hoch angegeben. war. In Norwegen zeigte sich, daß in sehr hohem Alter die Über- 83 treibungen etwas größer waren, und die Möglichkeit liegt nahe, daß man, wo die Volksbildung nicht mit der norwegischen auf gleicher Höhe steht, auf größere Abweichungen gefaßt sein muß; man Vver- gleiche nur die Mitteilungen gewisser Länder über ihre große An- zahl Hundertjähriger ?). Was die Anhäufung um die runden Altersjahre betrifft, wird man die folgenden Zahlen für Dänemark aus den Jahren 1911 und 1921 (ohne Nordschleswig) als typisches Beispiel auffassen können: \ LEI ‚011 Volkszahl 16.1 Auf 1000 in der betreffenden Generation Geborene entfielen 1911 1921 nn TYLT- A 1€ DD 230 23 908 mt 20021 79 12 27 402 27 195 25 872 4f'z 447 >46 195 523 511 481 472 Die Verhältniszahlen sind auf Grundlage der Geburtenzahl in der betreffenden Generation ausgerechnet, und die Anzahl der 50jährigen erweist sich sowohl absolut wie relativ größer als die Zahlen für die benachbarten Jahre. Beim Vergleich mit der 50 Jahre früher geborenen Anzahl Personen kann man selbstverständlich weder die Wanderungen noch die verschiedene Vitalität der Jahrgänge be- rücksichtigen; doch darf man wohl in der Regel davon ausgehen, daß eine gewisse Regelmäßigkeit in diesen Verhältnissen herrschen wird. Erweist es sich nun als unmöglich, diese Art Fehler durch Stichproben zu beseitigen, dann ist eine Ausgleichung (welche Aufgabe weiter unten behandelt werden wird) oder eine Zu- sammenfassung der Zahlen in größeren Altersklassen zu empfehlen. Es ist hierbei vorzuziehen, die runden Altersjahre in die Mitte des Intervalls zu legen, also z. B. die Bevölkerung in Altersgruppen 48—52, 53—57 Jahre usw. zu teilen, oder, falls man 10jährige Klassen bevorzugt, 45—54, 55—64 Jahre usw. Ein ähnliches Beispiel aus der Heiratsstatistik Australiens für ı) Westergaard, Die Lehre von der Mortalität, 2. Ausgabe, Jena 1901, x. 130 if 84. die Jahre 1908—1914 mag im Anschluß hieran erwähnt werden !): Ganz junge Brautleute und besonders die Bräute geben bei der Trauung oft ihr Alter zu hoch an. Dies geht nicht nur aus Un- regelmäßigkeiten in der Altersgruppierung der Getrauten, wie wir es oben sahen, hervor, sondern auch aus Vergleichungen mit den Zahlen der Geburtsstatistik für Geborene, deren Mütter den be- treffenden Jahrgängen angehören. Durch Korrektion der Zahlen mit Hilfe der Geburtsstatistik gelangt man beispielsweise zu folgendem Resultat: Nach Mit- . Heiratsalter teilungen der en Braut 18 Jahre 13 246 19. 18 140 20 20 231 21 ; 32 673 Zusammen: 84 290 59. Das hier Angeführte mahnt zur Vorsicht bei jeder sta- :istischen Untersuchung. Fehlerquellen bei Altersgruppierungen sind selbstverständlich nur ein einzelnes Beispiel der großen Schwierig- keiten, denen man überall begegnet, wo es gilt, ein einigermaßen zuverlässiges Material zu beschaffen. Wo man anfaßt, wird man auf solche Schwierigkeiten stoßen. So z. B. bei der Einteilung der Bevölkerung nach Zivilstand und Beruf, Was die erste Teilung anbetrifft, so ist die Beantwortung schon mit der Frage gegeben; aber Geschiedene oder getrennt Lebende werden sich nichts desto- weniger häufig als verheiratet oder als im Witwen- oder Witwerstande lebend registrieren lassen; Personen in freier Ehe werden sich als ver- heiratet bezeichnen usw. Sondert man dagegen nach Erwerbszweigen, Jann können die Angaben der Zählerlisten nicht in derselben Weise den tatsächlichen Zusammenhang decken; sowohl bei der Beantwortung der Fragen wie unter der Bearbeitung wird es schwierig sein, zwischen selbständigen Personen und Hilfspersonal oder zwischen aktiven Personen und solchen, die nicht mehr arbeiten, zu unterscheiden ?). Etwas ganz Ähnliches gilt in zahlreichen anderen Fällen, wo die Grenzen fließend sind, z. B. bei Beobachtungen über Haar- und ‘\ G. H. Knibbs, The mathematical theory of population, Census of the Commonwealth of Australia, App. A, Melbourne 1917, S. 193—194. ?) Vgl. z. B die Verhandlungen bei der 13. nordischen statistischen Tagung in Kristiania (jetzt Oslo) 1924 (Kristiania 1924). 35 Augenfarbe, indem der eine Untersuchende die Farben anders als der andere beurteilt. In einem folgenden Kapitel werden Beispiele dafür gegeben werden, wie sich diese Art Schwierigkeiten mehr oder weniger überwinden lassen. Die Volkszählung scheint in der Regel ein brauchbares Material abzugeben. Dasselbe gilt hinsichtlich des Ma- terials über die Bewegungen der Bevölkerung, besonders da, wo Eheschließungen, Geburten und Todesfälle in Registrierungsbureaus aufgezeichnet werden; wo man z. B. die Anzahl der Sterbefälle nach zwei Quellen finden kann (Kirchenbücher, Registrierungsbureaus usw.), wird sich gewöhnlich eine ausreichende Übereinstimmung er- geben. Hinsichtlich der Zuverlässigkeit der Zahlen wird man hier, wie überall in der wissenschaftlichen Welt, sich beruhigen lassen, wenn sämtliche Beobachtungsreihen ein System ausmachen. Die Einzelheiten weisen dann nämlich einen inneren Zusammenhang auf, welcher darauf deutet, daß die tatsächlich vorliegenden Mängel und Fehler zu guter Letzt doch nicht die Hauptlinien stören und daher nicht den Forscher daran hindern, ein richtiges Bild der zu unter- zuchenden Gesellschaft zu gewinnen. 60. Hier kann nun die Bemerkung eingeschoben werden, daß positive Verfälschungen des Materials zwar möglich sind und daß man daher trotz allem doch noch Trugschlüssen ausgesetzt sein wird. Ein sehr interessanter Fall dieser Art war die Fälschung eines Materials zur Beleuchtung der Wirkung der Schutzimpfung gegen die Pocken; sie ward von Körösy entdeckt. Ein Bahnarzt, Keller, hatte im Jahre 1872 und später Mitteilungen veröffentlicht, welche deswegen großes Aufsehen erregten, weil unwiderleglich dar- aus hervorzugehen schien, daß die Geimpften häufiger an Pocken stürben als die Nichtgeimpften. Unter der damaligen heftigen Diskussion für und wider die Vakzination mußte diese Untersuchung schwer ins Gewicht fallen. Das Material ward, wahrscheinlich von Keller selbst, vernichtet; aber nach Kellers Tode gelang es Körösy, teil- weise die Listen zu rekonstruieren, und es zeigte sich dann, daß die Zahlen systematisch zugunsten der Antivakzination gefälscht worden waren. Ein vom 9. internationalen medizinischen Kongreß einge- setztes Untersuchungskomitee gab im Jahre 1887 einen Bericht ab, welcher vollständig die Berichte Körösys bestätigte ?). Aller Wahrscheinlichkeit nach ist dies ein recht alleinstehender ) Körösy, Kritik der Vaccinations-Statistik, Berlin 1889, S. 71 ff. 36 Fall. Aber daß die Fälschung zuletzt ans Licht kam, ist ein Be- weis für die Zuverlässigkeit der statistischen Beobachtungsreihen im allgemeinen. Die Zahlen sind häufig unvollkommen, und man setzt sich oft Trugschlüssen aus; aber die bewußte Fälschung hat ihr Korrektiv darin, daß nicht alle Beobachtungsreihen dem Fälscher zugänglich sind. Gerade die überraschenden Schlüsse auf Grundlage irgendeiner Statistik müssen eine ernste Aufforderung anthalten, Beobachtungen zur Bestätigung oder zur Kritik der be- haupteten Resultate anzustellen. Und selbst da, wo ein positiver Beweis der Fälschung nicht glücken sollte, würde man wenigstens Jas verfälschte Beobachtungsmaterial durch zahlreiche Untersuchungen sinkreisen und dadurch als sehr wahrscheinlich hinstellen können, Jaß eine Fälschung geschehen sei. Wie oben bemerkt, liegt die Garantie für die statistischen Ergebnisse gerade darin, daß sie ein System bilden; enthält dies etwas, was zu den übrigen Ergeb- nissen in Widerspruch steht, dann wird ganz natürlich das Miß- trauen erweckt und neue Untersuchungen werden angestellt, bis man in der betreffenden Frage zur sicheren Lösung gelangt. 61. Wo es sich um wirtschaftliche Verhältnisse handelt, können andere Fehlerquellen vorliegen. Vergleicht man z. B. die Handelsstatistik zweier Länder, die gegenseitigen Warenaustausch haben, dann wird man bald auf so viele Schwierigkeiten stoßen, daß man wohl nie mit einem ganz einwandfreien Material zu rechnen wagen kann. Beispielsweise seien nach der offiziellen Statistik Schwedens, Norwegens und Dänemarks für das Jahr 1913 die Wertzahlen (in 1000 Kr.) für die Ein- und Ausfuhr einander gegenübergestellt : Statistik des Ausfuhrlandes Einfuhrlandes 534 034 46 328 70 650 71 104 26 682 25 928 9181 8755 / 83 51 810 „19 300 28 347 Schweden nach Norwegen » „ Dänemark Norwegen nach Schweden ” „ Dänemark Dänemark nach Schweden . „ Norwegen . Wie man sieht, stimmen die Zahlen nicht gerade glänzend überein; auch bei einer Betrachtung der einzelnen Waren werden sich viele Abweichungen ergeben. Ein besseres Resultat hat man In Bayern erreicht, indem man für einige Jahre mit Hilfe der amerikanischen Konsulate und Exportfirmen eine Statistik über den Anteil Bayerns an der Ausfuhr der Vereinigten Staaten beschafft hat. Die Über- einstimmung mit der Reichsstatistik ist befriedigend *). ') C. Meisinger, Handels- und Schiffahrtsstatistik, in der Festschrift {ür v. Mayr, a. a. O0. S. 271. 87 Alle skandinavischen Länder haben eine „ungünstige“ Handels- bilanz — sie weisen einen erheblichen Unterschied zwischen Ein- und Ausfuhr auf, und es ist zweifelhaft, ob man unter Berücksich- tigung des Frachtenverdienstes der Handelsflotte und anderer Ein- nahmen in größerem Umfange in der Praxis zu einer klareren Handelsbilanz gelangen kann. Logisch sollte in der Statistik des Ausfuhrlandes der Wert der Exportware mit all den Ausgaben, welche das Ausfuhrland trägt, belastet werden, und in gleicher Weise sollten Transportunkosten, die aufs Einfuhrland entfallen, vom Ein- fuhrwert abgezogen werden; eine solche Ordnung läßt sich jedoch nur sehr schwer durchführen. 62. Was nun die weitere Bearbeitung des Materials anbetrifft, so ging man namentlich früher im allgemeinen den Weg, daß die verschiedenen Lokalbehörden, denen die Einsammlung oblag, auch das empfangene Material bearbeiteten und erst dann die Resultate an die Institution weitersandten, der die Sammlung und möglicher- weise die Veröffentlichung anvertraut war, Es ist jedoch in der Regel vorzuziehen, nach der Erhebung der rein elementaren Tat- sachen die ganze Bearbeitung in einem Zentralinstitut durchzuführen, selbst wo das Material auf den ersten Augenschein überwältigend groß erscheinen sollte, und dies wird denn auch allmählich immer all- gemeiner anerkannt. Wo die Bearbeitung zentralisiert ist, ist auch ständig das Material zu neuen Untersuchungen verfügbar. Während der Bearbeitung kann es sich oft als wünschenswert herausstellen, neue Einteilungen zu wählen, um irgendeiner Ursache nachsnüren zu können, und dies läßt sich jedenfalls am leichtesten da durchführen, wo Zentralisation ist. Für die Beantwortung dieser Frage ist übrigens auch die Größe des Landes von Bedeutung; in einem kleinen Lande wird sich die Zentralisation leichter durchführen und anders formen lassen als in einem großen Reiche. Um eine solch genaue Untersuchung jeder auftauchenden Ur- sache vornehmen zu können, muß man danach streben, die Statistik soviel wie möglich zu individualisieren, so daß man für jede Einheit über detaillierte Aufschlüsse verfügt. Dies geschieht am leichtesten mit Hilfe von Zählkarten, indem jede Person oder jeder Gegenstand der Zählung eine besondere Karte hat, auf der die betreffenden Einzelheiten vermerkt sind. Dies ist gewöhnlich Listen vorzuziehen, da Listen eine beschwerliche, mit wiederholten Aufzählungen verbundene Bearbeitung erfordern. Gilt dies z. B. von einer Volkszählung, so wird man sehr leicht durch eine einfache Ordnung der Zählkarten die Anzahl von Personen jedes Geschlechts 38 oder Alters usw., nach Zivilstand, Erwerb, Aufenthalts- und Geburts- ort usw. finden können. Erweist es sich z. B. als notwendig, einen bestimmten Erwerbszweig zu spezialisieren, so läßt sich eine solche Einteilung ohne Schwierigkeit aufs neue vornehmen. Natürlich kann man sich auch ohne Zählkarten helfen; jedoch werden die Manipulationen dann in der Regel viel mehr Zeit beanspruchen. Nicht bloß in der amtlichen Statistik werden Zählkarten von Nutzen sein, sie haben auch auf anderen Gebieten Anwendung gefunden, nicht zum mindesten bei den Sterblichkeitsuntersuchungen der Lebens- versicherungsgesellschaften. Die elektrische Maschine hat im Laufe der letzten Jahr- zehnte besonders viel zur Verwendung von Zählkarten beigetragen. Die zu zählenden Tatsachen werden durch die an bestimmten Stellen gestochenen Löcher bezeichnet und die Additionen rein automatisch ausgeführt, indem sich durch die Löcher ein elektrischer Stromkreis schließt und bei jedem Loch eine Einheit gezählt wird ?). 63. Von der Frage der Zentralisation oder Dezentralisation sehr verschieden ist ein anderes Problem, welches eine Untersuchung darüber, ob eine statistische Untersuchung ein größeres oder zleineres Gebiet umfassen soll, verlangt. Zwei Motive stehen ainander hier gegenüber. Auf der einen Seite wünscht man um- fangreiches Material, um so das Gesetz der großen Zahlen erfüllt zu sehen. Auf der anderen Seite wird man sich viel besser ins Material vertiefen können, wenn man nur ein begrenztes Gebiet zur Unter- suchung‘ hat. Diese zwei Gesichtspunkte sind jedoch keineswegs immer unvereinbar. Hat man erst gründliche Lokaluntersuchungen gemacht, welche sämtliche Besonderheiten berücksichtigen, so läßt es sich verantworten, die Zahlen zusammenzuschlagen. Es ist höchst interessant zu erfahren, wie groß der gesamte Geburtenüberschuß Europas ist, wieviele Personen auswandern usw., oder wie groß die Weltproduktion einer Ware ist; es ist sehr lehrreich zu berechnen, wieviele Menschen in Europa in einem gewissen Alter sterben werden gemäß den in jedem Lande geltenden Sterblichkeits- und Bevölkerungsverhältnissen; aber eine gemeinsame Sterblich- keitstafel würde nichts bedeuten, da die Wahrscheinlichkeit des Sterbens von Land zu Land außerordentlich stark wechselt. Die internationale Statistik wird, mit anderen Worten, sehr nützlich 1) Über die Zählmaschinen vgl. Blaschke, Vorlesungen über mathematische Statistik, 1906, S. 257 £f. 39 sein können, wenn sie auf gründlichen Lokaluntersuchungen fußt, während eine unkritisch durchgeführte vergleichende Statistik wert- los sein würde, 64. Im Zusammenhang hiermit können die gelegentlich im Vor- hergehenden berührten Stichproben und KRepräsentativzählungen (englisch: „sampling“) näher erwähnt werden. Entweder weil man aus irgendeinem Grunde geradezu das Beobachtungsgebiet zu be- grenzen wünscht, oder weil es in der Praxis undurchführbar oder ganz unmöglich ist, die Beobachtungen auf das ganze Gebiet, wo man überhaupt nur Beobachtungen der betreffenden Art machen kann, auszudehnen, begrenzt man entweder die Bearbeitung nur auf einen Teil des vorliegenden Materials oder sogar schon die Beob- achtung auf einen Teil der Beobachtungsmöglichkeiten. Tatsächlich handelt es sich immer um so etwas, wenn man auf Grund der Erfahrungen in einer gewissen Gruppe (welche zeitlich, räumlich oder auf andere Weise bestimmt sein kann) über den Verlauf eines Vorgangs in einer anderen Gruppe Schlüsse ziehen oder Voraus- berechnungen anstellen will, beispielsweise an anderer Stelle oder zu anderer Zeit (speziell in der Zukunft). So berechnet eine Ver- sicherungsgesellschaft auf Grund vorausgehender Erfahrungen Prä- mien, die vielleicht für längere Zeit gelten sollen; zahlreiche andere Beispiele bilden die Aufgaben, mit denen sich die Pfleger der poli- tischen Arithmetik (s. im vorigen Kapitel) befaßten. Auf Grund dessen, daß die Totalität, welche die betreffende Untersuchung repräsentieren sollte, sich nie von solchen Gesichts- punkten aus abgrenzen läßt, wird jetzt allerdings fast jegliche Statistik in höherem oder geringerem Grade repräsentativ. Es ist daher praktisch, den Begriff begrenzen zu können, beispielsweise so, wie es das Internationale statistische Institut empfohlen hat, in einer Weise, die sich gerade ebenfalls auf die Existenz einer wohl abgegrenzten Totalität stützt !). 65. Zur Beleuchtung der Repräsentativzählung soll ein der dänischen Erntestatistik entnommenes Beispiel angeführt werden. Diese Statistik kommt so zustande, daß jährlich die kommunalen Behörden gefragt werden, wieviel durchschnittlich von”den einzelnen Kornsorten auf einer gegebenen Anbaufläche geerntet worden ist. Im Jahre 1901 nun wurde eine Erhebung über die Bodenbenutzung *) Vgl. hierüber Adolph Jensen, The representative method, Nordisk statistisk Tidskrift, Bd. 4, Stockholm 1925, S. 481 f.; s. auch Bull. de ]’ Inst. intern. de Stat., t. XXIII. 1. livr. Roma 1926. 90 veranstaltet, aber bei der Ausarbeitung der Erntestatistik für das Jahr 1901 war nur ein Teil dieses Materials bearbeitet. Da man nun vorziehen mußte, auf den neuen Zahlen zu fußen anstatt auf der letzten vollendeten Anbauflächenstatistik (fürs Jahr 1896), verfiel man auf den Ausweg, für den größten Teil des Landes jede fünfte Gemeinde als Repräsentant ihrer Umgebung anzunehmen. Für die ausgewählten Gemeinden berechnete man das Ernteergebnis auf Grundlage der Arealzählungen von 1896 und 1901; das Verhältnis zwischen den so gefundenen Zahlen wurde als für die gesamte Ernte geltend betrachtet. Man konnte also, unter Zugrundelegung der Anbauflächenverteilung von 1896 und unter Berücksichtigung der Repräsentativzahlen von 1901, zu einer Erntestatistik gelangen, die aller Wahrscheinlichkeit nach der Wahrheit näher kam, als wenn man nur die Arealzahlen von 1896 angewandt hätte. Nach der vollständigen Bearbeitung des Materials hat man die bei der betreffenden Berechnung sich ergebenden Abweichungen feststellen können; siehe untenstehende Zahlen inach Tonnen Land ’1 dänische Tonne =— 0,5516 ha) !): Berechnetes Areal 23129 492 817 514 353 784. 404 271.197 99 172 267 083 51 154 909 083 Grß Zusammen: 3412 392 35% Faktisches Areal 23 655 194 039 510 088 7x4 314 258 675 98 079 4 (MN Weizen Roggen Gerste Hafer Mengkorn Kartoffeln Rüben Andere Ackerfrüchte Heu dd, Differenz in Prozent der faktischen Zahlen 42 83 J,0 1,8 1 2,5 2,8 X6 75 Im ganzen stimmen die Zahlen also verhältnismäßig recht gut iberein; nur hinsichtlich des Mengkorns ist der Unterschied be- Jeutend. Für die gesamte benutzte Anbaufläche macht der Unter- schied nur !, Proz. aus. Da die landwirtschaftliche Produktion in Dänemark sehr großen Verschiebungen ausgesetzt gewesen ist, wird man sich nicht mit der Anbaufläche des Jahres 1896 oder mit den Verschiebungen von 1888 bis 1896 als Ausgangspunkt begnügen zönnen. Besonders gilt für den Weizen, daß die planmäßig be- nutzten Flächen im Jahre 1901 ungefähr 74000 Tonnen Land aus- machten; da aber der Winter 1900—1901 für die Weizenfrucht sehr ‘\ Hosten i Danmark i Aaret 1902, Statistiske Meddelelser, 4. R. Bd. 13, 1903. 01 verhängnisvoll war, mußten große Flächen umgepflügt werden, so daß zuletzt in Wirklichkeit nur noch 23000 Tonnen Weizenland übrig blieben. Die mit Roggen bestellte Fläche war 1888 ca. 509 000, 1896 dagegen 527000; man sollte daher auch für 1901 einen Zuwachs erwarten, aber das Gegenteil war der Fall. Und umgekehrt stellte es sich für die Gerste. Das Mengkorn wies außerordentlich große Verschiebungen auf, und auch bei den Rüben war jegliche Voraus- berechnung auf Grund des ungeheuren Zuwachses auf diesem Ge- biet ausgeschlossen. 66. Umfassende Untersuchungen im Hinblick auf diese Frage wurden auch in Norwegen, namentlich von A. N. Kir‘), angestellt. In Verbindung mit der Diskussion über die Invaliditätsversicherung wurden einer Anzahl Personen mehrere Fragen gestellt, z. B. über Beruf, Einnahmen, Ausgaben, Krankentage, Invalidität und die Ur- sache derselben, ferner über Zivilstand, die Zahl lebender und ver- storbener Kinder usw. Es wurden 20000 Fragebogen auf die Städte, 80000 auf die Landgemeinden verteilt. Die Hauptstadt erhielt 6350 Fragebogen, während im übrigen von den 61 Städten 13 als Re- präsentanten der Stadtbevölkerung ausgewählt wurden. Von 100 Straßen in Kristiania mit höchstens 100 Einwohnern nahm man 5 heraus und zählte deren männliche Bevölkerung. Der nächsten Straßenkategorie (101—500 Einwohner in jeder Straße) wurden 10 Proz. entnommen und die Einwohner jedes zweiten Hauses ge- zählt. Von den Straßen mit 501—1000 Einwohnern wählte man !/, und zählte hier die Einwohner jedes fünften Hauses; schließlich wurde den volkreichsten Straßen die Hälfte entnommen und hier in jedem zehnten Hause gezählt. Auf ähnliche Weise, jedoch nach einem einfacheren System, ging man in den Städten der Provinz vor. Die Landgemeinden wurden nach der Hauptbeschäftigung der Bevölkerung geordnet; man wählte hier eine passende Anzahl, insgesamt etwas mehr als !,; jede dieser Gemeinden erhielt dann eine Anzahl Frage- bogen, welche sich nach der Größe und anderen Verhältnissen rich- tete, und man nahm eine sorgfältige Verteilung der Häuser, die zum Gegenstand der Zählung gemacht werden sollten, vor. Eine andere Repräsentativzählung ging darauf aus, über die Ein- kommensverhältnisse der Bevölkerung Klarheit zu gewinnen. Hier wurden 127 Landgemeinden und 23 Städte ausgewählt: danach be- 1) Siehe u. a. Observations et experiences concernant les de&nombrements re- presentatifs, Bull. de ]l’Inst. Intern. de Stat., IX, 1893. I” *rachtete man Männer der Altersjahre 17, 22, 27, 32 usw. als Gegen- stand der Untersuchung, welche somit ungefähr !/, der betreffenden arwachsenen männlichen Bevölkerung betraf. Unter diesen Männern nahm man endlich diejenigen heraus, deren Namen mit gewissen Anfangsbuchstaben begannen. Durchschnittlich wurden die Ein- kommens- und Vermögensverhältnisse für 33 pro Mille der männlichen Stadtbevölkerung und 16 pro Mille der Landbevölkerung erläutert. Das Resultat war im ganzen befriedigend. Unter 1000 Personen in den Landbezirken befanden sich nach einer die Gesamtbevölkerung um- fassenden Zählung 239 Bauern, nach der Repräsentativzählung 237. Für Fischer waren die entsprechenden Zahlen beziehungsweise 83 und 74, für Landarbeiter 251 und 232, für Handwerker bei beiden Zählungen 82; in den Städten waren nach beiden Methoden 48 pro Mille Beamte, 252 und 249 gehörten dem Handwerk an, 121 und 1831 waren Fabrikarbeiter, 65 und 66 Kaufleute usw. Gewisse größere Unterschiede gab es jedoch auch, z. B. für die Matrosen 55 und 76 pro Mille nach beiden Zählungen. Zur Erklärung der Unterschiede wird man Sselbstverständlich zum großen Teil auf Zufälligkeiten hinweisen. Wenn im ganzen nur 10800 gezählt werden, kommt man um eine verhältnismäßig be- deutende Unsicherheit nicht herum. Jedoch wird man nicht alle Ab- weichungen auf diese Weise erklären können. Jedenfalls aber darf man behaupten, in groben Umrissen ein richtiges Bild hervorgebracht zu haben. Bei der vorliegenden Aufgabe war es übrigens nicht speziell die Verteilung der Bevölkerung nach Gesellschaftsklassen, die festgelegt werden sollte, sondern die Einkommensverhältnisse; es ist also von antergeordneter Bedeutung, ob man gerade in einer gewissen Gesell- schaftsklasse verhältnismäßig viele Mitglieder gefunden hat, wenn man aur die Einkommensverhältnisse innerhalb dieser Klasse richtig be- stimmt. Die Gliederung nach Beruf ist schier ein Prüfstein für die Zuverlässigkeit des gesamten Materials, es liegt jedoch nicht außerhalb des Bereichs der Möglichkeiten, daß die Verteilung nach Beruf weniger korrekt als die nach Einkommen ausgefallen ist. 67. Nicht zum mindesten für die Wirtschaftsstatistik kann die repräsentative Methode von großer Bedeutung sein. Als Beispiel kann die Menge der innerhalb eines gewissen Zeitraumes von Kühen, Ziegen oder Schafen abgegebenen Milch und des hier- von zur Herstellung von Butter und Käse verwendeten Teiles an- geführt werden. Man wählt also z. B. eine Anzahl von Probekühen 93 in einem Gebiet, das als typisch angenommen werden kann; durch Beobachtung dieser sucht man die Milchproduktion für das ganze Land zu finden, indem das Vieh in so viele Gruppen wie möglich klassi- fiziert wird gemäß den Verhältnissen, welche das größere oder kleinere Milchquantum bedingen. Für die einzelnen, den Gegenstand der Untersuchung bildenden Kühe stellt man in der Regel die Milch- menge durch Probemelkung fest. Etwas Ähnliches gilt, wenn man die Produktivität ge- wisser landwirtschaftlicher Betriebe, z. B. den Unter- schied zwischen größeren und kleineren Betrieben, festzustellen sucht. Es wird hier häufig vorzuziehen sein, eine Anzahl von ausgewählten Wirtschaften zu untersuchen, anstatt eine Massenuntersuchung für sämtliche Wirtschaften vorzunehmen; denn die Verhältnisse können überaus bunt und verwickelt sein, und bei genauer Beobachtung einzelner Betriebe wird man daher leichter verhängnisvolle Fehler vermeiden können als da, wo man eine große Anzahl Betriebe vor sich hat und sich daher zum Teil vielleicht mit Schätzung be- gnügen muß. Ein weiteres Beispiel ist die Feststellung der Holz- masse eines Waldes. Die Methoden müssen im wesentlichen darauf beruhen, daß man auf einer oder mehreren Probeflächen eine ausreichende Anzahl von Probebäumen fällt und für diese die Holzmasse mißt. Von den so gewonnenen Beobachtungen aus können Schlüsse hinsichtlich der gesamten Probeflächen und von hier aus wieder auf den ganzen Wald gezogen werden. Es gilt dann ferner, einen Überblick über die Unsicherheit!) zu ge- winnen; im folgenden wird übrigens Gelegenheit sein, zu dieser Frage zurückzukehren. Die repräsentative Methode wird auch von Bedeutung sein können bei der Frage des Nationaleinkommens und des Na- tionalvermögens?), sowohl bei einer Untersuchung der Ver- mögensgegenstände und Einnahmequellen (die „objektive“ Methode) wie bei der Betrachtung der Verhältnisse der einzelnen Individuen (die „subjektive“ Methode). 1) Siehe J. P. Gram, Om Beregning af en Bevoxnings Masse ved Hjalp af Provetraer, in Tidsskrift for Skovbrug, Kbh. 1883, und H. Prytz, Vedmassefak- torer, in Tidsskrift for Skovvaesen 1889. Tilvextundersogelser, ebenda, 1891. ?) Siehe Fr. Fellner, L’&valuation de la richesse nationale, in Bull. de l’Inst. Intern. de Stat. XIII, 2, 1902, und Bleicher, Die Bedeutung der Statistik in der Praxis, in der Festschrift für v. Mayr a. a. O0. I. 1911. 8S. 135. 94 68. Hat’ man nun die Beobachtungen bearbeitet, so entsteht zum Schluß die Frage nach der Form für die Darstellung der ge- wonnenen; Beobachtungen. Die Zahlen sind ja die eigentliche Sprache des Statistikers; der geschulte Statistiker wird in der Regel mit Leichtigkeit in einer Tabelle die wichtigsten Eigentümlichkeiten des vorliegenden Materials ablesen können. Für einen nicht ge- schulten Statistiker kann eine graphische Darstellung ein nützliches Anschauungsmittel sein, und wenn man die Resultate der Statistik populär darstellen will, scheint die Anwendung der graphischen Dar- stellung überhaupt berechtigt zu sein. Kin Beispiel hierfür ist die Vergleichung der Militärstärke verschiedener Länder, wenn man zur Darstellung Soldaten verschiedener Größe zeichnet. Doch auch für wissenschaftliche Zwecke können graphische Darstellungen be- rechtigt sein und namentlich überall da, wo ihre Anschaulichkeit die ler Tabellen übertrifft. Vor allem sind hier die Kartogramme zu erwähnen, Land- karten, auf denen verschiedene statistische Verhältnisse in ähnlicher Weise wie geologische, geodätische und andere Verhältnisse ange- deutet werden. Der Nutzen dieser Darstellungsweise, die überall da angewandt werden kann, wo die geographische Lage eine Rolle spielt, ist unmittelbar einleuchtend. Will man z. B. die Volksdichte einer Reihe von Landesteilen veranschaulichen, so kann man dies durch lie Bezeichnung der verschiedenen Dichtigkeitsgrade mittels ver- schiedener Farben erreichen, oder man kann mehr oder weniger dicht schraffieren, je nachdem eine größere oder kleinere Volksdichte an- zedeutet werden soll. Natürlich werden hierdurch die statistischen "Tabellen nicht überflüssig, da man gewöhnlich kartographisch die Verhältnisse nur in groben Umrissen darstellen kann; genau so wie es für das gründ- 'iche Studium der Höhenverhältnisse eines Landes wünschenswert sein kann, neben den Karten die Höhenverzeichnisse zur Verfügung zu haben. Aber häufig kann man mit Hilfe einer kartographischen Skizze auf einen Blick Verhältnisse übersehen, die man mit großer Mühe aus den Tabellen ablesen müßte. Je näher die Verbindung zwischen der geographischen Lage und den zu untersuchenden Ver- hältnissen ist, desto mehr werden Kartogramme am Platze sein. Wenn man z. B. die Lichtstärke eines Leuchtturmes durch einen yrößeren oder kleineren Zirkelkreis mit dem Leuchtturm als Zentrum angibt, wird das ganze System solcher Kreise auf einer Karte eine unmittelbare Übersicht über die Beleuchtung der einzelnen Meeres- 95 teile geben; man wird mit einem einzigen Blick beurteilen können, ob ein gegebener Punkt durch einen oder mehrere Leuchttürme be- leuchtet wird oder nicht. Eine weitere wichtige Klasse graphischer Darstellungen sind die Kurven. So hat man z. B. oft die Veränderungen der Waren- preise oder der Kurse im Laufe der Zeit dadurch veranschaulicht, daß man die Zeit als Abszisse und die betrachtete Größe als Ordinate abtrug. Werden die dadurch gezeichneten Punkte durch Gerade verbunden, dann kann man oft schneller einen Überblick über die Bewegung gewinnen, als wenn man die Zahlen allein betrachtet. Wenn die abgesetzten Punkte hinlänglich dicht liegen, wird man auch eine kontinuierte (krumme) Kurve durch die Punkte legen können; dies gilt z. B., wenn man von Woche zu Woche die Kurse und von Stunde zu Stunde die Temperaturverhältnisse beob- achtet. Auch Tatsachen, die von der Zeit unabhängig sind, können sich auf diese Weise in ihren gegenseitigen Beziehungen darstellen lassen, z. B. die Abhängigkeit zwischen Häufigkeit und Größe der Abweichungen vom Durchschnitt, die Häufigkeit von Einkommen verschiedener Größe usw. Solche Kurven können oft die Bewegung in den Verhältnissen unmittelbar vor Augen treten lassen und da- durch den Gedanken stützen. Man wird bei einer Betrachtung vieler solcher Kurven vielleicht eine Gleichzeitigkeit der Bewegungen entdecken, die auf Grund der Unregelmäßigkeit der Zahlen nicht so schnell ans Licht treten kann, wenn man nur auf die Zahlen sieht. Nachher wird man dann diesen Zusammenhang unter Anwendung numerischer Aufstellungen studieren können. 69. Wie in der Einleitung entwickelt, besteht die Aufgabe der Statistik nicht allein darin, den Zustand und die Bewegungen einer gegebenen Beobachtungsmasse zu beschreiben, sondern auch in einer Erforschung der Ursachen dieser Verhältnisse. In Wellenbewegungen steigt oder fällt z. B. eine Volkszahl wie das Meer bei Ebbe und Flut; es gilt dann, diese Bewegungen zu bestimmen und den Ur- sachen auf die Spur zu kommen. Oder man fragt, wie häufig diese oder jene Eigenschaft in verschiedenen Bevölkerungsgruppen unter im übrigen gleichen Verhältnissen auftritt oder wie häufig dieses oder jenes Ereignis eintreffen wird. Wie schon oft hervorgehoben, kommt es in der Regel nicht darauf an, genaue numerische Verhältnisse festzustellen, sondern darauf, den Ursachen nachzuspüren. In dem wirtschaft- lichen und sozialen Leben einer Bevölkerung verschieben sich die 06 Zahlen beständig, so daß man nie erwarten kann, feststehende nume- rische Verhältnisse zur Untersuchung zu erhalten. Man muß damit zufrieden sein, daß die eine oder die andere wirkende Ursache in Erscheinung tritt. Gesetzt den Fall, man habe gefunden, daß irgend- ain Beruf der Gesundheit schädlich sei, diese Tatsache wäre dann für den Gesetzgeber und den Hygieniker ausreichend; von geringerer Bedeutung ist es, ob die betreffende Erhöhung der Sterblichkeit 20 der 30 Proz. ausmacht, wenn man nur weiß, daß es sich um einen jedeutenden, durch hygienische Mißstände hervorgerufenen Unter- schied handelt. Die folgenden ganz elementaren Betrachtungen über die Regelmäßigkeit in den statistischen Phänomenen, über Natur und Bedingungen solcher Regelmäßigkeit, werden Beispiele für die Methode statistischer Untersuchungen abgeben. Mit Rücksicht auf die großen Verschiebungen, welche der Krieg von 1914—1918 mit sich führte, ist das im folgenden benutzte Material auf die Vorkriegszeit be- zrenzt worden. 70. Als erstes Beispiel kann die Heiratsstatistik benutzt werden; man hat für Berlin!) folgende Zahlen: Periode ‚820—1829 ‚830—1839 ‚L840—1849 ‚850—1859 ‚860—1869 ‚870—1879 ‚880—1889 L85J)—1899 1900—1909 Zahl der Durch- MN geschlossenen schnittliche 1, den jährlich Ehen Bevölkerung verheiratet ‚9,9 8,5 18,2 19,5 22,7 24,3 21.1 21,7 21,5 Jährlich treten also ungefähr 2 Proz. der Bevölkerung in den Ehestand; aber es gibt erhebliche Abweichungen, namentlich zeigen sich ansehnliche Schwingungen für 1870—1879, ein Jahrzehnt, das an und für sich eine der interessantesten sozialökonomischen Perioden in neuerer Zeit ist. Von 21 pro Mille im Jahre 1871 steigt die Ehe- schließungsfrequenz auf 27 pro Mille im folgenden Jahre, und in den drei folgenden Jahren ist sie 28, 29 und 31 pro Mille, worauf sie 1876 auf 25 und 1877 auf 22 pro Mille fällt. Überhaupt steigt oder ı) Statistisches Jahrbuch der Stadt Berlin, 32. Jahrg., Berlin 1913, S. 4 u. 62. 97 fällt die jährliche Anzahl sehr erheblich. Während die Volkszahl in den drei Jahren 1907—1909 ungefähr konstant war, gestaltete sich die Anzahl eingegangener Ehen in dieser Zeit wie folgt: 23313, 21799 und 21209, d. h. 22,5, 21,2 und 20,7 pro Mille der Bevölke- rung traten in den Stand der Ehe. Man kann also keineswegs die Anzahl der geschlossenen Ehen mit besonders großer Genauigkeit vorausberechnen. Sieht man jedoch auf die einzelnen Elemente der Zahlenreihen, so wird man häufig eine größere Gleichmäßigkeit entdecken. So z. B. bei der Betrach- tung der Altersgliederung der betreffenden Personen. In den drei genannten Jahren gelten folgende Promillen (da die Zahlen abge- kürzt sind, kann die Summe nicht überall genau 1000 sein): | Männer | Frauen 1907 171908 1 500 ınter 20 Jahren 20—7 Jahre 25— 30—* 35— 40 — 45—. 50—t 55—60 50 Jahre u. darüber L m 285 AC2 # r 2. 1 Deutlich zeigt sich, daß diese Zahlen überhaupt eine größere Gleichmäßigkeit als die oben genannten Quotienten aufweisen. Man scheint also mit größerer Genauigkeit die Altersgliederung der Neuverheirateten als die absolute Anzahl gestifteter Ehen berechnen zu können. 71. Auch bei einer Betrachtung der Scheidungen wird man oft, trotz großer Unregelmäßigkeit in den absoluten Zahlen, durch Spaltung der Beobachtungen eine recht erhebliche Regelmäßigkeit erzielen können. Die Ursachen, welche die großen Schwingungen von einem Jahr zum anderen verursachen, wirken mit ungefähr gleicher Kraft überall. Untenstehende Zahlen sind lehrreich, da die Einführung des Bürgerlichen Gesetzbuches einen bedeutenden Niedergang in den Ehescheidungen bewirkte, während im Jahre 1899, unmittelbar bevor die neue Ordnung in Kraft trat, eine un- gewöhnlich große Anzahl zu beobachten war: Westergaard und Nybolle, Theorie der Statistik, 2. Autl. 98 Ehescheidungen in Berlin 1899—1908. Absolute Von 100 aufgelösten Ehen waren Zahlen evangelisch gemischt 1899 1 608 78 900 936 79 1901 984 1902 227 1903 269 1904 376 1905 421 L906 639 L907 781 1908 868 Zusammen: 14 109 Trotz der großen Abnahme der Ehescheidungen von 1899 bis L900 ist die relative Anzahl evangelischer und gemischter Ehen fast konstant. Auch die katholischen und jüdischen Ehen weisen eine verhältnismäßig große Gleichmäßigkeit auf. Ganz natürlich verursachte dagegen die neue Ordnung eine große Änderung in den angegebenen Scheidungsgründen. Im Jahre 1899 beruhte z. B. ein Drittel der Scheidungen auf dem Einverständnis der Gatten; dieser Grund tritt in den folgenden Jahren gar nicht mehr in die Er- scheinung. 72. Die Geburtsstatistik weist ähnliche Züge auf. Eine Spaltung des Materials in gewissen Richtungen ergibt eine be- jeutende Regelmäßigkeit. Überall kann man gewisse elementare Beobachtungen machen, So z. B., daß die Anzahl Knabengeburten größer ist als die der Mädchengeburten, daß Totgeburten unter Knaben häufiger sind als unter Mädchen, daß außerehe- liche Geburten häufiger mißglücken als eheliche. Dies bestätigt sich stets, wenn man ein ganzes Land oder einen größeren Teil eines Landes untersucht; nur dann, wenn die Beobachtungsreihen kleiner werden, entstehen Abweichungen; die Bedingungen für diese Abweichungen sollen später untersucht werden. In den letzten Jahrzehnten ist, wie bekannt, eine bedeutende Ab- nahme der Geburtenfrequenz eingetreten. In Berlin war während les größten Teiles des 19. Jahrhunderts die Frequenz im großen und ganzen konstant. Gewisse Wellenbewegungen können in Verbindung gebracht werden mit Schwingungen in der Anzahl der gestifteten Ehen; als gutes Beispiel sei hier gerade der Höhepunkt in den 70er Jahren erwähnt, wo die Geburtenfrequenz im Jahre 1876 (die Tot- gyeburten mitgerechnet) sogar bis auf 47 pro Mille gelangte. 1911 99 war die Zahl nur 22 pro Mille. Einen Überblick über die Verhält- nisse gewinnt man an der Hand folgender Tabelle: Periode 1820—182€ 1830—1839 1840—1849 1850—1859 1860—1869 1870—1879 1880—- 1889 1890—1899 1900 — 1909 Zahl der geborenen ‚JährlicheAnzahll| (Totgeburten mitgerechnet) Geburten in - pro Mille der Knaben Volkszahl 09 9 3" 62 746 80 580 26 291 296 302 242 853 261 865 263 875 4 , A 3A 2 ıl 16 A v nm v S DB 248 247 950 716 511 825 37 25.9 Von 1000 Geborenen waren Knaben d14 516 512 514 512 513 516 Die Zahlen weisen außerordentlich kräftige Bewegungen in der Geburtenfrequenz auf; man sieht jedoch, daß die Gliederung nach Geschlecht fast konstant ist. Ob wenige oder viele Kinder in der Ehe geboren werden, ist für das Gleichgewichtsverhältnis ziemlich gleichgültig. Auch das Abnehmen der Geburten hat ein gewisses Gepräge der Regelmäßigkeit. Man erhält z. B. 1881: 39,7 pro Mille, 1891: 33,6, 1901: 27,7 und 1911: 21,6, also einen Niedergang von 6 pro Mille in jedem Jahrzehnt. Im einzelnen ist diese Abwärtsbewegung jedoch wellenförmig gewesen; die Jahre 1904 und 1906 z. B. wiesen eine kleine Steigung dem Vorjahre gegenüber auf, Um andere Spaltungen des Materials zu probieren, kann man die Geborenen in eheliche und außereheliche gliedern: Periode L82JI- 182. 1Q&1, IE pl 4 Zahl der außerehe.‘ :. ‘“+ahorenaı" 65 6° 72 632 86 707 Kl Jährliche Apr") pr 4 ‘hir In Prozent der Ge- borenen ö,1 9 1 6 vo 5 4 149 16.9 Der Niedergang in der Geburtenzahl macht sich also auch hier geltend, jedoch in geringerem Grade als bei sämtlichen Geburten: daher wachsen die Prozentzahlen in den letzten Dezennien. — 100 — 73. Ein besonders interessantes Gebiet stellen die Totgeburten jar. Zu ihrer Beleuchtung diene die folgende tabellarische Übersicht: Periode 1820—1329 L830—1839 840—1849 ‚850—1859 „860—1869 ‚870—1879 880—1889 L890—1899 1900—1909 Zahl der Totge- borenen 2 y67 4516 5392 6879 ı 296 > 9492 ‚IR 34 SZ Davon außer- ahelich yeboren| 3 „52 752 ‚587 826 650 ff 3 A807 Von 100 Geborenen waren Tot- geburten Von 100 außerehelich Geborenen | waren Tot- geburten Von 1000 Totge- burten waren Knaben 7 ) 9 9 60 56 58 „59 52 Von 1000 außerehel. Cotgeburten waren Knaben ‘8 509 536 549 550 550 544 543 540 Die Zahlen zeigen uns eine gradweise Verbesserung der Ver- hältnisse, nur das letzte Jahrzehnt weist eine größere Frequenz der Totgeburten auf. Auf ganzer Linie zeigt sich, daß uneheliche Kinder von größeren Gefahren als die übrigen Kinder bedroht werden, und lie Bewegungen in der Totgeburtenfrequenz in den zwei Gruppen sind im ganzen parallel; wenn die Frequenz im ganzen sinkt, zeigt sich dasselbe bei den außerehelich Geborenen allein, und umgekehrt. Es erweist sich ebenfalls, daß das Geschlechtsverhältnis der Tot- yeborenen recht konstant ist und in der kleineren Gruppe etwas stärker variiert als es bei sämtlichen Totgeburten der Fall ist. Auch sieht man, daß das Risiko der Totgeburt erheblich größer für Knaben jals für Mädchen sein muß, da die Gliederung nach Ge- schlecht für die Totgeburten ganz anders aussieht als bei sämtlichen Geburten. Ferner ist es von Interesse, daß das Übergewicht der Knaben unter den außerehelich Totgeborenen weniger stark hervor- ;ritt als unter sämtlichen totgeborenen Kindern. Der nächste Schritt in der Untersuchung muß ganz natürlich der sein, nach der Gefahr der Totgeburt für jedes Geschlecht getrennt zu fragen, was übrigens in diesem Zusammenhang im wesentlichen nur zu Wieder- holungen führen würde. 74. Um auch ein Beispiel aus der Sterblichkeitsstatistik zu nehmen, kann man die Statistik für Berlin analog der obigen Weise bearbeiten und erhält folgende Zahlen: 101 Periode 1820—1829 1830—1839 1840—1849 L850—1859 1860—1869 1870—1879 1L880—1889 1890—1899 1900—1909 Männer 31 A960 LU RSG 50 510 5° 236 "390 961 ‚70.923 172 485 172 670 Zahl der Sterbefälle (ohne Totgeburten) Frauen Zusammen 757 - M6 36 556 "23480 ‚a1 271 ‚53 410 156 589 7 59 150 30 340 95 267 115.082 183 946 286 441 322 194 325 895 3920 259 Jährliche Zahl der Sterbefälle in pro Mille der Volks- zahl A en jr ar c 9 Sk 19,5 16.6 Von 1000 estorbenen waren Männer Idee 530 524 5329 334 530 529 524 Die Sterblichkeit ist also seit den 70er Jahren in raschem Niedergang gewesen, aber diese Bewegung änderte nicht das Ver- hältnis zwischen der Zahl verstorbener Männer und Frauen, welches beinahe konstant gewesen ist, Bei weiterer Bearbeitung dieses Materials wird man auf ähn- liche Weise andere Erfahrungen machen können. Dies gilt z. B., wenn man den Einfluß der Jahreszeiten untersucht. Man erhält hier eine Reihe von Jahren hindurch die tägliche Anzahl Todesfälle wie folgt (Totgeburten mitgerechnet): Tägliche Zahl der Sterbefälle (Totgeburten mitgerechnet) Jahr 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 Jan. ! Febr. 96 104 89 98 94 104 98 107 170 A] 98 11il 98 99 A fr | März 104 99 95 65 April 1 Mai Juni Juli a. Aug. x x fr % Y Sept. 104 a: RR 1 0b Okt. Nor. Dez 90 31 34 36 595 88 86 36 “7 96 90 99 0? 20 & 92 95 8x 90 Jahres- durch- schnitt 102 98 89 92 05 ) ) 92 87 93 Die Zahlen haben augenscheinlich ein Gepräge der Regelmäßig- keit. Im Januar bewegt sich die absolute Zahl der Sterbefälle zwischen 89 und 110, im Februar zwischen 90 und 111 usw. Einige Monate haben geringeren Spielraum, der November zwischen 86 und _ 102 99, der Juni zwischen 85 und 96. oIm Gegensatz hierzu tritt der Juli mit einem Spielraum zwischen 81 und 113 auf, der August hat sogar ein Minimum von 80 und ein Maximum von 130. Was ist nun Jie Ursache zu diesen relativ großen Abweichungen vom Durch- schnitt? Eine einfache Bearbeitung des Materials besteht in einer Aus- scheidung von Sterbefällen unter kleinen Kindern. Es er- yeben sich hierbei für die zwei Monate Juli und August folgende Zahlen: RR Jahr ‚900 901 902 903 1904 ‚G05 Es starben in Berlin durchschnittlich täglich (ohne Totgeburten) Juli __ August ___ unter | über unter über Tahr 1 Jahr|1 Jahr!1 Jahr Juli ] Auryust unter ' über ' unter Über i Jahr‘ . Jahr sl >hr Mm 3 7 | Ö 27 57 35 54 22 56 25 55 3 62 3 . 14 5 ) RS 65 ‘x Für die verstorbenen Übereinjährigen ist die Regelmäßigkeitgin den Sommermonaten dieselbe wie im übrigen Teil des Jahres; aber für die kleinen Kinder kann man außerordentlich große Schwin- zungen beobachten. Bei der Teilung der Beobachtungen in diese zwei Altersklassen wird man dann eine verhältnismäßig große Gleich- mäßigkeit für die eine Gruppe bekommen. Hinsichtlich der anderen Gruppe wird es sich verlohnen, die Zahlen mit leicht zugänglichen Beobachtungen, namentlich über Temperaturverhältnisse, zu vergleichen. Ein Blick auf die Zahlen wird uns darüber belehren, Jaß die Säuglingssterblichkeit sich in den erwähnten Monaten erhöht, wenn die Temperatur steigt, und umgekehrt. So lag z. B. die Juli- temperatur in den Jahren 1900 und 1901 sehr hoch, und gleich- zeitig erreichte die Sterblichkeit einen Höhepunkt; 1902 war die Julitemperatur dagegen niedrig USW. Wählt man die 6 Jahre mit höchster Monatstemperatur, dann wird man finden, daß die Durchschnittszahl von Sterbefällen unter Säug- ingen (unter 1 Jahr) in den heißen Jahren 36,5 war (Durchschnitts- temperatur 20,4), während man in den kalten Monaten nur 25,1 “Temperatur 17,7) hatte. Für den Monat August findet man bei siner Durchschnittstemperatur von 18,9 und 16,9 eine Sterblichkeit 103 von 57,7 und 29,4, so daß die Sterblichkeit in den günstigen Mo- naten nur halb so groß war wie in den ungünstigen. Es liegt außerhalb der Aufgabe, in diesem Kapitel diese Er- fahrungen weiter zu verfolgen; es ist hier ausreichend, auf das ele- mentare Resultat hinzuweisen, welches auch durch andere Beobach- tungsreihen bekräftigt wird: daß ein gewisser Zusammenhang zwischen Temperatur und Sterblichkeit besteht. Zur weiteren Klärung dieser Frage wird sich eine Zusammenstellung der Krankheitsursachen besonders der Verdauungskrankheiten, verlohnen. Hier sollen jedoch gleich zwei Bemerkungen gemacht werden. Zum ersten kann man natürlich die Sterblichkeit nicht unmittelbar aus der Tem- peratur berechnen. Im Juli, dem Monat mit der höchsten Durch- schnittstemperatur, ist die Sterblichkeit geringer als im August. Hier wie überall haben wir eine Kette von Ursachenkomplexen, welche die Veränderungen in der Sterblichkeit erklären. Es ist nur die für die Jahreszeit ungewöhnliche Temperatur, welche die vorliegenden schädlichen Momente erhöht. Zum zweiten wird eine Regel wie die gefundene auch nicht ohne Ausnahme gelten. So war z. B. der Monat Juli des Jahres 1911 verhältnismäßig heiß, er hatte aber eine moderate Sterblichkeit. Die Erhöhung der Monatstemperatur ist nicht die einzige denkbare Ursache zu einer Vergrößerung der Sterblich- keit. Übrigens wird eine tiefergehende Untersuchung dieses spe- ziellen Falles gerade die Regel bekräftigen. Im Juli 1911 trat die Wärmeerhöhung erst spät ein, zu Anfang war der Monat sogar kühl mit entsprechender geringer Sterblichkeit; nur die letzte Woche war ungemein heiß. Folgende Zahlen werden dies beleuchten: Die Woche endigte mit dem Durchschnittliche | A Temperatur Cr SIETDETAUE unter 1 Jahr 5 AL ud Als die Temperatur am Schlusse des Monats Juli stieg, begann auch die Sterblichkeit zu steigen. 104 Will man also Unregelmäßigkeiten im Ausdruck für die Sterblich- keit beseitigen, dann gilt es, das Material in viele Gruppen nach dem Alter zu teilen, die Temperaturverhältnisse zu be- rücksichtigen usw. Auch die meteorologischen Verhältnisse der anderen Jahreszeiten können einen Einfluß ausüben. Im Frühjahr wirkt z. B. eine größere Kälte auf die älteren Altersklassen ein, und wenn man so genau wie möglich alle solche Phänomene berücksich- tigt, wird die Aussicht, Regelmäßigkeit in den Zahlen zu erhalten, größer. Hier liegt in Wirklichkeit der Kern jeder statistischen "Untersuchung. Jede Unebenheit gibt zu neuer Behandlung des Ma- terials Veranlassung; trotz der Unebenheit werden gewisse Verhält- nisse da sein, welche sich konstant verhalten, so z. B. die Verteilung zwischen beiden Geschlechtern. Andere Verhältnisse aber werden Jurch ihre Unregelmäßigkeit auf besondere Ursachen hinweisen, die es dann weiter zu verfolgen gilt. 75. Häufig wird man erfahren, daß eine scheinbare Regelmäßig- veit tatsächlich die Wirkung vieler gleichzeitiger und gegeneinander wirkender Ursachen ist. In Dänemark war von 1896—1905 die Selbstmordfrequenz sowohl für unverheiratete wie verheiratete Männer 33 pro 100000. Aber teilt man nach Altersklassen, So findet man überall die größte Selbstmordfrequenz unter den Unverheirateten. Die scheinbare Übereinstimmung war also nur ein Resultat der ungleichen Altersgruppierung, da die Unverheirateten durchweg jünger sind und daher anscheinend eine verhältnismäßig geringere Selbstmordfrequenz erhalten, als der Fall sein würde, wenn sie die- selbe Altersgruppierung wie die Verheirateten hätten. Daher ist auch die Selbstmordfrequenz unter Witwern, welche durchschnittlich verhältnismäßig alt sind, im Vergleich mit Ehemännern größer als in dem Falle, wo man die Altersgruppierung berücksichtigen könnte. Um ein anderes Beispiel zu nehmen, kann man für England, für Stadt und Land, die Sterblichkeit an allen Ursachen über- haupt vergleichen. Einst war lange Zeit hindurch die Sterblichkeit sowohl in den Städten wie in den Landgemeinden ständig abnehmend, während sich die Sterblichkeit der gesamten Bevölkerung konstant verhielt. Die Ursache war die, daß die Stadtbevölkerung mit der größten Sterblichkeit am meisten gewachsen War. Zwei Ursachen hatten sich also gegenseitig aufgehoben: die hygienischen Fortschritte einerseits und die Veränderung der Verteilung zwischen Stadt und Land andererseits. In unseren Tagen ist die Bevölkerung ständig yzroßen Bewegungen unterworfen; desto notwendiger muß es daher 105 sein, das Material sorgfältig zu teilen, um die Wirkungen dieser Verschiebungen zu berücksichtigen. 76. Die hier angeführten Beispiele werden zur Beleuchtung der Methode statistischer Untersuchungen ausreichen. Zum ersten hat es sich gezeigt, daß allerdings eine Regelmäßig- keit in den Zahlen herrscht, aber diese Regelmäßigkeit ist nicht absolut, ganz im Gegenteil kommen oft bedeutende Abweichungen vor. Der Spielraum für die Abweichungen kann indes verkleinert werden, wenn man das Material in verschiedenen Rich- tungen bearbeitet, wirtschaftlich und politisch gleichartige Peri- oden auswählt und die Verschiebungen der Bevölkerung usw. be- rücksichtigt. Oder mit anderen Worten: Große Abweichungen vom Durchschnitt werden oft dazu verhelfen, die Anwesenheit gewisser Ur- sachen festzustellen; je weniger die Zahlen voneinander abweichen, desto schwieriger wird es sein, solche Ursachen statistisch zu be- leuchten, Eine Teilung und Bearbeitung des Materials ist besonders la notwendig, wo die Möglichkeit der Einwirkung zweier Ur- sachen vorliegt, wo z. B. zu vermuten ist, daß sowohl Zivilstand und Alter eine Rolle spielen. Allerdings kann man auch ohne eine solche Zerlegung des Materials oft zu feststehenden numerischen Resultaten gelangen, z. B. zu dem Ergebnis, daß die Witwer ver- hältnismäßig viele Selbstmörder zählen; ob dies aber allein der be- sonderen Altersgruppierung zuzuschreiben ist oder ob andere Ursachen wirken, läßt sich nicht ohne Spaltung des Materials entscheiden. Betrachtet man nun ferner statistische Reihen mehrerer Länder, so wird man oft sehen, daß die Zahlen von gemein- samen Ursachen beeinflußt werden. In vielen europäischen Ländern wird man Parallelbewegungen finden. So hatten z. B. im Jahre 1880 die meisten europäischen Länder eine besonders große Kindersterblichkeit, in manchen Ländern Europas hatte die Trauungs- frequenz von 1868—1869 ein Minimum, gegen Mitte der 70er Jahre einen Kulminationspunkt und 1879—1880 ein neues Minimum. Selbst- verständlich wird dies nicht die Gegenwart sehr kräftig wirkender besonderer Ursachen ausschließen. So war z. B. das Hungerjahr 1868 in Finnland durch eine ungeheure Sterblichkeit und eine niedrige Trauungsfrequenz charakterisiert. Im folgenden Jahre nahmen die Eheschließungen wieder zu; viele Trauungen, welche 1868 ausgesetzt wurden, scheinen 1869—1870 vollzogen worden zu sein; dadurch werden Abweichungen vom einen Jahr zum andern natürlich um so zrößer. 106 Wenn gemeinsame Ursachen sämtliche Bevölkerungsschichten beeinflussen, kann man oft von den statistischen Beobachtungen für ainzelne Jahre oder für einzelne Teile des Landes auf andere Gruppen schließen, selbst wenn die beobachteten Zahlen nicht gerade als ty- pisch bezeichnet werden können. Die Sterblichkeit nach Beruf läßt sich z. B. oft durch die Statistik eines einzelnen Jahres beleuchten, vorausgesetzt, daß man die Resultate nicht in genauer numerischer Form angeben will. Hat man nach sorgfältiger Bearbeitung des Materials und nach Isolierung der Ursachen ein Resultat für einen Beruf in einem Lande gefunden, dann darf man oft davon ausgehen, Jaß dieselben Ursachen in einem anderen Lande ein ähnliches Er- gebnis bewirken werden. Hat es sich in einem Lande erwiesen, daß Ehemänner eine geringere Selbstmordfrequenz haben als Witwer, so wird sich dies Resultat in der Regel für andere Länder wiederholen. Bisweilen kann man auch verwandte Gruppen betrachten. Wenn ungünstige Verhältnisse in einem Jahre die Sterblichkeit außerehelicher Kinder erhöhen, so wird man gewöhnlich auch größere Sterblichkeit unter den ehelichen Kindern erwarten können. Viele Resultate lassen sich, wie wir gesehen haben, vollständig elementar feststellen. Daß uneheliche Kinder größere Sterblichkeit haben als eheliche, daß Männer mehr zum Selbstmord neigen als Frauen, sind Beispiele hierfür. Sie beruhen auf Tatsachen, die so »ft wiederholt sind, daß man ganz unmittelbar von der Wahrheit überzeugt wird. 7%. Es entsteht indessen nun die Frage, wie lange man die ben geschilderte Aussonderung von Ursachen fortsetzen kann, ob der Spielraum für Abweichungen vom Durchschnitt ständig kleiner wird, wenn man das Material teilt, so daß also die Vorausberech- nungen genauer werden, oder ob man zuletzt einen Punkt erreicht, wo die Genauigkeit der Vorausberechnungen nicht erhöht werden kann. Es gilt also zu untersuchen, ob die Regelmäßigkeit auch zutage tritt, wenn man das Material sehr stark begrenzt, ob man z. B. eine sehr detaillierte Teilung nach Berufsklassen vornehmen kann, ohne sich dem auszusetzen, daß die individuellen Ursachen zu guter Letzt eine dominierende Rolle spielen. Solange man keinen Maßstab hat für den Spielraum dieser Ursachen, fehlt den Unter- suchungen der Schlußstein. Man kann vielleicht einzelne an der Oberfläche liegende Ursachen nachweisen, nicht aber die tiefer liegenden; es besteht also die Gefahr, daß man das Material nicht voll und ganz ausnutzen kann. Zur Auffindung eines solchen Maß- 107 stabes wird es sich verlohnen, einige einfachere Erfahrungen aus dem Glückspiel und ähnliche Beobachtungen zu erörtern, um danach zur Sozial- und Wirtschaftsstatistik zurückzukehren. Es läßt sich wohl denken, daß statistische Beobachtungsreihen weit verwickelterer Natur zu guter Letzt eine weit größere Regel- mäßigkeit aufweisen können, daß z. B. Gewohnheit oder andere Momente unter gewissen Verhältnissen eine fast konstante Trauungs- frequenz oder einen fast konstanten Konsum hervorrufen können. Die im vorigen Kapitel mitgeteilten Erfahrungen deuten jedoch nicht darauf hin, und es ist auf jeden Fall weit schwieriger, einen Überblick über die Ursachen, welche bei solchen Beobachtungen in Tätigkeit gewesen sind, zu gewinnen als bei den Glückspielen. LIJI. Kavitel. Das Exponentialgesetz. A. Die Regelmäßigkeit bei Glückspielerfahrungen. #8. Im Vorhergehenden ward bereits mehrmals erwähnt, daß die Regelmäßigkeit in den statistischen Phänomenen unter anderem eine Folge davon ist, daß die totale Wirkung der Ursachen auf eine große Anzahl von Individuen zum Gegenstand des Studiums gemacht wird. Will man untersuchen, welchen Einfluß die Zahl der Beobachtungen auf die statistischen Verhältnisse hat, so kann es daher nützlich sein, als Einleitung zu diesem Studium die Resul- tate solcher Massenbeobachtungen zu betrachten, denen möglichst einfache Bedingungen zugrunde liegen. Von solchen Beobachtungen liegt namentlich für Glückspiele — Lotterien, Würfelversuche usw. — ein umfangreiches Material vor, das für diesen Zweck wohl geeignet ist, da die menschliche Individualität so gut wie keinen Einfluß auf die Ergebnisse ausüben kann. 79. In der Einleitung ward ein solcher leicht übersehbarer Ver- such erwähnt!), nämlich der Versuch, einem Beutel verschieden ge- *) Vgl. hierzu Harald Westergaard, Die Grundzüge der Theorie der Statistik, 1. Ausg. Jena 1890, S. 22 ff., ferner Zur Theorie der Statistik, in Jahrb. f. Nat. u. Statistik, N. F. Bd. X, Jena 1885, S. 1. — In einer Abhandlung (Sur Vappre- ciation des documents statistiques etc.) im Bull. de la Commission centrale de Statistique, Tome II, Bruxelles 1845, S. 239, hat Quetelet die Resultate ähn- licher Kugelversuche mitgeteilt. 108 färbte Kugeln zu entnehmen. Im Beutel befanden sich gleich viele weiße und rote, aber im übrigen völlig gleiche Kugeln. Nach der Ziehung einer Kugel ward die Farbe (w oder r) notiert, und bevor eine neue Kugel gezogen wurde, ward die herausgenommene Kugel in den Beutel zurückgelegt, worauf eine sorgfältige Mischung sämtlicher Kugeln erfolgte. Das Experiment wurde 10000 Male wiederholt, und die wechselnden Resultate hinsichtlich der bei jeder ainzelnen Ziehung erzielten Farbe kann man sich leicht in einer Reihe wie in der folgenden niedergeschrieben denken, WWIWITWWIITWILTWITTWWITWI 000000009 welche man sich also als 10000 Buchstaben enthaltend vorstellen muß, Insgesamt ward weiß 5011 Male und rot 4989 Male gezogen; insofern ist die Zahl jeder Farbe ungefähr die gleiche. Die Frage ist indes die, ob diese Abweichung von gerade der Hälfte jeder Art als groß oder klein angesehen werden kann, oder mit anderen Worten, welche Abweichungen überhaupt zu erwarten sind, wenn man eine gegebene Anzahl Male zieht, und ob sich diese Ab- weichungen verändern, wenn die Anzahl der Male, in denen man im ganzen zieht, vergrößert oder verkleinert wird, und dann wie. Stellt man sich — wie es bei der Untersuchung dieser und jer folgenden Ziehungsresultate beabsichtigt ist — auf einen rein ampirischen Standpunkt, so muß man, um zu Erfahrungen über die Größe der Abweichungen zu gelangen, die Versuche viele Male wiederholen. Anstatt immer und immer wieder 10000 Ziehungen vorzunehmen, kann man die vorliegende Beobachtungsreihe z. B. in der Weise benutzen, daß man sie in Gruppen von je 100 Ziehungen zerlegt; in jeder solchen Gruppe sollte unserer Erwartung nach das Verhältnis zwischen rot und weiß nicht viel von 50 w und 50 r abweichen. Von den 10000 Beobachtungen kann man nun 100 Gruppen zu je 100 Buchstaben bilden, und es zeigte sich bei einer Aufzählung, daß inur 9 der 100 Gruppen gerade 50 w und 50 r ergaben, während sich in 11 der 100 Gruppen 49 w und 51 r, in 551 w und 49 r usw. befanden. Das Resultat der Aufzählung 'n sämtlichen 100 Gruppen ist im übrigen aus der Tabelle 1 er- sichtlich. Schon aus dieser Tabelle kann man einige Erfahrungen darüber yewinnen, wie es gehen wird, wenn man aus einem Beutel mit oyleich vielen weißen und roten und im übrigen auch möglichst 109 Tabelle 1 Von sämtlichen 100 Gruppen ergaben: weiße Kugeln “) weiße Kugeln gleichartigen Kugeln in der oben beschriebenen Weise 100 Male zieht. Trotzdem jeder einzelne Zug anscheinend unter ganz gleichen Bedingungen stattfindet, erhält man keineswegs bei jedem Zuge das gleiche Resultat (also die ganze Zeit entweder weiß oder rot); in keiner der 100 Versuchsreihen hat man auch nur annähernd er- reicht, lauter rote oder lauter weiße Kugeln zu erhalten; rot und weiß wechselt auf eine ganz unberechenbare Weise durch jede Ver- suchsreihe (Gruppe). Wie die Resultate von Zug zu Zug wechseln, variieren auch die Ergebnisse von Versuchsreihe zu Versuchsreihe; obwohl auch die Umstände, die für eine Reihe (Gruppe) von 100 Ziehungen das Resultat entscheiden, anscheinend von Gruppe zu Gruppe gleich sind, erhält man auch hier nicht nur annähernd jedesmal dasselbe Ergebnis; wie erwähnt, sind es verhältnismäßig wenige — ins- gesamt 9 — der 100 Gruppen, welche gerade 50 w und 50 r auf- weisen; die Abweichung von diesem Resultat, das genau dem Inhalt des Beutels entspricht, ist also weitaus am allgemeinsten. Aus Tab. 1 wie aus Fig. 1, S. 111 (in der die Zahlen der hier in Betracht kommenden weißen Kugeln als Abszissen und die entsprechende Anzahl Gruppen als Ordinaten abgetragen sind) wird andererseits hervorgehen, daß namentlich die geringeren Abweichungen häufig, Abweichungen von 10 zu je 15 dagegen schon selten sind, und daß größere Abweichungen faktisch gar nicht vorkommen. Ist es somit klar, daß eine genaue Vorausberechnung der Zahl weißer und roter Kugeln, die sich bei einer Versuchsreihe von 100 Ziehungen ergeben wird, nicht möglich ist, so scheint es schon aus den in der Tabelle 1 ausgedrückten Erfahrungen hervorzugehen, daß man mit absolut überwiegender Sicherheit vorhersagen kann, daß die Zahl der weißen Kugeln zwischen 35 und 65 liegen wird, —. 110 laß, mit anderen Worten, höchstens von einer Abweichung von 15 von dem Resultat die Rede sein kann, welches genau dem ent- spräche, daß im Beutel gleich viele rote und weiße Kugeln seien. Eine absolute Gewähr hierfür hat man allerdings nicht; aus der Tabelle geht z. B. hervor, daß die eine der 100 Gruppen 34 weiße Kugelm aufweist, und wenn man die Beobachtungsreihe durch neue Versuche erweiterte und somit Erfahrungsdaten für zwei, drei oder mehrere Hunderte von Gruppen zu je 100 Beobachtungen er- hielte, dann wäre es ja möglich, noch größere Abweichungen zu finden. Indessen kommt man bei einer Betrachtung der in der Tabelle. 1 vorliegenden Erfahrungen nicht um den Eindruck herum, daß der allergrößte Teil der bei einer Erweiterung des Er- fahrungsmaterials hinzukommenden neuen Gruppen geringere — teils sehr viel geringere — Abweichungen aufweisen würde; mit anderen Worten, die Menge von Gruppen mit geringeren Abweichungen als die schon konstatierten im Verhältnis zur Menge von Gruppen mit größeren Abweichungen würde dadurch in jedem Fall sehr groß werden, weil man bei den erneuten Anstrengungen zur Erweiterung des Erfahrungsmaterials genötigt wäre, sich sozusagen durch große Mengen von Gruppen (ständig von je 100 Ziehungen) hindurch- zuschleppen, ehe es glückte, eine Gruppe von 100 Ziehungen zu finden, in der die Zahl der weißen Kugeln um mehr als 16 von 50 “weniger als 34 oder mehr als 66) abwiche. 80. Wie es sich hiermit verhält, darüber kann uns das vor- liegende Erfahrungsmaterial natürlich nicht belehren, Die Haupt- sache ist vorläufig auch die, die Anhäufung um den „Durchschnitt“ herum zu bemerken, welche in der Tabelle 1 zum Ausdruck kommt und dann auch mit aller Deutlichkeit aus Fig. 1 hervorgeht. Es wird hierbei von Interesse sein, nicht nur den Spielraum von 35 bis 65 (inklusive) hervorzuheben, innerhalb dessen so gut wie alle vetrachteten Gruppen fallen, sondern auch ganz im allgemeinen zu untersuchen, wieviele der 100 Gruppen innerhalb des Spielraums anderer Größen fallen — deutlicher ausgedrückt, zu untersuchen, auf welche Weise der innerhalb eines gegebenen Spielraums fallende Prozentteil der sämtlichen 100 Gruppen anwächst, wenn allmählich dieser Spielraum größer und größer gemacht wird. Es ist aus dem Vorhergehenden ersichtlich, daß man desto größere Sicherheit erzielt, je größere Abweichungen man duldet. Bei dieser Art der Aufgabenstellung wird allerdings kein Unter- schied zwischen positiven und negativen Abweichungen gemacht; 117 + daß das Resultat einer Versuchsreihe von 100 Ziehungen „innerhalb des Spielraums 7 fällt“, besagt also weiter nichts, als daß man da- durch eine Anzahl weißer Kugeln erhalten hat, die entweder 47, 48, 49, 50, 51, 52 oder 53 ist. Man könnte natürlich auch im beson- deren untersuchen, wieviele der Gruppen entweder positive oder negative Abweichungen aufweisen, die nach beiden Seiten kleiner als oder gleich 3 sind, also Gruppen mit 51, 52 oder 53 weißen Kugeln gegenüber Gruppen mit 47, 48, 49 weißen Kugeln. Eine Betrachtung von Tabelle 1 uri1 Wi- 1 zeigt indes, daß die Ver- DO 35 50 Fig. 1. 7m” „l RI - 55 60 65 Sa teilung der Gruppen um den Durchschnitt herum ziemlich sym- metrisch ist; Abweichungen derselben Größe, aber mit entgegen- gesetzten Vorzeichen, sind in den Hauptzügen gleich häufig, jeden- falls mit einer solchen Annäherung, daß man nicht aus dem vor- liegenden Erfahrungsmaterial größere Einsicht zu gewinnen erwarten kann, wenn man zwischen Abweichungen mit entgegengesetzten Vorzeichen, aber im übrigen von gleicher Größe, unterschiede. Zu- gunsten dieser Hypothese spricht vorläufig auch die Art und Weise, in der die Versuchsresultate zuwegegebracht wurden, unter anderem der Umstand, daß im Beutel gleich viele rote und weiße Kugeln _—. 112 gewesen sind; wie es im folgenden des näheren bewiesen werden wird, ist dieser Umstand nicht allein entscheidend, da man eine ganz ähnliche Tendenz zur Symmetrie auch in solchen Fällen wird bemerken können, wo der Inhalt des Beutels eine ganz andere Zu- sammensetzung gehabt hat. Stellt man nun fest, wieviele der Gruppen, die, wie wir uns kurz ausdrückten, innerhalb des Spielraums der Größen 1, 3, 5, 7 usw. fallen, so ergeben sich folgende Zahlen: Tabelle 2. [nnerhalb des Zahl der Spielraums Gruppen ) a x 6 29 31 33 39 99 99 00 Auch aus dieser Tabelle geht hervor, wie außerordentlich stark die Anhäufung um das spezielle Ergebnis: 50 w +50 r faktisch ist. Wenn auch dies Resultat verhältnismäßig selten eintrifft, so braucht man andererseits nicht viele verschiedene Ergebnisse als gleichwertig zu einer Einheit zusammenzufassen, um Sammlungen einzelner spezieller Versuchsresultate zu erhalten, welche verhältnismäßig häufig vorkommen; unterscheidet man somit nicht zwischen Versuchs- cesultaten von 49, 50 und 51 weißen Kugeln, so wird sich ergeben, laß in 25 der 100 Gruppen die Abweichung höchstens 1 war; in 40 der Gruppen betrug die Abweichung in derselben Weise höch- stens 2; in 95 der Gruppen war die Abweichung höchstens 10, so daß man, bevor eine Versuchsreihe von 100 Ziehungen begonnen wird, fast mit Sicherheit darauf rechnen kann, eine Zahl weißer Kugeln, die höchstens um 10 von 50 abweicht, zu erhalten. Überhaupt wird sich herausstellen, daß, je größere Spielräume man zuläßt, desto mehr Gruppen innerhalb des betrachteten Spiel- 11? raums fallen, und daß Spielräumen einer gewissen Größe ein be- stimmter Anteil (Prozentteil) der gesamten Anzahl Gruppen ent- spricht, ein Prozentsatz, der also gleichzeitig mit dem Spielraum wächst. 81. Vom Gesichtspunkte der Statistik aus knüpft sich das Interesse nun in allererster Linie daran, wie die hier gewonnenen Erfahrungen Stich halten werden, wenn man, anstatt wie bisher Gruppen zu je 100 Beobachtungen (Ziehungen), Gruppen mit einer anderen Zahl von Beobachtungen betrachtet. Beschränkt man sich zuerst darauf, Gruppen von z. B. 200 Be- obachtungen zu betrachten, so wird man natürlich erwarten, daß solche Gruppen ebenso wie Gruppen zu je 100 Beobachtungen un- gefähr gleich viele weiße und rote Kugeln zeigen, und daß man also bei Wiederholung der Versuche eine wechselnde Anzahl weißer Kugeln erhält, die jetzt fortwährend um 100 herum schwingt. Die Frage ist indes die, wie große Abweichungen jetzt erwartet werden können, insbesondere ob die Anhäufung um das Durchschnitts- ergebnis 100 w + 100 r schwächer, ebenso stark oder stärker werden wird als im obigen Beispiel. Während bei der Untersuchung der Gruppen mit 100 Beob- achtungen jedenfalls die Möglichkeit vorhanden war, daß Ab- weichungen von einer Größe bis 50 von dem erwarteten Resultat vorkommen konnten, wird bei Gruppen zu je 200 Beobachtungen die Möglichkeit für Abweichungen vorliegen, welche sich ganz bis auf 100 belaufen können. Es wäre daher denkbar, daß eine Untersuchung der Versuchsresultate, wenn für jede Gruppe 200 Beobachtungen vorlägen, im ganzen weiter nichts erwiese, als daß alle Dimensionen sozusagen verdoppelt seien, daß z. B. die Spielräume, innerhalb welcher jetzt 10, 20, 30 usw. Proz. der Gruppen fallen, durchweg nur in doppelter Größe der früheren auftreten werden. Andererseits ist zu erinnern, daß der Versuch, bei welchem 200 Kugeln anstatt 100 gezogen werden, auch die Möglichkeit birgt, daß der beim Pas- sieren der hundertsten Ziehung faktisch erzielte Überschuß oder Fehl- betrag an weißen Kugeln ganz oder teilweise im Laufe der übrigen 100 Ziehungen ausgeglichen werden kann, so daß die Abweichungen nicht ganz doppelt so groß, durchgehends vielleicht nicht größer als beim Versuch mit 100 Ziehungen pro Gruppe, werden. Es ist nun sehr leicht, diese Frage auf Grundlage des vor- liegenden Beobachtungsmaterials zu untersuchen; teilt man nämlich das Material in Gruppen zu je 200 Beobachtungen ein, so kann Westergaard und Nybolie, Theorie der Statistik, 2. Aull. — 114 genau so wie früher festgestellt werden, wieviele der dann ent- stehenden 50 Gruppen gerade 100 w + 100 r aufweisen und wieviele auf der einen Seite 101, 102, 103 usw., auf der anderen 99, 98, 97 usw. weiße Kugeln ergeben. Berechnet man nunmehr genau wie Früher, wieviele der 50 Gruppen jetzt innerhalb der Spielräume 1, 3, 5, 7 usw. fallen, so kommt man zu folgendem Resultat: Tabelle 3. Innerhalb des| Zahl der | Innerhalb des | Zahl der Spielraums Gruppen Spielraums Gruppen „» 6 18 48 48 „9 >55 35 49 30 Aus dieser Tabelle geht hervor, daß ebenso wie bei Gruppen mit 100 Beobachtungen auch hier eine starke Anhäufung um den Durchschnitt vorliegt, der hier 100 ist; da sämtliche Gruppen inner- halb des Spielraumes 35 fallen, weicht keines der 50 Resultate mehr als 17 von 100 ab, d. h. daß keine Gruppe weniger weiße Kugeln als 83 und mehr als 117 aufweist. Die Zusammenballung ist jedoch nicht so stark wie früher; man muß ganz auf Spielraum 9 hinaus, um innerhalb dessen die 48 Proz. der 50 Gruppen (nämlich 24) zu sammeln, während schon die Hälfte (nämlich 50) der Gruppen mit 100 Beobachtungen innerhalb des Spielraums 7 fiel; vergleiche im übrigen folgende Tabelle 4, in der die Größe derjenigen Spielräume Tabelle 4. Prozentsatz ler Gesamtzahl der Gruppen Entsprechende Größe der Spielräume bei Gruppen mit ‚00 Beob- achtungen 200 Beob- achtungen Das Verhältnis zwischen ent- sprechenden Spielräumen 7 23 u 5 el ‚A +5 7! 115 verglichen wird, innerhalb deren unter beiden Versuchsarten beziehungs- weise 25, 40, 50, 70, 85 und 95 Proz. der Gruppen gefallen sind. Die Zahlen der beiden ersten Kolonnen sind, wie wir sehen, nur ein Auszug aus der Tabelle 2; zur Vergleichung kann die Fiktion angewandt werden, daß man nicht nur mit Spielräumen 1, 3, 5 USW., sondern auch mit Spielräumen jeder beliebigen gebrochenen Größe rechnen kann; dadurch wird es möglich, auch bei der Verteilung von Gruppen zu je 200 Beobachtungen mit Spielräumen zu rechnen, welche gerade 25, 40, 50 usw. Proz. sämtlicher Gruppen entsprechen, obwohl die Tabelle 3 nicht unmittelbar darüber Aufklärung gibt, welches diese Spielräume sind. Wenn man also berechnen will, innerhalb welchen Spielraumes 40 Proz. der 50 Gruppen (was 20 Gruppen ergibt) fallen, so wird sich zeigen, daß dieser Spielraum von einer Größe sein muß, die zwischen 5 (innerhalb dessen 15 Gruppen fallen) und 7 (innerhalb dessen 21 fallen) und also 7 am nächsten liegt. Mittels folgender einfachen Interpolation, wo 15 Gruppen dem Spielraum 5. 20 ” »” ” »1 . ZZ entsprechen, berechnet man, wie in der Tabelle 4 angegeben, x = 6,7; nach den in der Tabelle 3 mitgeteilten Erfahrungen kann man damit rechnen, daß innerhalb dieses Spielraumes von 6,7 die 20, d. h. 40 Proz. der hier betrachteten 50 Gruppen, liegen werden. Auf ähnliche Weise lassen sich die übrigen in Kolonne 3 der Tabelle 4 ange- führten Spielräume berechnen. In der vierten Kolonne hat man Schließlich das Verhältnis zwischen der Größe entsprechender Spiel- räume berechnet, und es geht aus diesen Verhältnissen hervor, daß die Spielräume, innerhalb deren ein gegebener Prozentsatz der Gruppen fällt, etwas größer sind bei Gruppen mit 200 als bei Gruppen mit 100 Beobachtungen, jedoch keineswegs doppelt so groß; das Verhältnis ist somit nicht 2, aber doch fast konstant, einerlei welcher Prozent- satz betrachtet wird, und ungefähr gleich 1,3. 82. Versucht man genau in derselben Weise die Anhäufung bei Gruppen zu 300, 400 usw. zu untersuchen, dann wird man ganz ähn- lichen Verhältnissen begegnen wie bei den oben erwähnten Gruppen zu je 100 und 200 Beobachtungen. Große Abweichungen von dem er- warteten durchschnittlichen Resultat sind selten, kleine jedoch häufig. Im besonderen findet man, daß die Spielräume, innerhalb deren ein gegebener Prozentsatz der Gruppe fällt, mit wachsender Anzahl von ] 116 Beobachtungen in einer Gruppe wachsen, jedoch nicht im selben Verhältnis wie die Zahl der Beobachtungen. Nennt man den Spiel- raum, innerhalb dessen bei Gruppen mit 100 Beobachtungen P Proz. sämtlicher Gruppen fallen, s, dann liegen bei Gruppen zu je 200 Be- »bachtungen P Proz. der Gruppen innerhalb eines Spielraumes von sa. 1,3-s, gleichgültig, wie groß P ist; in ähnlicher Weise findet man bei Gruppen zu je 400 und 800 Beobachtungen, daß P Proz. Jieser Gruppen innerhalb von Spielräumen der jeweiligen Größen 2,1-s and 2,8-s, also von Spielräumen, die bei weitem nicht je 4 und 8mal so groß sind. Die gefundenen Verhältniszahlen verhalten sich da- zegen sehr annähernd wie /2=1,4, V/4=2,0 und V8=28; und, wie es im folgenden weiter bewiesen werden wird, kann man auch erwarten, daß, wenn die Anzahl von Beobachtungen r Male größer wird, der Spielraum, innerhalb dessen dann P Proz. fallen, ohne Rücksicht auf die Größe von P ungefähr Vr Male so groß wird. Setzt man beispielsweise die Verteilung mit 100 Ziehungen als bekannt voraus, dann fallen, wie bereits weiter oben festgestellt worden ist, 25 Proz. dieser Art Gruppen innerhalb des Spielraums 3; Dei Versuchen mit Gruppen zu 500 Ziehungen kann man dann rechnen, daß 25 Proz. dieser neuen Gruppen innerhalb eines Spiel- raums von 3 V5=—6,7 fallen werden; genau so kann man damit ‚echnen, daß 40 Proz. der Gruppen mit 500 Beobachtungen innerhalb des Spielraums von 5 V5=11,2 liegen, da 40 Proz. der Gruppen zu 100 Beobachtungen, wie schon erwähnt, innerhalb eines Spielraums 7zon 5 usw. fallen. Aufgabe 1. Aus einem Beutel mit roten und weißen Kugeln wurde 40000mal yezogen; bei der Zerlegung der Ziehungsresultate in 100 Gruppen zu je 400 Be- obachtungen fand man, daß 7 Gruppen innerhalb eines Spielraums von 1 fielen, 3 'J 3 31 43 4 33 71 78 34 39 J3 95 { 9 ” AA » a Ad Berechne, wie diese Verteilung ausgefallen wäre, wenn man statt dessen die Ziehungsresultate in 400 Gruppen zu je 100 Beobachtungen zerlegt hätte! 117 83. Das mit diesen Erfahrungen gefundene Gesetz, daß die Spielräume, innerhalb deren ein gegebener Prozentteil der Gruppen fallen wird, sich wie die Quadratwurzel aus der Anzahl der Be- obachtungen in einer Gruppe verhalten, kann kurz als das Quadrat- wurzelgesetz bezeichnet werden. Zur Nachprüfung der Gültig- keit dieses Gesetzes wird eine Untersuchung ganz neuer Erfahrungen nützlich sein, nämlich solcher, bei denen sich nicht wie in dem be- reits behandelten Falle gleichviel rote und weiße Kugeln im Beutel befinden. Gibt man diese Forderung auf, so kann man indes ebenso gut z. B. die aus der Lotterie vorliegenden Resultate be- nutzen; als ein Beispiel für diese Art Versuche seien zuerst die Ergebnisse aus 1440 Ziehungen der alten Kopenhagener Zahlenlotterie erwähnt. Es liegt ein Bericht über 1455 Ziehungen vor; aus rein praktischen Gründen aber wird hier von den letzten 15 abgesehen. Über die nähere Einrichtung der Lotterie sei im übrigen nur bemerkt, daß bei jeder Ziehung insgesamt 5 unter 90 Zahlen gezogen wurden. Das Resultat aus einer Ziehung kann wiedergegeben werden, indem man die 90 Zahlen so aufschreibt, daß die 5 Zahlen, welche in der betreffenden Ziehung gezogen wurden, gestrichen oder z. B. durch X ersetzt werden. 1, 2, 3, X, 5 KR RE Xi. 90. Die sämtlichen 1440 Ziehungen entsprechenden Zahlenreihen kann man sich nun z. B. unter einander aufgeschrieben denken. Das sich hierbei ergebende Schema wird dann 1440-90 = 129600 Zahlen (Beobachtungen) enthalten, von denen in jeder Reihe 5 gestrichen oder durch X ersetzt sind, insgesamt 5-1440 = 7200 Beobachtungen; stellt man sich ferner vor, daß diese 7200 abgekreuzten Zahlen den Buchstaben w (weiß) im oben betrachteten Kugelversuch, die übrigen 129 600 — 7200 = 122400 nicht abgekreuzten Zahlen dagegen dem Buchstaben r (rot) entsprechen, so wird man erkennen, es hier mit Be- obachtungen zu tun zu haben, wo nur !/,g der Beobachtungen auf „weiß“, !7/,; auf „rot“ lauten; es liegt also ein ganz anderes Ver- hältnis vor als bei den Kugelversuchen, wo ca. die Hälfte der Be- obachtungen jeweilig auf weiß und rot lautete. Betrachtet man nun als Gruppen diejenigen Kolonnen des Sche- mas, welche teils von den Ziffern 1, teils von den Ziffern 2 usw. gebildet werden, so werden die 129 600 Beobachtungen in 90 Gruppen zu je 1440 Beobachtungen eingeteilt. Man wird erwarten, daß in jeder dieser Gruppen durchschnittlich 80 (nämlich Yıs 1440 = 80) der Beobachtungen abgekreuzt sind, ebenso wie man bei den Kugel- 118 versuchen erwartete, daß !/2-100 = 50 der Beobachtungen in jeder Gruppe auf weiß lauteten. Wie bei den Kugelversuchen sind es je- doch auch hier äußerst wenige der 90 Gruppen, welche gerade 80 abgekreuzte Ziffern aufweisen, nämlich insgesamt nur 5, während verhältnismäßig viele Gruppen geringere Abweichungen ergeben, d. h. sine Anzahl abgekreuzter Ziffern, welche nahe bei 80 liegt. Für sämtliche 90 Gruppen ist das Resultat aus der folgenden Tabelle 5 arsichtlich: Tabelle 5. Verteilung der Gruppen nach der Zahl abgekreuzter Ziffern. Gruppe 81 Ziffern 5 Gruppen Gruppen 92 t 3 3 \5 ° a1 1 ) 59 z » ” » ” Ö » ” ” ” f :* 76 a. BB 9 Ro? j FF“ Yu 1 0U Die Tabelle zeigt ebenso wie die Tabelle 1 eine bedeutende An- häufung um das erwartete Resultat: 80 abgekreuzte Ziffern in jeder Gruppe; wenn auch die Möglichkeit einer Abweichung nach der einen Seite bis auf 80 (was dem Umstand entspricht, daß nicht eine einzige der 1440 Ziffern in einer Gruppe abgekreuzt war) und nach der anderen Seite bis auf 1360 (was dem Umstand entspricht, daß sämtliche 1440 Ziffern der Gruppe abgekreuzt waren) vorlag, übersteigen die größten der vorkommenden Abweichungen nicht die Zahl 20; und diese größten Abweichungen sind gegenüber den häufig eintreffenden kleineren Abweichungen sogar relativ selten. In der starken An- häufung um den Durchschnitt muß man auch die Ursache dafür suchen, daß die Symmetrie in der Verteilung recht gut hervortritt. Aus der Tabelle 5 kann man somit folgende Zusammenfassung bilden, welche das Vorkommen von jeweils negativen und positiven Ab- 119 weichungen (vom Durchschnitt 80) einer Größe bis zu 10 und einer Größe über 10 zeigt: Abweichungen < 1 Abweichungen von —1 bis Abweichung 0 . . .. Abweichungen von + 1 bis Abweichungen tn 5 Gruppen + ? Da, wie erwähnt, die Möglichkeit für weit größere positive als für negative Abweichungen hätte vorliegen können, wäre vielleicht zu erwarten, daß in der tatsächlichen Verteilung bedeutend größere positive als negative Abweichungen vorkämen; die Anhäufung ist indes so stark, daß nicht einmal die verhältnismäßig begrenzten Möglichkeiten negativer Abweichungen aktuell geworden sind; daß ohne jegliche Voraussetzung behauptet werden konnte, es läge die Möglichkeit für weit größere positive als für negative Abweichungen vor, ist somit ohne Bedeutung. Wie in der Tabelle 2 kann man deshalb auch jetzt zur Beleuch- tung der Anhäufung positive und negative Abweichungen zusammen- fassen und auf Grund der in der Tabelle 5 gegebenen Verteilung feststellen, wieviele der 90 Gruppen innerhalb der Spielräume 1, 3, 5, 7 usw. fallen. Das Resultat wird dann folgendes: Tabelle 6. . ! Spielraum Zahl der Gruppen N Spielraum “:) Zahl der Gruppen R Aus der Tabelle geht z. B. hervor, daß 50 Proz. der 90 Gruppen, d. h. 45, innerhalb des Spielraums 13 fallen. Bei den Kugelversuchen lagen 50 Proz. der Gruppen innerhalb des Spielraums 7; aber diese Gruppen hatten auch nur 100 Beobachtungen, während wir es hier mit 1440 zu tun haben. Nach dem Quadratwurzelgesetz sollten die Spielräume ebenfalls größer sein, nämlich V14,40mal = 3,8mal so groß, so daß 50 Proz. der hier betrachteten Gruppen diesem Gesetz nach innerhalb eines Spielraums von 7-V144 — 26.6 fallen sollten. Man 120 hat indes tatsächlich den Spielraum 13 gefunden; zu diesem offen- baren Widerspruch kehren wir gleich wieder zurück. Wenn man in ähnlicher Weise wie bei den Kugelversuchen durch Interpolation in der Tabelle 6 die Spielräume bestimmt, inner- halb deren 25, 40, 50 usw. Proz. der 90 Gruppen fallen, findet man im ganzen folgende Zahlen: Tabelle 7. a Prozentsatz von Gruppen 0 70 35 J5 Entsprechende Spielräume faktisch berechnet 19 5 14,4- 77,8 y144 16P /14,4 20,6 "14,4 — 41,7 V14,4 = 56,9 21 V14,4=79,7 +5 25,3 340 Verhältnis zwischen faktischen und erechneten Spiel- Träumen 0,42 9,50 0,49 7,43 0,44 0.43 In der Tabelle sind zugleich die Spielräume angegeben, zu denen lie Anwendung des Quadratwurzelgesetzes führt, nämlich die, welche /14,4mal so groß sind wie die Spielräume, welche nach den anläß- lich der Kugelversuche gemachten Erfahrungen den angeführten Prozenten entsprechen. Es wird einleuchten, daß nicht bloß der den 50 Proz. der Gruppen entsprechende Spielraum bedeutend ge- ringer ist, als erwartet, sondern daß die berechneten Spielräme sämt- ‘ich mit ca. 0,46 multipliziert werden müssen, um die faktischen zu zrgeben. 84. Teilt man jede der betrachteten Gruppen in zwei gleich zroße Teile, so erhält man anstatt 90 Gruppen zu je 1440 Beobach- zungen 180 Gruppen zu je 720 Beobachtungen; diese 180 Gruppen Kann man nun ganz in derselben Weise behandeln; man kann unter- suchen, wieviele von ihnen jetzt gerade 40 abgekreuzte Ziffern aufweisen, wieviele auf der anderen Seite 39, 38, 37 usw. und wie- viele 41, 42, 43 usw. ergeben. Mittels der auf diese Weise aufge- stellten Verteilungstabelle kann man demnächst wie früher bei ein- facher Aufsummierung eine Tabelle herstellen, welche angibt, wieviele der 180 Gruppen innerhalb der Spielräume 1, 3, 5, 7 usw. fallen, and durch Interpolation in dieser Tabelle kann man wiederum finden, innerhalb welcher Spielräume jetzt 25, 40, 50 usw. Proz. der 180 Gruppen fallen. 121 Vergleicht man die auf diese Weise bestimmten Spielräume mit denen, welche nach dem Quadratwurzelgesetz den bei den Kugel- versuchen festgestellten Spielräumen (3 V7,2, 5 V7,2, 7V7,2 usw.) ent- sprechen sollten, so findet man aufs neue, daß diese letzten Spielräume, ebenso wie die oben erwähnten, alle mit 0,46 multipliziert werden müssen, um die faktischen zu ergeben. Andererseits müssen also die Spielräume, welche oben für die Gruppen mit 1440 Beobachtungen gefunden wurden, ca. /2mal so groß sein wie die, welche für Gruppen mit 720 Beobachtungen gelten. Genau entsprechende Verhältnisse wird man finden, wenn man z. B. die ursprünglichen Gruppen von je 1440 Beobachtungen durch 5 teilte und somit 540 Gruppen von je 240 Beobachtungen erhielte. Die Spielräume, welche man dann den Kugelversuchen gemäß er- warten sollte (nämlich 3 2,4, 5 V2,4 usw.), müssen wieder mit ca. 0,46 multipliziert werden, um die faktischen zu ergeben, während ein Ver- gleich mit den Spielräumen, welche die Gruppen mit 1440 und 720 Beobachtungen ergeben, bekräftigt, daß diese Spielräume jeweilig V6 und V3mal so groß sind wie die neuen Spielräume für Gruppen mit 240 Beobachtungen. Das Resultat hieraus scheint zu sein, daß die Gültigkeit des Quadratwurzelgesetzes dadurch bedingt ist, daß nur die Zahl der Beobachtungen einer Gruppe verändert wird, während man keinerlei Bekräftigung für die Richtigkeit des Gesetzes erhält, wenn man die Resultate aus den Kugelversuchen und der Zahlenlotterie vergleicht, bei welchem Vergleich sich nicht bloß die Zahl der Beobachtungen jeder Gruppe, sondern auch die Häufigkeit, mit der „weiß“ und „rot“, Gewinn oder Nicht-Gewinn vorkommt, verändert hat. 85. Zwecks weiteren Studiums können als Beispiel die Ergeb- nisse aus den 6 Ziehungen der dänischen Klassenlotterie vom Ok- tober 1887 bis März 1888 angeführt werden. Nach dem Plan wurden unter 75000 Losen 12000 Gewinne gezogen; dies besagt, daß auf 16 Proz. der Lose ein Gewinn entfiel. Teilt man nun die 75000 Lose in 750 Gruppen zu je 100 Losen, so wird man erwarten, daß durchschnittlich 16 Gewinne auf jede Gruppe fallen; genau 16 Ge- winne wiesen jedoch nur die 83 der 750 Gruppen auf, und zählt man auf, wieviele einerseits 15, 14, 13 usw., wieviele andererseits 17, 18, 19 usw. Gewinne hatten, so kommt man im ganzen zu folgendem Resultat: 122 Tabelle 8. Die Verteilung der Gruppen nach der Zahl der Gewinne. 5 Gewinne 2 Gruppen ' 18 Gewinne 64 Gruppen 3 3 ) 7 6» MN Über die Symmetrie dieser Verteilung und über die Anhäufung ım den Durchschnitt können hier genau dieselben Bemerkungen wie »ben bei der Verteilung in der Tabelle 5 gemacht werden. Kine Feststellung, wieviel Gruppen innerhalb der Spielräume 1, 3, 5, 7 usW. fallen, ergibt folgendes Resultat: Tabelle 9. A Zahl der | Le Zahl der Spielräume Gruppen Spielräume Gruppen 83 710 222 728 353 (41 {54 746 548 749 626 749 678 750 Durch Interpolation in dieser Tabelle kann man ferner fest- stellen, innerhalb welcher Spielräume sich 25, 40, 50 usw. Proz. der 750 Gruppen bewegen, und gelangt dann zu folgendem Ergebnis: Tabelle 10. Prozentteil ler Gruppen 55 Proz. 85 35 Entsprechende Spiel- räume faktisch berechnet 4 4 3,5 11,4 15.3 ; Zi} Verhältnis zwischen faktischen und be- rechneten Spiel- räumen + 180 0,77 0,78 0,76 0.73 Da die Zahl der Beobachtungen hier wie bei den Kugelversuchen LOO0 ist, hätte man, wenn diese Anzahl allein die Größe der Spiel- 123 räume bestimmte, dieselben Spielräume wie bei den Kugelversuchen erwarten sollen, welche Spielräume in der Tabelle als „berechnet“ angeführt sind. Man sieht jedoch, daß diese Spielräume mit ca. 0,75 multipliziert werden müssen, um die faktischen zu ergeben. Legt man die betrachteten 750 Gruppen zu je 100 Beobachtungen zu zweien zusammen, was 375 Gruppen zu je 200 Beobachtungen ergibt, und untersucht man aufs neue, innerhalb welcher Spielräume jetzt 25, 40, 50 usw. Proz. der 375 Gruppen fallen, so wird man wiederum finden, daß diese Spielräume nur ca. 0,75 der nach den Kugelversucherfahrungen berechneten, nämlich 3V2,5V2, 7YV2 usw., ausmachen, dagegen aber fast genau V2mal so groß wie die in der Tabelle 10 angeführten faktischen Spielräume für Klassenlotterie- Gruppen zu je 100 Beobachtungen sind. Dieses Resultat entspricht ganz dem oben bei der Betrachtung der Zahlenlotterieergebnisse gefundenen; vergleicht man die faktisch auftretenden mit denjenigen Spielräumen, welche man bei Benutzung des Quadratwurzelgesetzes nach den bei den Kugelversuchen ge- machten Erfahrungen erwarten sollte, dann werden die Spielräume zu klein; vergleicht man sie jedoch mit den Spielräumen, welche mit einer bloßen neuen Gruppenteilung und folglich einer neuen Anzahl von Beobachtungen in einer Gruppe entstehen, dann scheint das Quadratwurzelgesetz zu gelten. 86. Es muß hiernach klar sein, daß die Größe der Spielräume wohl von der Zahl der Beobachtungen abhängt, aber nicht allein durch diese Zahl bestimmt wird. Andererseits scheint aus den her- vorgehobenen Erfahrungsdaten hervorzugehen, daß sich — außer der Zahl der Beobachtungen einer Gruppe — keine anderen Momente geltend machen als das Verhältnis zwischen weiß und rot, Gewinn oder Nicht-Gewinn, welches in jedem der drei benutzten Beispiele verschie- den war. Denn bei der Untersuchung der Resultate der Zahlenlotterie fand man, daß das Verhältnis zwischen den faktischen Spielräumen und den mittels des Quadratwurzelgesetzes in Verbindung mit den Kugelversucherfahrungen berechneten Spielräumen unverändert bleibt, nämlich 0,46, gleichgültig, ob die Zahl der Beobachtungen einer Gruppe 1440, 720 oder 240 war, während das Verhältnis sich dem Wert 1 sehr annäherte, wenn man sich darauf beschränkte, das Quadratwurzelgesetz auf Spielräume anzuwenden, welche nur ver- schieden waren, weil sich die Zahl der Beobachtungen einer Gruppe änderte. Zu einem ganz ähnlichen Resultat gelangte man bei der 124 Untersuchung der Klassenlotterieerfahrungen, da das Verhältnis zwischen den faktisch gefundenen Spielräumen und den mittels des Quadratwurzelgesetzes in Verbindung mit den Kugelversucherfah- rungen berechneten Spielräumen hier 0,75 ergab, ohne Rücksicht auf die Anzahl der Beobachtungen einer Gruppe. Wird im allgemeinen der Bruchteil von Beobachtungen, der auf weiß — bzw. Gewinn — lautet, mit p, und derjenige Bruchteil, der auf rot — bzw. Niete — lautet, mit q bezeichnet, so hat man es in den 3 Beispielen mit folgenden Werten für p und q zu tun vyehabt: p-—+O0 pP q Kugelversuch a, U Zahlenlotterie Un un Klassenlotterie 0,16 0,84 Bezeichnet man ferner die Anzahl Beobachtungen einer Gruppe mit n, dann kann man — nach den aus den hier behandelten Versuchs- vesultaten gewonnenen Erfahrungen — nunmehr dem Quadratwurzel- gesetz den allgemeinen Ausdruck geben, daß der Spielraum, innerhalb Jessen P Proz. der betrachteten Gruppen fallen, die Größe s = F(P) -£(p) -/n hat, wobei F(P) und f(p) Größen bezeichnen, welche nur von der je- weiligen Größe der Werte P und p abhängen; wenn man ausschließ- lich die Versuche betrachtet, bei denen p (Verhältnis zwischen weiß ınd rot) unverändert bleibt, besagt die Formel nichts anderes, als Jaß die Spielräume, innerhalb deren P Proz. der Gruppen fallen, sich wie V/n verhalten. Wenn man andererseits bestimmen kann, auf welche Weise F(P) und f(p) mit P und p varlieren, und man also, wenn P und p gegebene Werte haben, angeben kann, wie groß F(P) und f(p) sind, kann man auch im voraus bei jeder beliebigen Art von Versuchen (bei gegebenem p) angeben, innerhalb welchen Spielraums der eine oder der andere — gleichgültig welcher — Prozentsatz (P) von Gruppen mit einer gegebenen Zahl von Beobach- sungen (n) fallen wird, 87. Hinsichtlich der Art und Weise, in der der Faktor f(p) variiert, wenn p sich verändert, ist zuerst zu bemerken, daß p immer ain positiver, echter Bruch ist, d. h. stets zwischen 0 und 1 liegt; ferner ersieht man auch leicht, daß f(p) die gleiche Reihe von Werten durchlaufen muß, wenn p, vom Werte 0,5 aus gemessen, entweder größer oder kleiner wird. Wenn man Z. B. für die Zahlenlotterie wüßte, wieviele der 1440 Ziffern in jeder der 90 Gruppen nicht L25 abgekreuzt wären, hätte man es mit Beobachtungen zu tun gehabt, von denen !’/,3 auf „weiß“ lauteten, im Gegensatz zu früher, wo !/,s „weiß“ ergaben. Man würde dann !’/,3-1440 = 1360 nicht abge- kreuzte Ziffern in jeder Gruppe erwartet haben anstatt wie früher 31440 = 80; und stellte man fest, wieviele Gruppen gerade 1360 nicht abgekreuzte Ziffern ausweisen, dann würde man natürlich genau die 5 finden, welche gerade 80 abgekreuzte Ziffern enthalten. Die Zahl der 1361 nicht abgekreuzte Ziffern enthaltenden Gruppen wird in gleicher Weise gerade die 5 sein, welche 79 abgekreuzte ent- halten usw. Sowohl die Tabelle, welche unter solchen Umständen zeigen sollte, wie sich die 90 Gruppen nach der Zahl nicht abge- kreuzter Ziffern verteilten, wie die Tabelle, welche zu zeigen hatte, wieviele der 90 Gruppen sich innerhalb der Spielräume 1, 3, 5, 7 usw. bewegten, würden somit genau den oben $ 83 mitgeteilten Tabellen 53 und 6 entsprechen; die in der Tabelle 7 angeführten Spielräume würden daher auch dieselben werden, und man würde also für den Faktor f(p) den Wert 0,46 finden, gleichgültig, ob p= Yıs oder p= 1/3. Ebenso würde man, wenn man bei der Untersuchung der Klassenlotterieerfahrungen „Gewinn“ gegen „Niete“ umtauschte, Beobachtungen erhalten, von denen der Bruchteil 1— 0,16 = 0,84 auf „Gewinn“ lauten würde; man erhält somit in sämtlichen Fällen den gleichen Wert für den Faktor f(p); es ist hierbei gleichgültig, ob Beobachtungen, bei denen die relative Frequenz von „weiß“ p oder solche, bei denen diese Frequenz q = 1 — p aus- macht, betrachtet werden; f(p) muß daher eine symmetrische Funktion von p und q sein, beispielsweise von der Form (pa)“ oder V(pq)® oder pr +” usw.; solche Ausdrücke haben alle die Eigenschaft, daß sie ihren Wert unverändert bewahren, selbst wenn die Werte von p und q umge- tauscht werden („symmetrisch“ sind). Da man, praktisch gesprochen, außer den oben angeführten sym- metrischen Ausdrücken beliebig viele andere ähnlicher Art nieder- Schreiben könnte, würde es eine recht schwierige Sache sein, allein auf Grundlage solcher rein empirischer Daten, welche im Vorher- gehenden benutzt worden sind, festzustellen, von welchem Abhängig- keitsverhältnis hier die Rede sei. Dagegen kann man sehr leicht mit Hilfe der bisher betrachteten Tabellen die Bestätigung erhalten, daß der Ausdruck, zu dem man auf anderem Wege gelangt ist, nämlich 126 f(p) = Vpd— pp) = pw jedenfalls ganz gut benutzt werden kann. Dies besagt, daß die Spielräume, innerhalb deren P Prozent der Abweichungen (Gruppen) fallen, proportional sind, nicht nur mit Yn (worauf das Quadrat- wurzelgesetz in seiner ersten Formulierung lautete), sondern auch mit /pa, so daß die Spielräume also im ganzen als Proportionale jes Wertes aufgefaßt werden können, den Ynpq in jeder einzelnen Versuchsart haben wird. Für die drei benutzten Beispiele findet man nun folgende Werte für Vnpa: ; Tabelle 11. Zahl der Beobachtungen pro Gruppe Relative | yYnpgq= Frequenz ap (1) 2 Kugelversuche 100 Zahlenlotterie 1440 Klassenlotterie 100 = 0.500 | Ve =. 56 116/ == 0,160 5,0 8,7 37 Mit den Zahlen der letzten Kolonne sollten also die Spiel- räume, innerhalb deren in den drei Beispielen ein gegebener Prozent- satz von Gruppen fällt, proportional sein. Die Spielräume, inner- halb deren sich in diesen Beispielen jeweils 25, 40, 50 usw. Proz. der Gruppen bewegten, wären jetzt folgende (vgl. die Tabellen 2, 7 und 10): Kugelversuche Zahlenlotterie Klassenlotterie 25 Proz. 4,9 2,4 40 9,4 11 50 : 13,0 5,4 70 11 17,8 8,5 35 15 25,3 * 11,4 95 21 34,0 15,3 and dividiert man die Zahlen dieser 3 Kolonnen mit bzw. u = 5,0 Ua — 8,7 U — 3,7 30 erhält man die angeführten Spielräume in folgender Form: Tabelle 12. Kugelversuche Zahlenlotterie Klassenlotterie 0,6 4, 6 ug 9,7 Mg LA “YA 1,1 ug u Up 15 44 4, 49 2,3 Mg * 49 3,1 U io 12 443 25 Proz. 10 X 2” I 35 Id 127 Da die einem gegebenen Prozentsatz von Gruppen entsprechenden Koeffizienten in dieser Tabelle ziemlich gleich sind, scheint diese Berechnung bekräftigen zu können, 1) daß der Spielraum, innerhalb dessen P Prozent der Gruppen fallen, nur in den drei Beispielen von verschiedener Größe ist, weil n, p und q nicht in allen Beispielen gleichen Wert haben, 2) daß die betrachteten Spielräume dem Werte Ynpq proportional sind, der in jedem der drei Beispiele seinen speziellen Wert an- nimmt, und 3) daß die Spielräume zahlenmäßig stets die gleichen bleiben werden, wenn man, anstatt ihre Größe in absolutem Maß (Anzahl von Kugeln, Anzahl von Ziffern mit Gewinn usw.) anzugeben, diese mit der Größe Ynpq als Einheit (d. h. die absolute Größe der Spiel- räume im Verhältnis zur Größe Ynpq) bezeichnet. Die Größe Ynpq müßte daher eigentlich z. B. mit dem Aus- druck: Einheit für Abweichungen, Fehlereinheit oder ähnlich be- zeichnet werden. Es würde jedoch unpraktisch sein, einen neuen Namen einzuführen, da lange schon so gut wie sämtliche Autoren den Ausdruck „mittlerer Fehler“ oder „mittlere Abweichung“ benutzt haben, der daher auch im folgenden angewandt werden wird, wenn er auch keineswegs bezeichnend ist; man muß sich z. B. davor hüten, den mittleren Fehler als einen Durchschnitt der numerischen Größe der Abweichungen anzusehen. Insofern bei näherer Untersuchung dargetan werden kann, daß Jieses Resultat jedenfalls in der Praxis eine ausreichend gute An- näherung ergibt, scheinen die Abweichungen also, welche bei mehr- maliger Wiederholung eines Versuches entstehen können, von einem gewissen „Gesetz“ beherrscht zu sein. Kann man nicht in der ein- zelnen Versuchsreihe genau vorhersagen, wie das Ergebnis werden wird, so scheint es doch andererseits im Bereich der Möglichkeiten zu liegen, teils ein gemeinschaftliches Resultat zu berechnen, um welches die Einzelresultate einer größeren Anzahl Versuchsreihen schwingen werden, teils zu berechnen, ein wie großer Teil der in diesen Versuchsreihen entstehenden Abweichungen kleiner als eine willkürlich gewählte, im voraus gegebene Größe wird. Da Yn langsamer als n wächst, geht aus der Art und Weise, in welcher eine solche Berechnung vorzunehmen ist, hervor, daß die Ab- weichungen, obgleich sie absolut genommen mit der Zahl der Ver- suche in jeder Versuchsreihe wachsen, relativ kleiner und kleiner 28 im Verhältnis zur Anzahl von Versuchen in jeder Versuchsreihe) werden. 88. Da die Übereinstimmung zwischen den in der Tabelle 12 berechneten Koeffizienten, worauf die hier vermutete „Gesetzmäßig- zeit“ gegründet ist, nicht absolut, sondern nur mit einer gewissen Annäherung gefunden ist, so kann man natürlich gleich die Frage auf- werfen, ob es möglich ist, ganz genaue oder jedenfalls bessere Werte für die in der Tabelle angeführten Koeffizienten zu finden; diese Frage wird im folgenden behandelt werden. Aus einer näheren Untersuchung wird hervorgehen, in welchem Sinne man die Frage bejahend beantworten kann; diese Untersuchung wird auch die Natur des Zusammenhangs beleuchten, welcher zwischen den in der Tabelle 12 angeführten Prozentsätzen von Gruppen und den ent- sprechenden Koeffizienten besteht, wodurch es zugleich möglich wird anzugeben, welche Koeffizienten, F(P), nicht nur den in der Tabelle 12 speziell benutzten 6 Prozent, sondern überhaupt jedem beliebigen Bruchteil von Gruppen entsprechen. Die in dem Vorhergehenden angestellten Untersuchungen können über diese weitergehenden Fragen keinen näheren Bescheid geben. Zur vorläufigen Orientierung kann man sich hier darauf beschränken, Jie in der Tabelle 12 z. B. für die Kugelversuche gefundenen Koeffizienten zu benutzen, und man kann dann die erzielten Re- sultate folgendermaßen zusammenfassen: Wenn man zu wiederholten Malen, z. B. N Male, n Versuche ’N Gruppen zu je n Beobachtungen) anstellt, deren Resultat jedes- mal entweder A oder B (rot oder weiß, Gewinn oder Niete usw.) wird, so daß der Bruchteil aus sämtlichen N -n Versuchen, welche das Resultat A ergeben haben, p ist, während der übrigbleibende Bruchteil 1—p = q als Resultat B ergeben hat, wird sich die in jeder Gruppe vorkommende Anzahl von Begebenheiten A und B, um pn mal A an mal B Dewegen. Die N Abweichungen von diesem durchschnittlichen Resultat werden verschiedener Größe sein, und man kann damit rechnen, daß 25 Proz. der Abweichungen innerhalb eines Spielraumes von 08 u „WM „14 u ” 2,2 U 3,0 4 12 u g 35 L29 fallen, wo u = Vnpq = Ynp (1—>p), welche Größe bekannt ist, wenn man n und p kennt. Wenn sich „eine Abweichung innerhalb des Spielraums s be- wegt“, kann sie höchstens von der Größe !4s sein. Man drückt daher auch oft obiges Resultat folgendermaßen aus: Tabelle 13. 25 Proz. der Abweichungen sind kleiner als 0,3 u 40 2” ” ” AR u 0 u x 3. »” 953 & ie Abweichungen, welche größer sind als das Zwei- oder Drei- fache des mittleren Fehlers (uw), werden außerordentlich selten sein. Als Beispiel der Anwendung hierauf sei erwähnt, daß man, wenn in der oben beschriebenen Weise viele Male 10000 Kugeln einem Beutel mit gleichvielen weißen und roten Kugeln entnommen werden, erwarten kann, in 95 Proz. der Male eine Anzahl weißer Kugeln zu erhalten, welche höchstens 2,1 uw von 5000 abweicht. Da man hier = V10000-1/ +1, = 50 hat, wird 2,1 u = 105; man kann also vor Beginn der Ziehungen der 10000 Kugeln recht sicher sein, daß die sich ergebende Zahl weißer Kugeln zwischen 5000 — 100 = 4900 und 5000 + 100 = 5100 liegen wird; die Abweichungen sind somit im Verhältnis zu denen, die man vollkommen voraussetzungslos vielleicht erwarten würde, nicht besonders groß!). Die Abweichung um 11, die faktisch das Resultat der Versuchsreihe wurde, welche im Vorhergehenden be- nutzt worden ist, und bei welcher man, wie im $ 79 erwähnt, 5011 weiße Kugeln erhielt, muß als eine ganz unbedeutende Abweichung angesehen werden; dies geht daraus hervor, daß nur 25 Proz. einer größeren Anzahl Versuchsreihen von 10000 Ziehungen Abweichungen ergeben haben würden, die kleiner wären als 0,3:4u = 0,3.50 = 15, und daß also ein noch kleinerer Prozentsatz der Versuchsreihen Abweichungen ergeben haben würde, welche kleiner, speziell kleiner als 11, wären. *) Vgl. die Bemerkungen in der Einleitung auf S. 5 und 7. Westergaard und Nybe@lle, Theorie der Statistik, 2. Aufl. 130 — Aufgabe 2. Einem Beutel mit 63 weißen 'und 28 roten Kugeln werden in gewöhnlicher Weise 676 Kugeln entnommen. Wieviele weiße Kugeln sind zu erwarten? Wenn man sich eine größere Anzahl Gruppen von je 676 Kugeln gezogen denkt, dann ist festzustellen, innerhalb welcher Spielräume 25, 40, 50 usw. Proz. dieser Gruppen fallen werden. Aufgabe 3. Man schüttele sorgfältig eine Schachtel mit 720 Würfeln und ontleere 'sie auf einen Tisch. Wieviele „Sechsen“ darf man erwarten? Kann man mit Billigkeit erwarten, daß die wirkliche Anzahl nicht mehr als 10 von der Berechnung abweicht? Innerhalb welcher Grenzen wird sich überhaupt die Anzahl der „Sechsen“ bewegen ? 89, Bevor wir dazu übergehen, auf anderem. Wege die Natur des in der Tabelle 13 angedeuteten „Gesetzes“ zu studieren, soll noch ein Beispiel für die Anwendbarkeit des Gesetzes in kompli- zierteren Fällen gegeben werden. In den vorhergehenden Beispielen hat es sich die ganze Zeit um Versuche gehandelt, bei welchen die Abweichungen, welche in jedem einzelnen Falle untersucht wurden — wie man kurz sagt — „den gleichen mittleren Fehler hatten“. Daß man auch das gefundene Gesetz bestätigt sehen kann, wenn man es auf einmal mit Abweichungen verschiedener mittlerer Fehler zu tun hat, indem man dies berücksichtigt, kann durch folgendes Beispiel gezeigt werden, wobei es sich um einige von Buffon u.a. angestellte Versuche über Avers und Revers mit einer geworfenen Münze handelt!). Bei jedem Versuch ward so lange geworfen, bis die Münze Avers zeigte, und dies wurde 2048mal wiederholt. Die Versuchsanordnung wird vielleicht deutlicher, wenn man sich denkt, daß 2048 Personen auf einmal, jede mit ihrer Münze, werfen; die Personen, welche gleich beim ersten Wurf Avers er- halten, treten zurück und beteiligen sich nicht mehr, während die übrigen aufs neue mit ihrer Münze werfen; diejenigen von diesen, welche nunmehr Avers erhalten, treten darauf zurück, während die, welche noch nicht Avers bekommen haben, weiterwerfen müssen; das wird solange fortgesetzt, bis alle Avers geworfen haben. Diese Ver- suchsreihe wurde insgesamt 4mal wiederholt. Es ist klar, daß man in jeder Versuchsreihe erwartet, daß ungefähr 1024 Personen gleich veim ersten Wurf Avers werfen, während ungefähr 1024 Personen am zweiten Wurf teilnehmen müssen; es ist jedoch ebenfalls klar, 4 Siehe u. a. Makeham, On the laws of sickness and invalidism. Assurance Magazine, XVI, 1872. 151] daß die Zahl derer, welche faktisch beim ersten Wurf Avers er- halten, nicht gerade 1024 zu sein braucht; nach den im Vorher- gehenden gemachten Erfahrungen wird eine größere oder kleinere Abweichung von 1024 gerade erwartet werden können; als Maß dafür, wie große Abweichungen erwartet werden können, dient der mittlere Fehler, der hier V2048.1,.1, = V512 = 22,63 wird. In derselben Weise wird die Anzahl von Personen, welche beim zweiten Wurf Avers erhalten, in die Nähe von 512 fallen, indem man damit rechnen kann, daß !/, der 2048 Personen zum ersten Mal im 2. Wurf Avers erhalten, während dies bei den %, nicht der Fall ist (weil sie entweder beim 1. Wurf Avers erhielten oder erst später erhalten werden). Als Maß dafür, wie große Abweichungen von den 512 erwartet werden können, dient hier der mittlere Fehler V2048-1/, 3/4 = V384 = 19,60, und so kann fortgesetzt werden. In der folgenden Tabelle 14 ist die faktische Anzahl von Personen angeführt, die in jeder der 4 Versuchsreihen nach dem 1.,, 2. 3. Wurf usw. zum erstenmal Avers erhielten. Zugleich findet sich in Kolonne (5) die entsprechende erwartete Zahl der Personen und in Kolonne (6) der mittlere Fehler für die Abweichungen, welche die faktischen Zahlen der Kolonnen 1—4 der erwarteten Anzahl in Kolonne (5) gegenüber aufweisen. Tabelle 14. Faktische Anzahl in Versuchs- reihe Nr. Erwartete Anzahl Mittlere Abweichung Fı W „97 L0,95 7,87 761 ‚98 582 1.99 Man kann jetzt untersuchen, wie groß die Abweichungen von der erwarteten Anzahl gewesen sind, indem man die Zahlen in Kolonne (5) von den Zahlen in Kolonne 1—4 subtrahiert. Hierbei ergeben sich folgende 36 Differenzen: 392 Größe der Abweichungen in Versuchsreihe N Mittlere Abweichung 22,63 "9,60 14,97 "0,95 7,87 561 98 82 „99 Unmittelbar geht hieraus hervor — in Übereinstimmung mit früheren Feststellungen — daß gerade das durchschnittlich Erwartete oin Resultat ist, das verhältnismäßig selten eintrifft. Nur 2 der 36 Differenzen lauten auf 0. Warum die Zahl kleiner Abweichungen so groß und die Zahl großer Abweichungen So klein ist, wie sie sein sollte, ob also die Verteilung der Abweichungen überhaupt mit einiger Annäherung dem „Gesetze“ folgt, dem in der Tabelle 13 Ausdruck verliehen wurde, ist dagegen eine Frage, die durch bloße Größensortierung der 36 Abweichungen nicht unmittelbar entschieden werden kann. Wie ein Blick auf die Differenzen zeigen wird, sind die Ab- weichungen mit den größten mittleren Abweichungen durchweg am größten. Die aufgeworfene Frage kann daher nur so beantwortet werden, daß man sämtliche 36 Differenzen nicht in absolutem Maß, wie sie gefunden sind, sondern mit ihren entsprechenden mittleren Fehlern als Einheit ausdrückt; so kann die Abweichung 37 z. B,, wenn sie durch ihre entsprechende mittlere Abweichung von 22,63 geteilt wird, als 1,63 u geschrieben werden, da 37 : 22,63 =1,63 ist. Wird nun diese Umrechnung vorgenommen, dann erhält man folgendes Verzeichnis der 36 Differenzen: 163 u 0,92 u 1,60 u 82 u 02 u 58 u u u u 1,06 u 126 u 3 X Au du u U U“ . 1 Ku a n ‘Yu Lu 17 u u ar 4 U 0,66 u — 1,63 4 0,73 u 18 u 38 u Bu A u 4 JU U Untersucht man hier, wieviele dieser umgerechneten Ab- weichungen numerisch kleiner als 0,3 4, wieviele kleiner als 0,5 u 133 usw. sind (vgl. die Koeffizienten der Tabelle 13), dann gelangt man zu folgender Übersicht: Maximale Zahl der Abweichungen Abweichung faktisch nach der Tabelle 13 0,3 u 0,5 u 7 u iM \w „1 “ ix 1& 25 31 3. Nach der Tabelle 13 würde man erwarten, daß 25 Proz. der 36 Abweichungen (d. h. 9) kleiner als 0,3 u usw. wie angeführt seien, und die Übereinstimmung, welche diese Zahlen aufweisen, scheint unverkennbar zu sein; selbst wenn sie auch nicht mathe- matisch genau ist, so ist es doch deutlich, daß kleine und große Ab- weichungen ungefähr ebenso zahlreich auftreten wie in den früher behandelten Beispielen. Ohne im voraus mit der Art und Weise, in der Versuche dieser Art auszufallen pflegen, vertraut zu sein, würde man vielleicht dazu geneigt gewesen sein, weit größere Ab- weichungen zu erwarten; viele Spieler haben bei der Abmachung darüber, wie groß bei jedem einzelnen Spiel der Einsatz sein müsse, die Anschauung vertreten, daß, wenn z. B. eine Münze viele Male hintereinander Revers gezeigt habe, die Chancen dafür, daß sie Avers zeige, steigen; wenn solches der Fall wäre, würde die Zahl größerer Abweichungen allem Anschein nach erheblich wachsen (vgl. S. 48). 90. Auf die hier berührte Frage zurückzukommen, wird im fol- genden Gelegenheit sein. Nach den jetzt betrachteten Beispielen zu urteilen, sieht es vorläufig aus, als ob viele Gebiete vom selben „Statistischen Gesetz“ beherrscht werden, und als ob man unter An- wendung des hier auf rein empirischem Wege gefundenen Maßstabes für die Größe der Abweichungen (des mittleren Fehlers) annähernd berechnen kann, wie die Verteilung der Abweichungen nach der Größe ausfallen wird. Es würde nun leicht sein, neue Beobachtungen ähnlicher Art zu den bereits mitgeteilten hinzuzufügen. Hierzu liegt jedoch kaum eine Veranlassung vor, weil sich das vorliegende Buch hauptsächlich dafür interessiert, durch Betrachtung der Phänomene in der menschlichen Gesellschaft eine Bekräftigung und eventuell eine Erweiterung der schon gewonnenen Einsicht zu erzielen. Daß es in großem Umfange möglich ist, zu einer solchen Bestätigung zu gelangen, wird aus —. 134 einem folgenden Kapitel erhellen; da, wie bereits oben hervorgehoben, das gefundene „Gesetz“ und der sich daran knüpfende Begriff des mittleren Fehlers bisher nur annähernd bestimmt wurde, wollen wir uns jedoch vorher u. a. die Aufgabe stellen, auf anderem Wege zu siner genaueren Präzisierung teils des eigentlichen Gesetzes, teils der Bedingungen, unter denen das Gesetz Gültigkeit hat, zu-gelangen. B. Die Hauptsätze der Wahrscheinlichkeitsrechnung. 91. Aus den obigen Beispielen über die Resultate von Glück- spielen und ähnlichen Erfahrungen ging hervor, daß man unter ge- wissen Bedingungen annähernd vorausberechnen kann, wieviele Begebenheiten der einen oder der anderen Art bei einer gegebenen Versuchsordnung eintreffen werden. Die Zahlen schwingen zwar, jedoch um einen festen Durchschnittspunkt und innerhalb gewisser Grenzen. Die Abweichungen verteilen sich ungefähr symmetrisch am den Durchschnittspunkt und gruppieren sich im übrigen bei allen Versuchsreihen fast genau in gleicher Weise; es gibt viel kleinere Abweichungen und wenig größere, so daß man vorderhand ein recht zutes Bild der Verteilung erhält, wenn man bloß bestimmt hat, inner- aalb welcher Grenzen der eine oder der andere Bruchteil, z. B. */s ler Abweichungen, fallen wird. Wie im folgenden dargelegt werden soll, bestätigen sich diese Resultate nun auf vielen anderen Gebieten menschlicher Betätigung, besonders sobald man gewisse Ursachen wie Alter, Geschlecht usw. isoliert; wenn auch die Grenzen für die Abweichungen selbst nach einer solchen Isolation von Ursachen weitere sind als bei den Glück- spielen, so kann man doch in der Regel gewisse Ursachen angeben, welche sich allerdings oft einer näheren numerischen Behandlung entziehen, von denen man aber trotzdem behaupten darf, daß ihre [solation, falls sie möglich wäre, die Abweichungen verkleinern, und Jaß sich dabei eine Tendenz auf die für Glückspiele geltende Ver- teilung hin zeigen würde. Als Folge davon, daß man in der Statistik gerade von einer Menge von Ursachen absieht, welche in Wirklichkeit ein Phänomen beeinflussen, deren Wirkungen aber mit irgend einer Begründung als sich ungefähr gegenseitig aufhebend betrachtet werden können, geschieht es oft, daß man eine ganz einzelne Eigenschaft oder ein einzelnes Kennzeichen eines beobachteten Phänomens zum Gegen- stand der Forschung macht; man interessiert sich dabei nur dafür, ob die Eigenschaft oder das Kennzeichen vorkommt oder nicht. Bei- 135 spiel hierfür sind die oben behandelten Glückspiele; bei den Kugel- versuchen notierte man die Farbe der gezogenen Kugel, schenkte jedoch den übrigen möglichen besonderen Eigenschaften (Gewicht, Form, Oberflächenbeschaffenheit, dem Platz im Beutel vor der Ziehung usw.) keine Aufmerksamkeit. Etwas ganz Ähnliches geht beim Stu- dium anderer statistischer Phänomene vor sich; selbst wenn man bei der Untersuchung der Ursachen, die das Geschlecht der ge- borenen Kinder bestimmen, das Beobachtungsmaterial in Gruppen teilt, welche als den verschiedenen wirkenden Ursachen entsprechend angenommen werden, wird in jeder einzelnen Gruppe die Aufmerksam- keit auf ein bestimmtes Kennzeichen, nämlich das Geschlecht, ein- gestellt, während von den übrigen individuellen Verschiedenheiten zwischen den in der einzelnen Gruppe zusammengefaßten Kindern abgesehen wird. Ebenso geht es — um ein anderes Beispiel zu nehmen — bei der Untersuchung der Sterblichkeit; man kann das Beobachtungsmaterial in viele Gruppen, nach Alter, Geschlecht, Beruf usw., zerlegen, aber bei jeder einzelnen mittelst solcher Kennzeichen ausgeschiedenen Gruppe stellt man keine andere Frage als die eine: tot oder nicht tot. Versuche oder Beobachtungen dieser Art werden oft als alternativ bezeichnet. Es hat sich ferner erwiesen — wie es ausführlich im Kapitel II erwähnt wurde — daß die statistische Regelmäßigkeit in zahlreichen der uns hier interessierenden Fälle sich in einer ausgeprägten Pro- portionalität zwischen der Zahl sämtlicher Beobachtungen und der Zahl solcher zu erkennen gibt, welche die Eigenschaft oder das Kennzeichen ausweisen, deren Vorkommen zu untersuchen ist; es liegt daher nahe, die genannten zwei Zahlen zueinander ins Ver- hältnis zu setzen, indem man einen Bruch berechnet, der durch seine Größe angibt, ein wie großer Teil sämtlicher Beobachtungen das be- treffende Kennzeichen aufgewiesen hat. Ein solcher Bruch heißt relative Häufigkeit des Kennzeichens. Als Beispiel hierfür sei erwähnt, daß die relative Häufigkeit weißer Kugeln in dem oben behandelten Kugelversuch 1005 = 0,5011 war. Im Jahre 1920 kamen in Dänemark insgesamt 80227 lebendgeborene und totge- borene Kinder zur Welt, von denen 41064 Knaben waren; die rela- tive Häufigkeit von Knaben — die Sexualproportion — war also +1 064 = 0,51 usw 80 227 ) " Wenn die relative Häufigkeit einer Begebenheit (Kennzeichen) — 136 sich um irgendeinen „Normalwert“ und innerhalb enger Grenzen analog mit den Glückspielerfahrungen bewegt, bezeichnet man diesen rzermuteten Normalwert als die Wahrscheinlichkeit der Be- gebenheit. Zur Anwendung des Begriffes Wahrscheinlichkeit be- rechtigt allein die Erfahrung, daß sich die Zahlen um einen festen Wert bewegen; wenn dies nicht der Fall ist, kann auch von einer Wahrscheinlichkeit keine Rede sein. 92, Es ist kaum möglich, eine befriedigendere Definition dieses grundlegenden Begriffes zu geben. Dahinzielende Bestrebungen *ührten schon in einem sehr frühen Stadium der Geschichte der Wahrscheinlichkeitsrechnung zur Scheidung zwischen sogenannten „apriorischen“ und „aposteriorischen“ Wahrscheinlichkeiten. Der Unterschied zwischen diesen sollte, wie die Bezeichnung es andeutet, der sein, daß die Größe der apriorischen Wahrscheinlichkeit im voraus durch rein logische Operationen, ohne Benutzung von Er- fahrungsdaten, also bevor solche vorliegen, festgestellt werden könne, während man erst auf dem Wege der Erfahrung etwas über die Größe der aposteriorischen Wahrscheinlichkeit erführe; letztere kann jaher genau so definiert werden wie das, was wir oben schlecht ınd recht eine Wahrscheinlichkeit nannten und muß auch als genau Jasselbe angesprochen werden. Dagegen hat man zur Definierung der apriorischen Wahrscheinlichkeit erst den Begriff „gleich mög- liche Fälle“ einführen müssen: von der Vorstellung der Existenz solcher Fälle ausgehend stößt indes die Definition der apriorischen Wahrscheinlichkeit nicht auf Schwierigkeiten. Wenn unter m gleich möglichen Fällen g das Kennzeichen (Ereignis) A, die übrigen Fälle Jagegen andere Kennzeichen, B, haben, versteht man unter der apriorischen Wahrscheinlichkeit des Ereignisses ganz einfach den Bruch &. m Wenn man beispielsweise mit einer Münze wirft, erwartet man im allgemeinen wohl gleichviel Male Revers und Avers, oder mit anderen Worten: Revers und Avers sind gleich möglich. Fragt man daher nach der Wahrscheinlichkeit dafür, bei einem Münzwurf Avers zu bekommen, dann gilt die Fragestellung nur der einen der 2 gleich möglichen Fälle, so daß die Wahrscheinlichkeit, Avers zu erhalten, nur !/, ist. Hat man ferner einen Beutel mit 5 weißen und 5 roten, aber sonst gleichen Kugeln, so kann man, nach sorgfältiger Mischung der Kugeln, bei der Entnahme einer Kugel damit rechnen, daß die gleiche Möglichkeit für die Ziehung einer jeden der 10 Kugeln L37 vorliegt; hier hat man es also mit 10 gleich möglichen Fällen, von denen nur die 5 eine weiße Kugel ergeben, zu tun; die Wahrschein- lichkeit, bei Ziehungen eine weiße Kugel zu erhalten, ist daher hier 0 also ebenfalls = 0,5. In mehr zusammengesetzten Aufgaben, bei denen die in dem Zähler und Nenner eingesetzten Zahlen sehr groß werden, kann es oft rein praktisch recht schwierig sein, die Größe einer apriorischen Wahrscheinlichkeit zu bestimmen; rein prinzipielle Schwierigkeiten verursacht diese Aufgabe jedoch nicht, wenn nur erst festgestellt wird, welche Fälle gleich möglich sind; daß zwei oder mehrere Fälle gleich möglich sind, ist indessen nichts anderes als eine Umschrei- bung der Behauptung, daß die Wahrscheinlichkeit des Eintreffens dieser Fälle von gleicher Größe ist; dies wird jedoch weiter besagen, daß die Definition einer apriorischen Wahrscheinlichkeit die vor- herige Definition des Wahrscheinlichkeitsbegriffes selber voraussetzt. 93. Wenn man daher überhaupt von der Wahrscheinlichkeit des Eintreffens eines Ereignisses (A) spricht und deren Größe auf p veranschlagen zu können glaubt, dann ist dies nur ein anderer und kürzerer Ausdruck für die Behauptung, daß, wenn eine Anzahl von Versuchsreihen, jede von n Versuchen, angestellt wird. und n aus- reichend groß ist, l. die Zahl der Male, in denen das Ereignis A dann ein- trifft, sich von Versuchsreihe zu Versuchsreihe um pn bewegt, und 2. die Abweichungen, welche die einzelnen Versuchsreihen aufweisen, wenn sie mit dem mittleren Fehler Ynpq als Einheit um- gerechnet (gemessen) werden, sich jedenfalls mit einer gewissen An- näherung symmetrisch analog der Tabelle 13 verteilen. Es erhellt aus der Definition des Wahrscheinlichkeitsbegriffes, daß die Größe einer Wahrscheinlichkeit nie exakt bestimmt werden kann: denn selbst da, wo viele gut durchgeführte Beobachtungen zur Feststellung der Wahrscheinlichkeit vorliegen, wird man die oben erwähnten Bedingungen für die Möglichkeit einer Wahrschein- lichkeit und ihrer Größe dadurch erfüllt sehen, daß man der Wahr- scheinlichkeit viele verschiedene Werte (in mathematischem Sinne) gibt; die Definition schließt indessen nicht aus — wie es im fol- genden gezeigt werden soll — daß sich sehr viele Fälle finden lassen, in denen es möglich ist, von Wahrscheinlichkeit zu reden und die Größe der Wahrscheinlichkeit mit zulänglicher Genauigkeit zu be- stimmen. 138 94. Wenn nun, wie oben bewiesen, der Begriff der „apriorischen Wahrscheinlichkeit“ ohne Bedeutung ist für die Definition des eigentlichen Wahrscheinlichkeitsbegriffes, so ist er andererseits vor- züglich in der Wahrscheinlichkeitsrechnung zu verwenden, Ad. h. in der Lehre darüber, unter welchen Bedingungen und in welcher Weise man von gegebenen Wahrscheinlichkeiten aus die Wahrscheinlichkeit anderer Ereignisse berechnen kann; dies hat gerade darin seine Ursache, daß es sich hierbei weder um eine exX- perimentelle Bestimmung der Größe der Wahrscheinlichkeiten handelt, welche man zum Ausgangspunkt nimmt, noch um eine experimentelle Kontrolle der Resultate (Wahrscheinlichkeiten), zu denen man ge- langt; dieser Seite der Sache hat sich die Statistik anzunehmen. Es ist daher auch nicht merkwürdig, daß man bei der Lösung der konkreten Aufgabe in der Wahrscheinlichkeitsrechnung ebenso oft davon ausgeht, daß die und die Fälle gleich möglich sind, wie davon, daß die und die Ereignisse die und die gegebene Wahrschein- lichkeit haben. Es handelt sich hier nur um eine verschiedene Aus- drucksweise. Man darf sich vor allem z. B. dadurch nicht irre- führen lassen, daß sogar gegeneinander spielende Personen ohne nähere Nachprüfung beide davon ausgehen, daß die und die Fälle zleich wahrscheinlich sind. Dieser Umstand kann nur ein Ausdruck für die Anschauung sein, daß der dabei begangene Fehler so klein ist, daß sich eine nähere Untersuchung der Richtigkeit der ge- machten Voraussetzung nicht zu verlohnen scheint. Werfen wir beispielsweise die Frage auf, mit wie großer Wahr- scheinlichkeit ein Whistspieler eine gegebene Karte erhält, wenn las Kartengeben nach den Voraussetzungen, unter denen man über- haupt Whist spielt, so vor sich geht, daß die Wahrscheinlichkeit dafür, daß eine Person eine bestimmte Karte erhält, dieselbe ist, einerlei von welchen der 4 am Spiele beteiligten Personen die Rede ist; es liegen dann 4 gleich mögliche Fälle vor, jedoch ist es nur einmal möglich, daß die betrachtete Person die betreffende Karte er- hält, und die Wahrscheinlichkeit ist dann apriorisch als !/, fest- gestellt. In Wirklichkeit kann eine nähere Untersuchung erst ent- scheiden, inwieweit es überhaupt möglich ist, das Kartengeben so einzurichten, daß es Hand und Fuß hat zu sagen, alle 4 Personen hätten die gleiche Wahrscheinlichkeit dafür, die betreffende Karte zu erhalten, und ob es deshalb überhaupt einen Sinn hat, von den Fällen, wo das Kartengeben nicht die benutzte Voraussetzung erfüllt, abzusehen. 139 In ähnlicher Weise geht es z. B. beim Würfeln; hat man eine Vermutung darüber, daß der Würfel falsch ist, dann gibt es zur Ent- oder Bekräftigung kein anderes Mittel als vor dem Spiel den Würfel zu versuchen; rechnet man mit einer Wahrscheinlichkeit von !/; für einen gegebenen Wurf, so sieht man von der Möglichkeit einer Fälschung des Würfels ab; ob es jedoch überhaupt möglich ist, einen Würfel zu konstruieren oder sich nur einen Würfel vorzustellen, der „gar nicht falsch ist“, das ist eine ganz andere Frage, die zwar untersucht, jedoch nicht entschieden werden kann. Dagegen läßt sich untersuchen, ob der Fehler, den man begeht, wenn man mit einer Wahrscheinlichkeit von gerade !/; rechnet, so groß ist, daß diese Rechenmethode als unzulässig betrachtet werden muß. Aufgabe 4. Der Astronom R. Wolff hat einige umfangreiche Würfel- versuche unternommen ?). U. a. ward 20000 Male mit zwei verschiedenen Würfeln, einem roten und einem weißen, geworfen; das Resultat war folgendes : Weißer Würfel Roter Würfel 3246 Male 3407 Male ZZ 20.000 Male Kann man nach diesen Versuchen damit rechnen, daß jede der 6 Würfel- seiten die gleiche Möglichkeit hat, nach oben zu liegen zu kommen ? Wie wäre die Antwort auf diese Frage, wenn man nach den 4500 ersten Würfen aufgehört und damit folgendes Resultat erhalten hätte: Eine ] "3 wurde mon Roter Würfel 763 Male 798 725 682 765 _ Lt 067 zus. 4500 Male 4500 Male 95. Wenn man davon ausgeht, daß gewisse Fälle gleich mög- lich sind, ist es oft eine ungemein leichte Sache, die Wahrschein- lichkeit dafür zu finden, daß andere Ereignisse eintreffen werden. Zur Beleuchtung dessen seien einige Beispiele angeführt. Wie groß ist bei einem Wurf mit zwei Münzen die Wahrscheinlichkeit dafür, daß wenigstens eine der l) R. Wolff, Drei Mitteilungen über neue Würfelversuche. Naturforsch. Gesellschaft in Zürich, Bd. 26, 27, Zürich 1881—83. 140 Münzen Avers zeigt, wenn die Wahrscheinlichkeit, Avers zu erhalten bei einem Wurf mit einer der Münzen !% ist. Es sind 4 verschiedene Ergebnisse möglich, nämlich folgende 1 Kombinationen: AA — AR-— RA — RR Da gegeben ist, daß für jede Münze die gleiche Möglichkeit vorliegt, A oder R zu zeigen, müssen auch die 4 angeführten Kom- binationen gleich möglich sein, d. h. dieselbe Wahrscheinlichkeit haben; da in 3 derselben wenigstens eine der Münzen A zeigt, ist die gesuchte Wahrscheinlichkeit %4. Wie groß ist bei einem Wurf mit zwei Würfeln die Wahrscheinlichkeit dafür, eine gegebene Summe von Augen zu erhalten, wenn für beide Würfel die Mög- \ichkeit, daß jede der Würfelseiten nach oben zeigt, lieselbe ist? Bei einem Wurfe mit dem einen der Würfel liegen 6 gleich mögliche Fälle vor; ohne Rücksicht darauf, was der eine Würfel ergibt, werden beim Wurf mit dem zweiten ebenfalls 6 gleich mög- liche Fälle sein; im ganzen werden es also 36 gleich mögliche Fälle, die folgende Summen aufweisen: 4 5 ö 5 6 7 4 5 6 7 8 5 6 7 8 9 5 7 8 9 10 ? Q 9 10 11 zZ 1 8 9 10 .y Von diesen 36 Summen lauten beispielsweise 4 auf 5; die Wahrscheinlichkeit dafür, bei einem Wurf mit zwei solchen Würfeln insgesamt 5 Augen zu erhalten, wird daher */s; = 1!/o. Als Gesamt- resultat ergibt sich eine Wahrscheinlichkeit für die Summe 2 gleich */446 Summe 7 gleich %/,g 5 22 ze 2” S 2” 4% R 2” 4 86 LE 19 ” 3 36 ” ” Jb0 ” 1 ” a 0 ” > 36 ” * ” W 36 93 12 “ UL Da 21 der 36 Summen auf 7 oder mehr als 7 lauten, ist die Wahrscheinlichkeit dafür, wenigstens 7 Augen zu erhalten, 2 / oe. Aufgabe 5. Welche verschiedenen Summen von Augen kann man ins- gesamt erhalten, wenn man mit 3 Würfeln wirft? Die Würfel als „gleich gut“ vorausgesetzt, wie groß ist dann die Wahrscheinlichkeit dafür, jede dieser Summen 141 zu bekommen? Wie groß ist die Wahrscheinlichkeit dafür, eine Summe zu er- halten, die höchstens 8 ist? Aufgabe 6. Unter der Voraussetzung, daß man bei der Ziehung einer einzelnen Karte aus einem Spiel von 52 Blättern die gleiche Möglichkeit für die Ziehung jeder beliebigen Karte hat, ist festzustellen, wie groß die Wahrscheinlich- keit dafür ist 1) Herzen As, 2) einen Karo, 3) eine schwarze Farbe zu erhalten. 96. Wenn ausdrücklich gegeben ist, welche Fälle als gleich möglich angesehen werden können, dann macht die Bestimmung der Wahrscheinlichkeit, wie gesagt, keine prinzipiellen Schwierigkeiten, weil es hierbei lediglich darauf ankommt, festzustellen, wieviele gleichmögliche Fälle überhaupt vorliegen können, worauf diese Fälle hinauslaufen und wieviele, wie man so sagt, „günstig sind“, d. h. unter die Kategorie fallen, deren Wahrscheinlichkeit erfragt ward. Indes braucht man nicht zu sehr komplizierten Aufgaben zu greifen, bevor die Zahl sowohl gleich möglicher wie gleich günstiger Fälle sehr stark anschwillt, jedenfalls so stark, daß es allzu schwierig wird, aufzunotieren, worauf die einzelnen gleichmöglichen Fälle hinausgehen und somit die günstigen Fälle abzulesen. In solchen Fällen muß man zu anderen Hilfsmitteln greifen, besonders zur Kombinationslehre, welche überhaupt für die Wahrscheinlichkeits- rechnung eine große Rolle spielt. Einige wenige der wichtigsten Sätze dieser Lehre, welche für das Verständnis des Folgenden aus- reichen werden, sind daher im Anhang entwickelt, auf den hier verwiesen wird. Mit Hilfe dieser Sätze kann man zahlreiche andere Aufgaben lösen. Als typisches Beispiel einer solchen Aufgabe sei folgendes gegeben: Ein Beutel enthält W weißeund R rote, insgesamt K Kugeln; dem Beutel werden auf einmal eine Hand- vollk (k<K) Kugeln entnommen. Wie groß ist die Wahrscheinlichkeit dafür, daß w dieser Kugeln weiß und r=k—w rot sind? Die k Kugeln können unter den K Kugeln auf insgesamt (5) verschiedenen Weisen ausgewählt werden; sind die Kugeln vor der Ziehung sorgfältig gemischt worden, kann man damit rechnen, daß die Wahrscheinlichkeit dafür, eine gegebene Auswahl aus K zu erhalten, für jede der (X) Kombinationen die gleiche ist; die Zahl 142 BE der gleichmöglichen Fälle ist also (5): da man w weiße Kugeln auf (7) und r rote auf (7) Weisen erhalten kann, und da sich jededer (W) Kombinationen mit jeder der (®) Kombinationen verbinden jäßt, so wird die Anzahl Fälle der (X) gleich möglichen, welche gerade w weiße und r rote Kugeln enthält, (7) x (3), so daß die ge- suchte Wahrscheinlichkeit (3) () (X) st. Es sei bemerkt, daß es natürlich ohne Unterschied ist, ob man, anstatt sämtliche k Kugeln auf einmal zu nehmen, diese gruppen- der einzelweise zieht, bis man sämtliche k Kugeln gezogen hat, wenn man hierbei nur nicht die entnommenen Kugeln vor der Fortsetzung der Ziehung in den Beutel zurücklegt. In diesem Punkte unterscheidet sich die gegenwärtige Aufgabe von derjenigen, welche wir bereits in den 88 79ff. behandelt haben und zu der wir weiter unten wieder zurückkehren; bei dieser Aufgabe war die Voraussetzung die, daß die Kugeln einzeln gezogen und in den Beutel zurückgelegt würden, bevor die nächste Ziehung stattfände. Ein Beispiel der Anwendung ist es, die Wahrscheinlichkeit dafür zu finden, daß ein Whistspieler beim Kartengeben x Asse (0<x=<A4) erhält. Der Beutel enthält hier 4 „weiße Kugeln“ (die 4 Asse) und 48 „rote Kugeln“ (die 48 übrigen Karten); die Wahr- scheinlichkeit dafür, daß eine Handvoll von 13 Karten x Asse enthält, wird dann (2) was z. B. mit x==1 gibt __41 X 481X 181X 391 _ 4-13-87-88-39 _ 04988 Di “117531 X121X361X521 49-50.51:52 Im ganzen erhält man für 0,3038 N 4388 „2135 10413 0,0026 Das Wahrscheinlichste ist also, daß man 1 As erhält, und nur 4—5 Proz. der Kartenempfänger werden mehr als 2 Asse be- kommen. Aufgabe 7. Finde die Wahrscheinlichkeit dafür, bei einer Ziehung in der Zahlenlotterie (bei welcher auf einmal 5 Zahlen unter den Zahlen 1 bis 90 gezogen werden) zu ziehen 1) eine einzelne, näher bezeichnete Ziffer, 2) beziehungsweise 0, 1, 2, 3, 4 und 5 einstellige Zahlen. 97. Bei vielen Aufgaben in der Wahrscheinlichkeitsrechnung handelt es sich um zwei näher angegebene Begebenheiten A und B, deren Vorkommen oder Nichtvorkommen man besonders zu unter- suchen wünscht. Die Gesamtzahl möglicher Fälle muß dann in 4 Teile aufgelöst werden können, nämlich in die, in denen jeweilig beide Begebenheiten A und B, nur die eine (A) oder nur die andere (B) oder keine von beiden vorkommen. Beispielsweise konnten in Eng- land— Wales in einer gewissen Periode bei 837 von 1000 Ehe- schließungen beide Brautleute ihre Namen schreiben, während in 72 Fällen nur der Bräutigam, in 57 nur die Braut und in 34 keine der Parteien schreiben konnte. Bezeichnet man durch „A“, daß der Bräutigam, und mit „B“, daß die Braut des Schreibens kundig war, erhält man also in diesem Beispiel, daß sowohl A wie B in 837 Fällen eintraf A, aber nicht B, , %2 B, aber nicht A, „ 57 , v weder A noch B, 344 , » zus. 1000 Fälle Die Wahrscheinlichkeit dafür, daß ein Bräutigam schreiben konnte (resp. nicht schreiben konnte), ist hiernach 837 +72 _ 57 +34 _ 1000 = 0,909 (resp. 1006 = 0,091), und die Wahrscheinlichkeit dafür, daß die Braut schreiben (resp. nicht schreiben) konnte, wird 837457 _ 724+34 __ 1000 == 0,894 (resp. "1000 ==> 0,106). Die Wahrscheinlichkeit dafür, daß allein der Bräutigam (resp. die Braut) schreiben konnte, wird natürlich kleiner, nämlich 0,072 144 resp. 0,057), weil die Fälle, in denen der andere Teil schreiben konnte, ausscheiden. Die Wahrscheinlichkeit dafür, daß nur der oder die eine der Getrauten (aber gleichgültig welcher Teil) schreiben konnte, wird lagegen 72+57 _ 1000 = 0129, während die Wahrscheinlichkeit dafür, daß zum mindesten einer der eine der Brautleute schreiben konnte, 837 +72 +57 _ 1000 = 0,966 wird. Und schließlich wird die Wahrscheinlichkeit dafür, daß beide Gatten (resp. keiner derselben) schreiben konnten, 0,837 (resp. 0,034). Aufgabe 8. Wenn zwei näher bezeichnete Karten eines Spieles von 52 Blättern mit A und B bezeichnet werden, ist die Wahrscheinlichkeit dafür zu finden, unter insgesamt 13 Karten zu erhalten: 1. die Karte A, 2. von den Karten A und B allein die Karte A (resp. B), 3. nur eine der Karten A und B, gleichgültig welche, 4, wenigstens eine der Karten A und B, 5. beide Karten A und B, 6. keine der Karten A und B. 98, Nehmen wir im allgemeinen an, daß sowohl A und B in a Fällen eintreffen, A, aber nicht B , b „ eintrifft, B, aber nicht A, c© » weder A noch B,„d ” zus. 8 Fälle and daß im folgenden bedeutet: p,: die Wahrscheinlichkeit dafür, daß A eintrifft, 92: die Wahrscheinlichkeit dafür, daß B eintrifft, pz: die Wahrscheinlichkeit dafür, daß wenigstens eine der Be- gebenheiten A und B eintrifft, pa: die Wahrscheinlichkeit dafür, daß sowohl A wie B eintrifft. Wie im vorhergehenden Beispiel erhält man dann unmittelbar folgenden Ausdruck für diese vier Wahrscheinlichkeiten: Le Pı Ar? Pa — © D= Ark p= © Aus diesen Ausdrücken folgt, daß Pı + Dr = D3 + Da L45 oder daß Ps = D_ + PD — Da Wenn man also die Wahrscheinlichkeit (p,) dafür kennt, daß ein gewisses Ereignis (A), und die Wahrscheinlichkeit (p,) dafür, daß eine andere Begebenheit (B) eintrifft, und die Wahrscheinlich- keit (p.) dafür, daß beide Ereignisse auf einmal eintreffen, dann kann man ohne Feststellung der Anzahl „möglicher“ und „günstiger“ Fälle gleich die Wahrscheinlichkeit (ps) dafür, daß wenigstens eine der Begebenheiten A oder B eintreffen wird, als Differenz zwischen (pı + p2) und pa finden. Beispiel: Einem Spiel von 52 Karten entnehme man eine Karte; wie groß ist die Wahrscheinlichkeit dafür, daß diese Karte ein As oder ein Karo wird? Die Wahrscheinlichkeit für die Ziehung eines Asses ist !/,3 und eines Karo !/,; da die Wahrscheinlichkeit dafür, Karo-As zu erhalten, !/, ist, ergibt sich die gesuchte Wahrschein- lichkeit als 1 1 1 16 13 * 159 55 = 0,308. Obige Relation läßt sich auch auf die Fälle erweitern, in denen es sich nicht nur um zwei Ereignisse (A und B), sondern um eine beliebige Zahl von Ereignissen handelt: hat man es hierbei jedoch mit einer größeren Anzahl Begebenheiten zu tun, so wird die Formel im allgemeinen recht kompliziert, so daß ihre Anwendung nicht gerade praktisch ist. Dagegen ist sie unter einer gewissen Voraussetzung sehr einfach, selbst wenn es sich um mehr als zwei Ereignisse handelt; daher wird auch in der recht umfangreichen Gruppe von Fällen, wo die Erfüllung dieser Voraussetzung eintrifft oder mit gutem Grunde erwartet werden kann, die Formel am häufigsten angewandt. Worauf diese Voraussetzung hinausläuft, das sieht man am deutlichsten, wenn man sich beim obigen Schema und bei den Formeln denkt, daß a =0 ist, d.h. daß Fälle, in denen die Begebenheiten A und B auf einmal eintreffen, überhaupt nicht möglich sind; es handelt sich hier um Ereignisse, die sich gegenseitig ausschließen; anstatt nach der Wahrscheinlichkeit dafür zu fragen, daß wenigstens eine der Begebenheiten A und B eintrifft (ps), kann man sich dann darauf beschränken, nach der Wahrscheinlichkeit dafür zu fragen, daß entweder Ereignis A oder Ereignis B eintrifft, und Westergaard und Nyb@lle, Theorie der Statistik, 2. Aufl. 1} 146 da pw bei dieser Art von Ereignissen gleich Q wird, ergibt sich hier ganz einfach die gesuchte Wahrscheinlichkeit als Ps = Dı + Pe- Hat man es mit mehr als zwei Ereignissen zu tun, und ist auch hier die Voraussetzung, daß sich alle einander gegenseitig aus- schließen, erfüllt, so wird die Wahrscheinlichkeit dafür, daß entweder jas erste oder das zweite oder das dritte usw. Ereignis eintrifft, auch dann ganz einfach gleich der Summe der Wahrscheinlichkeiten ir das Eintreffen der einzelnen betrachteten Begebenheiten („Die Entweder—oder-Regel“). Wenn sich z. B. 60 Proz. der Selbstmörder erhängen und 30 Proz. artränken, ist die Wahrscheinlichkeit dafür, daß sich ein Selbst- mörder entweder erhängt oder ertränkt hat, 90 Proz., da voraus- yesetzt wird, daß eine Kombination dieser Entleibungsarten nicht möglich ist. Geht ein Mann eine Unglücksversicherung gegen Todes- fall oder Invalidität ein, und ist die Wahrscheinlichkeit, tödlich zu verunglücken, p,, und die Wahrscheinlichkeit, durch Unglücksfall [nvalide zu werden, p,, dann ist die Wahrscheinlichkeit dafür, daß lie Versicherungsgesellschaft die Versicherungssumme zu entrichten hat, pı-}P2, da man nicht auf einmal tödlich verunglücken und Invalide werden kann. Schließlich sei hier bemerkt, daß, wenn ein Versuch n verschie- Jene Ergebnisse zeitigen kann, welche sich gegenseitig ausschließen, die Summe der Wahrscheinlichkeiten für jede dieser Begebenheiten 1 sein wird. Ist speziell die Wahrscheinlichkeit des Eintreffens eines Ereignisses p, dann wird die Wahrscheinlichkeit des Eintreffens der übrigen möglichen Ereignisse 1— pp sein. 99, Führt man nun ferner ein ji. die Wahrscheinlichkeit p; dafür, daß A eintreffen wird, nach- lem das Ereignis B faktisch eingetroffen ist, und 2. die Wahrscheinlichkeit p; dafür, daß B eintreffen wird, nach- jem das Ereignis A faktisch eingetroffen ist, dann findet man, daß — 3 und A, Di De a + b’ jenn wenn B tatsächlich eingetroffen ist, fallen. in der Zahl gleich möglicher Fälle die b-+d aus, in welchen B nicht eintrifft; es oleiben nur a-+c gleich mögliche Fälle übrig, und in den a von diesen ist es der Fall, daß das Ereignis A ebenfalls eintrifft; bei einer entsprechenden Betrachtung findet man Pe. 147 Aus diesen Ausdrücken und aus den Ausdrücken für p,, p2 und Pa geht hervor, daß a P2* Ds = Pı "Pe = Pa Wenn man also die Wahrscheinlichkeit (p,) für das Eintreffen einer gewissen Begebenheit A kennt und die Wahrscheinlichkeit (pe) dafür, daß, wenn A faktisch eingetroffen ist, auch eine andere Be- gebenheit B eintreffen wird, dann kann man ohne Feststellung „MÖög- licher“ und „günstiger“ Fälle gleich die Wahrscheinlichkeit (pa) dafür, daß beide Ereignisse A und B eintreffen, als das Produkt der beiden Wahrscheinlichkeiten p, und p; finden; genau so ergibt sich ps als das Produkt der Wahrscheinlichkeiten p, und p;. Beispiel: Aus einem 52 Blätter zählenden Spiele werden 2 Karten gezogen; wie groß ist die Wahrscheinlichkeit dafür, daß die erste Karte ein As und die zweite ein Karo wird? Die Wahrscheinlich- keit dafür, daß die erste Karte Karo-As ist, beträgt ze: wenn diese Begebenheit eintrifft, ist die Wahrscheinlichkeit dafür, daß die nächste Karte ein Karo wird, = die Wahrscheinlichkeit, erst Karo- As und darauf eine andere Karo- Karte zu erhalten, ist also BateT Dies Ereignis, deren Wahrscheinlichkeit erfragt wird, kann indes auch in anderer Weise eintreffen, nämlich dadurch, daß man erst eins der übrigen 3 Asse erhält. Die Wahrscheinlichkeit, beim ersten Zug eine von diesen zu ziehen, ist Cs geschieht dies, dann ist die Wahrscheinlichkeit dafür, daß die nächste Karte ein Karo wird, ST die Wahrscheinlichkeit dafür, daß der Versuch auf diese Weise NR . . 3 13 glücken wird, wird demnach 52° 51° Da man mit diesen beiden Methoden keinen Unterschied ge- macht hat und sie sich gegenseitig ausschließen, handelt es sich also darum, die Wahrscheinlichkeit dafür zu finden, daß der Versuch entweder auf die eine oder auf die andere Art und Weise glückt; die gesuchte Wahrscheinlichkeit wird dann die Summe der gefun- denen Wahrscheinlichkeiten, nämlich 112,3 .18_ 51 _1 52 51°52 51 52.51 5” —>—— 148 was sich auch bei einer Aufzeichnung sämtlicher möglicher und gün- stiger Fälle ergäbe. [n diesem Beispiel rührt die Schwierigkeit, welche damit ver- bunden sein kann, eine Wahrscheinlichkeit als das Produkt zweier anderer zu finden, von der Tatsache her, daß sich die Wahrschein- lichkeit dafür, eine Karo- Karte im zweiten Zug zu erhalten, ver- schieden stellt, je nachdem die zuerst gezogene Karte ein Karo-As oder eins der übrigen Asse ist, und es handelt sich hier um eine ganz allgemein vorkommende Schwierigkeit. Beispielsweise findet man nach der dänischen Heiratsstatistik der Jahre 1916—20 1, daß die Wahrscheinlichkeit dafür, daß ein Bräutigam, der nicht früher ver- heiratet gewesen ist, bei der Trauung 30 bis 35 Jahre alt ist, ca. 7,15 ausmacht; die Wahrscheinlichkeit dafür, daß das Alter der Braut zwischen 20 und 25 Jahren liegt, bestimmt man ganz analog auf ca. 0,51; hat man jedoch allein die Bräute, welche sich mit 30- bis 35jährigen Männern verheiraten, vor Augen, dann wird die Wahr- scheinlichkeit dafür, daß die Braut zwischen 20 und 25 Jahren ist, nur ca. 0,36, so daß die Wahrscheinlichkeit dafür, daß die Getrauten ein Mann zwischen 30 und 35 Jahren und eine Frau zwischen 20 und 25 Jahren sind, ca. 0,15-0,36 = ca. 0,054 ist; dasselbe Resultat wird arreicht, wenn man von einer Wahrscheinlichkeit von 0,51 dafür, daß die Braut im Alter zwischen 20 und 25 Jahren steht, ausgeht und diese Wahrscheinlichkeit mit der Wahrscheinlichkeit dafür, daß jer Bräutigam, wenn die Braut 20 bis 95 Jahre alt ist, selbst im Alter von 30 bis 35 Jahren steht, multipliziert; diese letzte Wahr- scheinlichkeit ist nur ca. 0,106, und es ergibt sich auch in dieser Weise die gesuchte Wahrscheinlichkeit als 0,51-0,106 == 0,054. Ebenso wie beim Additionstheorem findet sich indes eine um- fangreiche Gruppe von Fällen, in denen das Multiplikationstheorem 'eicht anzuwenden ist, nämlich die Fälle, in denen die Wahrschein- lichkeit für das Eintreffen ’des Ereignisses B entweder unverändert ist oder mit Billigkeit als unverändert erwartet werden kann, einerlei ob das Ereignis A im voraus eingetroffen ist oder nicht. In diesem Falle ergibt sich also De = De oder = A, hieraus folgt indes nach der Lehre von den Proportionen, daß auch 1) Vgl. Statistisk Tabelveerk, 5. Rk. Litra A, Nr. 15: Agteskaber, Fodte og Dode i 1916—20, Kobenhavn 1924, S. 19% L45 +7? = Dy) sodaß die Wahrscheinlichkeit des Eintreffens der Begebenheit A dann auch unverändert dieselbe bleibt, einerlei, ob das Ereignis B im voraus eingetroffen ist oder nicht. Die betrachtete Eigenschaft ist, wie hieraus hervorgeht, reziprok; Ereignisse, deren Wahr- scheinlichkeiten diese Eigenschaft besitzen, heißen gegenseitig unabhängig (unkorreliert), und auf solche Ereignisse findet das Multiplikationstheorem! am leichtesten Anwendung; man erhält also folgenden Satz, der leicht auf eine willkürliche Anzahl Be- gebenheiten ausgedehnt werden kann: Die Wahrscheinlichkeit dafür, daß zwei voneinander unab- hängige Ereignisse auf einmal in einem Versuche eintreffen, d. h. die Wahrscheinlichkeit dafür, daß sowohl das eine als auch das andere eintrifft, ist gleich dem Produkt aus den Wahrscheinlichkeiten dafür, daß jedes einzelne Ereignis, für sich betrachtet, eintreffen wird („Die Sowohl als auch-Regel“). Geht man beispielsweise bei einem Wurf mit zwei Würfeln davon aus, daß die Wahrscheinlichkeit, „eine Sechs“ zu erhalten, für beide Würfel '!/4 ist, ohne Rücksicht darauf, was der andere zeigt, dann wird die Wahrscheinlichkeit dafür, daß sowohl der eine als auch der andere Würfel „eine Sechs“ ergibt, !+!/s = 146; die Ant- wort fällt natürlich ebenso aus, wenn man nur einen Würfel hat, mit dem zweimal geworfen und die Wahrscheinlichkeit erfragt wird dafür, sowohl im ersten als auch im zweiten Wurf „eine Sechs“ zu erhalten; Voraussetzung ist, daß man hier ebenfalls damit rechnen kann, daß die Wahrscheinlichkeit, daß der Würfel beim zweiten Wurf „eine Sechs“ ergibt, unverändert !/; ist wie beim ersten Wurf, einerlei ob beim ersten Wurf „Sechs“ oder „Nicht-Sechs“ geworfen wurde. md „73 Aufgabe 9. Finde die Wahrscheinlichkeit dafür, mit einem Wurf mit einem Würfel zu erhalten 1. „Sechs‘“ beim ersten Wurf, 2, „Sechs“ beim dritten Wurf, 3. „Sechs“ zum erstenmal beim dritten Wurf, 4. „Sechs“ frühestens beim dritten Wurf. 100. Wann kann man indes damit rechnen, daß die Voraussetzung einer solchen Unabhängigkeit vorliegt? Welche Ereignisse können als gegenseitig unabhängig und welche nicht als solche angesprochen werden? Diese Frage hat einen ganz ähnlichen Charakter wie die 150 ben behandelte, wo nach Fällen, die als gleich möglich betrachtet werden können, gefragt wurde. In sehr vielen Fällen wird man die gegenseitige Unabhängigkeit der Ereignisse als dermaßen sicher an- sehen, daß sich eine nähere Untersuchung nicht zu verlohnen scheint; man wird daher apriorisch so verfahren, als ob die Ereignisse un- abhängig seien; in anderen Fällen kann sich die Sache ganz umge- kehrt verhalten, und in sämtlichen Fällen vermag in Wirklichkeit aur die Erfahrung die Frage zu beantworten. Es ist z. B. lediglich Erfahrungssache, daß die Wahrscheinlich- veit der Erkrankung an Masern eine ganz verschiedene ist, je nach- Jem es sich um Menschen handelt, welche diese Krankheit nie oder solche, die sie bereits früher gehabt haben. Im allgemeinen heißt es, Masern bekäme man nur einmal; der Sinn dieser Redensart kann nur der sein, daß, während die Wahrscheinlichkeit, die Masern zu bekommen, das erste Mal sehr groß ist (haben ja doch fast alle diese Krankheit gehabt), z. B. 0,9, sie z. B. nur 0,001 dafür beträgt, daß man im Laufe absehbarer Zeit zum zweitenmal diese Krankheit bekommt. In ganz entgegengesetzter Richtung geht es in anderen Fällen, z. B. wenn es sich um Krankheiten, welche zum Wieder- kommen ‘neigen, handelt. Aus dem oben ($ 97) betrachteten Beispiel über die Schreibfähigkeit der Getrauten ersah man, daß die Wahr- scheinlichkeit dafür, daß ein Bräutigam nicht schreiben konnte, 9,091 war, während sie für die Braut 0,106 betrug. Das Produkt dieser beiden Wahrscheinlichkeiten, 0,091-0,106 = 0,010, gibt indes nicht die Wahrscheinlichkeit dafür an, daß sowohl Braut wie Bräu- tigam nicht zu schreiben vermögen, welche Währscheinlichkeit 0,034 betrug. In einem solchen Mangel an Übereinstimmung liegt eine Aufforderung zur Erforschung der wirkenden Ursachen; in diesem Beispiel ist die Erklärung sehr naheliegend: die Ungebildeten suchen sich natürlich gegenseitig. Analog geht es in allen Fällen; eine nähere Untersuchung nur kann bestätigen, ob die betrachteten Ereignisse als gegenseitig un- abhängig (unkorreliert) angesehen werden können oder nicht. Und eine solche Untersuchung wird nicht weiter geführt werden können als zu ainer Entscheidung darüber, ob die Begebenheiten mit ausreichen;- der Annäherung als gegenseitig unabhängig betrachtet werden können, entsprechend der rein empirischen Untersuchung darüber, ob man gewisse Fälle als gleich möglich ansehen darf. Dies gilt in Wirk- lichkeit allen Ereignissen, zu guter Letzt auch solchen, von denen man im voraus erwartet, daß sie unkorreliert sind, da sich kein Grund 151 für die Annahme findet, daß ein „Band“ sie verknüpfe. Beispiele hierfür geben die beim Glückspiel und bei ähnlichen Beobachtungen vorkommenden Ereignisse. Das Entgegengesetzte kann aber auch stattfinden, d. h. die mit vermeintlich gutem Recht vermutete Gegenwart eines „Bandes“ hat nicht nachgewiesen werden können. Man wird z. B. eine ganze Literatur über Vorschläge zu Methoden sammeln können, mit deren Hilfe man unfehlbar in Lotterien und ähnlichen Spielen gewinnen werde, „Systeme“, die darauf hinausgehen, bei „Rouge et Noir“ und ähnlichen Spielen die Bank zu sprengen oder jedenfalls eine sichere Einnahme zu erreichen. Die Begründung solcher Behauptungen nimmt mehr oder weniger deutlich ihren Ausgangspunkt in der Vor- stellung, daß die Regelmäßigkeit statistischer Beobachtungen nur dadurch zu erklären ist, daß in irgendeiner Weise gewisse Ab- hängigkeiten zwischen den betrachteten Ereignissen bestehen; solche Abhängigkeiten liegen, wie oben erwähnt, sicherlich in vielen Fällen vor; wie wir jedoch im folgenden sehen werden, steht oder fällt die statistische Regelmäßigkeit keineswegs mit der Voraussetzung hier- über, da beispielsweise die Regelmäßigkeit, der wir bei der Be- trachtung der oben behandelten Glückspielresultate Ausdruck ver- liehen, gerade unter der Voraussetzung, daß keine solche Abhängigkeit vorhanden ist, wiedergefunden werden kann. Die Auffassung, daß solche Abhängigkeiten existieren müßten, ist auch gelegentlich von vielen, u. a. wie oben erwähnt ($ 34) von d’Alembert gestützt worden. Dieser behauptete, daß, wenn eine Münze im Laufe zweier oder mehrerer Würfe Avers ergeben habe, die Wahrscheinlichkeit für Avers nächstes Mal kleiner als !/, sein müsse. Ob etwas solches nun tatsächlich stattfindet, müssen die Erfahrungen lehren; die Frage ist für Münzversuche im Vorhergehenden (vgl. die Er- wähnung des Buffonschen Versuches $ 89) vorläufig dahin ent- schieden worden, daß eine solche Verbindung nicht vorhanden zu sein scheint. Daß die statistische Regelmäßigkeit ohne eine An- nahme wie die d’Alembertsche bekannt und erklärt werden kann, hindert indes, wie wir gesehen haben, nicht, daß Abhängigkeiten zwischen Ereignissen, deren Vorkommen untersucht wird, bestehen können. Es ist daher von Bedeutung, hierauf zu achten, wenn man sich mit dem gleichzeitigen Vorkommen zweier oder mehrerer Be- gebenheiten beschäftigt. Hinsichtlich der Glückspiele sollen unten nur einige Beispiele für die Untersuchung der Haltbarkeit der d’Alembertschen Behauptung gegeben werden: aber darüber hinaus 152 wird man in der Statistik häufig auf dieses Problem stoßen, welches Jer eigentliche Gegenstand: der Korrelationslehre ist. Bevor wir zur wichtigsten Anwendung der im Vorhergehenden entwickelten Sätze über Addition und Multiplikation der Wahrscheinlichkeiten ibergehen, sollen hier noch einige einfachere Beispiele für die An- wendung dieser Sätze angeführt werden. 101. Wie groß ist die Wahrscheinlichkeit dafür, daß eine gegebene Ziffer wenigstens einmal im Laufe zweieraufeinanderfolgender Ziehungen in der Zahlen- lotterie gezogen wird? Die Wahrscheinlichkeit dafür, in der einzelnen Ziehung eine yegebene Ziffer zu erhalten, ist !g (vgl. Aufgabe 7). Das Ereignis, dessen Wahrscheinlichkeit erfragt wird, kann nun auf drei ver- schiedene Weisen eintreffen, welche sich gegenseitig ausschließen, indem nämlich die Ziffer entweder nur in erster Ziehung oder nur in der zweiten oder in beiden herauskommt; die Wahrscheinlichkeit für das Eintreffen jedes dieser Ereignisse ist jeweils !/,s - 17/8 und 7/.g + 1/18 und !/3 + !ıs, und die gesuchte Wahrscheinlichkeit wird Jaher die Summe dieser 3 Größen sein, nämlich: 117,17 1 a! 1 17 {818 "1818 " 18 18 18 (1 +75) = 0108 Bei Aufgaben dieser Art, bei welchen alle möglichen Ergebnisse Jes Versuches mit Ausnahme des einen (in diesem Falle das Re- sultat, daß man die gewünschte Ziffer weder in erster noch in zweiter Ziehung erhält) günstig sind, ist es in der Regel leichter, zuerst die Wahrscheinlichkeit für das Eintreffen dieses einen Er- gebnisses zu suchen. Angenommen, diese Wahrscheinlichkeit sei P, dann ist die gesuchte Wahrscheinlichkeit 1—P. In der hier be- Yandelten Aufgabe ist die Wahrscheinlichkeit dafür, daß die ge- wünschte Ziffer sowohl bei der ersten wie bei der zweiten Ziehung ausbleibt, (!7/,3)%, und für die gesuchte Wahrscheinlichkeit findet man daher auch bei dieser Betrachtung den Wert 17\? 17\? 17 17 1 17 1 (1 = (= (145) (1-)= +3) Ferner muß man sich vor der Annahme hüten, daß die Ziffer, wenn sie wenigstens einmal im Laufe zweier Ziehungen fallen muß, antweder in erster oder zweiter Ziehung gezogen werde, und daß die gesuchte Wahrscheinlichkeit daher als die Summe aus !/,3 +78 vefunden werden könne; denn die zwei Ereignisse, deren ent- 152 sprechende Wahrscheinlichkeit in dieser Summe enthalten ist, schließen sich nicht aus. Stellte man dagegen die Frage: Wie groß ist die Wahrscheinlichkeit dafür, daß die gegebene Ziffer einmal und nur einmal im Laufe zweier Ziehungen herauskommt? dann wird die Antwort lauten: N! 17 1818 "1818 162 — °105 Fragt man nach der Wahrscheinlichkeit dafür, daß ein Ereignis wenigstens 1mal im Laufe einer willkür- lichen Anzahl von n Versuchen eintrifft, wo die Wahrscheinlichkeit, daß das Ereignis in jedem ein- zelnen Versuch eintrifft, gleich p ist, dann wird die Wahrscheinlichkeit, daß die Begebenheit überhaupt nicht in einem der n Versuche eintrifft, (1—p)" und die Wahrscheinlichkeit, daß das Ereignis wenigstens lmal eintrifft, deshalb 1— (1—p)* Beispielsweise ist bei einem Wurf mit 6 Würfeln die Wahr- scheinlichkeit, daß wenigstens einer derselben eine „Sechs“ zeigt, /5 6 15625 31031 | = 1— 76656 46656 0005 Aufgabe 10. Wie groß ist bei einem Wurf mit 2 Würfeln die Wahr- scheinlichkeit dafür, daß beide Würfel eine „Sechs“ ergeben ? Finde die Wahrscheinlichkeit dafür, daß man bei 25 Würfen mit zwei solchen Würfeln wenigstens einmal 2 Sechsen auf einmal erhält. Aufgabe 11. 13 Personen, alle am selben Tage geboren, feiern ihren 50. Geburtstag durch eine Mittagsgesellschaft. Wenn die Wahrscheinlichkeit dafür, daß eine 50jährige Person im Laufe eines Jahres stirbt, gleich 0,01 gesetzt wird, ist die Wahrscheinlichkeit zu finden, daß wenigstens einer der An- wesenden im Laufe eines Jahres stirbt. 6 102. Man spricht oft davon, daß man „erwartet“, daß !/; der be- nutzten Würfel z. B. Sechs ergeben. Mit diesem Ausdruck ist — wie es auch aus dem Vorhergehenden erhellt — nichts anderes gemeint, als daß die Zahl der „eine Sechs“ ausweisenden Würfel um Mn schwingen wird, wenn man den Versuch viele Male wiederholt; am aller- wenigsten besagt diese Redewendung, daß man in der überwiegenden Anzahl der Fälle erwarten werde, daß gerade !/; n Würfel „eine Sechs“ ergäben. Was hier über das Ergebnis „Sechs“ gesagt ist, das gilt natürlich auch bei jedem der übrigen 5 Resultate. Beispielsweise wird bei einem Wurf mit 6 Würfeln die Wahrscheinlichkeit dafür, daß jeder Würfel eine verschiedene Anzahl Augen ausweist, recht 154 klein sein. Sie ist leicht zu bestimmen; denn die Zahl der gleich- möglichen Fälle wird 6° = 46656, und da die 6 Zahlen: 1, 2, 3, 4, 5 und 6 auf 1-2-3-4-5-6 Weisen permutiert werden können, ergibt sich die Anzahl günstiger Fälle als 720 und die Wahrscheinlichkeit also als 61 720 Y 6° = 16656 = 0,0154. Spielt man mit mehr als 6 Würfeln, dann müssen notwendiger- weise einige der Würfel die gleiche Anzahl Augen ergeben, und je zrößer die Anzahl, desto größer wird die Wahrscheinlichkeit da- für, daß im faktischen Resultat keines der 6 verschiedenen Ergeb- nisse, welche ein Würfel geben kann, mangelt. Während es bei ler gegenwärtigen Darstellung zu weit führen würde, teils näher diese — im übrigen einleuchtende — Behauptung, teils überhaupt einige ler mit dem hier Angedeuteten!) in Verbindung stehenden Pro- bleme zu verfolgen, soll doch bemerkt werden, daß die Untersuchung der Frage überaus leicht ist, wenn es nur zwei mögliche Resultate ‘alternative Versuche) und nicht, wie beim Würfelspiel, 6 ver- schiedene gibt. Wirft man z. B. mit n Münzen, dann wird die Wahr- scheinlichkeit dafür, daß sie alle Avers zeigen, (1,)* und daß sie Revers zeigen, ebenfalls (!/,)* sein; da diese beiden Fälle sich gegen- zeitig und auch jeden der übrigen möglichen Fälle ausschließen, welche alle günstig sind, so wird die Wahrscheinlichkeit, daß es beim Werfen mit n Münzen sowohl Avers wie Revers zeigende gibt, P = 1—(14)t— (1) = 1— (1), was für n “” bt n n = x re» USW. Damit ist darüber nichts entschieden, wievielmal die einzelnen Ereignisse A und B gerade in einer Versuchsreihe von n Versuchen vorkommen werden. Indes würde es hier von Interesse sein Zu untersuchen, wie groß die Wahrscheinlichkeit dafür ist, eine Anzahl 1) Wenn man den Inhalt einer Schachtel mit m Würfeln ausschüttet, wird hier — ohne Beweis — angeführt, daß die Wahrscheinlichkeit dafür, daß sich anter den m Würfeln wenigstens 1 Einer, 1 Zweier usw. und wenigstens 1 Sechser Defindet, _(6\(6\r (6\(5\7" (6 (4) 6 2) (8) (2)- (1) (4) Pa= (6) (e)-(3)(5) + (1) (6) -(3) (&)+(2) (6) kl (3) ist, was, wie oben gefunden, für m = 6 den Wert P, = 0,0154 ergibt, während P,, — 0.4378, P,. = 0,7847, Po, = 0,9254 und P,4 = 0,9748 ist. 155 A-Begebenheiten (r) und eine Anzahl B-Begebenheiten (n—r), welche in der Nähe „der erwarteten“ Anzahl (pn) liegen, zu erhalten, um die im vorigen Abschnitt beschriebene Anhäufung um den „Durch- schnitt“ beurteilen zu können, welche dortselbst auf rein empirischem Wege untersucht wurde. Es handelte sich bei allen Beispielen gerade um solche alternative Versuche, von denen hier die Rede ist, da fest- gestellt wurde, wie häufig z. B. rot und weiß in Versuchsreihen von 100, 200 oder mehr Beobachtungen vorkamen; während man hier- bei ganz von der Reihenfolge, in der sich rot und weiß im Laufe der Versuchsreihe einfanden, absah, richtete sich die Aufmerksamkeit namentlich auf das scheinbar vorliegende Gesetz, nach welchem kleine und große Abweichungen eintrafen. C. Das Binomial- und Exponentialgesetz. 103. Nach der obigen Darstellung nun gehen wir an folgende Aufgabe heran. Wenn n Versuche angestellt werden, von denen jeder nur eins der Ergebnisse A oder B haben kann (alternative Versuche), und die Wahrscheinlichkeit im einzelnen Versuch das Ergebnis A zu bekommen, immer gleich p, und die Wahrscheinlichkeit für das Ergebnis B also immer q = 1—p ist, wie groß ist dann die Wahrscheinlichkeit dafür, daß man im Laufe der n Versuche insgesamt r Begebenheiten A und (n—r) Begebenheiten B erhält, vorausgesetzt, daß von der Zeitfolge der Ereignisse ganz abgesehen wird? Werden die r A und die (n—r) B in beliebiger Reihenfolge aufgeschrieben, ohne Rücksicht auf die sonstige tatsächliche Reihen- folge, dann ist die Wahrscheinlichkeit dafür, daß die r A und die (n—r) B gerade in der angegebenen Folge eintreffen, Pr 4° 7" Die Anzahl der verschiedenen Reihenfolgen nun, in denen die cr A und die (n—r) B verzeichnet werden können, ist (2 ) vgl. den Anhang; und da diese (?) Reihenfolgen sich gegenseitig aus- schließen, wird die Wahrscheinlichkeit dafür, daß die r A und die (n—r) B eintreffen, entweder in der ersten, in der zweiten, in der üritten usw.... in der (2)ten dieser Reihenfolgen 53€ S, = pragt— + prat—t +..... p“d”—" (insgesamt (7) Summanden), woraus folgt, daß N s, = | 5) . | Setzt man nach und nach in diesen Ausdruck r=0, r=1, r=—2,usw.....T=N ein, so findet man die Wäahrscheinlichkeit dafür, jaß das Ereignis A in einer Versuchsreihe von n Beobachtungen jeweilig 0, 1, 2, 3 .... n mal eintrifft. Es ist bemerkenswert, daß die (n + 1) Wahrscheinlichkeiten, welche man auf diese Weise fest- stellen kann, gerade die (n +1) Glieder werden, die man nach dem Newtonschen Binomialtheorem erhalten wird, wenn man die Potenz (p + q)® entwickelt; da p + q = 1, erhält man also SS +85 +S...... +S3a = 1. Dies stimmt mit der Gewißheit überein, daß das Ereignis A in einer Versuchsreihe von n Beobachtungen entweder 0 mal oder ein- oder zweimal usw. .... oder nmal eintrifft, so daß die Wahr- scheinlichkeit dafür, daß die Begebenheit A irgend eine Anzahl von Malen eintrifft, 1 sein muß. Da die einzelnen Glieder in der Entwicklung der Potenz (p-Fq)* somit die hier gesuchten Wahrscheinlichkeiten angeben, wird der Ausdruck für S. im allgemeinen das Binomialgesetz oder das bi- nomiale Verteilungsgesetz genannt. Zur Beleuchtung der Eigenart dieses Gesetzes wird es praktisch sein, einige Beispiele zu petrachten. 104. Als erstes solcher Beispiele mögen die in den 88 79 f£. be- trachteten Kugelversuche wieder vorgenommen werden. Mit Hilfe dieser hat man die Voraussetzung, unter der das Binomialgesetz abgeleitet worden ist (nämlich daß die Wahrscheinlichkeit dafür, Jaß die zwei möglichen Begebenheiten, hier weiß und rot, in dem sinzelnen Versuche eintreffen, unverändert durch alle Versuche die- selbe bleibt), zu verwirklichen gesucht, indem nach jeder einzelnen Ziehung die entnommene Kugel in den Beutel zurückgelegt wird, bevor aufs neue gezogen wird. Die Wahrscheinlichkeiten, p und g, bei den einzelnen Ziehungen bzw. weiß und rot zu erhalten, sollten dann, gleichviele weiße und rote Kugeln im Beutel vorausgesetzt, die ganze Zeit unverändert !/, zu *, sein; genau dasselbe gilt mit Versuchen, bei denen wie z. B. beim Buffonschen Münzversuch ($ 89) mit einer kleineren oder größeren Anzahl Münzen geworfen wird. 157 In untenstehender Tabelle 15 sind die Wahrscheinlichkeiten dafür angeführt, bei 20maligem Ziehen aus einem Beutel mit gleich- vielen weißen und roten Kugeln jeweils 0, 1, 2, 3 .... 20 weiße Kugeln (Kolonne a) zu erhalten. Außerdem gibt Kol. b an, wie groß die entsprechenden Wahrscheinlichkeiten werden, wenn man sich vorstellt, daß der Beutel nicht gleichviele weiße und rote Kugeln, sondern % weiße (p= ?%) und %, rote (q = %) enthält. Tabelle .. AM u 0108 “462 1479 103696 07393 0,12013 016018 bi U,00004 0,00049 100309 ‚01235 03499 107465 ).12441 0,16588 0,17970 0.15974 N /g) 0,17620 6018 2013 7393 Yo J '/ (b) 0,11714 0,07099 103550 11456 185 29 Om Im ersten Falle wird man 10 weiße Kugeln erwarten; die Wahrscheinlichkeit dafür, daß gerade dies eintrifft, wird, /20\ ‘1 ‘20 *1.12.13.14-15-16-17-18-19-20 — 0.1762 \10/ \ + „7 38+4-:5-:6-7-8-9-.10.220 7 ) während die Wahrscheinlichkeit dafür, z. B. 13 weiße Kugeln zu erhalten, 20\(1\2° 14-15-16-17-18-19-.20 . (15) (3) 7 1-:2.3.4-.5-6-7.28 — 0,0799 ist. Im zweiten Falle wird man erwarten, daß %, der 20 Kugeln, d.h. 8, weiß werden, und die Wahrscheinlichkeit dafür, gerade 8 zu bekommen, wird (2) (5° 78112 13-14-15-16-17-.18-19-20-28.3122 0.1797 8/\5 v5) 2 1-2-.3.4-5-6-7-.8-.5%0 77% ) während die Wahrscheinlichkeit dafür, z. B. 13 weiße Kugeln zu erhalten, hier 20\ (2‘18 /3\7 14-15-.16-17-18-19-20-213.37 , (3) (3) (3) 7 E70. 8.4-5.6.7.50 A146 wird, Während die Wahrscheinlichkeiten in Kolonne a eine um Sy symmetrisch liegende Reihe ergeben, liegen die Wahrscheinlichkeiten in Kolonne b nur annähernd symmetrisch um S;. In beiden Fällen sind die Wahrscheinlichkeiten, die erwartete Anzahl weißer Kugeln oder eine Zahl, welche nur unwesentlich von der erwarteten ab- 158 weicht, zu erhalten, verhältnismäßig groß. Als Ausdruck für die Anhäufung, welche wir hier wiederfinden, kann man in gewöhnlicher Weise aus Tabelle 15 die Wahrscheinlichkeiten dafür errechnen, daß das Resultat innerhalb der Spielräume 1, 3, 5 .... fallen wird, wie untenstehende Tabelle 16 zeigt: Tabelle 16. Spielräume J d 3 (a) 17,620 Proz. 19,656 73,682 838.468 95,860 08 818 8 {b) 17,970 Proz. 50,532 14,687 ‚,, 39,251 96,300 938,991 Man kann die Stärke der aus dieser ‚Tabelle hervorgehenden Anhäufung mit den Resultaten vergleichen, die oben auf empirischem Wege bei den Kugelversuchen gewonnen wurden; wenn man nämlich Jurch Interpolation in der Tabelle 16 die den Wahrscheinlichkeiten 25, 40, 50, 70, 85 und 95 Proz. entsprechenden Spielräume bestimmt, findet man für diese folgende Zahlen: 25 Proz. 10» © 2 »” 27 (a) i 46 240 3.03 469 6,53 8.77 (b) 1,43 235 2,97 4,61 6,41 863 Da nun die mittleren Fehler der Abweichungen bei diesen beiden Arten von Versuchen jeweils u = V20-3-3 = V5,0 = 2,236 und us = V20-2.} = )48 = 2,191 betragen, erhält man, wenn die angeführten Spielräume mit diesen mittleren Fehlern gemessen werden, folgende Zahlen (Kolonne a und b); die entsprechenden bei den Kugelversuchen gewonnenen Resul- tate sind zum Vergleich daneben gestellt (Kolonne c). bh 25 Proz. W 30 1 2 0,6 ie / c 06 u TH u DA 30 Pe ;y 4 Uo 4 A Die beiden Reihen (a und b) der theoretisch bestimmten Zahlen stimmen hiernach ganz gut mit den beobachteten (c) überein; die Wahrscheinlichkeiten dafür, daß die Zahl der weißen Kugeln innerhalb 159 gegebener Grenzen liegt, entsprechen also recht genau den durch Erfahrung gewonnenen Zahlen, und es kann hervorgehoben werden, daß diese Übereinstimmung Wirklichkeit ist, trotzdem die theoreti- sche Bestimmung auf der Voraussetzung fußt, daß keinerlei Ab- hängigkeit zwischen der Wahrscheinlichkeit dafür, in der einzelnen Ziehung (Wurf) weiß (Avers) zu erhalten und dem tatsächlichen Er- gebnis der unmittelbar voraufgehenden Ziehungen (Würfe), besteht. Bei der Ableitung ist man, wie oben hervorgehoben, gerade davon aus- gegangen, daß die Wahrscheinlichkeit, weiß (Avers) zu erhalten, im einzelnen Versuche immer dieselbe ist. Zur Erklärung der An- häufung um ein durch die näheren Umstände des Spiels (n und p) bestimmtes typisches Resultat ist es also keineswegs in diesem Falle notwendig, zu der früher erwähnten, u. a. von d’Alembert prakti- sierten Annahme zu greifen, daß die statistische Regelmäßigkeit nicht zustandekommen könne, ohne daß sich die Wahrscheinlichkeit für weiß (Avers) auf irgend eine Weise von Versuch zu Versuch ändere, so daß dadurch eine Ausgleichung geschehe. Aufgabe 12. Finde die Wahrscheinlichkeiten dafür, daß bei einem Wurf mit 12 Würfeln jeweils 0, 1, 2, 3 usw. 12 der Würfel eine Sechs ergeben. 105. Zur weiteren Beleuchtung der Frage hinsichlich Form und Verwendbarkeit des Binomialgesetzes sollen nur die im Vorher- gehenden ($S$ 79—85) behandelten Glückspiele (Kugelversuche, Zahlenlotterie und Klassenlotterie) betrachtet werden. Bei den Kugelversuchen war n= 100 p=q= %. Bei der Zahlenlotterie war n = 1440 p = Yıs und q = 17/4. Bei der Klassenlotterie war a = 100 p = 0,16 und q = 0,84. Es ist hiernach leicht, die rein formellen Ausdrücke für die Wahrscheinlichkeiten aufzuschreiben,um eine gegebene Zahl „günstiger“ und „ungünstiger“ Ereignisse in einer Gruppe mit n Beobachtungen zu erhalten; diese Wahrscheinlichkeiten sind jeweils: x ve“ ‚10 V\T 7 Us, ı 0,167 + 0,84100— Ey \18, z—— 160 Versucht man indes, aus diesen Größen ohne besondere Hilfs- mittel und für näher angegebene Werte von r die Größe der Wahr- scheinlichkeiten zu berechnen, dann wird man auf eine rein praktische Schwierigkeit stoßen: es ist nämlich die Größe der in die Ausdrücke zingehenden Binomialkoeffizienten für die recht großen Werte von n und r, von denen hier die Rede ist, zu berechnen. Will man so die Wahrscheinlichkeiten dafür, gerade die er- wartete Anzahl günstiger Begebenheiten, bzw. 50, 80 und 16 zu er- halten, berechnen, so erfordert dies die Berechnung der Größe des Binomialkoeffizienten (10°) (5°) (1) 50 und 80 und 16) was wenigstens für die beiden ersten Koeffizienten selbst mit An- wendung von Logarithmen sehr umständlich sein und daher viel Zeit erfordern würde, wenn man nicht Tabellen hätte, aus welchen hervorgeht, wie groß n! für einen gegebenen Wert von n ist. Da n! sehr schnell mit n wächst, so geben solche Tabellen 1) für größere Werte von n nicht den eigentlichen Wert von n!, sondern den Logarithmus n! an. Aus einer solchen Tabelle findet man z. B. iog. 1001 == 157,9700 und log. 501! = 64.4831, so daß man für die Wahrscheinlichkeit & (A) m era 50 7 \50/\2/ 501-501. 2100 so = 0,07958 erhält. Ist erst eine einzelne der in Betracht kommenden Wahrschein- lichkeiten gefunden, dann ist die Feststellung der übrigen ein Leichtes; bildet man nämlich das Verhältnis f, zwischen zwei auf- sinanderfolgenden Wahrscheinlichkeiten S,; und Sr +1, So ergibt sich aus den Ausdrücken für diese Wahrscheinlichkeiten, daß fi — BSı+1 _D—F.2 T Sr; r+1 q' Hat man festgestellt, daß S;o = 0.07958, dann folgt daraus für cr = 50, daß 100—50 4 Sa == 501 ° T . 0,07958 . 0,07958 = 0,07808. 1) Siehe C. F. Degen, Tabularum enneas (Havniae 1824) und K. Pearson, Tables for statisticians and biometricians, Cambridge 1914. 161 Auf diese Weise nun kann man sämtliche Wahrscheinlichkeiten Sr, Qr und P, berechnen; es erweist sich hierbei, daß diese Wahr- scheinlichkeiten für die Werte von r sehr klein werden, welche mehr als z. B. das Dreifache des mittleren Fehlers von „dem Er- warteten“ abweichen, also im Beispiel mit 1) den Kugelversuchen mehr als ungefähr 15 von 50, 2) der Zahlenlotterie # © » 27 „ 80, 3) der Klassenlotterie » » 11 „ 16, wie es auch aus der Tabelle 17 hervorgeht, in der ein Teil der den ver- schiedenen Abweichungen von der erwarteten Anzahl entsprechenden Wahrscheinlichkeiten angeführt sind. Abweichung 7 A] Tabelle 17. Jr 2,00054 0,0292 YI035 LOB ‘9, 35 586 2038 .03215 J' 7995 071835 0, 353 0.031 ‘82 418 0397 „0824 I187 105674 ‚01819 00354 1)0N09 W x Wie in dem oben betrachteten Beispiel, so wird auch hier die Wahrscheinlichkeit dafür, gerade die erwartete Anzahl (Abweichung 0) zu erhalten, größer als die Wahrscheinlichkeit für eins der übrigen möglichen Resultate. Die Zahlenwerte S; bilden eine symmetrische Reihe, weil die Wahrscheinlichkeiten dafür, in den einzelnen Ziehungen bei den Kugelversuchen weiß oder rot zu bekommen, gleich groß (!/„) sind, während die Zahlenwerte O0. und P. nur mit einer gewissen Annäherung symmetrisch sind. Deutlich erhellt aus der Tabelle ebenfalls die starke Anhäufung um die Abweichung 0 (das „erwartete“ Resultat). Aus den voll- ständigen Tabellen über die Werte von S,, Q: und P; kann durch einfache Addition zur Beleuchtung der Stärke dieser Anhäufung die folgende Tabelle 18 gebildet werden, welche die Wahrscheinlich- keiten (Proz.) dafür angibt, daß das Resultat innerhalb von Spiel- räumen der Größe 1, 3, 5, 7 usw. fällt. Diese Prozente sind in der Kolonne a aufgezeichnet, während die entsprechenden empirischen Westergaard und Nybille, Theorie der Statistik, 2. Aultl. 152 Tabelle 18. Spielräume | Kugelversuche | Zahlenlotterie | Klassenlotterie A“ SL 7 8) (a) A © © CC (b) 9} 2 19 (a) . nn Al , 3 1 3 94 96 (b) { 93 97 a) +A V „) 98 99 1 7 ) ) d 99 Prozente nach den Tabellen 2, 6 und 9 in Kolonne b verzeichnet sind. Die Übereinstimmung zwischen den theoretischen und 3 den empirischen Zahlen zeigt hier wie in den vorigen Beispielen, daß sich die Anhäufung um die erwartete Anzahl mit Leichtigkeit auch ganz ohne die Annahme erklären läßt, daß die Wahrscheinlichkeit Jafür, in der einzelnen Ziehung rot zu erhalten, größer sein müsse, wenn man eine oder mehrere Male vorher weiß erhalten hat, und umgekehrt. Ferner sei bemerkt, daß man, wenn man durch Interpolation in der Kolonne a die den Wahrscheinlichkeiten 25, 40, 50, 70, 85 und 95 Proz. entsprechenden Spielräume berechnet und diese Spielräume mit dem mittleren Fehler für die Abweichungen in jedem der drei verschiedenen Versuche (vgl. $ 87) mißt, folgende in Kolonne a der Tabelle 19 angeführten Spielräume findet; aus Kolonne b ersieht man die auf dem Wege der Erfahrung bereits in der Tabelle 12 (8 87) berechneten Spielräume. 25 Proz. *M 2 N 0 35 95 . Tabelle 19. Kugelversuche Zahlenlotterie b 64 u, 1 X u X 1 "m a 0,64 dp 1,05 44, 1,35 {4 > 7 Ho Ren 0,6 to 1,1 4, 1,5 Ko 2,0 Ha 2,9 wg 39 44, 3.92 Klassenlotterie X h 7,64 Ko 0,7 3 1,06 Me 1,1 U3 1,35 Kg 1,5 M3 2,09 Hg 2,3 Ha 89 Me 3,1 Me 3,93 Ma 4,2 Hz A — 163 Die Übereinstimmung zwischen den Zahlen der Kol. a (den theo- retischen) und denen der Kol. b (den erfahrungsmäßigen) ist natür- lich nur ein anderer Ausdruck für die bereits in Tabelle 18 fest- gestellte; man wird außerdem bemerken, daß die 3 Reihen theore- tischer Zahlen für die 3 verschiedenen Versuche fast gleich sind. Damit haben wir eine Bekräftigung der Vermutung, welche durch die teilweise Übereinstimmung zwischen den Zahlen der Tabelle 12 veranlaßt wurde und die darauf hinausging, daß die Häufigkeit, in der Abweichungen verschiedener Größe auftreten, einem gewissen Ge- setz zu folgen scheint. 106. Bevor wir darauf weiter eingehen, wird es jedoch not- wendig sein, die Allgemeingültigkeit der durch die hier betrachteten Beispiele gewonnenen Resultate zu untersuchen. Zu dem Zweck können wir das oben erwähnte Verhältnis f. zwischen zwei auf- einanderfolgenden Wahrscheinlichkeiten S, und S, +1 betrachten, für welches Verhältnis {.— S. +1 _. Nn- S; r +1 VD war. Wenn r= 0, erhält f, den Wert 9 =n- Er und wenn "= 1n—1, bekommt das Verhältnis den Wert f. _ı1 >. a da 8 einen von r's Größe unabhängigen (konstanten) Wert hat, wird also fo > in —1, und es geht aus dem Ausdruck für das Verhältnis f, hervor, daß dies ständig kleiner wird, da allmählich r von 0 bis n — 1 anwächst. daß also >fi>f>ft........0... >11 Ob sich in der Reihe der (n + 1) Wahrscheinlichkeiten S, zwei gleich große oder annähernd gleich große Wahrscheinlichkeiten finden, kann jetzt dadurch festgestellt werden, daß man untersucht, ob es unter den hier betrachteten n Verhältnissen solche gibt, die größer als 1 und solche, die kleiner als 1 sind. Dies kann nur der Fall sein, wenn 1 fa— n a< 1, ‚ ist nur erfüllt, wenn ] n a+1 SP> SFT) gleichzeitig wird dann auch die andere Bedingung erfüllt: 11* 164 I FI SI Se n +1’ In diesem Falle gibt es in der Reihe der Werte für f, eine Stelle, wo f. seine Stellung von > 1 zu < 1 wechselt; in speziellen Fällen cann eins der Verhältnisse f, gerade den Wert 1 annehmen; im allgemeinen aber erhält man also den größten Wert für S., wenn man gleichzeitig hat: S; Sr +1 > ES Se 1 und S. < 1, n—r+1 n—r also wenn PS > 1 und I ah welche Bedingungen sich leicht verändern lassen in np —q<,r<DD+ PD Der Unterschied zwischen diesen Grenzen ist gerade 1; wenn Jie Grenzen nicht ausnahmsweise zwei aufeinander folgende Zahlen werden (in welchem Falle eins der Verhältnisse f, gerade == 1 wird, sodaß es zwei aufeinanderfolgende Wahrscheinlichkeiten von S, gibt, die gleich groß und größer als die übrigen sind), muß die Bedingung zerade eine ganz bestimmte Zahl, r, ergeben und zwar von der Eigen- schaft, daß die entsprechende Wahrscheinlichkeit, S., größer als irgend eine der übrigen n Wahrscheinlichkeiten ist. Da sich die Größe np immer zwischen den Grenzen np—q und np +p be- wegt, zwischen denen r liegen soll, muß r, wenn np selbst eine yanze Zahl ist, gerade gleich np oder sonst eine der zwei ganzen Zahlen sein, zwischen welchen np liegt. Da np das, was wir oben mehrmals „die erwartete Anzahl Fälle“ genannt haben, angibt, ist Jas Resultat also folgendes: Das wahrscheinlichste aller denkbaren Ergebnisse ist dasjenige, in welchem die Begebenheit A die erwartete Anzahl Male eintrifft. Wie es u. a. aus den oben durchgerechneten Beispielen erhellt, be- sagt dies keineswegs, daß es „überwiegend wahrscheinlich“ ist, daß die Begebenheit A pn Male eintrifft; die maximale Wahrscheinlich- keit kann ganz im Gegenteil sehr klein werden, da sie kleiner and kleiner wird bei allmählich vergrößertem n. Wird 10000 mal aus einem Beutel mit gleichviel weißen und roten Kugeln gezogen, dann ist die Wahrscheinlichkeit dafür, gerade 5000 jeder Art zu er- halten, natürlich kleiner als die Wahrscheinlichkeit, -wenn nur 10 Kugeln gezogen werden, gerade 5 jeder Art zu erhalten. 165 Da wir stets nur die Fälle betrachtet haben, in denen n a+1SPSE—1 ist, und da die mit wachsendem r ständig abnehmende Reihe von Verhältnissen fo, fj, f2...... fı-ı daher einmal den Wert 1 passiert, so finden wir indes nicht bloß, daß im allgemeinen nur eine (ausnahmsweise zwei) der n + 1 Wahrscheinlichkeiten &%, Sı, Say 0.0.0.0. Sr...,. Sa größer als alle übrigen ist, sondern auch, daß diese Reihe von Wahrscheinlichkeiten, während r von 0 bis n wächst, zu wachsen beginnen und ein Maximum erreichen muß, um danach abzunehmen. Anders verhält es sich dagegen in den extremen Fällen, wo 1 u n—+1 oder p > DD in denen p also (wenn n einigermaßen groß, z. B. 20, 50, 100 usw.) entweder sehr klein (nahe 0) oder sehr groß (nahe 1) ist. Dann wird die Reihe der (n + 1) Wahrscheinlichkeiten So, Sız Sa se0 Spesen entweder ständig abnehmend oder ständig anwachsend sein. Zu diesen Fällen werden wir später zurückkehren (vgl. $ 117); es sei jedoch bemerkt, daß man sich, wenn p einen im voraus gegebenen Wert hat, ohne Rücksicht darauf, wie klein oder wie groß dieser Wert auch ist, immer die Anzahl der Versuche (n) so groß vor- stellen kann, daß die Bedingung N a+1 °PS 5+1 dadurch erfüllt wird, sodaß die Reihe der (n + 1) Wahrschein- lichkeiten So, Si, Se Se Sy jedenfalls wenn n ausreichend groß ist, in kleinerem oder größerem Grade „normale“ Form annehmen, d. h. mit sehr kleinen Werten beginnen, auf ein Maximum anwachsen und danach wieder ab- nehmen muß, selbst wenn p und damit q nahe bei 0 oder nahe bei 1 liegt. Aufgabe 13. 50 Gewinne sind auf 100 Personen zu verteilen; ein Gewinn soll immer dem zufallen, dessen Name aus einem Beutel mit 100 Namenzetteln — einem für jede an der Ziehung teilnehmende Person — gezogen wird; ein gezogener Zettel ist stets vor Beginn der nächsten Ziehung in den Beutel zurück- zulegen. Wieviele Personen dürfen 0, 1, 2... usw. Gewinne erwarten ? -— 166 10%. Aus den hier angeführten Bemerkungen wie aus den im Vorhergehenden betrachteten Beispielen geht hervor, daß die Form Jes Binomialgesetzes zwar davon abhängig ist, welche Werte für die Größe n und p in den Ausdruck n S; == () p“ qq" 3ingesetzt werden, daß aber das Verteilungsgesetz namentlich für größere Werte von n gegen eine gewisse feste Form tendiert. Was hiermit gemeint ist, und welches diese Form ist, davon wird man einen recht deutlichen Eindruck gewinnen, wenn man sich in einem rechtwinkligen Koordinatensystem die Abweichung (r — np) als Abszisse mit dem mittleren Fehler Vnpq als Einheit und die entsprechenden Werte von Sr als Ordinate mit dem rezi- proken Werte = des mittleren Fehlers als Einheit abgesetzt denkt; man hat also zuerst die Größe x— PL — np Ynpa für alle Werte von r, von r=0 bis r=n, und danach für dieselben Werte von r —— /n > v = YVnpd (2) p‘ zu berechnen und die entsprechenden Werte von X und y als Abszisse und Ordinate abtragen. In den folgenden Figuren 2 und 3 ist dies für zwei der im Vorhergehenden betrachteten Beispiele Jurchgeführt worden, in denen n und p waren 1) n= 20, p- 5 =} vgl. Tabelle 15 9)ın=—20, + Lediglich die eingezeichneten, getrennt liegenden Ordinaten zommen hierbei in Betracht, während die in die Figuren eingezeich- neten punktierten Kurven weiter unten besprochen werden. . u (24 3\". (5\24— Aufgabe 14. Berechne die Wahrscheinlichkeiten (?) . (3) . (2) j and trage sie in ein Koordinatensystem ein, Aufgabe 15. Trage die in der Tabelle 17 angeführten Wahrscheinlich- keiten in ein Koordinatensystem ein und vergleiche die entstandene Figur mit den Figuren 2 und 3. 167 108, Daes nicht ohne Anwendung weitgehender mathematischer Hilfsmittel möglich sein wird, im allgemeinen näher zu beleuchten, in welchem Grade sich die hier beschriebene Tendenz des Bino- L' 1 „>; mialgesetzes, sich einer gewissen festen Form zu nähern, geltend macht, wollen wir uns hier mit der Bemerkung begnügen, daß man in verschiedener Weise dem Ausdruck für S, andere Formen geben kann, aus denen hervorgeht, daß die Punkte, welche man in der oben beschriebenen Weise zur Beleuchtung der Form der Verteilung 168 in ein Koordinatensystem eintragen kann, sich allmählich mit wachsen- dem n mehr und mehr dem nähern, auf eine Kurve zu fallen von der Gleichung — Px = — An © uVY 2x welche also die Grenzform angibt, der alle Binomialverteilungen zu- streben. {n diesem Ausdruck bedeutet w den mittleren Fehler Ynpq, z lie auch als Faktor für die Bestimmung der Länge der Kreisperi- pherie bekannte irrationale Zahl: ca. 31/, oder 3,1416. Die Bezeich- nung e wird als Ausdruck für die Grundzahl in den sogenannten „natürlichen Logarithmen“ benutzt, welche Grundzahl wie m eine irrationale Zahl und ungefähr 2,7183 ist. Schließlich bedeutet x, wie oben, die Größe der Abweichung im Verhältnis zum mittleren Fehler r —np X = —— Ynpa Aus dem Ausdruck für P, folgt, daß Po = u a = Yan nDE' zir andere Werte von x erhält man also x? P.— he 72 x? and da € 2 <1 sowohl für positive wie für negative Werte 7zon x muß sein, wenn x verschieden von O ist, und zwar um So kleiner, je zrößer x ist. Da ferner e —* ** denselben Wert für Werte von x annimmt, welche zahlenmäßig gleich groß sind, aber entgegen- yesetzte Vorzeichen haben, so muß P, in gleicher Weise abnehmen, wenn x von 0 aufwärts anwächst und wenn X von 0 aus abwärts sich verkleinert. Trägt man, wie oben, x als Abszisse und die den verschiedenen Werten von x entsprechenden Werte von P, als Ordinate ab, so erhält man also eine um die x = 0 entsprechende Ordinate sym- metrische Kurve. Die charakteristische Form dieser Kurven ist aus den punk- vierten Kurven der Figuren 2 und 3 ersichtlich. Man hat diese Kurven in ihrer Vollständigkeit als kontinuierte wiederzugeben ver- PP. < Po 166 sucht, ohne Rücksicht darauf, daß vorläufig hier nur die Punkte der Kurven, welche ganzen Werten von r entsprechen (die ganz aus- gezogenen Ordinaten), in Betracht kommen. Die Kurven werden im allgemeinen als Exponentialkurven bezeichnet, weil x als Exponent im Ausdruck für P, enthalten ist. 109. Das Binomialgesetz nähert sich in den meisten Fällen recht schnell der hier betrachteten Grenzform. Dies will mit an- deren Worten sagen, daß n im allgemeinen nicht zu besonders großen Werten anzuwachsen braucht, bevor man die Werte, welche die Exponentialformel gibt, als Annäherungswerte für die Werte, welche die Binomialformel geben würde, benutzen kann. An diese Eigenschaft des Binomialgesetzes knüpft sich ein bedeutendes In- teresse; denn des Binomialgesetz kann, wie oben hervorgehoben, bei praktischer Verwendung recht umständlich sein, sobald n größere Werte annimmt, und es ist auf jeden Fall viel bequemer, mit der Ex- ponentialformel zu rechnen. Da man bei praktischen Anwendungen nur ausnahmsweise die erfragten Wahrscheinlichkeiten mit mehr als zwei oder drei Dezimalen zu berechnen wünscht, wird es natürlich gleich- gültig sein, ob man die genaueren Werte nach dem Binomialgesetz oder die annähernden nach dem Exponentialgesetz benutzt, solange der Unterschied nur in den Dezimalen (4, 5, usw.), für die man sich Nicht interessiert, zum Ausdruck kommt. Während das Binomialgesetz symmetrisch ist. wenn pP = dq = ist es unsymmetrisch, wenn p verschieden von q ist; in Figur 2 und 3 kennzeichnet sich dieses Verhältnis durch die verschiedene Weise, in der sich die Exponentialkurve zwischen den abgesetzten Punkten bewegt, welche durch ihren Abstand von der Abszissenachse die Größe der Wahrscheinlichkeiten nach dem Binomialgesetz angeben. In Fig. 2 geschieht dies ganz symmetrisch; wenn die Exponen- tialkurve z. B. größeren Wert als das Binomialgesetz für die Ab- weichung + 2 ergibt, gibt sie auch größeren Wert für die Ab- weichung — 2; das Umgekehrte findet dagegen in Figur 3 statt. Wie aus den Figuren 2 und 3 hervorgeht, ist die Übereinstim- mung zwischen dem Binomial- und dem Exponentialgesetz in den zwei Beispielen, in denen n keinen größeren Wert als 20 hat, be- reits so gut, daß die Genauigkeit, mit der gezeichnet werden kann, nur gerade zur Kennzeichnung der Nichtübereinstimmung aus- reicht. Noch schwieriger würde es sein, mit Hilfe einer Figur die Übereinstimmung in Fällen zu untersuchen, wo n größer ist. 170 Die Unterschiede, welche beide Gesetze dann aufwiesen, würden sich kaum in einer Figur wiedergeben lassen. Zur Beleuchtung der Genauigkeit, mit der das Exponentialgesetz das Binomialgesetz wieder- geben kann, sollen daher hier einige zahlenmäßige Beispiele ange- führt werden. 110. In der folgenden Tabelle 20 ist die Wahrscheinlichkeit für einige verschiedene Abweichungen in dem Falle, wo das Bino- mialgesetz symmetrisch ist (p= q = !/), teils für n =— 36, teils für a = 100, berechnet. Wenn n = 36, wird die Wahrscheinlichkeit dafür, gerade 18 von jedem der zwei möglichen Ausfälle des alternativen Versuchs zu erhalten, sowohl nach dem Binomial- wie nach dem Exponential- gesetz gleich 0,132. Für eine Abweichung von dem Erwarteten, z. B. von der Größe 3, gibt das Exponentialgesetz danach 0,080, während man nach dem Binomialgesetz 0,081 erhält usw.. Tabelle 20. Ab- wei- ] ;hung Wahrscheinlichkeit nach dem n — 36 Binomial- | Exponential- gesetz 1 gesetz x» 25 081 ‚018 0.0014 900008 zz J n 1: A Ab- wei- chung ' n = 100 Wahrscheinlichkeit nach dem Binomial- | gesetz Exponential- gesetz ‚796 Ja 280 3.485 0,0108 9,0009 0000023 0,0797 0,0781 0,0484 0,0109 0,0009 0.000027 Wenn n = 100 (Kugelversuche), wird die Wahrscheinlichkeit, die erwartete Anzahl (50) zu erhalten, wie oben berechnet (Tabelle 18), 0,0796, während sie nach dem Exponentialgesetz 0,0797 ergibt. Die Wahrscheinlichkeit für 40 weiße Kugeln (eine Abweichung von 10) beträgt nach dem Exponentialgesetz 0,0109, während das Bi- aomialgesetz 0,0108 ergibt, und so fort. Aus einem Vergleich der Zahlen der Tabelle 20 erhellt, daß die vorgefundenen Unterschiede ohne praktische Bedeutung sind, und so- bald n den Wert 100 übersteigt, wird der Unterschied noch kleiner. 111. Die Tabelle 21 gibt zur Vergleichung eine ähnliche Be- rechnung für Fälle, in denen das Binomialgesetz unsymmetrisch ist; hier ist p = !o und q = Yo. ._„ | Für solch einen verhältnismäßig kleinen Wert von p kann man nicht erwarten, daß die zwei Berechnungsmethoden eine besonders gute Übereinstimmung ergeben, es sei denn, daß n größere Werte an- nimmt; in den zwei Beispielen der Tabelle 21 ist daher mit n = 100 und n = 1000 gerechnet. Im Gegensatz zur Tabelle 20 sind die Wahrscheinlichkeiten für positive und negative Abweichungen ge- trennt angeführt; da das Exponentialgesetz in allen Fällen symmetrisch ist, bilden die nach dieser Formel berechneten Wahrscheinlichkeiten allerdings eine symmetrische Reihe; da aber das Binomialgesetz un- symmetrisch ist, erhält man hier keine symmetrische Reihe für die nach dieser Formel berechneten Wahrscheinlichkeiten. Tabelle 21, Ab- wel- chung —0 Wahrscheinlichkeit nach dem Binomial- gesetz Exponential- gesetz 52 52 20 74 „x „7026 ).0002 B 3089 018 0,901. O0.UUCu: Ah.” wei- chung Wahrscheinlichkeit nach dem 3inomial yesetz WFxponential- ryesetz 16cm) 8 16 AA H182 04.205 1182 A1 0% 160 U AARAL .9i Wie man bereits im voraus wissen konnte, kann das symmetrische Exponentialgesetz natürlich nicht dieselben Werte wie das unsym- metrische Binomialgesetz ergeben; die Abweichungen sind jedoch nicht so groß, daß die symmetrische Form praktisch unbrauchbar wird; namentlich geht hervor, daß die Summe der Wahrscheinlich- keiten für zwei numerisch gleich große Abweichungen ungefähr dieselbe ist, ob man die Asymmetrie berücksichtigt oder nicht. Dieses Verhältnis hat namentlich unter Berücksichtigung des Um- standes Interesse, daß man, gerade wenn n eine große oder eine sehr große Zahl ist, im allgemeinen nie nach der Wahrscheinlichkeit dafür fragen wird, eine einzelne näher bezeichnete Zahl von Begebenheiten zu erhalten, sondern bloß nach der Wahrscheinlichkeit dafür, daß die Abweichung nicht über eine gegebene Größe hinausreicht; da diese Wahrscheinlichkeit, welche im Vorhergehenden als Wahrscheinlichkeit dafür, daß das Resultat innerhalb eines gegebenen Spielraumes fällt, bezeichnet wurde, die Summe einer Reihe von Wahrscheinlichkeiten — 172 oder (vgl. Fig. 2 und 3) die Summe einer Reihe symmetrisch gelegener Ordinaten ist, so wird der Fehler, welcher durch Benutzung der sym- metrischen an Stelle der unsymmetrischen Verteilung begangen wird, außerdem noch ganz erheblich reduziert. Da man durch Anwendung des Exponentialgesetzes zugleich erreichen kann, daß sich solche Summen aus einer Reihe von Wahrscheinlichkeiten leicht in der unten angegebenen Weise feststellen lassen, ohne daß man die einzelnen Addenden zu berechnen braucht, tritt der Vorteil des Exponential- zesetzes noch deutlicher in die Erscheinung. 112. Die Möglichkeit, die Summe aus einer Reihe äquidistanter Ordinaten in der Exponentialkurve, ohne Berechnung der einzelnen Ordinaten, finden zu können, beruht darauf, daß diese Kurve als kontinuierte Kurve berechnet und gezeichnet werden kann. Während jie Stücke der Kurve, welche in den Intervallen zwischen den ganzen Werten von r entsprechenden Ordinaten liegen, keine direkte Be- deutung haben als Annäherungswerte zum Binomialgesetz, so kann man doch unter Benutzung dieser Stücke auf folgende Weise eine ganz erhebliche Erleichterung der Berechnungen erzielen: In untenstehender Figur 4 gibt A B die der Abweichung 2 ent- sprechende Ordinate (Wahrscheinlichkeit) in der Exponentialkurve an. Deren Größe könnte mit Hilfe der Formel 2 —_ 1_e —3 (2) P, uV2z U zefunden werden. Trägt man indes vom Fußpunkt A nach beiden Seiten die Stücke AM =AN == !% ab und errichtet man die Ordinaten MC und ND in den dadurch bestimmten Punkten M und N, so werden diese beiden Ordinaten in Verbindung mit der Abszissenachse und der Kurve ine Fläche begrenzen, welche annähernd gleich der Fläche des Recht- ecks ist, das als Grundlinie MN =1 und als Höhe AB hat; da die Grundlinie 1 ist, wird die Fläche gleich der Höhe sein, und man kann also mit Annäherung die Ordinate A B durch die Fläche MCDN arsetzen; wird nun z. B. die Wahrscheinlichkeit dafür, daß das Resultat innerhalb des Spielraums 5 fällt, also die Summe der Wahr- scheinlichkeiten P_ +P_-, + +P; + P7 gesucht, dann kann man sich die hierzu passenden 5 Ordinaten einzeln nach der Reihe gegen einen Flächenstreifen umgetauscht vorstellen. Da die 5 Streifen, zusammengelegt, die ganze zwischen der Kurve 173 und der Abszissenachse und den zwei Ordinaten EF und ND ge- legene Fläche ausfüllen, gibt diese durch ihre Größe die gesuchte Summe der 5 Ordinaten an. Diese Fläche ist indes allein durch die Form der Kurve und die Breite der Fläche bestimmt, obwohl sie sich nicht durch elementare Hilfsmittel berechnen läßt. Da die Form der Kurve bekannt ist, kann man indes ein- für allemal eine Tabelle berechnen, welche die Größe der Flächen angibt, die abgegrenzt E E 5 Fig. A A 19 +3 +4 +0 +, werden, wenn man die Stücke ON = OE nach beiden Seiten vom Anfangspunkte O aus absetzt und in den hierdurch bestimmten Punkten Ordinaten errichtet. Werden diese Stücke nicht durch ihre absolute Größe a = Maximalabweichung (im gewählten Beispiel 2!/%), sondern dagegen durch ihre Größe im Verhältnis zum mittleren Fehler (uw) und wird diese relative Größe wie oben mit vr 7 bezeichnet, dann werden die in untenstehender Tabelle 22 einer Reihe verschiedener Werte von x entsprechenden Flächengrößen, verwandt werden können, welchen mittleren Fehler man auch immer haben möge, und sie werden bei den meisten Verwendungen ausreichen!). Für Werte von x, welche nicht in der Tabelle angeführt sind, lassen sich die entsprechenden Flächen leicht durch Interpolation finden. ‘) Eine sehr ausführliche Tabelle über die Ordinaten der Exponentialkurve wie über deren Flächen findet man in N. R. J orgensen, Undersogelser over Fre- quensflader og Korrelation. Kobenhavn 1916, Tabel V. 8. 177 € 174 + 2,00 ‚01 7,05 0,10 20 7,30 40 9,50 0,60 3,70 0,80 7,90 1,00 210 20 30 ı 40 Tabelle 22, Die Flächen des Exponentialgesetzes J,UUVUU ),008 ),040 080 „159 236 311 ),383 A451 516 7576 332 ).683 1729 9,770 0,806 0,838 .JU 50 ‚70 80 90 “0 0 220 2,30 2,40 2,50 2,60 2,80 3.00 5,50 +00 2.866 0,890 911 ),928 0,943 0,954 ),964 0,972 2,979 984 0,988 0.991 0,995 0,9973 0,9995 0.99994 pP 113. Um die Übereinstimmung zwischen den Resultaten, welche die Benutzung der Tabelle 22 ergibt, und den Resultaten, welche die Jirekte Anwendung der Binomialformel ergeben würde, zu unter- suchen, können wir zu den in den Tabellen 20 und 21 betrachteten Beispielen zurückkehren. Wenn wir dann nach Wahrscheinlich- zeiten fragen, welche sich als Summen solcher Wahrscheinlichkeiten für näher angegebene Einzel-Abweichungen finden lassen, wovon diese Tabellen eine Auswahl jgeben, wird gleichzeitig hervorgehen, zuf welche Weise diese Summen mit Hilfe der Tabelle 22 festgestellt werden können. Fragt man beispielsweise in dem in der Tabelle 20 berührten Fall, wo n = 36, p = 4 = Te) nach der Wahrscheinlichkeit da- für, daß die Abweichung höchstens 1 ist, d. h. nach der Wahrscheinlich- keit dafür, daß das Resultat innerhalb des Spielraums 3 fällt, oder nach der Wahrscheinlichkeit dafür, als Ergebnis entweder 17, 18 oder 19 zu bekommen, dann ist diese Wahrscheinlichkeit nach dem Binomialgesetz 17 - Sıs + Sı= 0,125 + 0,132 + ©, 125 = 0, 382. Werden die diesen 3 Wahrscheinlichkeiten entsprechenden 3 Ordi- aaten in der Exponentialkurve gegen die 3 entsprechenden Flächen- streifen umgetauscht, dann werden diese innerhalb einer Maximal- abweichung nach jeder Seite von a = %, = 1,5 liegen. Da der mitilere Fehler 3 ist, wird x = - = 1 —0,5; und aus der 175 Tabelle 22 geht hervor, daß die dem entsprechende Fläche (Wahr- scheinlichkeit) P= 0,383, also sehr annähernd die gleiche ist. Ana- log stellt man die übrigen in der Tabelle 23 angeführten Werte fest. Tabelle 23. Spiel- räume }: . anrscheinlichkeit nach dem 3inomial gesetz Exponential- gesetz 11 U.za9 1.756 u. 69 0.998 Spiel- £ume 2 Wahrscheinlichkeit nach dem "“nomia: gesetz Exponential- gesetz Mac® I,729 0.963 0,998 080 2,236 0,729 0,964 0.998 Beispielsweise wird die Wahrscheinlichkeit dafür, gerade die erwartete Anzahl zu bekommen, gleich der Wahrscheinlichkeit sein, daß sie innerhalb des Spielraums 1 fällt. Diesem Spielraum ent- spricht a = te welches, mit dem mittleren Fehler gemessen, x = g gibt; durch Interpolation in der Tabelle 22 ergibt diese Größe wieder P = 0,133. In dem anderen Beispiel, wo n = 100, wird u = 5, und hier entspricht dem Spielraum 1 ein Wert von x = 0,1, welcher sofort P = 0,080 ergibt. Im großen und ganzen wird man die Über- einstimmung als befriedigend bezeichnen können. Fragt man bei den in der Tabelle 21 erwähnten Nichtsymmetrischen Fällen, wo p= 1,4 q= %,0 und n bzw. 100 und 1000 ist, nach der Wahrscheinlichkeit dafür, gerade die erwartete Anzahl 10 und 100 zu bekommen, dann muß der Abstand a = Lhier mit den mittleren Fehlern F100 + 1,0 + %0 =38 und V1000 - Yo: Yıo = 310 = ca. 9,5 gemessen werden. Man erhält dadurch folgende Werte von X, 1 0,5 1 — Y — - und X zz A == = 0,053, 6 3VY10 60 V10 deren entsprechende Werte für P aus der Tabelle 22 abgelesen werden können. Der erste dieser Werte gibt, wie bereits im vorigen Bei- Spiel festgestellt, P = 0,133, während der zweite durch Interpolation 176 P = 0,042 ergibt. Die teils nach dem Binomialgesetz, teils nach der Tabelle 22 berechneten Wahrscheinlichkeiten dafür, daß das Resultat innerhalb einer Reihe von Spielräumen verschiedener Größe fällt, gehen im übrigen aus der folgenden Tabelle 24 hervor. Tabelle 24. Spiel- aume | 9 9 un =— 100 . Wahrscheinlichkeit nach dem Binomial- |! Exponential- gesetz gesetz » 9.133 0,583 0,756 0,866 0,998 150 ‚870 0.998 Spiel- räume | n = 1000 ' Wahrscheinlichkeit nach dem Binomial- | Exponential- gesetz gesetz 42 26 32 ‚395 0.969 0,042 0.126 0,732 0,897 0.969 Man sieht also, daß so ungefähr dasselbe Resultat herauskommt, einerlei, ob das Binomial- oder das Exponentialgesetz benutzt wird; welch bedeutende Ersparnis an rechnerischer Arbeit die Anwendung des letzteren bedeutet, geht klar hervor, wenn man z. B. die in der Tabelle 24 angegebenen Wahrscheinlichkeiten dafür, daß die Ab- weichung innerhalb eines größeren Spielraums, z. B. im Beispiel n = 1000 innerhalb des Spielraums 21, fallen, nachrechnet. Während die Berechnung dieser Wahrscheinlichkeit nach dem Exponential- gesetz nur die einfache Bestimmung von X = rn = 0,35 V10 — 1,107 und eine darauffolgende Interpolation für diesen Wert von x in der Tabelle 22 erfordert, verlangt eine direkte Berechnung nach dem Binomialgesetz, daß man zuerst die schwierige Berechnung der ainzelnen 21 Wahrscheinlichkeiten Sao, Say; Soz +... Sioo +++ Sıo9) 3110, welche als Addenten in die gesuchte Wahrscheinlichkeit ein- gehen, ausführt. 114. Es ist von Wichtigkeit zu bemerken, daß man nach der Tabelle 22 nicht bloß die einem gegebenen Werte x entsprechende Wahrscheinlichkeit P feststellen, sondern auch den umgekehrten Weg gehen kann; dies praktisch auszunutzen, dazu wird im folgenden oft Gelegenheit sein. Bei der Behandlung der Glückspielerfahrungen wurden z. B. mehrere Male die Spielräume gesucht, innerhalb deren 25, 40, 50, 70, 85 und 95%, der Gruppen fielen, d. h. die Spielräume, welche mit einer Wahrscheinlichkeit von 0,250, 0,400 ..... 0,950 getroffen wurden. Die Größe dieser Spielräume im Verhältnis zu 177 dem mittleren Fehler des betreffenden Versuchs läßt sich leicht durch einfache Interpolation an der Hand der Tabelle 22 feststellen, und das Ergebnis ist folgendes: Spielräume = 2xu ” a7 9 An 8 964 2.638 u L,U50 u 350 4 ZU RB u 3.928 u Die Übereinstimmung zwischen diesen Zahlen und den in den Tabellen 12, 13 und 19 mitgeteilten ist unverkennbar, und die im S 88 gestellte Frage kann somit jetzt mit einem Hinweis auf Tabelle 22 beantwortet werden. 115. Zur weiteren Übung in der Benutzung der Tabelle 22 sei ein anderes Beispiel angeführt, woraus zugleich hervorgehen wird, daß sich nicht nur solche Flächen (Wahrscheinlichkeiten), welche durch symmetrisch gelegene Ordinaten abgegrenzt werden, aus Tabelle 22 finden lassen, sondern daß man mit Hilfe dieser Tabelle in der Lage ist, die Größe der durch jede beliebige Ordinate abgegrenzten Flächen und somit die solchen Flächen entsprechenden Wahrscheinlich- keiten zu finden. Denken wir uns, die Glückspielerfahrungen könnten auf Sterb- lichkeitsbeobachtungen angewandt werden; zwar ist das eine An- nahme, deren Berechtigung erst in einem folgenden Kapitel unter- sucht werden wird. Die Sterblichkeit für Neugeborene sei im ersten Lebensjahre !/,,, d. h. die Wahrscheinlichkeit dafür, daß ein Kind vor Vollendung des ersten Lebensjahres stirbt, sei !/,9 — von 10000 Neugeborenen sterben nämlich durchschnittlich im ersten Lebens- jahre 1000, während 9000 den ersten Geburtstag erleben. Fragt man nun nach der Wahrscheinlichkeit dafür, daß die Anzahl Kinder, welche unter 10000 Neugeborenen ihren ersten Geburtstag erleben, wenigstens 8900 und höchstens 9100 wird, so handelt es sich darum, die Summe von 201 Ordinaten (Wahrscheinlichkeiten) in der Ex- ponentialkurve zu finden, Tauscht man diese 201 Ordinaten gegen ihre entsprechenden Flächenstreifen um, dann wird man eine gesammelte Fläche erhalten, welche zwischen zwei Ordinaten liegt, deren Ab- stand a von der mittleren Ordinate 100 !/, ist; wird dieser Abstand mit dem mittleren Fehler, der hier / 10000 + Yo = 30 beträgt, gemessen, so erhält man x = a Westergaard und Nybe le, Theorie der Statistik, 2. Aufl. 178 — 3,35, welchem Resultat P = 0,9986 entspricht. Sollten sich also in einer besonderen Gruppe von Kindern mehr als 9100 Überlebende ergeben, würde es recht wahrscheinlich sein, daß eine nicht zufällige Ursache so ihr Spiel getrieben hätte. Die Wahrscheinlichkeit dafür, daß gerade 9000 Kinder am Leben sind, ließe sich mit Hilfe der Formel (vgl. $ 108): Po — Anz An 0,013 bestimmen. uV2x 30V 2x Es ist indes leichter, diese Wahrscheinlichkeit als die Fläche zwischen zwei im Abstande } von der mittleren Ordinate gelegenen Ordinaten zu bestimmen; man erhält dann für x = A 03 = L u 30 60 — 0,017 und hieraus wieder, durch Interpolation in der Tabelle 22, Po = 0,013. Wie groß ist ferner die Wahrscheinlichkeit dafür, daß die An- zahl der Sterbefälle größer als 1000, aber nicht größer als 1030 ist? Diese Wahrscheinlichkeit ergibt sich als die Summe aus P 1001 + P 1002 + ....... P 1030. Die diesen 30 Wahrscheinlichkeiten entsprechenden Flächen- streifen werden ganz die Fläche ausfüllen, welche zwischen den auf derselben Seite der mittleren Ordinate im Abstande von a = 5 und a = 301 von dieser entfernt gelegenen Ordi- naten liegt. a = > macht x = 0,017 und P, = 0,013, a = 301, jagegen x = 1,017 und PP, = 0,691, und die gesuchte Fläche ist demnach die Hälfte des Unterschieds P, — P,, d. h. 0,339. Wo es sich um die Summe sovieler Wahrscheinlichkeiten wie hier han- delt, begeht man nur einen geringen Fehler, wenn man den Flächen- streifen zwischen a = 30 und a = 30,5 gegen den zwischen a==0 und a = 0,5 gelegenen Streifen umtauscht, also wenn man rechnet, als ob die gesuchte Wahrscheinlichkeit die Hälfte der a = 30 ent- sprechenden Fläche sei, wobei sich leicht und deutlich als Resultat 0,341 herausschält. Fragt man nach der Wahrscheinlichkeit dafür, daß die Zahl der Sterbefälle gerade 1030 wird, so könnte die entsprechende Ordinate wieder berechnet werden mit Hilfe der Formel: — 1 Don = ar 07 0,008. 179 Es ist jedoch viel leichter, zuerst aus der Tabelle 22 teils die Wahrscheinlichkeit dafür, daß die Anzahl innerhalb des Maximal- abstandes a = 29,5 fällt, welches x = 0,983 und P, = 0,674 er- gibt, teils die Wahrscheinlichkeit dafür, daß die Zahl innerhalb des Maximalabstandes a = 30,5 fällt, was wie oben erwähnt x — 1,017 und P, = 0,691 gibt, zu bestimmen. Die gesuchte Wahrscheinlichkeit ist dann die Hälfte des Unterschieds P, — P,, d. h. 0,008. 116. Es ist klar, daß man, wenn sich die hier gewonnenen Resultate (speziell Tabelle 22) auf ein statistisches Material anwenden lassen, ein sehr einfaches Mittel zur Hand hat zu entscheiden, ob festgestellte Unterschiede etwa besonderen — nicht zufälligen — Ursachen zuzuschreiben sind oder nicht. Da sich die Abweichungen, welche — im gegenwärtigen Sinne — zufälligen Ursachen zugeschrieben werden können, äußerst selten auf mehr als das Drei- oder das Vier- fache des mittleren Fehlers belaufen werden, ist es höchst wahr- scheinlich, daß Abweichungen, wenn sie diese Größe erreichen — oder darüber hinausreichen —, dem Umstande zu verdanken sind, daß sich die wirkenden Ursachen verändert haben und daß man bei Wieder- holung der Versuche aufs neue eine „große“ Abweichung in gleicher Richtung feststellen wird. Und jeder Schluß, welcher auf Ab- weichungen fußt, die kleiner sind als das Drei- oder Vierfache des mittleren Fehlers, muß im allgemeinen als unzulänglich begründet abgewiesen werden können. Natürlich muß zuerst eine eingehendere Untersuchung zeigen, ob das Exponentialgesetz mit den Erfahrungen aus der Sozial- und Wirtschaftsstatistik übereinstimmt. Für solche Untersuchungen ist es von Bedeutung, über noch mehr Sätze der Wahrscheinlichkeitslehre verfügen zu können; solche Sätze werden daher im folgenden behandelt werden. Aufgabe 16. Wie groß ist die Wahrscheinlichkeit dafür, daß bei einem Wurf mit 64 Münzen die Anzahl Münzen, welche Avers zeigen, höchstens 10 von dem erwarteten Ergebnis abweicht? Wie groß ist die Wahrscheinlichkeit dafür, daß mehr als erwartet Avers ergeben? Wie groß ist die Wahrscheinlichkeit da- für, daß wenigstens 40 Avers zeigen ? Aufgabe 17. Wie groß ist die Wahrscheinlichkeit dafür, daß bei einem Wurf mit 180 Würfeln wenigstens 40 dieser eine Sechs ergeben ? Aufgabe 18. Verteile 1000 Abweichungen nach einem Exponentialgesetz mit einem mittleren Fehler von erstens 2, zweitens 5, Aufgabe 19. Wie groß ist die Wahrscheinlichkeit dafür, daß bei einem Wurf mit 3 Würfeln wenigstens einer eine Sechs ergibt? Wenn dies eintrifft, ge winnt A, sonst B. A und B setzen jedesmal 10 Pfennig, und der Gewinner er- hält den ganzen Einsatz. Mit welchem Verlust muß A im Laufe von 60 Spielen e_- 180 "Würfen) rechnen? Wie groß ist die Wahrscheinlichkeit dafür, daß A nicht mehr als 50 Pfennig im Laufe der 60 Spiele (Würfe) verloren hat? Aufgabe 20. Wenn man nach den Erfahrungen Dänemarks aus den Jahren 1911—15 die Wahrscheinlichkeit, daß bei einer Geburt ein Knabe zur Welt kommt, mit 0,513 ansetzt, wie groß ist dann die Wahrscheinlichkeit dafür, daß die Zahl der im Jahre 1916 geborenen Knaben mehr als 400 von der er- warteten abweicht, wenn 1916 in Dänemark insgesamt 73368 Kinder geboren wurden ? 117. Es erhellt aus dem Vorhergehenden, daß die Tendenz des Binomialgesetzes, eine gewisse feste „Normalform“ anzunehmen, desto jeutlicher hervortritt, je größer n ist. Die Größe von n erhält namentlich Bedeutung in den Fällen, wo sich der Wert von p von 5 entfernt (sich 0 oder 1 nähert). Für p = ST und p = 5 gibt die Exponentialkurve, wie es aus Figur 2 und 3 hervorgeht, bereits mit einem Werte für n = 20 eine ganz gute Vorstellung vom Charakter des Binomialgesetzes; wenn dagegen p, wie in der Zahlenlotterie, !/,3, aber n ständig nicht größer als 20 wäre, SO würde, wie man sich leicht überzeugen kann, die Annäherung ans Binomialgesetz keineswegs groß sein, während das Anwachsen von n auf 1440 bewirkt, daß die Annäherung in praxi durchaus befriedigend wird. Da es somit in einigen Fällen möglich ist, das Binomial- durch jJas Exponentialgesetz zu ersetzen, selbst wenn n nicht größer als wa 20 ist, während man in anderen Fällen auf viel größere Werte von n hinauf muß, so erhebt sich die Frage, wann man dann über- haupt mit dem Exponential- anstatt mit dem Binomialgesetz rechnen kann. Die Antwort hierauf hängt von der bei diesem Umtausch gewünschten Genauigkeit ab ; wird von den Annäherungswerten, welche Jas Exponentialgesetz faktisch ergibt, verlangt, daß sie in vielen der arsten Dezimalen mit den nach dem Binomialgesetz ermittelten Werten jbereinstimmen sollen, dann kann ein Umtausch nur stattfinden, wenn n groß und erheblich größer ist, als wenn verlangt wird, daß Jie Übereinstimmung nur für die ersten Dezimalen vorhanden sein soll, z. B. so, daß die Wahrscheinlichkeiten, in ganzen Prozenten ‘Hundertsteln) ausgedrückt, nach beiden Formeln dieselben werden. Es liegt hier keine Veranlassung vor, sich weiter in diese Frage zu vertiefen; ob eine Wahrscheinlichkeit z. B. 0,971 oder 0,979 ist, wird bei den meisten praktischen Anwendungen ganz gleichgültig sein. Einen gewissen Überblick darüber, wann man mit einem Um- tausch der beiden Gesetze mit Vorsicht verfahren soll, erhält man jedoch mittels einer Betrachtung der oben ($ 106) angeführten Bedingungen Lo N D “© „ ZA N dafür, daß die Reihe der Wahrscheinlichkeiten, S,, nach dem Bi- nomialgesetz berechnet, nicht eine ständig abnehmende oder ständig wachsende Reihe bildet. Da es sich in dieser Verbindung um solche Fälle handelt, in denen p und q nicht nahe an !/ liegen, es im übrigen aber gleichgülti gist, ob p oder ob q nahe bei 0 liegt, können wir uns auf eine Betrachtung des Falles beschränken, wo p nahe bei 0 (q nahe bei 1) liegt. Die oben angeführte Bedingung wird dann jedenfalls immer erfüllt sein, wenn pn > 1 und daher auch, wenn npq > 1 ist. Wenn also der mittlere Fehler in einer binomialen Verteilung größer als 1 ist, wird die Reihe der (n + 1) Wahrscheinlichkeiten nie beständig abnehmen können. Selbst wenn dies keineswegs be- sagt, daß das Binomial- durch das Exponentialgesetz ersetzt werden kann, so liegt doch hierin schon ein Fingerzeig, der, wenn sich der mittlere Fehler 1 nähert, zur Vorsicht mahnt. Hinsichtlich der Be- lehrung darüber, wie sehr man sich in dieser Beziehung einem mitt- leren Fehler von 1 zu nähern wagt, kann auf die im Vorhergehenden durchgerechneten Beispiele verwiesen werden; die mittleren F ehler, mit denen man es hier zu tun hatte, waren von der Größe von ca. 2,2 an aufwärts; im allgemeinen kann man rechnen, daß die in den betrachteten Beispielen bewiesene Übereinstimmung jedenfalls vor- liegt, wenn die „mittlere Zahl“ np und der mittlere Fehler Yapq nicht unter jeweils etwa 10 und ca. 3 hinuntergehen. 118. In manchen Fällen ist die Wahrscheinlichkeit p gerade sehr klein, z. B. wenn von Sterblichkeit, Kriminalität und ähnl. die Rede ist. In solchen Fällen wird der mittlere Fehler, Ynpg, nur wenig kleiner sein als die Quadratwurzel der „erwarteten“ Anzahl, d.h. Ynp, weil q dann fast = 1 ist. Wenn beispielsweise die Sterblich- keit in einem Jahre !/,„ beträgt und 10000 Menschen beobachtet werden, dann ist Ynpq = 30, aber Yap = V1000 = 31,6; einerlei, ob man mit der einen oder der andern dieser Zahlen als Maßstab für die Größe der Abweichungen rechnet, stets wird man finden, —- 182 daß Abweichungen von mehr als 100 nur äußerst selten eintreffen werden. Eine Sterblichheit von !/,o ist übrigens so hoch, daß man sie nur bei Säuglingen und Greisen beobachtet; eine lange Periode Jes Lebens hindurch ist die Sterblichkeit noch kleiner als ein paar Prozent. Eine andere Anwendung dieses besonderen Falles kann man vor- aehmen, wenn man zwar die Wahrscheinlichkeit p als sehr klein vermuten kann, im übrigen jedoch keine zuverlässige Bestimmung von p hat, während pn als bekannt vorausgesetzt wird. Weiß man z. B., daß durchschnittlich jährlich 900 (pn = 900) Personen wegen irgend eines Verbrechens verurteilt werden, dann ergibt sich ein un- yefährer mittlerer Fehler von Y900 = 30; schon bei einer solchen ungefähren Bewertung des mittleren Fehlers bekommt man einen Ein- iruck davon, von welchen Abweichungen die Rede sein kann wenn jaran erinnert wird, daß die Werte 900 und 30 für bzw. np und Vnpq als so groß bezeichnet werden können, daß die Übereinstim- mung zwischen Binomial- und Exponentialgesetz nicht gefährdet ist, weil von kleinen Werten von p die Rede ist. 119. Aus obiger Darstellung folgt: wenn man n Versuche mit alternativen Resultaten (A und B) anstellt und wenn diese Be- yebenheiten die während der ganzen Versuchsreihe konstanten und bekannten Wahrscheinlichkeiten p und q (p + dq = 1), daß sie in dem einzelnen Versuche eintreffen, haben, dann ist unter sämt- lichen möglichen Ergebnissen der n Versuche dasjenige Resultat am wahrscheinlichsten, in welchem A np Male, Bnq »„ eintrifft, and die Wahrscheinlichkeit, daß gerade dieses Ergebnis eintrifft, ist Pa zn 0 3 Yan npd also bei einer großen Zahl von Versuchen äußerst klein; für andere mögliche Ergebnisse ist die Wahrscheinlichkeit noch kleiner. Fragt man daher nicht nach der Wahrscheinlichkeit dafür, daß die Begebenheit A eine näher angegebene Anzahl Male eintrifft, sondern nach der Wahrscheinlichkeit dafür, daß die Anzahl (g) der Ereignisse A. zwischen gegebene Grenzen fällt, dann ergibt sich, daß die Wahrscheinlichkeit, daß g zwischen die Grenzen np —x Vnpqg < g <np + x Vnpq, 83 d. h. innerhalb des Spielraumes 2 x VYnpq fällt, von der Größe x abhängig ist in der in der Tabelle 22 angegebenen Weise, Betrachtet man anstelle der Anzahl g die relative Häufigkeit x in der die Begebenheit A eingetroffen ist, dann ergibt sich, daß sich die obigen Ausführungen auch wie folgt ausdrücken lassen: Die Wahrscheinlichkeit, daß die relative Häufigkeit, > zwischen die Grenzen 3/2 <8 Ve D <«V% n <p-+ X T fällt, hängt von x in der in der Tabelle 22 angegebenen Weise ab. Führt man also die Größe Va als mittleren Fehler für die relative Häufigkeit ein, d. h., benutzt man diese Größe als Maßstab für die Abweichungen, welche die relative Häufigkeit der bekannten Wahrscheinlichkeit p gegenüber aufweisen kann, so läßt sich die Tabelle 22 unverändert zur Feststellung der Wahrscheinlichkeit dafür benutzen, daß die bei einer Versuchsreihe bestimmte relative Häufigkeit, mit der die Begebenheiten A oder B eintreffen, zwischen gegebene Grenzen (innerhalb eines gegebenen Spielraums) fällt. Beispielsweise wird der mittlere Fehler der relativen Häufig- keit, in der die Anzahl weißer Kugeln eintrifft, wenn man n Male aus einem Beutel mit gleichvielen weißen und roten Kugeln zieht, sein. 2. Va Die Wahrscheinlichkeit dafür, daß die relative Häufigkeit in einer solchen Versuchsreihe zwischen die Grenzen 3 — aund + + a fällt, findet man daher durch Berechnung von X =—2aVn. n wonach die gesuchte Wahrscheinlichkeit aus der Tabelle 22 als der diesem Wert von x entsprechende Wert von P hervorgeht. Wie zroß ist z. B. die Wahrscheinlichkeit dafür, daß die relative Häufig- 184 keit weißer Kugeln bei 10000 Ziehungen zwischen die Grenzen 0,49 und 0,51 fällt? IL Ar ora- 00, Da u= % Vi = 500 °8 wird x = = 200 - 0,01 = 2; die Wahrscheinlichkeit ist also P = 0,954. Diese Methode ist in Wirklichkeit mit derjenigen identisch, bei welcher man die Wahrscheinlichkeit dafür bestimmt, Jaß man in einer Versuchsreihe von 10000 Ziehungen eine Anzahl weißer Kugeln zwischen den Grenzen 4900 und 5100 erhält, d. h. lie Wahrscheinlichkeit dafür, daß sie innerhalb des Spielraumes 200 fällt. Da der mittlere Fehler hier V10000 - }- +} = 50 und a = 100 ist, wird X = = Te — 2, und man erhält daher wie oben P — 0.954, 120. Sind p und q gegeben (Kugelversuche, Münzversuche, Würfelspiele usw.), dann wird einer gegebenen Zahl von Versuchen, n, eine gewisse Wahrscheinlichkeit P ‚dafür entsprechen, daß das Ergebnis höchstens a von dem erwarteten abweicht; n und a be- stimmen mit anderen Worten P analog dem vorhergehenden Bei- spiel. Indes kann man sich auch n und P als gegeben denken und hierdurch die diesen Werten von n und P entsprechende Maximal- abweichung a finden, oder a und P als gegeben denken und n finden. Betrachtet man beispielsweise aufs neue die Kugelversuche, für welche D = dd = z ist, dann kann man fragen, mit welchem Spielraum zu rechnen ist, um mit einer Wahrscheinlichkeit von P = 0,9975 erwarten zu, können, daß die Zahl der weißen Kugeln im Laufe von 2500 Ziehungen nicht außerhalb dieses Spielraums fällt. Da u = Y2500-4}-1 = 25 ist, wird x = x = ag} kennte man a, um Jann in der Tabelle 22 die x = 5x entsprechende Wahrscheinlichkeit zu suchen, so müßte man P==0,9975 finden; Ze wäre dann ungefähr 3, also a = 75; fragt man also nach der Wahrscheinlichkeit dafür, daß die Zahl der weißen Kugeln zwischen den Grenzen 1250 — 75 — 1175 und 1250 + 75 = 1325 fällt, so ergibt sich sehr annähernd 185 0,9975. Schließlich könnte man fragen: Wie viele Male soll man aus dem Beutel ziehen, um mit einer Wahrscheinlichkeit von 0,9975 erwarten zu können, daß die Anzahl weißer Kugeln nicht mehr als 30 von dem erwartungsmäßigen Ergebnis abweicht? Hier wird 30 — 3, woraus folgt, daß z Falls es möglich ist (was es in praxi allerdings oft nur schwer- lich sein wird), die Grundbedingungen (daß sich die Wahrscheinlich- keiten p und q unter der ganzen Versuchsreihe nicht verändern) auch in solchen Fällen, in denen der Umfang der Versuchsreihe nach einem großzügigen Maßstab erweitert wird, festzuhalten, dann wird es stets möglich sein, n so groß zu machen, daß die Wahrschein- lichkeit dafür, daß die bei n Versuchen gefundene relative Häufig- keit zwischen im voraus angegebene Grenzen fällt, so nahe an 1 (Gewißheit), wie es sein soll, herankommt, selbst wenn die gezogenen Grenzen sehr eng sind. Man kann beispielsweise fragen: Wie viele Male soll man mit einem Würfel werfen, um mit einer Wahrscheinlichkeit von 0,99994 erwarten zu können, daß die relative Häufigkeit der Begebenheit Avers zwischen den Grenzen 0,498 und 0,502 fällt? Mit anderen Worten: daß die faktische relative Häufigkeit nicht mehr als 0,002 von der Wahrscheinlichkeit 2, in dem ein- zeinen Wurfe Avers zu bekommen, abweicht? Ist die gesuchte Anzahl n, dann wird der mittlere Fehler für die Abweichung der relativen Häufigkeit von Z wie oben erwähnt, Y'n 1 5 Va? und da die Maximalabweichung a hier 0,002 ist, wird x = = = 0,004 Vn, welcher Wert von x nach der Tabelle 22 für P das Resultat 0,99994 ergeben muß. Man hat also X = 0,004 nn = 4. woraus folgt, daß n = 1000 000. Aufgabe 21. Wenn die Wahrscheinlichkeit dafür, daß eine Person im Laufe eines Jahres stirbt, gleich 15 °/o gesetzt wird, dann ist die Wahrscheinlich- — 186 veit dafür zu finden, daß die jährliche Anzahl Sterbefälle 1. im ganzen Lande (3 Millionen Menschen), 2. in einer Gemeinde von 2000 Einwohnern nicht mehr als 1%, von dem erwarteten Ergebnis abweicht. Aufgabe 22. Mit wieviel Würfeln soll man werfen, um mit einer Wahr- scheinlichkeit von 0,9995 erwarten zu können, daß die Anzahl Würfel, welche keine Sechs ergibt, eine Abweichung von der erwarteten Zahl aufweist, welche zleiner als 5%, dieser Zahl ist? 121. In den im Vorhergehenden behandelten Aufgaben haben wir uns nur mit dem einfachen Falle beschäftigt, wo die Wahr- scheinlichkeit dafür, daß die Begebenheit A eintrifft, von Versuch zu Versuch unverändert dieselbe war. In der Praxis wird diese V oraus- setzung selten zutreffen, wenn man die Versuchsreihe auf größere Gruppen von Beobachtungen ausdehnt. Beispielsweise ist die mensch- liche Sterblichkeit auf den verschiedenen Altersstufen sehr ver- schieden, so daß man, wenn größere Altersgruppen oder Personen jedes möglichen Alters beobachtet werden, nicht mit einer für alle Personen gemeinsamen Sterblichkeit rechnen kann. Auch bei anderen Teilungen (z. B. nach Geschlecht) machen sich solche Unterschiede geltend. Es gilt überhaupt bei allen Anwendungen in der statistischen Praxis, diesem Verhältnis Aufmerksamkeit zu schenken. Wir können uns zu Anfang darauf beschränken, den Fall zu betrachten, in dem eine Bevölkerungsgruppe von 100000 Menschen nur in zwei Gruppen (z. B. 80000 und 20000 Personen) zerlegt zu werden braucht, so daß man damit rechnen kann, daß die Sterblich- keit für sämtliche 80000 in der einen Gruppe 1% und für sämt- liche 20000 in der andern Gruppe 10% ist; die durchschnittliche Anzahl Sterbefälle wird dann Ü 10 100 80000 + 160 20000 = 2800. Die Frage ist nun wie früher die, welche Abweichungen er- wartet und wie häufig Abweichungen verschiedener Größe eintreffen werden; es ist hierbei zu erinnern, daß sich z. B. die Abweichung O0 als Resultat ergeben kann, nicht bloß auf Grund dessen, daß jede ler einzelnen Gruppen die Abweichung O0 (gerade 800 und 2000 Sterbefälle) aufweist, sondern auch infolge vieler anderer Kombi- nationen wie z. B. 801 + 1999 = 2800 799 + 2001 = 2800 802 + 1998 =— 2800 798 + 2002 = 2800 USW. 187 In ähnlicher Weise kann man sich jede andere Abweichung sehr verschiedenartig zustande gekommen denken, und so kann bisweilen wie in dem hervorgehobenen Falle eine Ausgleichung erzielt werden, so daß sich die Abweichungen in den zwei betrachteten Gruppen ganz oder in anderen Fällen teilweise aufheben; das Entgegengesetzte kann jedoch auch stattfinden, nämlich dann, wenn die Abweichungen nach derselben Seite gehen. Die Aufgabe dreht sich somit darum, das Gesamtresultat aller dieser Möglichkeiten zu finden. In welcher Weise sich dies machen läßt, das wird aus dem Folgenden erhellen wo mit größerer Ausführlichkeit, die Eigenschaften der Verteilungs- gesetze und einige wichtige Sätze über solche Gesetze behandelt werden sollen. D. Eindimensionale Verteilungen. 1223. Wenn eine Größe x den einen oder den anderen‘ von ins- gesamt n verschiedenen Werten Xi, X, X3 00000 Xr 0000. Xn annehmen kann und man die Wahrscheinlichkeiten Pız P2y P3 ++. Pr... Pan dafür, daß x jeden dieser Werte annimmt, kennt, dann sagt man der Kürze halber, daß das Verteilungsgesetz für die zu- fällig variierende (eindimensionale) Größe x bekannt ist. Da hier vorausgesetzt ist, daß x keine andern als die angeführten Werte annehmen kann, muß man erhalten: Zp=Ppi+R +B-... + =1. In dem Vorhergehenden sind verschiedene Beispiele für zufällig variierende Größen betrachtet worden, deren entsprechendes Ver- teilungsgesetz — allerdings nur durch Annahme — als bekannt ge- dacht wurde. Ein Würfel kann keine anderen Augen als x = 1,% =2 % = 3, x, = 4, x; = 5 %=6 ergeben, und wenn man damit rechnen kann, daß er nur unmerkbar falsch ist, dann werden die Wahrscheinlichkeiten dafür, daß er eins dieser Resultate zeigt, Di —= Do = Da = Dı = Dr = 04 = 1 sein 6 Y wo Sp = Dı + 9 + PD + Pa + Ps + Di = Analog kann man die Anzahl weißer Kugeln, welche man er- hält, wenn man in n Malen einem Beutel mit W_ weißen und R roten insgesamt K Kugeln entnimmt, als eine zufällig varilierende 188 Größe betrachten. Die Werte, welche x hier annehmen kann, sind sämtliche ganzen Zahlen von 0 bis n; wie groß die entsprechenden Wahrscheinlichkeiten Do, Dıy Da ++. Pn werden, das hängt indes, wie wir (8 96 und $ 103) gesehen haben, davon ab, ob die entnom- mene Kugel wieder (ungebundene Beobachtungen) oder nicht wieder (gebundene Beobachtungen) vor einer nächsten Ziehung in den Beutel zurückgelegt wird. Die bei nur einer Ziehung erhaltene Anzahl weißer Kugeln zönnen wir besonders betrachten; x kann hier nur die Werte xzı = 0 und x, = 1 annehmen, und die entsprechenden Wahrscheinlichkeiten dürften dann in beiden Fällen mit RB ndm=1-m= x vezeichnet werden können. Ein Verteilungsgesetz für eine zufällig varlierende Größe braucht jedoch keineswegs damit bekannt zu sein, daß man wie in den oben- stehenden Beispielen einen mathematischen Ausdruck für die x, ent- sprechende Wahrscheinlichkeit pr besitzt. Es kann oft die Lösung irgendeiner Aufgabe erleichtern, einen solchen Ausdruck zur Ver- fügung zu haben, und es steht denn auch dem nichts im Wege, wie hinsichtlich des Binomialgesetzes im Vorhergehenden erwähnt wurde, das Verteilungsgesetz durch einen mathematischen Ausdruck anzugeben, welcher entweder genau gewissen Vorausseszungen über das Gesetz entspricht oder dies mit ausreichend guter Annäherung ‘ein Beispiel ist das Exponentialgesetz) darstellt. Manche Aufgaben verlangen andererseits nicht mit Notwendigkeit eine solche Um- schreibung, und in allen Fällen kann man sich das Gesetz ebenso- yut tabellarisch dargestellt denken, wenn eine Tabelle für jeden nöglichen Wert von x die entsprechende Wahrscheinlichkeit angibt. 123. Ist für eine zufällig varlierende Größe x das Verteilungs- gesetz bekannt, dann kann man ferner das, was im allgemeinen als „mathematische Hoffnung“ dieser Größe bezeichnet wird, bestimmen ; für diesen wichtigen Begriff !) ziehen wir jedoch im folgenden kurz Jie Bezeichnung „Erwartung“ vor. Wie wir weiter unten sehen werden, stimmt dieser Begriff mit dem überein, was im Vorhergehenden gelegentlich „erwartete Anzahl“, „erwartungsmäßiges Ergebnis“, „Durchschnitt“ usw. genannt wurde. 1) Franz.: esperance mathematique, Engl.: mathematical expectation. 189 Im folgenden wird es jedoch praktisch sein, hierfür einen fest- stehenden Ausdruck zu haben; für die Erwartung für x wird ferner auch stets das Zeichen E (x) verwandt. E (x) wird unmittelbar aus dem bekannten Verteilungsgesetz gefunden, indem man jeden Wert x. den x annehmen kann, mit der entsprechenden Wahrscheinlichkeit pr. multipliziert und die Pro- dukte addiert; man bekommt dann EX) = HAIR Feed X Fee ia. Es sei bemerkt, daß E (x) sich nach der Definition nur bei be- kanntem Verteilungsgesetz finden läßt, daß ferner E (x) selbst eine Konstante ist, d. h. eine Größe, welche (im Gegensatz zu x) nicht mit gewissen Wahrscheinlichkeiten verschiedene Werte annehmen kann. Beispielsweise wird die Erwartung für die Anzahl von Augen beim Wurf mit einem Würfel 1 1 1 1 1 1 BE@=E 1+5 2+€ 36 445 5+€ . 6 = 3,5. Zieht man Kugeln aus einem Beutel mit weißen und roten Kugeln, von denen der Bruchteil p weiß, der Rest (q = 1 — p) rot ist, dann wird die Erwartung für die Zahl weißer Kugeln in einer einzelnen Ziehung in gleicher Weise EX) =0-aqa+1-p=»X ein Ergebnis, von dem wir weiter unten Gebrauch machen werden Aufgabe 23. Berechne die Größe der Erwartung in den zwei in der Tabelle 15 (8 104) behandelten Fällen, in denen 20 Kugeln Beuteln entnommen werden, deren Kugeln zur Hälfte und zu zwei Fünfteln weiß sind und wo x die Zahl der im Laufe der 20 Ziehungen erhaltenen weißen Kugeln bedeutet, 124. Die Zahl selber, durch welche die Größe von x aus- gedrückt wird, braucht nicht unter allen Verhältnissen dieselbe zu sein. Körpergröße oder -gewicht, Temperatur, Preise usw. können alle in verschiedenen Einheiten angegeben werden; aber nicht nur die Einheit kann verschieden und zuguterletzt willkürlich ge- wählt werden; auch wenn man zahlenmäßig die Schwankungen, denen die beobachteten Größen unterworfen sein können, ausdrückt, kann der Ausgangspunkt („Nullpunkt“) willkürlich und mehr oder weniger praktisch gewählt werden. Veränderungen in der Tem- peratur lassen sich als Abweichung der Temperatur vom Gefrier- punkt („die eigentliche Temperatur“), jedoch auch als Abweichung der Temperatur von einem beliebigen anderen Ausgangspunkt (Beisp.: das Fahrenheitsche Thermometer) ablesen, und dasselbe finden wir 190 bei jeder zahlenmäßigen Angabe wieder, auch wenn es sich dabei um die Schwankungen handelt, welche durch Veränderungen in der Sterblichkeit, im Preisniveau usw. usw. verursacht werden, Es ist daher unmittelbar einleuchtend, daß, wenn k eine Konstante be- zeichnet, die Größen x + k (oder x — k) und k + x auch zufällig variierende Größen sein werden, deren Verteilungsgesetze mit dem Gesetz für x identisch sein müssen, und daß Ex + ©) = E(x) + k E(k-x)= k- E(x). 125. Da E (x) selbst eine Konstante ist, deren Wert im fol- zenden der Kürze halber mit s, (vgl. unten) bezeichnet werden wird, kann man hier besonders den Fall; wo k= E (x) = sı, betrachten. Die zufällig varilerende Größe a= x -— E (x = X-— 8) ım welche es sich dann handelt, wird als Abweichung bezeichnet, and aus obiger Gleichung ‚geht hervor, daß die Abweichung Jie Erwartung Null hat; denn es ist E (a) = E(x— 8) =E@x —-s=0 Betrachtet man mehr im allgemeinen die Potenzen der Ab- weichungen, also a* = (X — 8,)“, so werden auch diese Größen zufällig variierende Größen mit dem gleichen Verteilungsgesetz wie x sein; ihr Verteilungsgesetz ist also mit dem bekannten Gesetz für x gegeben. Unter dieser Voraussetzung kann man analog mit der Erwartung für E (x) die Erwartung E (a*) finden mit Hilfe der Formel: na = E(a*)= 3 pr (X — 8) =D Ki —8)* +P 8) H--s- + pr (Zr — 81) *+..... Du (Xa — S1)*- Die hierbei bestimmten Zahlen, deren Größe von &« abhängen and im folgenden mit ma bezeichnet werden, werden, analog der -ationellen Mechanik, Momente des Verteilungsgesetzes 1, 2., 3.....&«. Ordnung) genannt. Sie spielen in der Statistik sine bedeutende Rolle, namentlich zur Charakterisierung der Be- schaffenheit allgemein vorkommender Verteilungsgesetze (vgl. das Kapitel über Interpolation und Ausgleichung). Wie soeben bewiesen, wird m, = E (a) = 0, während m., wenn « eine gerade Zahl ist, stets positiv sein muß, weil sämtliche Addenden dann positiv sind. Ist «x eine ungerade Zahl größer als 1, Jann wird es dagegen von der Beschaffenheit!des Verteilungsgesetzes 191 abhängen, ob m. positiv oder negativ wird; hier wollen wir uns vor- läufig nur mit dem 1. und 2. Moment (m, und m,;) befassen. Während m, immer gleich Null, ist m,, wie erwähnt, stets posi- tiv. Die Quadratwurzel aus dieser Größe, V/m,, wird Dispersion oder Streuung des Verteilungsgesetzes!) genannt, und da im folgenden andauernd von diesem wichtigen Begriffe Gebrauch gemacht werden wird, führen wir für diese Größe die Bezeichnung U ein: u=Vm,. Auch diesen Begriff haben wir in Wirklichkeit bereits kennen gelernt, nämlich bei der Erwähnung des Binomialgesetzes und seiner Grenzform, des Exponentialgesetzes. In dem besonderen Falle, wo das Verteilungsgesetz binomial ist, wird nämlich, wie wir im fol- genden sehen werden, die Streuung gleich der in Verbindung mit dem Binomialgesetz auf anderem Wege eingeführten Größe, welche wir als mittleren Fehler, «, bezeichneten, weshalb wir auch hier die Streuung u nennen. 1%6. Wenn man statt der Potenzen der Abweichungen a=X— 8, die Potenzen der Differenz zwischen x und einer ganz will- kürlichen Konstante k, also b= x —k und der Erwartung für solche Potenzen, E (b*), betrachtet, erhält man eine neue Reihe von Momenten; um sie von anderen Momenten zu unterscheiden, muß man ausdrücklich die Größe von k, durch welche sie bestimmt werden, angeben. Sie werden im allgemeinen „Momente um k‘ yenannt. Zur Bezeichnung der Momente 1. und 2. Ordnung um die will- kürlich gewählte Zahl k wollen wir im folgenden untenstehende Bezeichnungen benutzen: Mi = E(x—k) = Sp: (<r —k) = pp; (Zi — |) + m (x — k) -- Ppı x —kK)+...... ınd M, = E((x —k) 7) = Spr (X —\k)? = p; (x, — k)?! + po (zz — k)? +PBı (x —k)!+..... Ist im speziellen k=0, dann werden die diesem Werte von k ent- sprechenden Momente (die Momente um Null) oft Potenzsummen zenannt. Für die Potenzsummen 1. und 2. Ordnung benutzen wir ‚m folgenden die Bezeichnungen E(x)= Xpr x (vgl. oben S. 190) 2 \X . TU Dr x2, Engl. : standard of deviation, Franz.: &cart quadratique. 192 Für „die Momente der Abweichungen“, d. h. die Momente um 3 = E @x) ist. bereits die Bezeichnung m. eingeführt, wir haben lann m, = 0 — 2 mM, = U”, wo wu die Streuung ausdrückt. 127. Zwischen diesen verschiedenen Momenten gibt es ein- fache Relationen, mit Hilfe deren man, sobald die Momente um eine yegebene Zahl bekannt sind, die Momente um jede beliebige andere Zahl finden kann. So erhält man z. B. aus b = x — k unmittelbar Mi = E0®)= E® -k= 85 —k Und da ferner b? = (x — k)! = x? — 2kx + k? ist und sich die Erwartung für eine Summe mehrerer Glieder stets als Summe der Erwartungen für die einzelnen Glieder (vgl. unten die S8 132 und 138) finden läßt, wird M, = E(b7) = E(x) — 2kE(x) + k? MM, = & — 2ksı + k?= 5 — 8? + (81 — k)* Kennt man die Potenzsummen, sı und s,, so ergeben sich die Momente um k als Mi = 85 —k . Me af da Für k = 0 erhält man natürlich M; = sı und M, = SS. Setzt man dagegen k = sı, so ergeben sich die Momente der Abweichungen m = —s5=0 ; He besser BD) woraus folgt, daß die Streuung w= Vs —sı? 27 (Io). Kennt man die Momente M, und M, um k, dann findet man aus denselben Gleichungen, wenn man sie hinsichtlich s, und s löst, daß MM x s, = M, + = Mo ME A age woraus sich wiederum m, und m, ergeben als m = 0 Mm, = & — 5? = a — sodaß auch u=VM,—Mi....... | 93 Da der Wert von k, „um“ den die Momente M, und M, be- rechnet gedacht sind, nicht in diese Formel eingeht, so folgt daraus, daß, wenn die Streuung für die zufällig variierende Größe x gleich u ist, dann auch die Streuung für x + c (wo c eine willkürliche Kon- stante ist) gleich % sein wird. Dies geht auch unmittelbar aus dem oben, $ 124, Entwickelten hervor, woraus ebenfalls folgt, daß die Größe (c-x), wenn x die Potenzsummen s, und s, hat, die Potenz- zummen cs, und c?s, und daher eine Streuung, welche c Male so groß wie die Streuung für x ist, haben wird, da Vc?s — (c8,)? = Ys — 8% = Ge. Dagegen kann man nicht unmittelbar M,, M,, sı und s lurch m, und m, finden, denn m, ist in allen Fällen = 0. Kennt man indes außer m, zugleich die Erwartung E (x) für x, d.h. 3, dann erhält man aus den hier entwickelten Formeln Ss = m + 8;? \ s—k Rn (LID. Mo = m, + (sı — k)? | Die letzte Formel zeigt, wie sich M, (dessen Wert von der Größe von k abhängt) mit k verändert. Es geht aus der Formel hervor, laß M, beliebig groß werden kann, wenn nur k ausreichend ver- schieden von s, gewählt wird; dagegen kann Mz; nie kleiner als m, werden. Wenn k = s,, ist M; = m,; aber wenn k zz S,, ist M, stets > m,. . Entsprechende Relationen existieren natürlich für Momente dritter und höherer Ordnung und können selbstverständlich analog den gegen- wärtigen Methoden durch Berechnung der Erwartung E (b*), wo b= X— k, festgestellt werden. Hier sind nur die Relationen für Mo- mente erster und zweiter Ordnung entwickelt, da es vorläufig die sind, deren wir im folgenden bedürfen. Als Beispiel für die Anwendung der Formel sei folgendes an- zeführt: Ein Beutel enthält 10 Täfelchen; auf dem einen steht 986, auf zweien 987, auf dreien 988 und auf dem Rest 989, im übrigen sind sie sonst gleich. Wenn x die bei einer Ziehung erhaltene Zahl be- deutet, kann x einen der Werte 986; 987; 988; 989 annehmen, und nimmt man im Hinblick auf den Inhalt des Beutels an, daß die Wahrscheinlichkeiten, jede dieser Zahlen zu ziehen, jeweils zu Westergaard und Nybo@lle, Theorie der Statistik, 2. Autl. 13 u ——— 194 0,1; 0,2; 0,3; 0,4 angesetzt werden kann, dann sind die Erwartung E(x) und die Streuung u zu finden. Wählt man k = 987 und betrachtet man statt x die Differenz b = x — 987, dann kann b die Werte — 1,0, 1 und 2 annehmen. Für das erste Moment um 987 erhält man dann: M=E0)=-—1-:01+0-0,22+1-03+2-04 = 1,0, während man für das 2. Moment um 987 bekommt M, = E(b) =(—1)?-01-+0?.0,2+1?- 0,3 +2? - 0,4=2,0. Man stellt am leichtesten diese Berechnung tabellarisch, wie folgt, auf: x bp b?p 986 -% 0,1 987 0 0,0 988 3 0,3 989 08 1,6 Zusammen : M, = 10 M, = 2,0 Die Zahlen in der Kolonne bp ergeben sich durch Multiplikation der Zahlen der Kol. b mit denen der Kol. p und die Zahlen der Kol. b?p durch Multiplikation der Zahlen der Kol. b mit denen der Kol. bp. Hieraus folgt nun gleich E(x) = 8; = Mi +k= 1 + 987 = 988 und u = VM,—M?=/2-1=1 Durch Berechnung der Momente um eine Zahl, welche in der Nähe sämtlicher Werte, welche x annehmen kann, liegt, erzielt man Jie am leichtesten ausführbaren Berechnungen. Wünscht man neben s, auch s, zu kennen, dann ergibt sich diese®%Größe aus (III) Ss = m + 8,2 Da m, = u? = 1, wird s = 1 +- 988? = 976145. Alle Größen M,, Mo, Sy 52, m, (= 0), m, und u sind hiermit bestimmt; sucht man nun z. B. die Momente um 980, ist k = 980, und infolge (Ia) und (III) ist M, = 8; — k = 988 — 980 = 8 M, = u? + My? = 1 + 8? = 65, während sich beispielsweise als Momente um 700 ergeben: M, = 8; — k = 988 — 700 = 288 M, = u? + Mi? = 1 + 288? = 82945 3 und so fort. 195 Selbst in diesem sehr einfachen Beispiel bietet die Anwendung der hier entwickelten Formeln eine bedeutende Vereinfachung der Rechenarbeit. In andern, weniger einfachen Fällen kann es prak- tisch unausführbar werden, die Berechnungen ohne diese Hilfe durch- zuführen. Aufgabe 24. Berechne erst die Momente M, und M, um 3, demnächst die Potenzsummen s, (die Erwartung) und s, sowie die Momente der Abweichungen und die Streuung, wenn x die Anzahl Augen bedeutet, welche man mit einem nur unmerkbar falschen Würfel erhält. Wie groß werden die Momente 3. und 4. Ordnung der Abweichungen? Aufgabe 25. Berechne Erwartung und Streuung in den zwei in der Aufgabe 23 und der Tabelle 15 erwähnten Fällen, indem zuerst die Momente um die Zahl 9 festgestellt werden. Untersuche, in welcher Weise das Moment M, um k mit dem Werte k variiert. Aufgabe 26. Wenn x die Zahl der weißen Kugeln (0 oder 1) bedeutet, welche man bei einer einzelnen Ziehung aus einem Beutel mit weißen und roten Kugeln, von denen der Bruchteil p weiß ist, bekommt, dann ist die Erwartung, wie oben ($ 123) angeführt, p; wie groß wird die Streuung? 128. Wenn die zufällig variierende Größe x das Resultat einer Reihe von n hintereinander vorgenommenen, unabhängigen, alter- nativen Versuchen, wie z. B. die im Vorhergehenden behandelten Glückspiel-Erfahrungen, angibt, dann wird das Verteilungsgesetz, wie wir gesehen haben, binomial (mit Annäherung exponential) sein; l. h. die Wahrscheinlichkeit, daß x der n Versuche ein „günstiges“ Resultat gibt, ist = (?) X yD—X Px x PA wo 0< “ ale Es ließe sich nun mit Hilfe dieses Ausdrucks für Px und des Newtonschen Binomialtheorems direkt nachweisen (vgl. den Anhang), laß man für das Binomialgesetz E (x) = ss, = np bekommt und daß u* = E ((x — np)?) = npaqa ist. Da diese Ergebnisse im folgenden ($$ 138 und 149) in weit sinfacherer Weise erzielt werden können, wollen wir uns hier auf die Bemerkung beschränken, daß die Erwartung und Streuung beim bi- nomialen (und damit beim exponentialen) Verteilungsgesetz also ge- nau demjenigen entspricht, was wir oben „die erwartete Anzahl“ und den „mittleren Fehler“ genannt haben; und mit Hilfe dieser beiden Größen und der Tabelle 22 konnten wir sofort die Wahr- scheinlichkeit dafür angeben, daß das Ergebnis aus einer Versuchs- 13* 196 reihe eine Abweichung ergab, welche kleiner als eine gegebene Größe war (d.h. innerhalb eines gegebenen Spielraums fiel). Eine ähnliche Bedeutung nun kann im allgemeinen den Begriffen Erwartung und Streuung beigelegt werden, auch wenn das Ver- teilungsgesetz nicht binomial (exponential) ist. Die Wahrscheinlich- keit dafür, daß eine Abweichung kleiner als eine gegebene Größe ist, hängt allerdings von der Form des Verteilungsgesetzes ab und cann nicht angegeben werden, ohne daß das Verteilungsgesetz ge- yeben ist. Trotzdem kann man feststellen, wie groß die Wahr- scheinlichkeit für eine Abweichung, welche kleiner ist als ein ge- zebenes Vielfaches der Streuung, z um m indesten sein muß, gleich- gültig, von welchem Verteilungsgesetz die Rede ist. Man lasse die zufällig varlierende Größe x mit den Wahr- scheinlichkeiten ° Pau Des Pas ++ +04 +« «+ Dn lie Werte Xi) Xay X8 0004404 + « Xn annehmen. Die Erwartung wird dann sein E(x) = 3 X: pr = Sı- Betrachtet man das Quadrat der Abweichungen a? = (x— 81)”, dann wird diese zufällig variierende Größe demselben Verteilungs- gesetz folgen, da die Wahrscheinlichkeit dafür, daß a? die Werte a? = (x — 8)% 4? = (2 — 8)? ... 80% = (Xn — 8)? annimmt, auch Pıs P2, Ps - ++ + Dun wird. Wenn wir uns hier die Numerierung so vorgenommen denken, laß a1? < 8,2 < 8s?..., < an? ist, wird das Quadrat der Streuung u? — Ela = X D:r ar? = Mr ;ine Zahl sein, deren Größe zwischen a,” und an? liegt. Die Wahrscheinlichkeit dafür, daß eine Abweichung, a, NU- merisch kleiner als das »fache der Streuung ist, wird nunmehr die- selbe sein wie die Wahrscheinlichkeit dafür, daß a? < v? w* ist, und von der Größe von v abhängen.‘ Beschränken wir uns vorläufig auf eine Betrachtung der Werte von », welche größer als 1 sind, dann wird »* u? > a,? sein, da pw” > a? ist; sehen wir vorläufig auch von den Fällen ab, wo » so yroß ist, daß »? u? größer als das größte (an?) der Quadrate der Ab- 197 weichungen ist, dann wird »v? uw? also wie u? zwischen den Grenzen a! und an? liegen und daher die Reihe der Quadrate ay%, &2?... an? in zwei Teile zerlegen, so daß a <a <a H<V! u? v3 U? < dir? Zip? .000.0.0. Anl Hieraus folgt indes nach dem Satze über die Addition der Wahr- scheinlichkeiten, daß die Wahrscheinlichkeit P dafür, daß das Er- zebnis eine der Abweichungen, welche kleiner als » - wu sind, sein wird: P= pi + +P8-0-00.0.0 024 während PBi+1 + Di+4+a + 000000, Da = ist. Wie groß P wird, ließe sich hieraus finden, wenn das Ver- ;eilungsgesetz bekannt wäre. Die Gleichung, durch die u? = m, bestimmt wird, kann jetzt, wie folgt, ausgedrückt werden: ub= (pa? + pc + ...... Dial) + (Pi if? +00. Por an 3. Ersetzt man hier die in der zweiten Klammer enthaltenen Quadrate a;?;;, a%pıpa ..... 81? (welche sämtlich > »? #?) durch v” u*, während die erste Klammer (deren Inhalt > 0 ist) ausgelassen wird, dann ergibt sich, daß u* > vu? Dir + Dip + ist, oder daß ist. . > v2 (1 P) Selbst wenn die genaue Größe von P ohne Kenntnis der Form des Verteilungsgesetzes nicht berechnet werden kann. folgt aus dieser Ungleichheit, daß man auf jeden Fall pP ı bekommt, vv wenn, wie soeben vorausgesetzt. < w2 an? ,. u? 1st. Von diesen letzten Bedingungen kann man jedoch absehen; ist 1 nämlich »? < 1, wird 1 — 7 <0, und da P nicht negativ werden 198 kann, ist auch in diesem Falle P > 1 4 ve ri ist ferner v? u? > an? ya) ? so gibt P die Wahrscheinlichkeit einer Abweichung an, welche kleiner ist als die größte erdenkliche; P muß dann = 1 sein, in welchem Falle man auch P> 1 — a bekommt, Ohne daß man berücksichtigt, mit welchem Verteilungsgesetz man es zu tun hat, ist somit die Wahrscheinlichkeit dafür, daß die zufällig variierende Größe von der Erwartung mit einem Betrag, welcher kleiner ist als » Male die Dispersion, abweicht, in jedem Falle größer als 1 — I 129. Diesen ganz elementaren Satz, der vom russischen Sta- tistiker Tchebycheff (1867) stammt, werden wir später auf einen wichtigen Fall anwenden. Aus der folgenden Tabelle 25 über die Werte von l — En (Kolonne a) für einige Werte von v geht her- vor, daß Ergebnisse, welche von der Erwartung eine Abweichung von mehr als dem Vier- bis Fünffachen der Dispersion aufweisen, sehr selten sein werden. Tabelle 25. An 1,5 2,0 2,5 3,0 3,5 4.) 1,5 5.0 a) 0,556 0,750 0,840 0,889 0,918 0,938 0,951 0.960 ’b) 0,866 0,954 0,988 0,9973 0.9995 099994 Zum Vergleich ist (in Kolonne b) nach der Tabelle 22 die Wahr- scheinlichkeit S, dafür angeführt, daß ein Ergebnis, welches dem „Exponentialgesetz folgt“, weniger als das »-Fache des mittleren Fehlers von der Erwartung abweicht. Diese Wahrscheinlichkeiten sind natürlich größer als die entsprechenden in der Kolonne a an- geführten Zahlen. Hätte man S, nach anderen Verteilungsgesetzen be- rechnet, dann wäre man zu anderen Werten von S, gelangt, zu Werten, welche entweder größer oder kleiner als die nach dem Exponential- yesetz gefundenen sein könnten, welche jedoch unter keiner Voraus- 199 setzung hinsichtlich der Form des Verteilungsgesetzes kleiner als lie in der Kolonne a aufgezeichneten Zahlen hätten ausfallen können. Aufgabe 27. Eine Zahl nehme mit der gleichen Wahrscheinlichkeit jeden der Werte 1, 2, 3... 98, 99 (sämtliche ganzen Zahlen von 1 bis 99) und keine anderen an. Finde die Erwartung und die Streuung. Zur Erleichterung der Be- , . n(n+1)(2n+1) rechnung sei bemerkt, daß die Summe der n ersten Quadratzahlen ——— - ist. Wie groß ist die Wahrscheinlichkeit für ein Ergebnis, welches weniger von der Erwartung als das 1l}fache der Dispersion abweicht? 130. Es ist zu bemerken, daß man nach dem oben Entwickelten notwendigerweise das Verteilungsgesetz kennen muß, um die Größe der Erwartung und der Streuung berechnen zu können; auf der ınderen Seite ist eine solche Kenntnis auch ausreichend. Wenn das Verteilungsgesetz speziell binomial (oder exponential) und mit be- kanntem n und p gegeben ist, erhält man, wie im $ 128 erwähnt, sofort, ohne erst die Momente zu berechnen. E (x) = sı = np ınd u = Ynpq Dagegen kann man nicht, wenn s, und w durch die Momente vgl. $ 153) eines numerisch gegebenen Verteilungsgesetzes bestimmt sind, n und p aus diesen Gleichungen berechnen, selbst dann nicht, wenn es gegeben ist, daß die einer Reihe äquidistanter Werte von & entsprechenden Wahrscheinlichkeiten binomial sind; denn die im Binomialgesetz „r günstigen Ereignissen unter n Begebenheiten“ ent- sprechende Wahrscheinlichkeit N (2) pa braucht nicht mit Notwendigkeit für x = r gegeben zu sein bloß durch eine Änderung des Nullpunktes und der Einheit derjenigen Zahlen, durch welche die Größe x ihren Ausdruck erhält, wird pr; für x = ar + b (wo a und b Konstanten sind) gegeben sein; und statt durch Berechnung der Momente des Verteilungsgesetzes Ss, = E (x) = np und u? = npq zu erhalten, bekommt man dann s, = E (x) = anp + b und uw? = a?npgq, und aus diesen Gleichungen lassen sich n und p nicht finden, ohne laß auch a und b gegeben sind. Kennt man dagegen zugleich die Mo- mente dritter und höherer Ordnung, so können auch a und b bestimmt 200 und eine Revision, ob die gegebenen numerischen Wahrscheinlich- keiten auch binomial sind, vorgenommen werden. Auf diese Frage wollen wir hier jedoch nicht näher eingehen ; während oben gezeigt wurde, wie sich die Momente (speziell die Erwartung und die Streuung) durch ganz elementare Mittel finden lassen, wenn das Verteilungsgesetz bekannt ist, handelt die hier vorliegende Frage darüber, inwieweit man aus den Momenten das Verteilungsgesetz finden kann, eine Frage, welche entweder rein mathematischer Natur ist (im allgemeinen auch zugleich mehr als elementare Hilfsmittel beansprucht) oder — wenn die numerische Angabe des Verteilungsgesetzes nur als annähernde (nicht exakte) Angabe vorliegt — in den Abschnitt über Ausgleichung und Inter- polation gehört. 131. Da das Exponentialgesetz, wie wir im folgenden sehen werden, in auffallend vielen Beobachtungsreihen jedenfalls als vor- läufiger Ausdruck für das Verteilungsgesetz wird gelten können, verlohnt es sich wohl, bereits an dieser Stelle das, was oben gezeigt wurde, zu bemerken, nämlich daß die Erwartung (s,) und die Streuung (u) dieses Gesetz vollständig definieren (vgl. die Tabelle 22 und die Zahlen S, in der Tabelle 25); und selbst wenn die Wahrscheinlichkeit dafür, daß ein zufälliges Ergebnis innerhalb eines gegebenen Spiel- raums fällt, nur recht mäßig durch die in Kolonne b der Tabelle 25 angeführten Wahrscheinlichkeiten (Exponentialgesetz) ausgedrückt wird, wird man doch stets so viel wissen können, daß sie nie kleiner als die in der Kolonne a angeführten Zahlen ausfallen kann. Wie mehrmals hervorgehoben, ist die Erwartung unter den mög- lichen nicht ein Resultat, welches besonders häufig erwartet werden kann; das Allgemeine wird sogar sein, daß E(x) eine Zahl wird, die gar nicht mit einer der Zahlen xX,, X ...-. Xn, für welche das Verteilungsgesetz gilt, zusammenfällt. Die Erwartung ist beispiels- weise bei einem Würfelwurf 34, ein Resultat mit der Wahrscheinlich- keit Null. Der Nutzen der Begriffe der Erwartung und Streuung beruht dagegen auf den teilweise ganz elementaren Eigenschaften dieser Größen und besonders auf den Eigenschaften derjenigen Abweichungen (a), deren Summe gleich Null und deren Quadratsumme kleiner ist als die Quadratsumme der Abweichungen von einer beliebigen an- deren Zahl. Diese letztgenannte Eigenschaft hat einer Ausgleichungs- methode (Methode der kleinsten Quadrate) den Namen gegeben. 201 welche in einem späteren Abschnitt behandelt werden wird und aamentlich für die Meßtechnik von Bedeutung geworden ist. Aufgabe 28. Eine Druckseite von 40 Zeilen enthält insgesamt 400 Worte; wie groß kann höchstens die Wahrscheinlichkeit dafür sein, daß eine Zeile mehr ais 12 Worte enthält? 132. Hinsichtlich des Begriffes Erwartung ist schließlich Fol- gendes zu bemerken: wenn auch die Erwartung eine Zahl ist, welche wie andere Zahlen in Rechenoperationen eingehen kann, so ist es loch eine Frage, in welchem Umfange das so gewonnene Resultat sich als Erwartung für irgendeine andere zufällig variierende Größe auslegen läßt. Im folgenden werden wir sehen, daß die Erwartung z. B. für eine Summe von zwei oder mehreren zufällig variierenden Größen stets als Summe der Erwartungen der einzelnen Größen ge- funden werden kann, daß also unbedingt E(x + y + zz) = E(x) + E (y) + E(z) ist. Dagegen kann man nicht unbedingt die Erwartung für das Produkt x - y als das Produkt aus E (x) und E (y) finden. Ein Beispiel hierfür haben wir im Vorhergehenden (wenn x = y und also x -y = x”) im Moment zweiter Ordnung um Null, in der Potenzsumme s;, = E(x”’), welche nicht E(x)- E(x) = si? wird; es ergibt sich dagegen ($ 127, III), daß Ss = 8,? + wu? oder E (x’) = (E (z))? + wm? ist. Unter welcher Bedingung E(x - y) gleich E(x)- E(y) werden kann, das wird aus dem Folgenden (vgl. $ 147) erhellen. E, Zweidimensionale Verteilungen. (Korrelationstheorie.) 133. In der Statistik wird man sich häufig mit zufällig vari- ierenden Größen, welche von anderen ähnlichen abhängig sind, zu befassen haben. Ein paar einfache Beispiele hat man in der Summe und der Differenz zweier zufällig variierender Größen x und y: X=x+yund Y=<X-—9)J; aber die Ausdrücke können natürlich viel zusammengesetzter werden der können viel mehr Größen als die zwei: x und y umfassen. An- fangs beschränken wir uns jedoch darauf, solche Fälle zu betrachten, in welchen nicht davon die Rede ist, mehr als die zwei Größen x ınd y zu berücksichtigen. Denkt man sich die Verteilungsgesetze für x und y gegeben, dann ist sofort eine naheliegende Frage die, wie in diesem Fall die Ver- 202 teilungsgesetze für x-+y, x-—y oder für andere aus x und y ZU- sammengesetzte Ausdrücke bestimmt werden können; wie das Fol- gende indes lehren wird, sind diese Verteilungsgesetze im allgemeinen garnicht allein durch die Verteilungsgesetze für die Komponenten x und y bestimmt und können daher auch nicht gefunden werden, solange nicht mehr vorausgesetzt oder nicht mehr gegeben ist. Es ist da- her notwendig, auf diese Frage näher einzugehen. Die Wahrscheinlichkeiten dafür, daß x die Werte Xi, X, Xg +... Xi... +++ Xn, annimmt, seien bzw. Pıs Ps Pa ++ << Di---<-+ Pr, und die Wahrscheinlichkeiten dafür, daß y die Werte Yır Yar Ya 0444 Viren + Ym annimmt, seien bzw. dıy de, 983 +++. + Cj+ + «++ Im- Ferner möge die Wahrscheinlichkeit dafür, daß x; bei der Bil- dung der Summe x + y (oder eines anderen Ausdrucks aus x und y) mit y; zusammentrifft (wo x; und y; unter denen, welche x und y annehmen können, willkürliche, aber gegebene Werte sind), mit P (i, j) bezeichnet sein. Von dieser Art Wahrscheinlichkeiten gibt es insgesamt m -n, da jeder der n Werte, welche x annehmen kann, mit jedem der m Werte, die y annehmen kann, zusammentreffen kann. Kennt man die Wahrscheinlichkeit, P (i, j), daß x; mit y; zusammentrifft, dann sagt man der Kürze halber, das Verteilungsgesetz für das zufällig variierende zweidimensionale Zahlenpaar (x, y) sei bekannt. Wie es hinsichtlich des eindimensionalen Verteilungsgesetzes (d. h. des Verteilungsgesetzes für eine zufällig varlierende, ein- dimensionale Größe) der Fall war, kann auch das zweidimensionale Verteilungsgesetz eventuell dadurch bekannt sein, daß man für P (i, j) einen mathematischen Ausdruck besitzt, in welchen i und j (oder x; und y;) eingehen, so daß die einem gegebenen Wertepaar X; und y; entsprechende Wahrscheinlichkeit daraus berechnet werden kann. Ein solcher Ausdruck für P(i, j) heißt eine Korrelations- formel. Aber wie das eindimensionale Verteilungsgesetz durch eine Tabelle gegeben sein kann und nicht mit Notwendigkeit durch eine Formel gegeben sein braucht, so läßt. sich auch das ZzWei- dimensionale Verteilungsgesetz in allen Fällen tabellarisch gegeben denken. Eine solche Korrelationstabelle muß dann zwei Ein- 203 gänge haben; als Beispiel sei untenstehende Tabelle 26 angeführt, welche nach einigen von Davenport!) vorgenommenen Zählungen Mitteilungen über die Zahl der sogenannten Müllerschen Drüsen an den Vorderbeinen des Schweines gibt. Die Zahlen (P(i, j)) der Ta- belle zeigen, wieviele Prozent sämtlicher (2000) untersuchten Tiere x Drüsen im rechten und y Drüsen im linken Vorderbein hatten. Tabelle 26. Müllersche Drüsen bei den Schweinen. Zus. pi 24 nn v U as . 13 Alf; 5 5 5 5 3 zus. q; | OO. "e, $ De Sl ya 21.45| 14.751 7 2 a I Ch) A Aral. "A Die Wahrscheinlichkeit dafür, daß ein Tier z. B. am rechten Bein 3 Drüsen hatte, ist nach dieser Tabelle p; = 0,2185; dafür, daß zin Tier 5 Drüsen am linken Bein hat, ist sie q; = 0,1475, während sie dafür, daß dasselbe Tier am rechten Bein 3 und am linken 5 Drüsen hat, P (3,5) = 0,0140 ist. Für die Summe der in einer Reihe oder in einer Kolonne an- geführten Wahrscheinlichkeiten erhält man nach dem Satze über die Addition der Wahrscheinlichkeiten jeweils p; und q;, wie angeführt in den Summa-Kolonnen rechts und unten, d. h. jedes der eindimen- sionalen Verteilungsgesetze für jeweils x und y. Diese Verteilungs- zesetze werden als marginale Verteilungen bezeichnet. Die Wahrscheinlichkeiten, welche in der x; entsprechenden Reihe der in der y; entsprechenden Kolonne verzeichnet sind, können als ein durch x; (resp. y;) bedingtes (eindimensionales) Verteilungsgesetz detrachtet werden. Dividiert man nämlich sämtliche Wahrscheinlich- keiten in einer solchen Reihe (oder Kolonne) mit p; (resp. a;), So wird ihre Summe gleich 1. Als Wert der durch x; bedingten Wahrscheinlichkeit q;(i) dafür y; zu erhalten, erhält man also \\ Statistical methods, II. edit., London 1904. 204 ; PCG,)j q; (1) = A und als die durch y; bedingte Wahrscheinlichkeit dafür, x; zu erhalten, pi 6) ai Die hier eingeführte Ausdrucksweise ist nur eine andere Form des Satzes über die Multiplikation der Wahrscheinlichkeiten in dem Falle, wo es sich um das Produkt von nur zwei Wahrscheinlich- keiten handelt: denn die Wahrscheinlichkeit P (i, j) dafür, daß xi mit yı zusammentrifft, wird nach benanntem Satze entweder pi + q;(i) oder q; + p:(D), welche Größen beide das Resultat P (i, j) ergeben. 134. Wie im $ 99 erwähnt, ist der Satz über die Multiplikation der Wahrscheinlichkeiten besonders dann verwendbar, wenn man mit x und y als Unabhängigen rechnen kann, d. h. wenn q;(i) nicht durch i bedingt und daher unverändert gleich der marginalen Wahr- scheinlichkeit q; ist, ohne Rücksicht darauf, von welcher Reihe (von welchen Wert x: von x) die Rede ist; pi (j) muß dann auch trotz j gleich der marginalen Wahrscheinlichkeit pi, d. h. P (i, j) = Di + q; Sein. In diesem Falle, in welchem x und y als unkorreliert be- zeichnet werden, ist der Inhalt der ganzen Korrelationstabelle also allein durch die Kenntnis der marginalen Verteilungen im voraus bestimmt, und die Tabelle enthält nichts anderes als was bereits mit diesen Verteilungen gegeben ist. Zufällig varlierende Größen sind indes nicht immer unkorreliert, und die Wahrscheinlichkeit dafür, daß x; mit y; zusammentrifft, ist dann nicht nur mit den marginalen Verteilungen, d. h. den Ver- teilungsgesetzen (pi und a;) für x und y gegeben. Beispielsweise wird, wie es aus der Tabelle 26 hervorgeht, das Produkt pz * ds = 0,2185 - 0,1475 = 0,0322 nicht die Wahrscheinlichkeit dafür an- geben, daß dasselbe Tier gerade 3 Drüsen am rechten und 5 am linken Beine hat, da die Wahrscheinlichkeit a; erfahrungsgemäß (besonders wenn es sich um Tiere mit 3 Drüsen am rechten Bein handelt) zu einem anderen (durch die Anzahl Drüsen am rechten Bein bedingten) Werte qs (3) = 105 = 0,0641 angesetzt werden 3 muß. als wenn sämtliche Tiere in Frage kämen. Welches denn dieser N 205 bedingte Wert ist, hängt dagegen von den betrachteten Größen ab und ist — wie oben gezeigt — mit der Korrelation zwischen diesen gegeben. Ein anderes, klassisches Beispiel korrelierter Größen hat man im Alter des Bräutigams und der Braut zur Zeit der Heirat. Alle Erfahrungen zeigen übereinstimmend, daß die Bräute, welche sich mit jungen Bräutigamen verheiraten, durchweg jünger sind als diejenigen, deren Auserwählte älter sind (vgl. auch $ 99 und 8 100). Wenn es in den folgenden Betrachtungen heißt, „daß die Kor- relation bekannt ist“, dann wollen wir uns vorstellen, daß man die vollständige Korrelationstabelle kennt, d. h. sämtliche m -n Wahr- scheinlichkeiten P (i, j). Sie kann entweder mit einer Tabelle oder damit gegeben sein, daß man sich von den benutzten Voraus- setzungen aus die Korrelationsformel, aus der sich die Korrelations- tabelle dann berechnen läßt, beschaffen kann. Aufgabe 29. Einem Beutel mit 7 weißen und 5 roten Kugeln werden zuerst auf einmal 4 Kugeln entnommen. Die Zahl der hierbei erhaltenen weißen Kugeln heißt x. Von den übrigen 8 zieht man dann weiter 4 Kugeln, jetzt aber so, daß eine gezogene Kugel jedesmal vor einer nächsten Ziehung in den Beutel zurückgelegt wird. Die Zahl der hierbei erhaltenen weißen Kugeln heißt y. Finde die Korrelation zwischen x und y, d. h. die Wahrscheinlichkeit dafür, im ersten Zuge x weiße und im Laufe der 4 folgenden Ziehungen y weiße Kugeln zu erhalten. 135. Betrachtet man nun irgendeinen Ausdruck u (x, y), dessen Größe nur von derjenigen von x und y abhängig ist (X+yJ, x—y, X-Jy usw.), so lassen sich in diesem Ausdruck insgesamt m -n ver- schiedene Wertepaare (x;, y;) für x und y einsetzen, und jedem Paare entspricht nach der Korrelationstabelle eine gewisse Wahrscheinlich- keit Pl, j) und ein gewisser Wert des Ausdruckes u (x, y). Sind all die m +n Werte, welche in dieser Weise für u (X, y) vorliegen, untereinander verschieden, so kann die zufällig variierende Größe also insgesamt N=m-n verschiedene Werte U, Us, U 0000000001 UN annehmen, und die Wahrscheinlichkeiten dafür, daß u einen ge- gebenen dieser Werte annimmt, werden dann geradezu die ent- sprechenden N Werte von Pi, j). Werden dagegen einige der N Werte für u gruppenweise gleich zroß, dann wird die Zahl der verschiedenen Werte, welche n dann annehmen kann, kleiner als N, z. B. M. Die Wahrscheinlichkeit Jafür, daß u einen gegebenen von den M verschiedenen Werten, welche in diesem Falle im ganzen vorkommen werden, annimmt, wird indes, infolge des Satzes über die Addition der Wahrscheinlich- 206 keiten, dann die Summe aller derjenigen Wahrscheinlichkeiten P(i, j), welche nach der Korrelationstabelle den Wertepaaren (Xi, Yı), welche den gleichen Wert für u (x, y) ergeben, entsprechen, so daß also die Kenntnis der Korrelation zwischen x und y auch in diesem Falle die Wahrscheinlichkeit dafür bestimmt, daß u (x, y) einen gegebenen der M verschiedenen Werte annimmt. Wir gelangen also zu folgendem Satze: Um das Ver- teilungsgesetz für eine durch zwei zufällig varlierende Größen x und y bestimmte Größe u (x, y) zu finden, ist es notwendig, aber auch ausreichend, die Korrelation zwischen x und y zu kennen. Aufgabe 30. x und y bezeichnen die Anzahl Müllerscher Drüsen an jeweils rechten und linken Vorderbeinen der Schweine (vgl. 8 133); es ist zu unter- suchen, welche Werte u, = x + y und u, =X—Yy überhaupt annehmen können, und mit Hilfe der Korrelationstabelle für x und y (Tabelle 26) das Verteilungs- gesetz für die Totale der Drüsen (u,) am selben Tiere und das Verteilungsgesetz für den Unterschied (u,) zwischen der Zahl der Drüsen am rechten und linken Beine zu finden. 136. Wenn wir uns ständig die Korrelation zwischen X und y als gegeben denken und uns damit nach vorstehendem Satze auch das Verteilungsgesetz für irgendeinen Ausdruck u (x, y) als bekannt vorstellen können, dann können wir nunmehr auch von der Er- wartung E(u) für u (x, y) reden; ist nämlich das Verteilungsgesetz für u bekannt, dann läßt sich E (u) unmittelbar mit Hilfe der Defini- tion der Erwartung finden. Indes kann man ebensogut E (u) wie die Summe der m + n Produkte u(z, y) PG 3) oder, wie wir kurz schreiben können, Eu = u-PGj bestimmen. Hieraus folgt, daß die Erwartung E (u) für irgendeinen durch x und y bestimmten Ausdruck u (x, y) im allgemeinen ebensowenig wie das Verteilungsgesetz für u ohne Kenntnis der Korrelation zwischen x und y festgestellt werden kann. Aufgabe 31. Finde mit Hilfe der Korrelationstabelle (Tabelle 26) das Verteilungsgesetz für das Produkt u= X + V und danach bei dieser Verteilung die Erwartung E (u). 137. Indes gibt es hiervon eine wichtige Ausnahme; ist näm- lich u(x, y) ein „Polynomium ersten Grades“ von x und y, d. h. daß u (x, y) = a + bx + 0y, wo a, b und c Konstanten sind, also Zahlen, deren Wert nicht von x und y abhängt, so wird der Wert von E (u) allein durch E (x) 207 und E (y), also ohne Kenntnis der Korrelation zwischen: x und y bestimmt werden können, da E (x) und E (y) sich allein mit Hilfe ler marginalen Verteilungen feststellen lassen. Wird zuerst der einfache Fall betrachtet, wo u (x, y) = X + Y, dann hat man, um E(x+y) zu finden, sämtliche n - m Summen Xi + y;) mit ihren entsprechenden Wahrscheinlichkeiten P (i, j) zu multiplizieren und die Resultate zu addieren. Dies kann geschehen, indem zuerst die Summe Aausden m-n Produkten x P (i, ) ınd danach die Summe B aus den m - n Produkten Yi® P G, ) gefunden und dann A und B zusammengelegt werden. Da nun die Summe aller Wahrscheinlichkeiten P (i, j), welche in der Korrelationstabelle in derselben Reihe stehen, ohne Rücksicht auf die Beschaffenheit der Korrelation gleich p; (vgl. das Obige) ist und dem gleichen Werte von x: entspricht, werden die einer solchen Reihe in der Korrelationstabelle entsprechenden Produkte x; P (i, j) die Summe X; Di erhalten. Für die Summe A bekommt man also A = 3 xp: = E (x). Bei einer ganz entsprechenden Betrachtung ergibt sich, daß B=Zy;i q=E(y) so daß Ex+y)=A+B=E(x)—+E(y) wird. Bei der Ableitung dieses Satzes ist nichts hinsichtlich der Kor- relation zwischen den Größen x und y vorausgesetzt worden. Der Satz läßt sich daher auch unmittelbar auf eine willkürliche endliche Zahl von Addenden erweitern. Denn aus (X +y +2) = E((x + y) + z)) = E(x + y) + E(z) folgt, daß E (x + y + z) = E (x) + E(y) + E(z), and so kann man fortfahren. Erinnert man sich nun, daß, wie oben erwähnt, E(k-x)=Kk. E(x), 208 wo k eine Konstante ist, so erhält man demnach folgenden all- gemeinen Satz: Die mehrgliedrige Größe X—atbrkHey+dz-—..... wo a, b, c und d gegebene Zahlenkoeffizienten, während x, y und z zufällig variierende Größen sind, ist selbst eine zufällig variierende Größe, deren Verteilungsgesetz nicht ohne weiteres mit den Ver- teilungsgesetzen für x, y und z gegeben und daher im allgemeinen unbekannt ist, wenn nichts anderes vorausgesetzt oder gegeben ist: die Erwartung für X ist jedoch ohne Rücksicht hierauf E(X)=a+b-Elz)+c-E(y)+d-E(@z)..... 138. Um ein Beispiel für die Anwendung dieses Satzes zu geben, können wir zu dem oben ($ 123) behandelten Falle zurück- kehren, wo x die Anzahl weißer Kugeln (0 oder 1) bedeutet, welche man bei einer einzelnen Ziehung aus einem Beutel mit weißen und roten Kugeln erhält, von denen der Bruchteil p weiß, der Rest 1—p=d rot ist. Wir fanden hier, daß E (x) = p. Fragt man, wie groß die Erwartung ist, wenn x die Zahl der bei n Ziehungen erhaltenen weißen Kugeln bedeutet, dann ist die Antwort infolge des‘ gefundenen Satzes E (X) = np, also diejenige Zahl, um welche die Resultate aus wiederholten Versuchsreihen schwingen werden ($ 119); denn die zufällig varlierende Größe, von der hier die Rede ist. ist X=xy tz. Am wo x, die Zahl der im ersten Zuge erhaltenen weißen Kugeln (0 oder 1), x, die Zahl der bei der zweiten Ziehung erhaltenen (0 oder 1) usw. bedeutet. Man erhält also EX)=p+?+p+...-.. + p(n Addenden) = np. Diese Antwort ist dieselbe, einerlei, ob die entnommenen Kugeln nach jedem Zuge vor einer nächsten Ziehung in den Beutel zurück- gelegt werden oder nicht (eventuell stellt man sich auch die Kugeln als auf einmal hintereinander gezogen vor). Wollte man die erfragte Erwartung direkt mit Hilfe der De- finition finden, so müßte man zwischen den vielen verschiedenen Arten, auf die sich die Kugeln ziehen ließen, unterscheiden. Die Grenzfälle bilden hier die zwei Fälle ($8 96 und 103), in denen die Wahrscheinlichkeit dafür, gerade r weiße Kugeln !zu erhalten, wie im Vorhergehenden erwähnt, jeweils - al 20 ME ID }p . ınd st. Aus diesen Ausdrücken kann man allerdings finden, daß E (x)= 3r-pr=np Ex) = Zr-z =2p. Es ist indes nicht bloß leichter, den gefundenen Satz anzu- wenden, sondern das Resultat np kann außerdem ohne jegliche Voraussetzung darüber gewonnen werden, in welcher Weise die Werte, welche die einzelnen Addenden in der Summe = Fe + Xn annehmen, als voneinander abhängig (korreliert) gedacht werden zönnen. Ein weiteres Beispiel ist die bereits im S 127 gezeigte Anwendung. Aufgabe 32. Finde mit Hilfe der marginalen Verteilungen in der Tabelle 26 die Erwartungen für die Anzahl von Müllerschen Drüsen, getrennt fürs rechte und linke Vorderbein, E (x) und E (y) und danach die Erwartung für die Gesamt- zahl der Drüsen jedes Tieres, und weise nach, daß das Resultat mit demjenigen, welches bei direkter Benutzung des in der Aufgabe 30 erwähnten Verteilungs- gesetzes für u, = x + y gefunden wird, übereinstimmt. Weise bei dem in der Aufgabe 31 gewonnenen Resultat nach, daß E (x - y) lagegen nicht als E (x) - E (y) gefunden werden kann. Aufgabe 33. Wenn x die Gesamtzahl der bei einem Wurf mit n guten Würfeln erhaltenen Augen bedeutet, ist die Erwartung E (x) zu finden. Aufgabe 34. Aus einer Tabelle, welche die Verteilung der Getrauten nach dem Heiratsalter des Bräutigams und der Braut angibt, sind die relativen Fre- Juenzen für Bräutigame und Bräute in verschiedenen Altersklassen zu berechnen, Während die gefundenen Häufigkeiten als Ausdruck für die Wahrscheinlichkeit jenutzt werden, daß ein Bräutigam resp. eine Braut ein’ gegebenes Alter hat. sind lie Erwartungen festzustellen für l. das Alter des Bräutigams, 2. das Alter der Braut, 3. den Altersdurchschnitt der Getrauten, kt, den Altersunterschied zwischen Bräutizam und Braut. 139. Die Erwartung E(x-y) für das Produkt x - y läßt sich lagegen im allgemeinen nicht ohne Kenntnis der Korrelation zwischen <t und y (vgl. Aufgabe 32) finden. Dasselbe gilt natürlich hinsicht- Westergaard und Nyboelle, Theorie der Statistik, 2. Autl. 210 "Az — lich der Erwartung für das Produkt (x — k) (y — c), wo k und c willkürliche Konstanten sind, und für das Produkt der Potenzen von (x — k) und (y — ©), also z. B. hinsichtlich der Erwartung E (x —})*- (y— 0) d. h. der Größen Mag = 3 (xi — k)* (yıi— 0° + PG, }). Diese Größen heißen Momente der Korrelation um k und c; ist entweder ß oder « gleich Null, so werden diese Momente gerade gleich den Momenten der marginalen Verteilungen um jeweils k und c, und diese können natürlich ohne Kenntnis der Korrelation bestimmt werden. Man nennt sie oft kurz marginale Momente um k (resp. c) zum Unterschied von den gemischten Momenten um k und c, die man erhält, wenn sowohl « und 8 größer als Null sind, und welche nicht ohne Kenntnis der Korrelation bestimmt werden können. Wie bei den eindimensionalen Verteilungsgesetzen spielen die Momente des zweidimensionalen Verteilungsgesetzes eine bedeutende Rolle in der Statistik. Dies gilt namentlich hinsichtlich der Momente der Abweichungen, d. h. der Momente um die Erwartungen sı = E(x) und t; = E(y), welche Momente mit Mas = 3 (zı — sı)* (yı— t)“ + PGO, 3) bezeichnet werden, und hinsichtlich der Potenzsummen des zweidimensionalen Verteilungsgesetzes, d. h. der Momente um k=0 und c=— 0, welche mit se =3x1-yf PO) bezeichnet werden, und von denen wir im folgenden der Kürze halber sıo mit s, und so, mit t, benennen. Wie bei dem eindimensionalen Verteilungsgesetz, So bestehen zwischen diesen verschiedenen Arten von Momenten gewisse Re- lationen, welche es ermöglichen, die Momente um ein beliebiges Zahlenpaar zu finden, sobald die Momente um ein gegebenes Zahlen- paar bekannt sind. Für die marginalen Momente sind diese Re- lationen natürlich dieselben, welche oben für jedes eindimensionale Verteilungsgesetz entwickelt sind, und für die gemischten Momente findet man diese Relationen in genau entsprechender Weise, indem man (x — k)* (y — c)* ausrechnet, das erhaltene Polynomium mit P (i, j) multipliziert und die Produkte addiert. 211 140. Beschränken wir uns hier darauf, die 5 Momente 1. oder 2. Ordnung, nämlich My M,o Mi: Moe zu betrachten, so sind die 4 von diesen marginal und nur eins ist zemischt. Von den zwischen den Momenten bestehenden Relationen brauchen wir uns daher nur mit dem gemischten Moment 2. Ord- aung zu befassen, welches, wie folgt, gefunden wird: Mu = E((x— |) (y—c)= Z(x—k) (5 —0)-PG j). Da nun (X—k) (y— cc) = 7”v— 0X — ky +kc, Moı wird Mu = E(x, y) — c E(x) — kE(y) + ke. Man hat also Mi = 81 — cs, — kt, +kc, welches auch folgendermaßen geschrieben werden kann: Mu= Su —8Si cc h+8— KG —0)........ (Ta). Hieraus läßt sich M,, finden, wenn die Potenz- Summen (die Momente um 0,0) bekannt sind: für k=0 und = 0 ergibt sich natürlich Mı: = S1- Wird k==s8, und c==t, gesetzt, dann erhält man die Momente der Abweichungen, für m; also OD = Si — Sch ee .... (Ib). Sind dagegen die Momente um k und c bekannt, so findet man aus derselben Gleichung, indem diese hinsichtlich S11 gelöst wird, daß 51 = Mi — My Ma + (My +) (Ma +0).... (IIa), la Mia= Si —k und Mn = bt — C, woraus wiederum Du = Mir — Mi Ma-......... (Ib) folgt. Obgleich die Größe von My, M,o und M,;1 von k und c ab- hängig ist, gehen k und c gar nicht in diese Formel ein. Sie hat also genau dieselbe Eigenschaft wie diejenige (IIc), welche bei der °indimensionalen Verteilung für HU’ = m, = M, — M;? zefunden wurde, Man bekommt daher auch hier denselben Wert ‘ür m,,, einerlei, ob man die Korrelation zwischen X und y oder zwischen x+Kk und y—+c betrachtet; man sagt kurz, daß mı,; 11* 212 unabhängig vom Nullpunkt ist für die Zahlen, welche die Größe von x und y angeben. 141. Werden statt x und y die Größen kx und cy (wo k und c Konstanten sind) betrachtet, so erhält man für m, eine Zahl, welche kc Male so groß ist; dagegen wird der sogenannte Korrela- tionskoeffizient, welcher durch r— Au U; Mo bestimmt wird, wo 41 und u, die Streuungen in den marginalen Verteilungen sind, seinen Wert unverändert durch diese Änderung behalten, da auch das Produkt 4, + MM dabei kc Male so groß wird. Der Korrelationskoeffizient r ist somit unabhängig sowohl vom Nullpunkt wie von der Einheit derjenigen Zahlen, durch welche die Größe von x und y ausgedrückt wird. Er kann positiv oder negativ sein, sein numerischer Wert kann jedoch niemals größer als 1 sein. Hinsichtlich der 3 Momente zweiter Ordnung, Moos Mıy, Moz läßt sich nämlich beweisen, daß Mo * Moz — mM? > 0 ist, woraus folgt, daß = mn“ — An) <1. UL“ * U Mo * Moz Denkt man sich, um dies einzusehen, sämtliche m-:n= N Wahrscheinlichkeiten P (i, j) fortlaufend von 1 bis N numeriert, so erhält man m = Pi: a,” Mo — SP; bi? m = 3P; ai bi, wo a; und b; die Abweichungen a=zı—s8s, und b = yı—t bezeichnen. Die Summe derjenigen zwei Glieder im Produkt m,o - moz, welche man teils durch Multiplikation des Gliedes Nummer i in m, mit Glied Nr. j in mo, teils durch Multiplikation des Gliedes Nummer j in ma mit Glied Nr. i in mo, erhält, wird nun Pi P; (ai? b;? + a;” bi”), während die Summe der zwei entsprechenden Glieder in m * 92 P: P; a: b; a; bi; ergibt. 213 Die Differenz zwischen m,2 - mo und m? wird also aus Gliedern zusammengesetzt werden können, welche alle die Form P; P; (ai b; — a: bj)? haben, und da keins dieser Glieder negativ werden kann, muß Moog * Mo — m? =0 sein. Es wäre denkbar, daß alle Glieder P; P; (ai bj — a; bi)? gleich Null würden, also r? = 1 wäre. Dies kann indes nur dann ge- schehen, wenn sämtliche Abweichungen a; und b; proportional sind, also wenn yYıi— tt =K- (zi— s;) ist, und es würde dann einem gegebenen Werte von x; von x nur ein Wert von y, nämlich yı=t; + Kk (x; — sı) entsprechen, und die durch x; bedingte Wahrscheinlichkeit, y; zu erhalten, müßte dann 1 sein; hieraus folgt wiederum, daß die Wahrscheinlichkeit, x; und yı=-t, +Kk (xi —s,) (die marginalen Verteilungen) zu er- halten, dieselbe sein muß, und daß es sich nicht länger um Größen, welche im eigentlichen Sinne korreliert sind, sondern um lineär voneinander abhängige Größen handelt. Es ist der Mühe wert zu bemerken, daß wir bereits im Vorher- zehenden ($ 124) von diesem speziellen Falle Gebrauch gemacht haben, indem wir bemerkten, daß das Verteilungsgesetz für die Größen x + Kk und c-x und damit auch für cx -+ k dasselbe wie für x sein müsse. Für solche lineär voneinander abhängige Größen wird der Korrelationskoeffizient + 1 sein, je nachdem c positiv der negativ ist. Da die Bedingung dafür, daß r? = 1, nach dem Vorhergehenden auch notwendig ist, wird der numerische Wert von Korrelationskoeffizienten für Größen, welche zwar direkt, jedoch nicht lineär voneinander abhängig sind, nicht gleich 1 werden können. Als Beispiel solcher Größen können die zufällig variierende Größe x und die im Vorhergehenden betrachteten Potenzen der Abweichungen X — 8,)* erwähnt werden, welche Größen direkt voneinander ab- hängig sind und dasselbe Verteilungsgesetz haben, deren ent- sprechender Korrelationskoeffizient jedoch numerisch kleiner als 1 werden muß. Daß der Korrelationskoeffizient kleiner als 1 ist, schließt also aus, daß x und y lineär abhängig sind, nicht aber, daß sie in anderer Weise direkt voneinander abhängig sein können. 142. Hinsichtlich des Korrelationskoeffizienten gilt ferner, daß er gleich Null wird, wenn x und y unkorreliert sind; unter dieser Voraussetzung kann man nämlich beweisen. daß 214 Mıı > My ” Mey) folglich m = My; — Mu Mo = 0 und damit auch r = 0 ist. Da man in diesem Falle PG, j) = Di * dj hat und M,, daher die Summe der n - m Addenden pi+ Q; (Xi — ©) (yi — 0) ist, so kann man diese Summe finden, indem zuerst alle den einzelnen Reihen der Korrelationstabelle entsprechenden Glieder und danach diese Resultate addiert werden. Bei den Gliedern, welche einer Reihe in der Korrelationstabelle entsprechen, kann indes pi (Xi — k) aus der Klammer genommen werden, und da die Summe der m Glieder in dieser Klammer Sai (yı— 0) = Mo wird, ergibt die Summe der Glieder in einer Reihe Mo + Du (Zi — |). Werden diese Resultate aus jeder Reihe addiert, dann erhält man My = My 3pi (zi— k) = My Mo: Es muß bemerkt werden, daß die Bedingung, daß x und y un- korreliert sind, zwar dazu genügt zu bewirken, daß der Kor- relationskoeffizient = 0 wird, daß sie jedoch nicht notwendig ist, so daß also der umgekehrte Satz nicht unbedingt richtig ist. Man kann daher nicht aus dem Umstande allein, daß my = 0 und damit r = 0 ist, im allgemeinen darauf schließen, daß x und y unkorreliert sind (vgl. 8 145). 143. Dagegen kann man in einer weit wichtigeren Verbindung vom Korrelationskoeffizienten Gebrauch machen. Angenommen, wir kennen für zwei korrelierte Größen x und y die Streuungen u, und 4 in den marginalen Verteilungen sowie den Korrelationskoef- fizienten r. Man kann dann folgendermaßen die Streuung u im Verteilungsgesetz für u = x + y finden: Da die Erwartung für u E (u) = E (x) +E(Y) = + 4; wird die Abweichung ; a = (x — 8) + (y — &) und ihr Quadrat also Rz — A y— +2 (x — 8) (Y— t1). 215 Als Erwartung für diese Größe erhält man also E(a%= M- = Mo + Mor + 2m. ;. Da nun Mag = Noa = Wo? und My = TU Lo, wird u = Yu? + ug? + Qu Wi. Wenn wir uns vergegenwärtigen, daß die Streuung für k-x gleich dem k-fachen der Streuung für x ist, und daß r seinen Wert unverändert behält, selbst wenn x und y mit willkürlichen Kon- stanten multipliziert werden, so erhält man hieraus das mehr all- zemeine Resultat, daß die Streuung für das Polynomium erster Ord- ıung u=ax-+by-+c, u = Ya? u,?+ib? wu? + 2 abr u, u wird. Um die Streuung im Verteilungsgesetz für u=ax+by-+c zu finden, braucht man also keine andere Kenntnis der Korrelation zwischen x und y als die mit dem Werte von r gegebene. 144. Die gefundene Formel dient nun nicht bloß dazu, w zu finden, wenn /4,, 4, und r gegeben sind; ist die Korrelationstabelle zegeben, so kann man, wie oben bemerkt, aus dieser Tabelle direkt das Verteilungsgesetz z. B. für u = x -+y finden. Bestimmt man nun in gewöhnlicher Weise die Streuung wu in diesem Verteilungs- zesetz sowie die Streuungen 4, und u, in den marginalen Ver- teilungen, so bekommt man den Koeffizienten r aus der Formel H ua? + ZUG Lo, — 1.3? —A4 Hg ergibt, woraus man weiter schließt, daß Dr = 410 = 3 (U? — 44? — 827). 51 =D TS Mu= 84 — St + (81 — 5) (ti — 0). Diese Methode wird im allgemeinen zur Bestimmung des Kor- relationskoeffizienten und der gemischten Momente die bequemste sein, da diese Größen sich dadurch wie die marginalen Momente allein durch die Bestimmung der Momente in einfachen, eindimen- sionalen Verteilungen finden lassen. Aufgabe 35. Bestimme mit Hilfe der Streuung in den marginalen Ver- ‚eilungen und im Verteilungsgesetz für (x + y) in dem in der Tabelle 26 ge- nannten Falle den Korrelationskoeffizienten für die bei der Tabelle gegebene 216 Korrelation. Finde danach mit Hilfe von r die Streuung im Verteilungsgesetz für die Differenz 2x — J. Aufgabe 36. Wenn man unter x und y jeweils das Alter des Bräutigams und der Braut am Zeitpunkte der Trauung versteht, hat man nach dänischen Erfahrungen!) in den fünf Jahren 1911—15 eine Erwartung für x von 29,0 Jahren für y von 25,7 „, während die Streuung im Verteilungsgesetz für x... 7,45 Jahre für y... 6,10 „ wird. Wenn man nach denselben Erfahrungen feststellt, wie sich die getrauten Paare nach Altersunterschied (x—y) zwischen Bräutigam und Braut verteilen, dann findet man, daß die Streuung im Verteilungsgesetz für (x — y) 6,02 Jahre wird; wie groß ist hiernach der Korrelationskoeffizient für die Korrelation zwischen x und y? Wie groß wird die Erwartung für den Durchschnitt aus dem Alter von Bräutigam und Braut, und wie groß wird die Streuung im Verteilungsgesetz für diesen Durchschnitt? 145. Wenn x und y korreliert sind, können die durch die ver- schiedenen möglichen Werte von x, resp. von y bedingten Ver- teilungsgesetze für y, resp. x, nämlich q;(i) resp. pi(j), welche durch die Wahrscheinlichkeiten in den verschiedenen Reihen resp. Kolonnen der Korrelationstabelle dargestellt werden, nicht alle gleich sein; sie müßten in dem Falle nämlich alle der marginalen Verteilung für y resp. x analog sein, und x und y wären dann un- korreliert. Diese bedingten Verteilungsgesetze können denn auch im allgemeinen nicht Momente untereinander gemeinsam und speziell nicht mit den Marginalverteilungen gemein haben. Da wir uns hier darauf beschränkt haben, allein die Momente erster Ordnung (speziell die Erwartung) und zweiter Ordnung (speziell das Quadrat der Streu- ung) zu betrachten, so muß erwähnt werden, daß die Verschiedenheit der bedingten Verteilungsgesetze nicht mit N otwendigkeit die Ver- schiedenheit ihrer Momente erster und zweiter Ordnung mit sich führt, selbst wenn dies auch das Gewöhnliche sein wird; wie es sich denken läßt, daß die untereinander verschieden bedingten Ver- teilungsgesetze wohl dieselbe Erwartung, aber verschiedene Streuung geben können, ist es auch denkbar, daß sie alle sowohl gleiche Erwartung als auch gleiche Streuung ergeben und daß die Ver- schiedenheiten erst dann merkbar werden, wenn man die Momente höherer Ordnung berechnet. v0) Statistisk Tabelvzerk, Litra A Nr. 13. Agteskaber, Fodte og Dode 217 Die Momente der bedingten Verteilungsgesetze können wir kurz als die bedingten Momente bezeichnen. Wir beschränken uns hier darauf, allein die durch y; und x; bedingten Erwartungen s; (j) und t, (1) für x und y zu betrachten. Werden nach und nach die Xız Kay Xg » » 0 + Kiss as An entsprechenden bedingten Ewartungen für y 0, 40, .... 400)... tn) berechnet und zusammengehörende Werte von x; und t, (i) in ein rechtwinkliges Koordinatensystem bzw. als Abszissen und Ordinaten eingetragen, dann erhält man eine Reihe von (insgesamt n) Punkten; falls x und y unkorreliert wären, würde t,(i) für alle Werte x; den- selben Wert bekommen (konstant sein), und die entsprechenden Punkte würden dann alle auf derselben mit der Abszissenachse pa- rallelen (wagerechten) Geraden liegen. Wie oben bemerkt, kann dies in speziellen Fällen das Resultat werden, auch wenn x und y korreliert sind; gewöhnlich werden jedoch dann die Punkte in verschiedener Höhe über der Abszissenachse liegen. Hat man die Korrelation durch 2>ine Korrelationsformel ausgedrückt, dann läßt sich die Gleichung für die Kurve finden, auf der alle n Punkte gelegen sind. Diese Kurve heißt die Regressionskurve für x; indem umgekehrt die y; entsprechenden bedingten Erwartungen s; (j) berechnet und y; und 5, (D) nun bzw. als Ordinate und Abszisse abgetragen werden, kann man die Regressionskurve für y berechnen. Aufgabe 37. Finde die Regressionskurven für x und y aus der in der Tabelle 26 gegebenen Relation zwischen x und y. Die Regressionskurven werden in vielen Fällen gerade Linien sein oder mit hinlänglicher Annäherung als Geraden betrachtet werden können; man spricht dann von einer Korrelation mit geradliniger Regression, welche in mancher Beziehung einfacher als eine Kor- relation mit krummliniger Regression zu behandeln ist. Ein besonders einfaches Beispiel der Korrelation mit geradliniger Regression hat man, wenn sämtliche bedingten Verteilungsgesetze pi (j) und q; (i) entweder Exponentialgesetze sind oder mit Annäherung als exponentiell betrachtet werden können, in welchem Falle man von einer normalen Korrelation spricht. Wenn die Korrelation nor- mal ist, wird die Kenntnis der Größe des Korrelationskoeffizienten sowie der marginalen Verteilungen (welche dann selber Exponential- gesetze werden) allein zur Bestimmung der ganzen Korrelations- 218 tabelle ausreichen, wenn r=0, dann kann man ebenfalls schließen, daß x und y unkorreliert sind (vgl. $ 142); in anderen Fällen muß entweder eine normale Korrelation vorausgesetzt werden, oder es muß mehr gegeben sein, falls man die Korrelation kennen soll. 146. Auf diese Verhältnisse wie auf eine weitere Beschreibung der Lehre über die Korrelation für zwei oder mehr Größen dürfte es hier nicht notwendig sein einzugehen. Überhaupt sind bei der Korrelationstheorie keine Prinzipien eingeführt worden, die nicht im voraus die Grundlage der Wahrscheinlichkeitsrechnung bildeten. Wenn sich zwei Größen x und y nach genügend umfangreichen Er- fahrungen als korreliert erweisen, wird dieses Verhältnis im all- gemeinen darauf deuten, daß unter den Ursachen, welche den Aus- fall der einzelnen Beobachtungen beeinflussen, ein größerer oder kleinerer Teil sein wird, welcher beiden Beobachtungsreihen gemein ist.. Die Möglichkeit, die Art dieser Ursachen feststellen zu können, gestaltet sich bei Korrelationsuntersuchungen im wesentlichen so wie bei anderen Untersuchungsformen. Oft wird man nicht im Zweifel sein; aber mitunter kann man es höchstens wahrscheinlich machen; daß gewisse unbekannte Ursachen zur Erzielung der gefundenen Resultate mitwirken müssen. Eine große Menge von Aufgaben kann oder muß außerdem be- handelt werden, ohne daß anscheinend direkt von der Lehre der Korrelation Gebrauch gemacht wird. Speziell sei bemerkt, daß der Korrelationskoeffizient, wie erwähnt, nur ausnahmsweise die Kor- relation zwischen zwei Größen vollständig beschreiben kann, und es wird dann oft leichter oder sogar besser sein, sich zur Korrelations- tabelle selber zu halten und durch die Mittel, welche zu dem Zweck beschafft werden können, direkt zu untersuchen, wie sich Z. B. die bedingten Verteilungsgesetze, welche durch die Reihen und Kolonnen der Korrelationstabelle hergestellt werden, verändern, wenn ent- weder x; oder y; sich verändern. Dies bleibt sogar der einzig mög- liche Weg, wenn z.B. die eine der Eigenschaften oder das eine der Kennzeichen, für welche x und y Ausdrücke sind, überhaupt nicht zahlenmäßig ausgedrückt werden können. Teilt man z.B. die im Laufe von fünf Jahren verheirateten Frauen (außer nach dem Alter bei der Trauung) nach dem Zivilstand des Bräutigams vor der Trauung statt nach dem Alter des Bräutigams im Augen- blick der Trauung, dann wird die Wahrscheinlichkeit, daß die Braut ein gegebenes Alter y hat, (ebenso wie früher vom Alter des Bräutigams) jetzt davon abhängig Sein, ob der Bräutigam „bisher 219 — ınverheiratet“ oder „vorher verheiratet“ ist, ohne daß man in solchem Falle dieser Abhängigkeit in derselben Weise wie bei einer Teilung nach dem Alter des Bräutigams Ausdruck verleihen kann. Während es daher, wie bereits oben ($ 100) betont, von Bedeutung ist, darauf aufmerksam zu sein, ob zwei oder mehrere Begebenheiten korreliert sind, und auf die Möglichkeit, dies nachweisen und den Ursachen dazu nachspüren zu können, achtzugeben, kann es sehr verschiedene Wege geben, auf denen man die Lösung dieser Aufgaben versuchen 7ann. F. Unkorrelierte Größen. 147. Die wesentlichste Bedeutung des Korrelationskoeffizienten liegt nach Obenstehendem darin, daß man keiner anderen Kenntnis der Korrelation als der durch den Korrelationskoeffizienten aus- gedrückten bedarf, wenn man die Erwartung s,, für das Produkt der beiden korrelierten Größen x und y oder die Streuung u im Verteilungsgesetz für ein Polynomium ersten Gradesaus x und y u=2ax + by -+c) berechnen will. Während sich die Erwartung für ein solches Polynomium ohne irgendwelche Kenntnis zur Korrelation ($ 137) finden läßt, ergibt sich, wie oben ($ 144) er- wiesen, daß Ex: )Y)=S1=D4 +8, 4 = 46 + SEAT und ($ 143) daß man für die Streuung im Verteilungsgesetz für u arhält: u? = a’? + bay? + Zabruy us. Es geht hieraus hervor, daß, wenn r==0, die Erwartung für das Produkt xy ganz einfach das Produkt aus der Erwartung E(x) = s, für x und der Erwartung E(y)=t, für y ist, ferner daß die Streuung im Verteilungsgesetz für u = ax + by u=V at? + b?u,? wird. Speziell sei bemerkt, daß die Streuung für die Summe x + y und für die Differenz x — y in diesem Falle genau die gleiche wird. nämlich u= Yan? + po? Aufgabe 38, Man hat zwei Beutel, A und B, mit weißen und roten Kugeln; in A ist die Hälfte, in B sind zwei Drittel der Kugeln weiß. A werden 3, B 6 Kugeln entnommen, und zwar so, daß eine gezogene Kugel nach No- ierung der Farbe vor der nächsten Ziehung in den Beutel zurückgelegt wird. Die Zahl der A entnommenen weißen Kugeln heißt x, die Zahl der B entnom- 220 — menen y. Unter der Voraussetzung, daß x und y unkorreliert sind, ist eine Tabelle zu berechnen, welche für alle möglichen Werte von x und y die Wahr- scheinlichkeit dafür angibt, x weiße Kugeln aus A und y weiße Kugeln aus B zu bekommen. Stelle danach die Verteilungsgesetze für (y + x) und (y — x) auf und beweise, daß sie gleich sein müssen. 148. Hat man eine vielgliedrige Größe X=axz+by+62+...-. wo X, y z usw. zufällig varlierende Größen sind, welche ganz oder annähernd als voneinander unabhängig betrachtet werden können, so folgt aus dem Vorhergehenden, daß X selber eine zufällig vari- jerende Größe sein wird mit der Erwartung E(X)=a-E@ +b-E+CcC: EZ) ...0.0.0000409 während die Streuung im Verteilungsgesetz für x sein wird: u= Ya? + bu? + Au? + . Ver WO Mı, Ma, Es + + +. die Streuung im Verteilungsgesetz für jeweils X, Y, Zz sind. Ist speziell a=b=c....= 1, so daß X=x+Jy+z+..- so ergibt sich, daß die Streuung im Verteilungsgesetz für eine Summe von zufällig und voneinander unabhängig variierenden Größen u = Yaz? + wm? + us? ..... Wird. 149. Mit Hilfe dieser Formeln kann man auch sofort die Er- wartung und Streuung für eine Summe oder ein Polynomium mit willkürlich vielen Gliedern finden, wenn die entsprechenden Größen für jedes dieser Glieder bekannt sind und die Glieder als von- einander unabhängig betrachtet werden können; der mit den De- finitionen Ss, = E(X)= 3X;P, und u? = 3(X, — 8)? Pi angewiesene direkte Weg verlangt dagegen, daß das Verteilungs:- gesetz, P;, für X zuerst bestimmt wird. Diese Bestimmung ist, selbst in dem hier betrachteten Falle, wo sämtliche Glieder als unkorreliert gedacht sind, in der Regel sehr beschwerlich und erfordert meist mathematische Hilfsmittel, welche nicht als elementar bezeichnet werden können. Da wir im folgenden zu dieser Frage zurückkehren ($ 166 ff.), so seien hier vorläufig nur die Verteilungsgesetze für eine Summe von Größen betrachtet, deren jede einem Binomialgesetz, d. h. den Verteilungsgesetzen folgt, die bei den Erfahrungen aus den Glückspielen, welche im Vorher- gehenden ausführlich behandelt worden sind, gefunden wurden. 221 Bezeichnet x die Anzahl weißer Kugeln (0 oder 1), welche man erhält, wenn 1 Mal aus einem Beutel mit pN weißen und qN roten Kugeln gezogen wird, so nimmt x mit den Wahrscheinlichkeiten P: 7 Pı = PD die Werte X; — 0 1 Xa — an, und die Erwartung für x wird, wie oben ($ 123) gezeigt, E (x) = p. Die Abweichungen werden hiernach a=0—p=-—Pp ud 4 =1—p=4q, so daß man zur Bestimmung der Streuung m, = E(a)= 31? -q + a?-p = pDg, also u = Vm, = Vpq erhält (vgl. Aufg. 26). Zieht man nun n Male (wirft mit n Münzen, Würfeln usw.) und nennt man die Anzahl weißer Kugeln, welche man insgesamt erhält, X. dann wird, wie oben ($ 138) erwähnt, TFT X X. entweder 0 oder 1 ist, so daß E (X) = np. Denkt man sich jede gezogene Kugel vor einer nächsten Ziehung in den Beutel zurückgelegt, so daß die Wahrscheinlichkeit, eine weiße Kugel zu erhalten, von Versuch zu Versuch unverändert pP ist, dann wird die Streuung im Verteilungsgesetz für X u=)|pq- + pq... (n Add.) = Ynpa. Da die Streuung in dem binomialen Verteilungsgesetz, wie bereits oben ($ 128) erwähnt, genau dieselbe wie der mittlere Fehler dieses Verteilungsgesetzes ist, so wird im folgenden — in Übereinstimmung mit dem auf diesem Gebiete üblichen Sprachgebrauch — denn auch nicht zwischen den Ausdrücken Streuung und mittlerer Fehler (vgl. S5 125) unterschieden werden. Es sei bemerkt, daß das auf empirischem Wege gefundene Quadratwurzelgesetz (vgl. $ 82) eine einfache Folge aus dem Satze über den mittleren Fehler (Streuung) im Verteilungsgesetze für eine Summe zufällig und unabhängig voneinander variierender Größen ist. Werden nämlich zwei Gruppen zu je n Beobachtungen zu einer Gruppe vereinigt, dann wird das Verteilungsgesetz für die Zahl der zünstigen Ereignisse in einer solchen Gruppe den mittleren Fehler 222 Yapa + npa = V2-Vnpq erhalten, welches also nicht zwei, sondern nur V2 Male und V3, V4 usw. Male, wenn 3, 4 oder mehr Gruppen zusammengelegt werden. Bei der Behandlung von Glückspielen wurde ferner festgestellt, daß man, wenn die Abweichungen mit dem mittleren Fehler ge- messen wurden, stets denselben Prozentsatz von Gruppen innerhalb eines gegebenen Spielraums fand, einerlei welche Werte n, p und q auch hatten, und daß dieser Prozentsatz im allgemeinen mit guter Annäherung durch das Exponentialgesetz (Tabelle 22) bestimmt werden konnte. Dieses Resultat kann daher jetzt in folgendem wichtigen Satze ausgedrückt werden: Wenn x exponentiell um die Erwartung s,' mit einem mittleren Fehler von u; und y exponentiell um die Erwartung sı” mit dem mittleren Fehler wu schwingt, dann wird, wenn X und y als un- korreliert betrachtet werden können, X -+Y exponentiell um Ss, = sı' + sı" mit einem mittleren Fehler von u — Yıı? + u? schwingen, und x — y wird ebenfalls exponentiell um d = 8ı' — s,” mit dem- selben mittleren Fehler schwingen. 150. Als Beispiel einer Anwendung dieses Satzes geben wir unsere obigen ($ 121) Betrachtungen, wo eine Bevölkerungsgruppe von 100000 Personen in zwei Gruppen, in eine von 80000 mit einer Sterblichkeit von 1 Proz. und in eine andere von 20000 mit einer Sterblichkeit von 10 Proz. zerlegt werden konnte; bezeichnet man die Zahl der Sterbefälle in jeder dieser Gruppen mit x und y, dann werden x und y um s,’ = 800 und s;” = 2000 mit einem mittleren Fehler von der Größe — 99 11/700 — 9 _ ZA [800 100 * V 792 und u, = V 2000 - 76 =V 1800. schwingen. Die gesamte Zahl der Sterbefälle (x + y) wird also um S, — 81” + 8” = 2800 mit einem mittleren Fehler von u = | 792 + 1800 = 50,9 schwingen. In diesem Beispiel ist der gefundene mittlere Fehler nicht viel kleiner als der, welchen man bei einer rein summarischen Be- rechnung finden würde, nämlich 100000 - 0.028 - 0.972 = 52,2. 293 Dieses Verhältnis hängt damit zusammen, daß die hier be- trachteten Ereignisse auch nach der Zerlegung in zwei Gruppen Jlurch kleine Wahrscheinlichkeiten charakterisiert sind, und es geht lann bei Anwendung des soeben gefundenen Satzes wie in dem oben ($ 118) beschriebenen Falle, wo nur eine einzelne Gruppe vorlag, jaß der mittlere Fehler annähernd gleich der Quadratwurzel aus der erwarteten Anzahl ist. Aufgabe 39. Man hat zwei Beutel, von denen A gleichviele weiße und rote Kugeln, B dagegen 9 weiße und 4 rote enthält; aus A werden in gewöhn- ıicher Weise 36 Kugeln und aus B 78 Kugeln gezogen. Welche Anzahl weißer Kugeln kann insgesamt erwartet werden? Wie groß ist die Wahrscheinlichkeit dafür, gerade diese Zahl zu erhalten? Wie groß ist die Wahrscheinlichkeit dafür, mindestens 70 weiße Kugeln zu bekommen? Aufgabe 40. Einem Beutel mit gleichviel weißen und roten Kugeln ent- nimmt A 84 Kugeln, und aus einem anderen mit 4mal sovielen roten als weißen Kugeln zieht B 175 Kugeln. Finde die Wahrscheinlichkeit dafür, daß B wenigstens bensoviele weiße Kugeln wie A erhält. Als Beispiel einer anderen Anwendung kann man sich eine Be- völkerungsgruppe von 100000 erwachsenen, unverheirateten Männern aach dem Alter in 4 Teile zerlegt denken, so daß die Heiratsfrequenz ınter den 10000 jüngsten 50 Proz., unter den 20000 der folgenden Altersklassen 35 Proz. und unter den 30000 der nächsten Klasse 20 Proz. ist, während sie für die übrigen 40000 praktisch gleich Null ist. Die Zahl der Trauungen in jeder der Gruppen wird dann um folgende Anzahl mit mittleren Fehlern, deren Größe zugleich an- geführt ist, schwingen: Erwartete Anzahl Trauungen Mittlere Fler a V 11850 = ca. 109. Unter Voraussetzung der Anwendbarkeit des Satzes auf diesen Fall kann man also mit einer Wahrscheinlichkeit von 0,994 erwarten, laß die Gesamtzahl der Trauungen um nicht mehr als etwa 300 von 18000 abweichen wird; rechnete man summarisch mit einer Heirats- frequenz von 0,18, so würde sich als mittlerer Fehler V 100000 - 0,18 - 0,82 — V 14760 = ca. 121 ergeben, und die entsprechende Wahrscheinlichkeit würde dann kleiner werden. Zusammen 18000 92924 Je mehr man auf Kosten der anderen Gruppen die Gruppe, in der keiner sich verheiraten will, vergrößern kann, mit desto größerer Sicherheit lassen sich Schlüsse ziehen. Könnte man z. B. die erste Gruppe auf 6000, die zweite auf 10000 und die dritte ebenfalls auf 10000 reduzieren, so würden die Heiratsfrequenzen bzw. auf 5000 __ 5 7000 _ 7 6000 6 6000 — 6 10000 10’ 10000 10 erhöht und der mittlere Fehler etwa 73 werden, also erheblich kleiner als der oben berechnete. Aufgabe 41. Unter 500 Selbstmördern seien 400 Männer und 100 Frauen. Bei einer Erhängungsfrequenz von */; bei Männern und %; bei Frauen ist die Wahrscheinlichkeit zu finden, daß die Zahl der erhängten Selbstmörder zwischen 350 und 400 liegt. Wenn sich die faktische Zahl der Erhängten als bzw. 304 Männer und 50 Frauen ergibt, ist die Wahrscheinlichkeit dafür, Abweichungen von einer durch diese faktische Zahl bestimmten Größe, teils für jedes Geschlecht für sich, +eils für beide Geschlechter zusammengenommen, zu finden. G. Empirische Frequenzen. 151. Im Vorhergehenden haben wir ständig Verteilungsgesetze und Wahrscheinlichkeiten betrachtet, welche als bekannt und ge- geben gedacht waren. Wie des näheren oben entwickelt wurde, ist die Anwendung solcher apriorischer Zahlen verhältnismäßig begrenzt, da es nur bei den einfachsten Spielaufgaben im voraus möglich ist, die Chancen zu beurteilen, und selbst dann ist die Anwendung apriorischer Wahrscheinlichkeiten zuguterletzt durch irgendeine Voraussetzung oder dadurch bedingt, daß Versuchsergebnisse er- wiesen haben, daß die apriorische Bewertung mit genügender An- näherung mit den Erfahrungen übereinstimmt. Sobald man indes zu den Fragen übergeht, welche wirklich der Statistik zur Behandlung vorliegen, dann verhält sich die Sache im allgemeinen anders; es ist gewöhnlicherweise nicht allein untunlich, vorderhand z. B. die Aussichten für eine Knabengeburt, für Tod, Heirat usw. abzuschätzen, welche Wahrscheinlichkeiten sämtlich durch Beobachtung festgestellt werden müssen, weil man hier nicht im voraus die Bedingungen des „Spiels“ kennt, sondern es wird ferner auch im allgemeinen notwendig sein, anläßlich derselben Beobachtungen zu untersuchen, ob die Bedingungen, von der Wahr- scheinlichkeit eines gegebenen Ereignisses reden zu können, über- haupt vorhanden sind (vgl. $ 91). Hat man nun durch Beobachtung gefunden, daß z. B. die 29, Sterblichkeit in einer Bevölkerungsgruppe 15°%.o (0,015), und daß sie in einer anderen 20%, (0,020) ist, dann wird man nach den Ursachen dieses Unterschiedes fragen; daß solche vorliegen, ist ja gegeben, auf Grund ihrer Mannigfaltigkeit aber ist keine Lösung möglich, wenn die Frage in dieser Allgemeinheit gestellt wird. Sie kann dagegen viel fruchtbarer gestellt werden, wenn man analog mit den Erfahrungen aus den Glückspielen zwischen „wesentlichen“ und „zufälligen“ Ursachen (Gemeinursachen und Individualursachen) unterscheidet. Erhält man nach Ziehungen aus zwei Beuteln mit weißen und roten Kugeln eine verschiedene relative Häufigkeit weißer Kugeln, z. B. 15 und 20% .o, So kann dies ein verschiedenes Mischungsverhältnis in den Beuteln bedeuten, braucht es jedoch nicht mit Notwendigkeit zu besagen. Wie wir im Vorhergehenden gesehen haben, kann ein solcher Unterschied das Ergebnis werden, selbst wenn weiße und rote Kugeln im selben Verhältnis in beiden Beuteln gemischt sind; sind gleichviele rote und weiße Kugeln vorhanden, so kann man als Resultat von Versuchsreihen von 100 Beobachtungen bald eine Frequenz von 0,40, bald eine von 0,60 haben. Daß es trotzdem möglich werden kann, Schlüsse Äber mögliche Verschiedenheiten hinsichtlich des Mischungsverhält- nisses in den Beuteln zu ziehen, beruht auf dem eigenartigen Ver- hältnis, daß die Spielräume, innerhalb deren die relative Häufigkeit mit einer festen gegebenen Wahrscheinlichkeit fallen wird, desto enger sein müssen, je umfangreicher die Versuchsreihe gemacht wird. Verlangt man, daß man zum mindesten den Wert P als Ausdruck /ür die Wahrscheinlichkeit erhält, daß die bei einer Versuchsreihe von N Beobachtungen konstatierte relative Häufigkeit weißer Kugeln nicht mehr als a vom Bruchteil p von weißen Kugeln im Beutel abweicht, so entspricht nach der Tabelle 22 dem gegebenen Werte von P ein gewisser Wert von und da der mittlere Fehler der bei N Versuchen gefundenen relativen Häufigkeit Va ist, wird man, damit die Wahrscheinlichkeit min- ljestens P werden kann, die Relation bekommen a / Ypq X. Vestergaard und Nybelle, Theorie der Statistik, 2. Aufl. 226 Hieraus folgt indes die Relation ax V welche sich mit wachsendem N verkleinert. Dieses Verhältnis kann kurz in der Weise ausgedrückt werden: wenn die Anzahl der Versuche größer und größer gemacht wird, vermag ein möglicherweise vorliegender Unterschied zwischen dem Mischungsverhältnis in zwei Beuteln mit stets geringerer Wahr- scheinlichkeit sich hinter den zufälligen Abweichungen zu verbergen, welche vermutlich immer in der einzelnen Beobachtungsreihe auf- treten können. So braucht man z. B. nicht viele Versuche mit 2 Beuteln, in denen der Bruchteil weißer Kugeln z. B. bzw. 1/3 und 3/. ist, anzustellen, um mit überwiegender Wahrscheinlichkeit kon- statieren zu können, daß das Mischungsverhältnis in diesen Beuteln verschieden sein muß, während es, wenn das Mischungsverhältnis in den zwei Beuteln nicht sehr verschieden ist, notwendig sein kann, umfassende Versuche zu unternehmen, bevor sich der Unterschied überhaupt erkennen läßt, — von der Anzahl von Versuchen, welche notwendig ist, um mit überwiegender Wahrscheinlichkeit das tatsächliche Vorhandensein der Unterschiede konstatieren zu können. gar nicht zu reden. 152. Im folgenden wird dieses Problem in größerer Allgemein- heit besprochen werden; die Betrachtungsweise gegenüber dem oben behandelten Spezialfall ist nichtsdestoweniger typisch für alle stati- stischen Untersuchungsmethoden. Kann man davon ausgehen — Was allerdings nur eine nähere Untersuchung zu bekräftigen imstande ist —, daß es überhaupt einen Sinn hat, von der Wahrscheinlich- keit einer gewissen Begebenheit A (vgl. $ 93) zu reden, so Ver- arsacht die Feststellung, ob der Unterschied zwischen den in zwei verschiedenen Gruppen vorgefundenen relativen Häufigkeiten von A auf wesentliche Unterschiede zwischen den in diesen zwei Gruppen wirkenden Ursachen zurückzuführen ist, keine andere Schwierigkeit — die im Vorhergehenden entwickelten Hilfsmittel vorausgesetzt — als die, welche davon herrührt, daß faktisch beobachtete Frequenzen mit größerem oder kleinerem Betrage von den typischen Werten ab- weichen. Um wieviel es sich hier drehen kann, das läßt sich mif Hilfe des mittleren Fehlers u — Vm messen; ersetzt man jedoch hier vd und q durch die faktisch gefundenen, im allgemeinen nicht 207 genau typisch relativen Frequenzen, so wird der hierbei für u ge- :undene Wert ebenfalls im allgemeinen mit einem Fehler behaftet werden. Handelt es sich indes nur darum, Werte zu finden, welche vermutlich nur äußerst selten überschritten werden, so wird dieser Fehler dennoch meist untergeordneter Bedeutung sein. Ersetzt man nämlich p durch p + & und demgemäß q durch Q—8 so wird sich a LA "1 in u = | Das annähernde Resultat hieraus is' 5a, l1fn—7 pa 10a—pe 22 Ypoh N 2 uN und da man mit überwiegender Wahrscheinlichkeit damit rechnen 2 — \ zann, daß z. B. |e|<4 u, wird der Fehler kleiner als 8 werden; wenn N und p beispielsweise bzw. 10000 und 0,2 sind, wu also = 0,004 ist, so ergibt diese Größe = 0,00012, sodaß 0.00388 <u' < 0,00412. Weiter unten kehren wir, wie erwähnt, zu dieser Frage zurück ; rechnen wir vorläufig damit, daß der mittlere Fehler einer bei N; Beobachtungen gefundenen relativen Frequenz Pı gleich Van gesetzt 1 werden kann, während die relative Häufigkeit nach nz? Beobachtungen in einer anderen Gruppe p, (Wo p; > p») war, dann wird der mittlere Wehler am Unterschiede p,—p> gleich |, P- + Pad sein, und wenn die 2 Differenz (p, — pa) 3 bis 4 oder mehr Male größer als diese Größe ist, wird die Wahrscheinlichkeit, daß sich pı bei neuen, genügend um- fangreichen, unter den gleichen Bedingungen vorgenommenen Ver- suchen kleiner als p, erweisen sollte, sehr gering sein; man muß daher annehmen, daß sich in der einen Gruppe Ursachen geltend machen, welche nicht in der anderen vorhanden sind. Es ist natür- lich möglich, daß der bei den faktisch vorgenommenen Beobach- tungen gefundene Unterschied p,—p, zwischen den relativen Fre- juenzen bei weiteren Versuchen entweder größer oder kleiner werden kann; aber da die Wahrscheinlichkeit, daß die Differenz Pı— hierbei unter Null sollte sinken können (pz wäre dann größer als 15* 298 pı), als sehr klein betrachtet werden muß, so deutet das Resultat darauf hin, daß die Verhältnisse in den zwei Gruppen tatsächlich verschieden liegen; ist der Unterschied jedoch kleiner als das 2- bis 3fache des mittleren Fehlers, dann hat man nur geringe Gewähr da- für, daß erneute Versuche nicht das entgegengesetzte Resultat er- geben, so daß also die Frage unents chieden bleibt. Dies letzt- genannte Fazit drückt man oft So aus, daß das vorliegende Beobach- tungsmaterial nicht dazu ausreicht, für das Vorhandensein eines vermuteten Unterschiedes den Beweis zu führen. Als Beispiel denke man sich, daß in zwei Gruppen neu- geborener Kinder zu je 10000 die Zahl der im ersten Lebensjahre eingetretenen Sterbefälle gezählt und dabei festgestellt worden ist, daß in der einen Gruppe 1100, in der anderen 900 starben. Die Differenz zwischen den gefundenen relativen Häufigkeiten wird hier 0,11 — 0,09 = 0,02, und der mittlere Fehler an dieser Differenz er- gibt sich als 011-089 0,09- 0,91 _ Ve + 770,000 — 0.0042. Der Unterschied liegt also zwischen dem 4- und 5fachen des mittleren Fehlers, und die Wahrscheinlichkeit dafür, daß die erste Gruppe unter wesentlich ungesunderen Verhältnissen als die zweite lebt, ist somit sehr groß. Aufgabe 42. Der Oberarzt Carl Permin hat die Wirkungen der Serum- behandlung auf Tetanus*) (Wundstarrkrampf) untersucht. Von 199 Patienten, welche nicht mit Serum behandelt wurden, genasen 42; aber von 189 mit Serum behandelten wurden 80 geheilt. Ist dies Material groß genug, um es als wahrscheinlich hinzustellen. daß die Serumbehandlung in der gewollten Richtung wirkt? Aufgabe 43. Von den in den Jahren 1921 und 1923 in Dänemark ge- borenen 40466 bzw. 38430 Knaben starben Vor Vollendung des ersten Lebens- jahres 3552 bzw. 3585. Kann man daraus schließen, daß die Knabensterblichkeit im Jahre 1923 wesentlich größer war als 1921? 153. Wie aus dem Folgenden hervorgehen wird, läßt sich die in den oben gegebenen Beispielen benutzte Betrachtungsweise in überaus vielen Fällen verwenden, auch wenn es sich nicht gerade um die Häufigkeit bei alternativen Versuchen handelt; es wird jedoch notwendig sein, zuerst in größerer Allgemeinheit die Folgen dessen zu untersuchen, daß man mit beobachteten Zahlen operiert. Als Beispiel können wir die oben in der Tabelle 1 angegebene Verteilung der Resultate aus den Kugelversuchen benutzen. Hierbei 7 5 Carl Permin., Tetanusstudier (Diss.), Kobenhavn 1912, S. 117. 2929 wollen wir uns vorläufig denken, daß die einzige vorliegende Auf- Klärung diejenige über die Ziehungsresultate ist, worüber die Tabelle Bescheid gibt, während nichts darüber gegeben ist, daß diese Resul- tate durch Zerlegung einer Reihe von Beobachtungen mit alternativem Ergebnis in Gruppen zu je 100 Beobachtungen zustande gekommen sind, und daß sich gleichviele weiße und rote Kugeln im Beutel be- fanden. Es ist klar, daß ergänzende Aufschlüsse dieser Art in zleinerem oder größerem Umfange vorliegen können; welchen Nutzen man dann aus solchen Daten (oder Annahmen) ziehen kann, das ist indes eine besondere Frage, deren Beantwortung davon abhängig ist, zu welchem Zwecke eine Bearbeitung des Beobachtungsmaterials vorgenommen wird. Nennt man nun das im einzelnen Versuche erzielte Resultat o und benutzt man die faktisch gefundenen relativen Häufigkeiten als Ausdruck für das Verteilungsgesetz, dann kann man genau in derselben Weise wie im obigen Beispiel des 5 127 die Erwartung E(o) für o und die Streuung im Verteilungs- gesetze berechnen. Da diese Aufgabe überaus häufig in der Statistik „vorkommt, wird die Berechnung hier so, wie sie sich am leichtesten vornehmen äßt, wiedergegeben (vgl. Tabelle 27, S. 230)1). Wie am Beispiel im $ 127 gezeigt wurde, kann man den Um- fang der Berechnungen dadurch stark reduzieren, daß man damit anfängt, die Momente um eine Zahl in der Nähe der Stelle, wo sich lie Beobachtungen anhäufen, zu suchen. Als solche Zahl ist 49 ge- wählt worden; während in der ersten Kolonne der Wert der Be- öbachtungen o angeführt ist, weist daher Kolonne 2 die Ab- weichungen b=0o—49 auf. In Kolonne 3 sind nach der Tabelle 1 die bei den Beobachtungen gefundenen absoluten Häufigkeiten p angeführt; da die Summe dieser Frequenzen (die Gesamtzahl der Gruppen) gleich 100 ist, wären sie alle durch 100 zu dividieren; nit Rücksicht auf die Berechnung der Erwartung und Streuung ist es jedoch nicht notwendig, zuerst diese Divisionen vorzunehmen. Wenn die Summe der Häufigkeiten nicht 1, sondern N ist, führt dies Verhältnis nichts anderes mit sich, als daß die dann gefundenen *') Das Rechenschema kann, wie wir sehen werden, auch auf die Berechnung von Momenten 3. oder höherer Ordnung ausgedehnt werden; aber besonders bei mehr umfassenden Beobachtungsreihen wird sich die Benutzung anderer Rechen- Schemata verlohnen (siehe z. B. J. F. Steffensen, Matematisk Jagttagelseslere Kobenhavn 1923, 8 11, Seite 88 f). 230 Tabelle 27. 0 | b=0—49 | . :) » Y 7 2 ) 3 L „3 HA Zus. 5 3 (4) 5 —17 3 50 16 Fr ‘) ) 2 Ce) nr X bp 154 +. 265 UL b?.p (5) 225 100 162 128 98 108 75 64 45 24 BR J 20 90 64 200 108 245 256 324 144 169 196 2859 Momente Nmal so groß wie sonst ausfallen, weshalb man ebensogut die Division durch N zuletzt vornehmen kann, was im allgemeinen weniger Berechnungen dieser Art erfordert. In Kolonne 4 sind die Werte der Produkte bp und in Kol. 5 die Werte von b?-.p berechnet, welche sich durch Multiplikation der Zahlen (b) der Kol. 2 mit den Zahlen (bp) der Kol. 4 ergeben. Wenn wie hier einige der Abweichungen b negativ, andere positiv sind, dann werden die entsprechenden Zahlen in Kolonne 4 jeweils negativ und positiv ausfallen, die Zahlen der Kolonnen 3 und 5 dagegen posi- tiv, was bei der Addition der Zahlen in diesen Kolonnen, deren Summe zu unterst in der Tabelle angeführt sind, zu erinnern ist. Für die Momente um 49 erhält man also 111 2859 M; = 100 = 1,11 M, = 700 28,99. Hieraus folgt dann, daß E(0o)= 8, =M; + 49 = 50,11 u— VM,—M? = 727,358 =5,23. 231 während man, hätte die Verteilung den Voraussetzungen genau ent- sprochen (n==100, p=q: ",), E(0o)=50 und u =5 bekommen hätte. Aufgabe 44. Finde auf Grund der in der Tabelle 5 angeführten beob- achteten Zahlen den Durchschnitt und den mittleren Fehler in der Verteilung der behandelten Gruppen nach der Zahl der abgekreuzten Ziffern und vergleiche lie gefundenen Zahlen mit den theoretischen. Aufgabe 45. Dieselbe Aufgabe für die in der Tabelle 8 betrachteten Be- obachtungen. 154. Bezüglich der Ursachen zur gefundenen Übereinstimmung nun kann man allerdings darauf hinweisen, daß die Umstände, unter denen die Beobachtungen faktisch vorgenommen worden sind, viel- leicht nicht — trotz aller Mühe — mit den Voraussetzungen ganz \m Einklang gewesen sind, welche dazu führen, daß E(o)=: 50 und u=5 wird. Man darf indes eins nicht vergessen: selbst wenn man sich diese Fehlerquelle fortdächte und nur davon ausginge, daß die beobachtete Größe o einem bestimmten — obgleich unbekannten — Verteilungsgesetz folge (d.h. daß o mit gewissen konstanten Wahrscheinlichkeiten p,, Pay Ps -.... die Werte X,, X, Xa .... aD- jehme), könnte man nicht einmal erwarten, daß die Werte, welche man für M,, M,, E(o) und w usw. erhält, indem die unbekannten Wahrscheinlichkeiten durch die beobachteten relativen Häufigkeiten ersetzt werden, mit den Werten übereinstimmten, welche man finden würde, wenn die Versuche wiederholt würden, auch nicht mit den Werten, welche die Kenntnis des Verteilungsgesetzes ergäbe. Dieses Verhältnis hängt mit der oben ($ 93) besprochenen Un- bestimmtheit der Definition des Wahrscheinlichkeitsbegriffes zu- sammen und kann insofern kurz durch einen Hinweis auf die Erfahrung begründet werden, daß wiederholte Versuche, auf empirischem Wege die Größe einer Wahrscheinlichkeit zu bestimmen, im all- gemeinen niemals übereinstimmende Resultate ergeben. Es lohnt sich jedoch, dieses Verhältnis näher zu untersuchen. Es kann nämlich bemerkt werden, daß die Größe, welche im benutzten Beispiel formell genau so bestimmt wurde, wie man die Erwartung fest- stellt, wenn das Verteilungsgesetz bekannt ist, nämlich die Erwartung E(o), für die wir E(0o) = s, = 50,11 erhielten, auch als das arithmetische Mittel g der 100 Beob- achtungen (0,, 00, 03 .... 000) aufgefaßt werden kann, d. h. daß 239 1 8 = 100 (© + 0% +0 + +++ ++ 0100) ist; hieraus folgt, daß g nicht als Konstante betrachtet werden kann, wie es mit der mittels des Verteilungsgesetzes für 0 definierten Erwartung E(o)==s, ($ 123) der Fall ist. Denn wenn man von jedem der in den Ausdruck für g eingehenden Addenden 0;, 02, 03 .... nichts anderes weiß, als daß sie mit gewissen Wahrscheinlichkeiten (pr) gewisse Werte (x,) annehmen, dann wird der Durchschnitt g selbst eine zufällig variierende Größe sein, welche mit gewissen Wahr- scheinlichkeiten gewisse Werte annimmt. Und man muß dem Rechnung tragen, daß es einer dieser Werte und nicht die dem Verteilungs- yesetze entsprechende Erwartung E(o)==s, ist, den man bestimmt erhält, wenn, wie in dem angeführten Beispiel, die unbekannten Wahr- scheinlichkeiten des Verteilungsgesetzes durch die beobachteten rela- tiven Häufigkeiten ersetzt werden und man danach die Berechnung anstellt, welche zur Erwartung geführt hätte, falls das Verteilungs- gesetz bekannt gewesen und benutzt worden wäre. Es ist daher auch notwendig, klar zu unterscheiden zwischen den Begriffen der „Erwartung“, welche, wie erwähnt, eine Konstante ist, und des „Durchschnitts“ einer gewissen Anzahl von Beobachtungen, welcher nach obigen Darstellungen als eine zufällig varlierende Größe be- trachtet werden muß. 155. Fragt man nun weiter, welchem Verteilungsgesetz der Durchschnitt g dann folgt, so ist daran zu erinnern, daß, selbst wenn man die Verteilungsgesetze kennte, denen die einzelnen in den Ausdruck 1 l 1 A NN eingehenden Beobachtungen folgen, damit das Verteilungsgesetz für g nicht ohne weiteres bestimmt sein würde ($ 135); denn die Beobach- tungen 01, 02, 03.....0n können in kleinerem oder größerem Grade korreliert sein. Dagegen kann man unter der bereits oben ge- machten Voraussetzung, daß alle Beobachtungen dem gleichen Verteilungsgesetze folgen, ohne Zuhilfenahme irgendwelcher anderen Voraussetzung einsehen, daß die Erwartung für g dieselbe wie die Erwartung für die Beobachtungen sein muß; denn aus g = (01 + 0 + 0 2.0... + ON) folgt (S$ 137), daß 233 E(g) = E00 +o+..... ‚+ on) = © +N - E(o)= E(o) ist. Dies bedeutet, daß die als Resultat aus wiederholten Beob- achtungsreihen erhaltenen arithmetischen Mittel gerade um die un- bekannte Erwartung schwingen werden. Es ist diese Eigenschaft des Durchschnitts, welche seine Verwendung als empirischen Re- präsentanten für die unbekannte Erwartung E(o) ermöglicht und welche kurz so ausgedrückt wird, daß g einen präsumptiven Wert für E(o) angibt. Durch die Anwendung dieser Bezeichnung bringt man zum Ausdruck, daß g zwar einen annähernden Wert für die Erwartung E(o) angibt, daß der Annäherungsgrad jedoch nicht derselben Art ist wie derjenige, von dem bei der Benutzung an- nähernder Werte gewöhnlich die Rede ist. Wenn man annähernd z. B. V2 = 1,414 setzt, ist der Annäherungsgrad (die Genauigkeit) ladurch angegeben, daß nur 3 Dezimalen mitgenommen sind; man weiß dann soviel über den Fehler, daß er in jedem Fall < 0,001 ist. Da ein präsumptiver Wert g für E(o) eine zufällig variierende Größe ist, kann seine Abweichung von E(o) verschiedene — mög- licherweise viele — Werte, darunter vielleicht den Wert Null (g zerade gleich E(o)), annehmen, ohne daß man imstande ist zu ent- scheiden, von welcher der möglichen Abweichungen die Rede ist. In obigem Beispiel fanden wir g = 50,11; mit diesem Annäherungs- wert ist indes nichts darüber mitgeteilt, daß der Fehler < 0,01 ist, d. h. man sollte 50,10 < E(o) < 50,12 erhalten. Der Genauigkeitsgrad bei einer präsumptiven Bewertung der Erwartung E(o) kann dagegen durch den mittleren Fehler im Ver- teilungsgesetz für das arithmetische Mittel angegeben werden. Kann man davon ausgehen, daß alle Beobachtungen 0,, 02, 08 ...... ON nicht bloß dem gleichen Verteilungsgesetz folgen, sondern zugleich Resultate voneinander unabhängiger Versuche sind, so folgt aus dem Ausdruck 1 1 1 = °ı tz he N ©») daß der mittlere Fehler ww, im Verteilungsgesetz für den Durch- schnitt g ($ 148) L 1 . y Ni (4 + RM? +...... (N Add.) wird, WO 4, im unbekannten Verteilungsgesetz für die einzelnen Beob- achtungen o der mittlere Fehler ist; man bekommt also Us == 23 MM u = 2 YN Selbst wenn u, — ebenso wie E(o) — unbekannt ist, folgt aus dieser Relation eine sehr wichtige Eigenschaft des Durch- schnitts g, welche diese Größe als präsumptiven Wert für E(o) be- sonders verwendbar macht. Fragt man nach der Wahrscheinlichkeit P dafür, daß die Abweichung g — E(o) nicht größer ist als eine gegebene Größe a, so hat man nämlich, ohne Rücksicht darauf, welchem Verteilungsgesetz die Beobachtungen 0 und der Durch- schnitt g folgt, in jedem Fall (vgl. $ 128) P>1-— A a aVN ya A Ho A; so da Bß P>1 — ML { ‚N ist. Wenn es möglich ist, die benutzten Voraussetzungen festzuhalten (daß die Beobachtungen 0 demselben Verteilungsgesetze folgen und voneinander unabhängig sein sollen), auch wenn die Anzahl (N) der Beobachtungen sehr groß genommen wird, dann ersieht man hieraus, daß die Wahrscheinlichkeit, daß der bei stets wachsender Zahl von Beobachtungen bestimmte Durchschnitt g höchstens mit einem willkürlich gewählten, aber gegebenen Betrage a von der ge- suchten Erwartung E(o) abweicht, sich 1 nähern muß, je größer N wird, wie klein auch a gewählt sein mag. („Das Gesetz der großen Zahl“.) Falls die Beobachtungen alternative Versuche betreffen, die mit konstanten, aber unbekannten Wahrscheinlichkeiten p und q jeder für sich entweder die Antwort 1 oder 0 (günstig oder ungünstig) geben, dann gibt der Durchschnitt g von N solchen Beobachtungen die relative Häufigkeit an, in der die Anzahl günstiger Begeben- heiten eingetroffen ist, und da das Verteilungsgesetz für g binomial oder mit Annäherung exponential wird, kann man in diesem Falle eine schärfere Bestimmung der Wahrscheinlichkeit P an der Hand der Tabelle 22 als mittels der Tchebycheffschen Ungleichheit erhalten. Aber da der mittlere Fehler im Verteilungsgesetz für g wie bisher _ 4 1/24 wird, Ua — UN VS 235 so ergibt sich, wie bereits oben ($ 151) erwähnt, das gleiche Re- sultat, nämlich daß die einem gegebenen Wert von a entsprechende Wahrscheinlichkeit P sich mit wachsendem N der 1 nähert, oder daß der einem gegebenen Wert von P entsprechende Wert von a mit wachsendem N kleiner und kleiner wird. Der letztgenannte speziellere Satz geht, wie oben ($ 34) erwähnt, auf Jacob Bernoulli zurück (Ars conjectandi, etwa von 1680—85 ausgearbeitet, jedoch erst 1713, 8 Jahre nach dem Tode des Ver- fassers, veröffentlicht), weshalb er denn auch als Bernoullisches Theorem bezeichnet wird. Bernoulli machte bei seiner Beweis- führung jedoch keinen Gebrauch von dem Exponentialgesetz als Annäherungsformel für das Binomialgesetz; diese Methode verdankt man Laplace (Theorie analytique des probabilites, 1812). Später ist der Satz verschiedentlich erweitert worden, zuerst von Poisson 1837), welcher alternative Versuche mit variierenden Wahrschein- lichkeiten betrachtete und dem Satze den Namen „Gesetz der zroßen Zahl“ verlieh, später von Tchebycheff, Markoff u. a, deren Beiträge den Satz erweiterten, so daß er nicht nur Beobachtungen mit mehr als zwei möglichen Ergebnissen, sondern auch solchen, welche nicht alle derselben Verteilungsregel folgen, ja — unter gewissen Bedingungen — sogar Beobachtungen, die nicht voneinander unabhängig sind, gilt. Mit Rücksicht auf das Folgende wird es indes nicht notwendig sein, hierauf einzugehen. Wir werden unten Beispiele dafür sehen, daß das Verteilungsgesetz für ein Polynomium, speziell für das Polynomium Yo == z { 1 1 Fu FR FON dazu neigen wird, mit Annäherung exponentielle Form anzunehmen, selbst wenn die einzelnen Glieder nicht binomialen oder exponentialen Verteilungsgesetzen folgen, wenn nur das Polynomium genügend viele Glieder enthält. Diese Eigenschaft ist somit für die alternativen Versuche nichts Charakteristisches, aber eine Eigenschaft, welche im wesentlichen mit der Zahl der Glieder zusammenhängt und von dieser bedingt ist. Selbst wenn man, falls das Verteilungsgesetz für die Beobachtungen unbekannt ist, sich einen annähernden Aus- üruck für den mittleren Fehler 42 im Verteilungsgesetze für das arithmetische Mittel verschaffen kann, wird auch die Anwendung der Tabelle 22 in der Regel einen schärferen Ausdruck für die Genauigkeit ergeben, welche man bei der präsumptiven Setzung E (0) 236 =— g erzielt, als wenn man die Tchebycheffsche Ungleichheit an- wendete, deren Aussage mit Notwendigkeit leerer werden muß, weil hier keinerlei Voraussetzung hinsichtlich der Form des Verteilungs- gesetzes gemacht ist. 156. Während aus dem Vorhergehenden zwar erhellt, daß der mittlere Fehler des Durchschnitts _—_ AM U YN mit wachsendem N stets kleiner wird und 4%, sich dabei konstant verhält, kann man 42 nicht aus der Formel finden, solange 4,1 — der mittlere Fehler in dem Verteilungsgesetz, welchem die Beobach- tungen folgen — nicht bekannt ist. Hinsichtlich 44 gilt indes dasselbe wie für die Erwartung E (0). Beide Größen sind unbekannt, solange das Verteilungsgesetz für die Beobachtungen nicht bekannt ist. Und der Wert, welcher im Bei- spiel (Tabelle 27) für u gefunden wurde (5,23), indem die Wahr- scheinlichkeiten des Verteilungsgesetzes gegen die faktisch ge- fundenen relativen Häufigkeiten umgetauscht wurden, hat dieselbe Eigenschaft wie der Durchschnitt g, nämlich die, daß er eine ZU- fällig varlierende Größe ist; wird er direkt durch die 100 Beob- achtungen ausgedrückt, so erhält man nämlich Wo 02+.......00%-— g? und im allgemeinen, wenn die Zahl der Beobachtungen N ist, u? == Z0i2 — g* Ebensowenig wie sich das Verteilungsgesetz für g aus dem Ausdruck für g bestimmen ließ, läßt sich auch das Verteilungs- gesetz für u? nicht aus obigem Ausdruck für u? feststellen; setzt man dagegen wie oben voraus, daß alle N Beobachtungen demselben Verteilungsgesetz folgen und Resultate voneinander unabhängiger Versuche sind, so kann man, analog dem Falle für g, die Erwartung für u? suchen, für welche Größe man unmittelbar E(u?) = x SE(0?) — E(g) = E(o0®) — E(g*) erhält. Erinnert man sich nun, daß die Erwartung für 0° E(0?) = (E(o))? + 4? war ($ 127, IID), wo 4 der mittlere Fehler im Verteilungsgesetz für o und daher 2 E(g?) = (E(o))? + %- ist, 237 weil E(g) = E(o) und die zweite Potenz des mittleren Fehlers im Ver- 2 teilungsgesetz für g gemäß obiger Darstellung x ist, dann erhält man also 2 ii E(un = 4? — CE = N Lu Während die bei wiederholten Versuchsreihen zu je N Beobach- tungen bestimmten Durchschnitte g um die Erwartung E(o) schwingen werden, werden die Werte, welche man dadurch für u? erhält, nicht um die Potenz u? des mittleren Fehlers im Verteilungsgesetz für die Beobachtungen, sondern um Zahlen schwingen, welche kleiner sind, nämlich — 4a?; da die faktische Quadratsumme der Ab- weichungen von g kleiner ist als die faktische Quadratsumme der Abweichungen von einer beliebigen anderen Zahl, und man bei der im Beispiel angewiesenen Methode gerade die Abweichungen von y mißt, welche im allgemeinen Z E(o) sind, so ist auch zu er- warten, daß man sich dem aussetzt, eine zu kleine Quadratsumme zu erhalten; selbst wenn die Fehlerquelle in speziellen Fällen dadurch aufgehoben gedacht wird, daß die benutzten relativen Häufigkeiten in der Weise von den Wahrscheinlichkeiten, welche sie vertreten, abweichen, daß u? > u? ist, so kann man damit rechnen, daß die auf empirischem Wege gefundene Potenz des mittleren Fehlers u? um eine kleinere Zahl als u? schwingen wird; um wieviel es sich hier handelt, geht aus der gefundenen Formel hervor, nach welcher das Quadrat 444? des gesuchten mittleren Fehlers N — E(u?) wird. Benutzt man die faktisch gefundene Potenz des mittleren Fehlers u” als präsumptiven Wert für E(w?®), so wird also and das Quadrat & den Durchschnitt & LM 14. u? Ö2s mittleren Fehlers im Verteilungsgesetz für CL. is — 1° 7“ bi W Wenn man wie in dem Beispiel der Tabelle 27 die Quadrat- summe der Abweichungen als 2859 berechnet hat, so erhält man demnach 238 nd = 28,88, so daß Uı = V 28,88 = 5,37 ist. Man ersieht hieraus, was übrigens auch naheliegt, daß es, wenn N eine einigermaßen große Zahl ist, keinen größeren Unterschied macht, ob man die Quadratsumme der Abweichungen durch die An- zahl N der Abweichungen oder durch N—1 dividiert. In der Meß- technik, wo man genötigt sein kann, mit wenigen Messungen zu arbeiten, muß man daher meist dies berücksichtigen, während das Resultat bei den meisten von den in der Sozial- und Wirtschafts- statistik zur Behandlung gelangenden Verhältnissen nur unmerkbar dadurch beeinflußt wird, ob man den Divisor N oder N—1 ge- braucht. ur 157. Dagegen bietet das Ergebnis ein bedeutendes prin- zipielles Interesse als Beispiel dafür, wie man beim Rechnen mit präsumptiven Zahlen sich nicht ohne weiteres, darauf verlassen kann, daß man den präsumptiven Wert eines Ausdrucks, welcher von einer oder mehreren andern zufällig variierenden Größen abhängig ist, da- durch findet, daß man in diesen Ausdruck geradezu die präsump- tiven Werte für diese Größen einsetzt. Dies ist eine Folge davon, daß, wenn man mit Hilfe eines Beobachtungsmaterials eine präsumptive Bewertung einer Größe vornimmt, diese Bewertung, wie oben erwiesen, vom Begriffe der Erwartung abhängt; und die Erwartung für einen von einer oder mehreren anderen Größen abhängigen Ausdruck kann im allgemeinen nicht dadurch gefunden werden, daß man in diesem Ausdruck die einzelnen Größen durch deren Erwartungen ersetzt. Wenn es sich um die Erwartung für eine Summe oder ein Poly- nomium handelt, kann man, wie oben ($137) gezeigt, ohne weiteres eine solche Substitution benutzen; in anderen Fällen aber darf man nicht unbedingt damit rechnen. Es kann daher auch hier ein Anlaß sein, darauf hinzuweisen, daß, wenn man wie oben E(u?) = 28,88 fest- stellte, hieraus in Wirklichkeit nich t folgt, daß E(u)= VE(u?) = 5,37 ist, da man nicht damit rechnen kann, daß E(V/x) = VEG) ist, sondern daß man im Gegenteil E(Vx) < VE(x) bekommt. Wie groß der Unterschied ist, das beruht in diesem wie in allen anderen Fällen auf dem Verteilungsgesetz für X, besonders auf dem mittleren Fehler in diesem Verteilungsgesetz. 23G Auf eine nähere Klärung dieser Fragen, wie etwa auf die Be- stimmung des mittleren Fehlers im Verteilungsgesetz für die zu- :ällig varlierende Größe u, wollen wir hier nicht weiter eingehen, ım so weniger, als die hierbei in Betracht kommenden Unterschiede wie in den oben angeführten Beispielen so auch für die Mehrzahl ler im folgenden behandelten Fälle ohne größere praktische Be- deutung sein werden. 158. Kehren wir zu unserm Ausgangspunkt (dem Beispiel der Tabelle 27) zurück, so geht aus den obigen Bemerkungen, falls be- züglich der Beobachtungen o nichts anderes als die in der Tabelle über die 100 Versuche gegebene Statistik vorliegt, folgendes Resultat hervor: Für die Erwartung o muß das arithmetische Mittel 50,11 aus sämtlichen 100 Beobachtungen gesetzt werden; zur Beurteilung der Genauigkeit dieses Resultats weiß man, daß der mittlere Fehler des Durchschnitts gleich 5,3 —— = 0,53 V 100 gesetzt werden kann. Über die Wahrscheinlichkeit, daß die bei der Statistik der Ta- delle 27 vorgenommene präsumptive Bewertung von E(o) nicht mehr als a von E(o) abweicht, kann danach die Tabelle 25 aussagen; beispielsweise wird die Wahrscheinlichkeit dafür, daß g — E(o) <1,06 ist, jedenfalls größer als 0,75 sein, da 1,06 . 0,53 2 ist. Wenn man nach einer Betrachtung von Figur 1 ($79) die Übereinstimmung mit den in den Figuren 2 und 3 ($ 108) gezeich- neten Exponentialkurven für so gut hält, daß man das Verteilungs- zesetz für 0 als exponentiell annehmen kann, so wird auch das Ver- teilungsgesetz für g exponentiell sein; die Wahrscheinlichkeit dafür, daß g—E(o) < 1,06 ist, läßt sich dann aus der Tabelle 22 als den x==2 entsprechenden Wert von P feststellen, welcher 0,954 ergibt. Aufgabe 46. Finde den Durchschnitt und den mittleren Fehler in der Verteilung nach dem Besteuerungsprozent x und nach dem Veranlagungs- prozent vy für 10 dänische Städte sowie den Korrelationskoeffizienten für x 240 und y. Nach Statistisk Aarbog 1926 gestalten sich x und y für die 10 kleinsten dänischen Städte, wie folgt?!): 7 y 1) 7,2 1} 10,0 6) 5,7 6) 6,0 2)61 2) 7,0 7) 5,2 7) 68 3) 8,3 3) 10,3 8) 8,3 8) 10,5 4) 7,7 4) 10,0 , 9) 4,5 9) 5,0 5) 5,6 5) 5,7 | 10) 4,6 10) 5,5 Aufgabe 47. In den Jahren 1899—1908 war die Regenmenge x (in mm; und die Zufuhr (in cbm) von Wasser y zum Reservoir der schwedischen Stadt Lund folgende: 3 y . £ y 1899 511 258 000 1904 563 266 000 1900 661 708 000 1905 607 562 000 1901 597 426 000 1906 576 422.000 1902 541 304.000 1907 530 521 000 1903 663 762000 | 1908 719 522.000 Finde auf Grund dieser Zahlen den Ausdruck für den Durchschnitt und den mittleren Fehler in der Verteilung der Kalenderjahre nach Regenmenge (x' und Wasserzufuhr (y) sowie den Korrelationskoeffizienten für x und y. 159. Das oben Angeführte läßt sich nun auch auf den Fall, wo die beobachtete Größe nur zwei verschiedene Werte (a und b) annehmen kann, d. h. also auf alternative Versuche, anwenden. Hat man N Beobachtungen, von denen M und der Rest (N — M) jeweils b und a ergeben haben, so findet man für die Potenzsummen (die Momente um Null) sı und s, die Ergebnisse vH ME ap aN — M) + b’M 5 = — —— N Setzt man der Kürze halber die faktisch gefundenen relativen Häufigkeiten M M—N N Pı Und ———z— = dı; so muß die Erwartung g = 8, = bp, + adı gesetzt werden, während man für den vermuteten Wert des mitt- leren Fehlers w im Verteilungsgesetz für die Beobachtungen 1) Besteuerungsprozent, dänisch .Skatteprocent“, gleich dem Verhältnis zwischen Steuersoll und dem faktischen Einkommen der Steuerzahler; Ver- anlagungsprozent, dänisch „Ligningsprocent“, gleich dem Verhältnis zwischen Steuersoll und dem steuerpflichtigen Einkommen (d. h. faktischem Einkommen nach gesetzmäßigen Abzügen oder Zuschlägen bei den einzelnen Veranlagungen) DL und für den mittleren Fehler - 7 5) In dı 3 \Unrsgesetz für g findet. 160. Die Bestimmung des Durchschnitts und dessen mittleren Fehlers auf Grund von Beobachtungen mit alternativem Ergeb- nis bildet ein Beispiel der empirischen Bestimmung einer Wahr- scheinlichkeit; setzt man a=0 (0 günstigen Ergebnissen ent- sprechend) und b = 1 (1 günstigen Resultat entsprechend), so findet man aus obenstehenden Formeln als präsumptiven Wert für die Wahrscheinlichkeit dafür, in einem Versuche ein günstiges Er- gebnis zu erlangen, während man für den mittleren 7 K erhält. Ist N so groß, daß es gleichgültig ist, ob man durch N oder N —1 dividiert, so findet man den oben ($ 152) benutzten Ausdruck für den mittleren Fehler für Dı- Betrachtet man beispielsweise eine der in Tabelle 27 behandelten Gruppen von je 100 Beobachtungen, z.B. eine derjenigen, welche 40 weiße Kugeln (und also 60 rote) ergeben haben, so findet man aus liesen Beobachtungen, daß pP: = 0,40, 240 NEM =0049 ist. 39 Man kann also mit eineran Gewißheit grenzenden Wahrscheinlich- keit rechnen, daß das Mischungsverhältnis im Beutel so beschaffen ist, daß der Bruchteil weißer Kugeln innerhalb der Grenzen 0,40 — 3 - 0,049 = 0,253 < p < 0,547 — 0.40 +3 - 0,049 liegt. Nimmt man sämtliche 10000 Beobachtungen, von denen 5011 weiß (also 4989 rot) ergeben haben, so findet man Pı = 0,5011 und ‚4989 % = 0,005 9999 Westergaard und Nybelle, Theorie der Statistik, 2. Aufl. 24 ZZ und hieraus wiederum 0,501 — 3 - 0,005 = 0,486 <p < 0,516 = 0,501 + 3 + 0,005, also eine weit schärfere Bestimmung. Ob man hiernach p gleich 0,49 oder gleich 0,50 oder 0,51 (vgl. & 93) setzt, das ist eine ganz untergeordnete Frage im Vergleich mit derjenigen, inwieweit es überhaupt einen Sinn hat zu sagen, laß eine gewisse feste Wahrscheinlichkeit dafür, bei einer Ziehung das Resultat weiß zu erhalten, vorliegt. 161. Die Bedingung hierfür ist, wie im $ 93 in Verbindung mit der Definition des Wahrscheinlichkeitsbegriffes bemerkt war, daß die relativen Frequenzen, welche man: bei wiederholten empirischen Bestimmungen von p erhält, sich jedenfalls mit Annäherung um einen Normalwert exponentiell gruppieren. Wenn man die 10000 Beobachtungen in 100 Gruppen zu je 100 Beobachtungen zerlegt, so liefert jede Gruppe ihren Wert für p; da diese Werte alle 745 der in der Tabelle 27 angeführten Beobachtungen sind, gibt Figur 1 auch eine Vorstellung davon, wie sich diese 100 relativen Häufig- keiten verteilen. W. Lexis!) hat ein summarisches Kriterium für die Güte der Annäherung aufzustellen versucht, indem er die faktische Streuung wu’ in der Verteilung der Häufigkeiten mit der Größe des Bernoullischen mittleren Fehlers uw” verglich; wenn man insgesamt N Beobachtungen und bei diesen einen präsumptiven Wert p für die gesuchte Wahrscheinlichkeit gefunden hat, und wenn man die N Beobachtungen in r Gruppen von je n Beobachtnngen (N=r-n) teilt, so sollten sich die r relativen Häufigkeiten pı, Pr -- +++ Dr welche diese Gruppen liefern, exponentiell um p mit einem mittleren Fehler, nach der Formel 7 pP (1 — p) n (dem Bernoullischen mittleren Fehler) berechnet, gruppieren. Diese Formel gibt im Beispiel mit den Kugelversuchen 0,5011 + 0,4989 9 ___ Aa 8 AT TE u 100 0.0025. Sucht man die Streuung in der faktischen Verteilung der rt rela- tiven Häufigkeiten nach der Formel ‚ 1 B— U zZ 2 u = = (Spi? rp?), 1) 8. z. B. W. Lexis, Zur Theorie der Bevölkerungs- und Moralstatistik, Jen? 1903, Kap. V und VIII. Ve dt 243 welche für die Kugelversuche , 0,2736 ; u? = 799 = 0,002763 ergibt, so sollte man denselben Wert finden, so daß man in Lexis’ Fall — für den Divergenzkoeffizienten Q — u’? arhielte, während man für die Kugelversuche faktisch Q = 0008500 = 1,105 feststellt. Aus der Definition des Wahrscheinlichkeitsbegriffs folgt un- mittelbar, daß, wenn r wiederholte Reihen zu je n alternativen Ver- suchen angestellt werden, bei denen die Wahrscheinlichkeit für „günstig“ einen gewissen festen Wert hat, sich die Verteilung der v relativen Häufigkeiten einem Exponentialgesetz nähern und „normale Dispersion“ zeigen wird, weil sich uw’ unter diesen Voraussetzungen u” nähert. Da diese Bedingung notwendig, aber nicht ausreichend ist, so ist der umgekehrte Satz jedoch nicht unbedingt richtig, und man kann also, wie Bortkiewicz bemerkt hat, von dem Umstand, laß Q?=1 ist, nicht ohne weiteres schließen, daß Versuche mit einer gewissen konstanten Wahrscheinlichkeit vorliegen ?). Q2?.ist ferner eine zufällig variierende Größe; wie Tschuprow gezeigt hat, tritt es daher nur unter gewissen Bedingungen ein, daß sich lie Erwartung E(Q?) für Q? dem Wert 1 nähert, wenn Zähler und Nenner in Q? allmählich gleich groß werden; es ist überhaupt kaum möglich, allein auf Grund eines empirischen Zahlenmaterials (also nicht ohne weitere Voraussetzungen apriorischer Art) endgültig festzulegen, ob sich die näheren Umstände bei den betrachteten Versuchen durch eine einzelne Wahrscheinlichkeit charakterisieren lassen oder nicht. Diese Frage hängt mit der Frage der Definition des Wahr- scheinlichkeitsbegriffes überhaupt zusammen ; es handelt sich in Wirk- lichkeit um dasselbe, was oben ($ 152) berührt wurde, nämlich darum, inwieweit es möglich ist zu erkennen, ob ein bei zwei oder mehr 1) L.v. Bortkiewiecz, Kritische Betrachtungen zur theoretischen Statistik, |. Artikel, Jahrb. f. Nat. u. Stat. 3, Folge Bd. VIII, 1894, und Homogeneität und Stabilität in der Statistik, Skandinavisk Aktuarietidskrift, Bd. I, Uppsala 1918. Ferner A, Tschuprow, Zur Theorie der Stabilität statistischer Reihen, Skand. Akt. Bd. 1, 1918 und Ist die normale Stabilität empirisch nachweisbar ? Nordisk stat Cidskrift, Bd. I, Stockholm 1922. 244 Beobachtungsreihen vorgefundener Unterschied zwischen den relativen Häufigkeiten für diese Reihen „zufälligen Ursachen“ oder wesent- lichen Unterschieden zwischen den wirkenden Ursachen zuzuschreiben ist; es wird daher hier genügen hervorzuheben, was oben bemerkt ist, daß, wenn sich der Unterschied zwischen den relativen Häufig- keiten auf das Vielfache des mittleren Fehlers für diesen Unter- schied beläuft, man annehmen muß, daß die näheren Umstände, welche die verschiedenen Ergebnisse bedingt haben, nicht als im wesentlichen dieselben betrachtet und daher nicht durch eine einzelne Wahrscheinlichkeit charakterisiert werden können. Aufgabe 48. Auf Grund der in der Aufgabe 4 mitgeteilten Zahlen ist die Größe der Wahrscheinlichkeit dafür zu bewerten, bei einem Wurf mit den betrachteten Würfeln eine Sechs zu erhalten. Aufgabe 49. Aus einem Beutel mit weißen und roten Kugeln zieht man zu wiederholten Malen, und zwar so, daß jede entnommene Kugel vor der nächsten Ziehung in den Beutel zurückgelegt wird. Wenn man dem Beutel anfühlen kann, daß er insgesamt 7 Kugeln enthält, dann ist festzustellen, wieviele Male man wenigstens ziehen muß, um mit einiger Sicherheit entscheiden zu können, wieviele der im Beutel enthaltenen Kugeln weiß und wieviele rot sind. 162. Da die relative Häufigkeit nur eine spezielle Art von Durchschnitten, nämlich Durchschnitte bei alternativen Versuchen, ist, werden wir sehen, daß das Problem, wozu die Frage der em- pirischen Bestimmung einer Wahrscheinlichkeit Veranlassung gibt, auch bei der empirischen (statistischen) Bestimmung von Durch- schnitten von Beobachtnngen, welche mehr als zwei Werte annehmen können, entsteht; das Problem kann daher auch in größerer Allgemeinheit zu der Frage formuliert werden, in welchem Umfange es möglich ist zu erkennen, ob ein bei zwei (oder mehr) Beobachtungsreihen vorgefundener Unterschied zwischen den Durch- schnitten für diese Reihen auf „zufällige“ Ursachen zurückzuführen ist oder zu der Annahme zwingt, daß sich in einer Gruppe Ursachen geltend machen, welche der zweiten (den übrigen) fehlen. Nun ist die Bedingung dafür, daß eine faktisch vorgefundene relative Häufig- keit als Ausdruck für eine Wahrscheinlichkeit angesprochen werden kann, die, daß eine Teilung des Beobachtungsmaterials in mehrere Gruppen keine andere Wirkung verursacht, als daß sich die Durch- schnitte (Häufigkeiten), welche man jetzt für jede der Gruppen fest- stellt, jedenfalls annähernd exponentiell um einen gewissen „Normal- wert“ verteilen und sich nicht voneinander durch Beträge unter- scheiden, welche den mittleren Fehler der Differenzen viele Male übersteigen. In derselben Weise muß das Kennzeichen dafür. daß Da sich unter den ein gegebenes Phänomen beherrschenden Ursachen nur eine einzelne wesentliche Ursache findet, während die übrigen als zufällig betrachtet werden müssen, dies sein, daß eine Teilung des Materials Gruppen ergibt, deren Durchschnitte sich mit An- näherung exponentiell um einen gewissen Normalwert verteilen und sich nicht voneinander durch Beträge unterscheiden, welche ein Vielfaches des mittleren Fehlers der Differenz sind. Wenn es da- gegen bei einer Einteilung, welche nach individuellen Kenn- zeichen vorgenommen werden kann (vgl. z. B. 8 186), umge- kehrt möglich ist, Gruppen hervorzubringen, deren Durchschnitte wesentlich voneinander abweichen, dann muß angenommen werden, daß sich in der einen Gruppe Ursachen geltend machen, welche nicht in einer anderen vorhanden sind. Welches diese Ursachen sind, wird dann zu einer neuen Frage, über die man in einigen Fällen nicht im Zweifel zu sein braucht, während es in anderen notwendig sein wird, zu diesem Zweck neue Untersuchungen und Beobachtungen anzustellen. Aufgabe 50. In der Geburtsklinik des Reichshospitals in Kopenhagen wurde untersucht, ob die Behandlung der nährenden Mütter mit einem Spezial- präparat „O0“ das Wachstum (Gewichtzunahme) vom 3. bis zum 10. Tage fördere. In 208 Fällen, in denen die Mutter mit diesem Präparat behandelt wurde, voetrug die durchschnittliche Gewichtzunahme 150,2 g; die 208 Gewichtzunahmen verteilten sich nach der Größe ungefähr exponentiell mit einem mittleren Fehler von 98,4 g um diesen Durchschnitt. In 420 Fällen, in denen keine O-Behandlung stattfand, war die durch- schnittliche Gewichtzunahme 139,4 g. Diese 420 Beobachtungen verteilten sich ebenfalls annähernd exponentiell um den Durchschnitt mit einem mittleren Fehler von 92,0 g. Kann man auf Grund dieser Beobachtungen schließen, daß die O-Behand- lung in der ersten Woche die Gewichtzunahme fördert ? 163. Hinsichtlich der Richtigkeit der hier angestellten Be- trachtungsweise ist zu bemerken, daß sich dafür weder Beweise noch Gegenbeweise erbringen lassen. Dadurch, daß man in der an- gegebenen Weise die Größe eines vorgefundenen Unterschiedes ent- scheidend dafür sein läßt, ob man den Unterschied als groß genug zur Begründung des Vorhandenseins von besonderen Ursachen in der einen Gruppe ansehen will, und daß man im übrigen erklärt, der Unterschied sei „Zufälligkeiten“ zuzuschreiben, wird nur eine zewisse Abgrenzung des Begriffes „zufällig“ herbeigeführt; was hierbei als zufällig betrachtet wird, braucht natürlich nicht damit übereinzustimmen, was man in anderen Verbindungen mit diesem Ausdruck bezeichnet. Weiter unten soll hierfür ein Beispiel gegeben 246 werden. Das für die Brauchbarkeit der Definition Entscheidende ist dagegen, ob die Art und Weise der Betrachtung fruchtbar ist. Dies hängt davon ab, in welchem Umfange es durch passende Ein- teilungen des Beobachtungsmaterials möglich wird, Gruppen von Beobachtungen auszuscheiden, in denen sich — in Übereinstimmung mit den einfachsten Voraussetzungen der Wahrscheinlichkeitsrechnung — nur eine einzelne vorherrschende Ursache geltend macht und in denen sich die Beobachtungen vermutlich exponentiell um einen der ausgeschiedenen Ursache entsprechenden typischen Durchschnitt verteilen. Beispiele zur Beleuchtung der Möglichkeit hierfür sind im folgenden Kapitel behandelt. 164. Nun ist es allerdings eine Tatsache, daß man nicht immer diese einfache Frequenzverteilung vorfinden wird, ja daß die Beob- achtungen von einer solchen Beschaffenheit sein können, daß das Verteilungsgesetz überhaupt nicht exponentiell werden kann. Auf Grund der Regel darüber, auf welchen Sonntag der Ostertag fällt, kann man sich beispielsweise nicht vorstellen, daß eine Verteilung der Ostertage einer ‚längeren Jahresreihe nach dem Datum eine exponentielle Verteilung wird geben können. Ein anderes Beispiel kann den Resultaten des Scheibenschießens entnommen werden. Werden die Schüsse nach dem Abstand zwischen dem Treffpunkt und dem Zentrum der Scheibe verteilt, so wird man allerdings finden, daß sich diese Punkte in einem gewissen Abstande vom Zentrum stark anhäufen. Aber die Verteilung muß notwendigerweise schief werden, da kein Abstand kleiner als O0 sein kann; beobachtet man dagegen die Verteilung der Schüsse nach dem Abstande des Einschlages von einem Diameter der Scheibe, so wird man finden, daß sich die Schüsse mit großer Annäherung exponentiell um den Abstand 0 ver- teilen, so daß man den mittleren Fehler dieser Verteilung als Maß- stab der Schießsicherheit!) benutzeu kann. Im allgemeinen wird das Interesse, welches sich ans Studium anderer Verteilungsgesetze als der exponentiellen, jm besonderen schiefer Verteilungsgesetze, knüpft, in einer formulierten Theorie über den Ursachenzusammenhang zwischen gewissen Phänomenen be- gründet sein. Daß sich die Ostertage nicht exponentiell verteilen können, hängt z. B. mit unserer Anschauung darüber zusammen, daß der erste Vollmond nach der Frühijahrs-Tag- und Nachtgleiche (welcher 1) Siehe z. B. C. G. Andr, Bestemmelsen af Skudsikkerheden ved Skydning mod verticale Skiver. Tidsskrift for Krigsvaesen, 2. Aargang, Kobenhavn 1856, 5. 46 247 das Eintreffen des Ostertags angibt) mit gleicher Wahrschein- lichkeit auf einen beliebigen andern Tag in einem uugefähr vier Wochen umspannenden Zeitraum wird fallen können. Genau so Sührt es die Voraussetzung über die Verteilung der Einschläge nach dem Abstand von einem Diameter einer Schießscheibe geradezu mit sich, daß die Verteilung der Schüsse nach ihrem Abstand vom Zentrum so ausfällt, daß die Wahrscheinlichkeit dafür, im Abstande x zu treffen, wird, was eine schiefe Verteilungskurve ergeben muß. In solchen und anderen ähnlichen Fällen, in denen man eine Vermutung hinsichtlich des Zusammenhangs hat, nimmt die Unter- suchung, ob die Beobachtungen die Vermutung bekräftigen, die Form einer Ausgleichungsaufgabe an (vgl. das Kapitel über Interpolation und Ausgleichung), bei deren Lösung es sich gerade darum handelt, zu entscheiden, inwieweit bei der zur Nachprüfung aufgestellten Theorie auf alle solchen Umstände (Ursachen) gebührende Rück- sicht genommen ist, welche im Rahmen der verwandten Beobachtungs- methode als wesentlich angesehen werden müssen; und ohne Rück- sicht darauf, welche Ausgleichungsmethode man hierbei benutzt, stützt sich die Entscheidung hierüber, wie oben, in mehr oder weniger ıusgeprägtem Grade auf die Vorstellung, daß die Verteilung nach der Größe der bei der Ausgleichung bestimmten Abweichungen zwischen der Theorie und den Beobachtungen (welche Abweichungen hier als „Fehler“ bezeichnet werden) jedenfalls mit Annäherung ty- pische Form annehmen muß. 165. Bei außerordentlich vielen statistischen Untersuchungen über das Leben der menschlichen Gesellschaft handelt es sich in- des in geringerem Grade darum, die Haltbarkeit der Annahme eines gegebenen (vermuteten) Zusammenhanges nachzuprüfen, als um eine Nachspürung des Ursachenzusammenhanges überhaupt; und sofern dies der Zweck ist, kann man nach den obigen Bemerkungen die Untersuchung im allgemeinen nicht in einem Punkte unterbrechen, in dem man zwar zu einer Verteilung gelangt ist, welche nach über- einstimmenden Erfahrungen als in sich selber ruhend und insofern als typisch erscheinen könnte, jedoch nicht als exponentiell betrachtet werden kann. Jedenfalls wird das Vorhandensein von mehr als einem Maximum im Verteilungsgesetz ein untrügliches Zeugnis dafür ab- legen, daß unter den Ursachen, welche das Beobachtungsergebnis im x \2 P(x) = 2x m (3X a 248 einzelnen Falle entscheiden, mehr als eine sein wird, welche vor- herrschend ist, und bloß eine größere oder kleinere Asymmetrie in der Verteilungskurve wird einer solchen Vermutung Raum geben. In welchem Grade es glücken kann, hinlänglich gute Beobachtungen zu beschaffen und die Teilungslinien zu finden, welche die bei der einzelnen Beobachtung wirksam gewesenen Ursachen charakterisieren, das beruht natürlich auf der Einsicht des Statistikers in die betreffende Frage ınd — wie auch sonst oft — auf einer glücklichen Wahl bei der Teilung des Materials. 166. Daß das Exponentialgesetz nun — wenn das Beobachtungs- material in passender Weise eingeteilt wird — in so auffallend vielen Beobachtungsreihen als Ausdruck für das Verteilungsgesetz wird gelten können, ist eine Tatsache, deren tiefere Begründung schwierig genug sein kann, da die Bedingungen, unter denen die Beobachtungen gemacht werden, so ungemein verschieden sein können: Es soll daher hier nicht versucht werden, eine allgemeine Erklärung für dieses Phänomen zu geben. Zur Beleuchtung der Frage ist jedoch folgende Bemerkung nicht ohne Bedeutung: sofern die Größe O, welche zum Gegenstand der Beobachtung gemacht wird, als eine Summe von genügend vielen Ad- denden gelten kann, von denen jeder für sich als zufällig varlierende Größe betrachtet wird, muß das Verteilungsgesetz für O zur An- nahme exponentieller Form neigen. Dies haben wir im Vorhergehenden in den einfacheren Fällen zu bestätigen versucht, wo sämtliche Addenden als entweder bi- nomiellen oder exponentiellen Verteilungsgesetzen folgend gedacht wurden. Über diese Fälle hinaus wird die Bestimmung der genauen Form des Verteilungsgesetzes für eine Summe von vielen Addenden, deren einzelne Verteilungsgesetze bekannt sind, wie im $ 149 erwähnt, in der Regel beschwerlich sein und oft sehr komplizierte Ausdrücke er- geben. Sind die Addenden gegenseitig unabhängig, so kann man jedoch unter gewissen sehr allgemeinen Voraussetzungen über die Verteilungs- gesetze für die einzelnen Addenden beweisen, daß sich das Verteilungs- gesetz für O mit allmählichem Anwachsen der Zahl der voneinander unabhängigen Addenden 0;, 02, 03. ... mehr und mehr der exponen- tiellen Form nähern muß. Wenn die Erwartung und der mitt- lere Fehler im Verteilungsgesetz für o, gleich er und ur ist, so ergeben sich als die der Summe 0= 01-706 -70 ..- entsprechenden Größen 246 E(O) = u= Su, und es hängt dann im wesentlichen nur von der Anzahl der Glieder ab, mit wie guter Annäherung man die Tabelle 22 (das Exponential- gesetz) wird benutzen können, um die Wahrscheinlichkeit dafür zu finden, daß 0 — E(0) < w-v (wo v eine willkürlich gegebene Zahl) ist; dagegen spielen die besonderen Formen, welche die Verteilungs- zesetze für 0,, 0,, 08 .... haben möchten, und speziell die binomiale Form dieser Verteilungsgesetze eine geringere Rolle. Selbst wenn das Exponentialgesetz oben als Grenzform für das Binomialgesetz abgeleitet ist, ist die Tendenz, diese Grenzform anzunehmen, wie früher ($ 155) erwähnt, nichts für die binomialen Verteilungsgesetze Charakteristisches, sondern eine Tendenz, welche für Polynomien mit vielen, zufällig variierenden Gliedern charakteristisch ist, Da der Beweis hierfür indes um- fassende mathematische Hilfsmittel verlangt, wollen wir uns an dieser Stelle auf ein paar Beispiele beschränken. 167%. Wie groß ist die Wahrscheinlichkeit dafür, daß die Gesamtzahl der bei einem Wurf mit n guten Würfeln erhaltenen Augen innerhalb gegebener Grenzen fällt? Wenn n=1 ist, kann man 1, 2, 3, 4, 5 oder 6 Augen bekommen; die Wahrscheinlichkeit eines jeden dieser Ausfälle wird gleich 1, gesetzt. Ist n=2, so haben wir bereits oben ($ 95) die Wahrscheinlichkeit dafür, eine der Summen 2—12 zu erhalten, gefunden. Wenn n=3 ist, kann man die Wahrscheinlichkeit dafür, daß zwei Würfel, welche zusammen x Augen aufweisen, mit einer Würfel- seite, welche y Augen ergibt, zusammentreffen, dadurch finden, daß man die für n = 2 ermittelten Wahrscheinlichkeiten mit !/, multipliziert. Die Resultate kann man in eine Korrelationstabelle (vgl. 8 95) eintragen und in dieser die Wahr- scheinlichkeiten für alle Zusammentreffen von x und y, deren Summe eine ge- zebene wird, aufsuchen und addieren; dabei findet man folgende (in 216-teln an- zegebene) Wahrscheinlichkeiten: Die Wahrscheinlichkeit der Summe *-mme 3t Z7 ‚<& 91 + UJ ) 27 Multiplizieren wir nun diese Wahrscheinlichkeiten mit den Wahrscheinlich- keiten dafür, daß ein 4. Würfel 1, 2, 3, 4, 5 oder 6 zeigt, so können die hierbei er- haltenen Wahrscheinlichkeiten aufs neue in eine Tabelle geschrieben werden, und die Wahrscheinlichkeit, daß 4 Würfel eine gegebene Summe aufweisen, läßt aich danach durch Addition ermitteln, und so kann man fortfahren. 9250 Daß sich die Verteilungsgesetze, zu denen man allmählich kommt, wie das Binomialgesetz sehr schnell der exponentiellen Form nähern, kann zahlenmäßig analog der in den 88 104 und 105 erfolgten Beschreibung für das Binomialgesetz nachgewiesen werden. Da die Erwartung und der mittlere Fehler im Verteilungs- gesetz für die bei Würfen mit 1 Würfel erhaltene Anzahl Augen 3,5 + 1/4 V 105 ergeben (vgl. Aufg. 24), werden Erwartung und mittlerer Fehler im Verteilungs gesetz für die Summe S der Anzahl der von n Würfeln ausgewiesenen Augen 35.n +14 V105n sein. . S—3,5n . Wird x == als Abszisse und die Wahrscheinlichkeit dafür, die A V105n ) Summe S zu erhalten, als Ordinate angesetzt (mit dem reziproken Wert des mittleren Fehlers als Einheit), so findet man für n=1, 2, 3, 4 und 8 die in Figur 5 abgebildeten Kurven, welche einen recht deutlichen Eindruck davon geben, daß sich das Verteilungsgesetz schnell der Gleichheit mit der Exponentialkurve nähert. Wenn beispielsweise n = 8 ist, wird die Erwartung E(S) = 28 und die Wahrscheinlichkeit, gerade diese Summe zu erhalten, gleich 0,0809; die Wahr- scheinlichkeit dafür, daß die Summe innerhalb des Spielraumes 3 fällt (die Wahr- scheinlichkeit, entweder die Summe 27 oder 28 oder 29 zu bekommen), wird 0,2397; im ganzen findet man folgende Tabelle über die Wahrscheinlichkeit I (in Prozent), daß S innerhalb gegebener Spielräume fällt: D 8,09 22,97 £ 99 “46 ‚29 34'908 a] 13 15 7 19 21 23 P 81,87 87,86 9223 95,26 97,26 0851 Wenn man in dieser Tabelle durch Interpolation die Spielräume ermittelt, innerhalb deren die Summe S mit den Wahrscheinlichkeiten 25, 40, 50, 70, 85 und 95%, fallen wird, und die gefundenen Spielräume mit dem mittleren Fehler im Verteilungsgesetz für S mißt, für welchen mittleren Fehler man u = 1!/; V840 — 4.83 erhält. so ergeben sich folgende Zahlen : P 25 9. AN 83 de 5 95 Faktische Verteilung "AN S5 u 7 u „Ju 1791 -= 371 u Exponentialgesetz 64 u 05 u 35 4 ‚7 u 2,89 u 203 Zum Vergleich sind in der letzten Kolonne die entsprechenden Werte vor s nach der Tabelle 22 (Exponentialgesetz) angeführt; hiernach ist 8 eine Anzahl deren Größe dazu ausreicht, das Verteilungsgesetz für die Gesamtzahl der Augen als expdonential zu betrachten: man kann daher. wenn es sich um die nach wu Pa rl) Ni ig Sa Fig. 6. 252 Würfen mit einer größeren Anzahl erhaltenen Summen handelt, das wirkliche Verteilungsgesetz gegen das Exponentialgesetz umtauschen, genau So, wie es mit dem Binomialgesetz der Fall war. Aufgabe 51. Wie groß ist die Wahrscheinlichkeit dafür, mit einem Wurf mit 10 Würfeln eine Summe von Augen zu erhalten, welche höchstens um 5 von der erwarteten abweicht? Aufgabe 52. Ein Bote behält als Vergütung dafür, daß er einmal monat- lich einen Betrag von wechselnder Größe abholt, die Pfennige und liefert nur die Mark ab. Wenn die Zahl der Pfennige mit gleicher Wahrscheinlichkeit jeden Wert zwischen 1 und 99 annimmt, mit welcher Vergütung kann dann der Bote pro Monat rechnen? Finde die Wahrscheinlichkeit dafür, daß die Vergütung in einem einzelnen Monat nicht mehr als 10 Pfennig von der Erwartung abweicht. Finde die Wahrscheinlichkeit, daß die durchschnittliche monatliche Vergütung 1. nach Verlauf eines Jahres, 2.nach Verlauf von 5 Jahren nicht mehr ale 10 Pfennig von der Erwartung abweicht (vgl. Aufg. 27). 168. Da die Verteilung, welche in obigem Beispiel n = 1 (dem Verteilungs- gesetz für den einzelnen Addenden) entspricht, symmetrisch ist, werden ebenso wie beim Binomialgesetz alle Verteilungskurven symmetrisch. Ist diese Bedingung nicht erfüllt, dann erreicht man erst bei größerer Gliederzahl eine entsprechend gute Übereinstimmung. Als Beispiel hierfür kann das im 8 127 behandelte gelten. Wie bei den Würfeln kann man durch fortgesetzte Multiplikation und Addition die Wahrscheinlichkeit dafür finden, daß die Summe der in n Ziehungen er- haltenen Zahlen einen gegebenen Wert hat. Vorausgesetzt wird, daß ein ge- zogenes Stäbchen vor der nächsten Ziehung in den Beutel zurückgelegt wird. Da die Erwartung in der einzelnen Ziehung 988 mit einem mittleren Fehler von 1 ist. wird die Erwartung für die Summe von n gezogenen Zahlen 988 n + V n ; N 3 S—988 nn x . sein; und trägt man wie oben % — 7% - als Abszisse und die entsprechende Wahrscheinlichkeit (multipliziert mit Ya) als Ordinate ab, so findet man für n=1, 2,3, 6 und 16 die in der Figur 6 abgebildeten Kurven; diese Kurven werden, wie erwähnt, nur mit Annäherung symmetrisch; im übrigen aber geht es hier wie mit dem Binomialgesetz (vgl. 8 111): je mehr Addenden in der Summe enthalten sind, desto bessere Übereinstimmung mit dem Exponentialgesetz erhält man. Wenn man für den Fall n = 16 analog dem vorigen Beispiel die Spiel- räume s, innerhalb deren die Summe S mit den Wahrscheinlichkeiten 25,40....% fallen wird, berechnet und diese Spielräume mit dem mittleren Fehler im Ver- teilungsgesetz für S mißt, für welchen mittleren Fehler man u = V16 = 4 erhält dann ergeben sich folgende Zahlen: Faktische Verteilung 2,58 = 0,64 u 4,25 = 1,06 u 5,46 = 1,26 u 3,37 = 2,9 u 11,57 = 2,89 u 1566 — 3.92 u r 25 40 50 ,, 70 „ 85 95 as 53 Auch hier ist die Annäherung so gut, daß man in den meisten Fällen eine genaue Bestimmung für die Wahrscheinlichkeit wird erhalten können dafür, daß die Summe einer größeren Anzahl von Addenden zwischen gegebene Grenzen fällt; man hat nur statt des genauen Verteilungsgesetzes die Tabelle 22 zu benutzen. Aufgabe 53. Ein Beutel enthält 5 Stäbchen; auf zweien steht 20 M ge- schrieben, auf den 3 übrigen 1 M; im übrigen aber sind sie gleichartig. Dem Beutel werden auf einmal 2 Stäbchen entnommen, und die Summe der darauf aotierten Beträge wird als Gewinn ausgezahlt; welchen Betrag kann man ge- winnen, und wie groß ist die Wahrscheinlichkeit dafür, jeden der möglichen Beträge zu gewinnen? Wenn 1500 M für die Erlaubnis zur 100maligen Wiederholung des Spieles bezahlt werden, dann wird nach der Wahrscheinlichkeit dafür gefragt, die 100 Spiele ohne Verlust zu beendigen. 169. Zur Beleuchtung dessen, was oben ($ 163) hervorgehoben wurde, daß der beim Gesetz der großen Zahlen definierte „Zufälligkeitsbegriff“ nicht in allen Fällen damit zusammenzufallen braucht, was man in anderen Verbindungen unter „zufällig“ versteht, sei hier noch ein Beispiel angeführt. Hierzu kann das Roulettenspiel benutzt werden. Eine zirkelrunde Scheibe denkt man sich in 38 Sektoren geteilt, welche abwechselnd weiß und rot gefärbt sind und deren Größe zuerst inach einer Differenzreihe anwächst, danach in der- selben Weise abnimmt, wie es — der Umkreis ist in 200 „Grade“ eingeteilt ge- dacht — aus folgendem Schema hervorgeht: vTeLs rel Vi weil °C * Ne: ve“ Ww€E a cc Ar ot weiß vot reiß rot LO0O Ne‘ 155° weiß Die Scheibe denkt man sich in zweckmäßiger Weise auf einer senkrechten, leichtbeweglichen Achse angebracht und in schnelle Drehung versetzt. Da nun nicht allein die Hälfte der Sektoren weiß ist, sondern außerdem jedem weißen Sektor von einer gegebenen Größe ein roter Sektor derselben Größe entspricht, So daß — zusammengenommen — die eine Hälfte der ganzen Scheibe weiß. die __ = 254 andere rot gefärbt ist, so kann man mit */, als Ausdruck für die Wahrscheinlich: keit dafür rechnen, daß die Farbe, welche, wenn die Scheibe hält, einem festen Zeiger gegenübersteht, weiß ist. Werden die Versuche viele Male wiederholt, und notiert man die Farbe, auf welche der Zeiger hindeutet, bei jedem Anhalten der Scheibe, dann hat man auch Ursache dazu, eine Beobachtungsreihe zu erwarten, welche genau so ausfällt und aus der ganz dasselbe abgeleitet werden kann, wie es im $ 79 bei der Behandlung der Erfahrungen aus den Kugelversuchen der Fall war, und die wir mit den Worten charakterisieren können, daß es ein Zufall ist, ob die Scheibe bei rot oder weiß anhält. Denkt man sich dagegen, daß die Farbe jedesmal, wenn sich die Scheibe um einen gewissen konstanten Winkel gedreht hat, notiert wird, dann kann man jedesmal im, voraus angeben, ob man weiß oder rot erhält; jedenfalls anscheinend handelt es sich also nicht länger um Begebenheiten, welche zufällig und un- abhängig von den Ausfällen der vorhergehenden Ereignisse ein- treffen. Der hier hervortretende Unterschied bezieht sich jedoch eher auf die Übersichtlichkeit, mit welcher man das Resultat eines Versuches voraus- zuberechnen imstande ist. Wird die Farbe jedesmal, wenn sich die Scheibe gerade um 200 oder 100 „Grad“ gedreht hat, notiert, dann ist es überaus einfach, die Ergebnisse vorauszusagen. : Anders jedoch, wenn man die Farbe z. B. für je 61 „Grad“ abliest oder andere, namentlich größere Primzahlen wählt. Die Auf- gabe nimmt dann einen ähnlichen Charakter an, als ob es das Resultat in dem Falle der schnellen Rotation vorauszusagen gälte, d.h. die Resultate weiß und rot finden sich anscheinend zufällig ein. Für obiges Schema kann man leicht zu einem Resultat, z. B. für die ersten 100 Ablesungen gelangen. Beginnt man diese. wenn der Zeiger vor 0,5 „Grad“ steht, so findet man, daß 61,5 weiß ergibt 122,5 rot » 183,5 weiß ,, 9244. 5 vs 305,5 rot ergibt 366,5 weiß ,, 427,5 ” 4885 „7 usw., und diese Reihe von Beobachtungen wird ganz ähnliche Verhältnisse wie die bei den Kugelversuchen gefundenen ergeben. Aus den ersten 100 Resultaten wird man ersehen, daß 51 auf weiß und 49 auf rot Jauten. Weiß folgt auf weiß 94 Male und rot auf rot 26 Male. Weiß kommt dreimal hintereinander in 12, rot in 14 Fällen; dies entspricht ganz dem, was man nach dem Satze über die Multiplikation'von Wahrscheinlichkeiten unkorrelierter Begebenheiten erwarten sollte; man wird es somit wie bei den Kugelversuchen als „zufällig“ bezeichnen können, ob man in dem einzelnen Versuche das Resultat weiß oder rot erhält; beobachtet man dagegen die Summe vieler Versuchsreihen. so wird der Spielraum der Zufälligkeiten begrenzt. 170. In den hier betrachteten Beispielen haben wir der Einfach- heit halber angenommen, daß sämtliche Addenden demselben Ver- teilungsgesetz folgten; dies ist “indes, wie oben erwähnt, keine not- wendige Bedingung dafür, daß sich das Verteilungsgesetz der Summe der exponentiellen Form nähert; können die einzelnen Addenden ferner als voneinander unabhängig betrachtet werden, so folgt aus 255 der Weise, in der dann der mittlere Fehler im Verteilungsgesetz für die Summe durch den mittleren Fehler in den Verteilungsgesetzen der einzelnen Addenden ausgedrückt wird, daß auch der arithmetische Durchschnitt von Beobachtungen, welche einer Reihe verschiedener Verteilungsgesetze folgen, sich mit wachsender Wahrscheinlichkeit ler Erwartung für die Summe nähern wird, wenn die Zahl der Versuche zunimmt. Obwohl wir hier nicht näher auf diese erweiterten Formen für „das Gesetz der großen Zahlen“ eingehen wollen, ist es jedoch nicht ohne Interesse zu bemerken — was bereits oben, $ 155, an- gedeutet wurde —, daß auch dieses Gesetz nicht mit Notwendigkeit dadurch bedingt ist, daß die Addenden gegenseitig unabhängig sind; von der Art und Weise, in der die Abhängigkeit zustande kommt, wird es dann abhängen, teils, ob das Verteilungsgesetz für die Summe solcher korrelierten Addenden überhaupt sich der exponentiellen Form nähert, teils, welche Größe der mittlere Fehler dieses Verteilungs- gesetzes erhält, und ob der Durchschnitt solcher Beobachtungen dem Gesetz der großen Zahlen folgt. 171. Wie oben erwähnt, ist in der Statistik eine häufig vor- kommende und gleichzeitig eine der wichtigsten Aufgaben die, ent- scheiden zu können, ob ein vorgefundener Unterschied zwischen zwei durch eine gewisse Zahl von Beobachtungen bestimmten Durch- schnitten — hierunter speziell zwei relative Häufigkeiten — zu- fälligen oder wesentlichen Ursachen zuzuschreiben ist. Allerdings läßt sich die Grenze zwischen diesen Gruppen von Ursachen nicht mit voller Genauigkeit festlegen; bei vielen Phänomenen in der menschlichen Gesellschaft jedoch kann man mit genügender An- näherung die genannte Unterscheidung vornehmen und den Zu- sammenhang zwischen den betreffenden Beobachtungen zahlenmäßig zum Ausdruck bringen. Unter der Voraussetzung, daß gerade die gleichen Umstände zu anderer Zeit, an anderem Ort und in einer anderen Gruppe für das betrachtete Phänomen entscheidend sein werden, wird man denn auch mit Annäherung manche Resultate vorausberechnen können; diese Seite der Sache war bis zu einem zewissen Grade der Hauptzweck der politischen Arithmetik. Wer sich durch Berechnungen dieser Art einen Ausdruck für die erzielte Genauigkeit zu verschaffen sucht, wird indes wieder auf die Schwierigkeit stoßen, welche in einem anderen Zusammenhange oben ($ 151) erwähnt wurde und daher rührt, daß man im allgemeinen nit beobachteten Zahlen operiert. Wer sich nur auf dem Wege der 256 Beobachtung eine zahlenmäßige Bestimmung einer Wahrscheinlichkeit p verschaffen kann, der muß denn auch damit rechnen, daß die einer Vorausberechnung anhaftende Unsicherheit größer werden muß als diejenige, mit der man bei vorher bekanntem p rechnen muß. 172. Zwecks näherer Untersuchung, um wieviel es sich hier handelt, kann man sich vorstellen, daß in gewöhnlicher Weise (unter Zurücklegung) einem Beutel mit weißen und roten Kugeln im Mischungsverhältnis p:q (p + a =1) Kugeln entnommen werden. Nehmen wir an, daß zuerst K, Kugeln gezogen werden, daß die Zahl der hierbei erhaltenen weißen Kugeln H, ist, und daß danach K, Kugeln, wobei man das Resultat H, weiße Kugeln erhält, entnommen werden. Die Verteilungsgesetze für H, und H, werden binomial (mit Annäherung exponential) ausfallen und folgende Erwartungen und mittlere Fehler haben: für Hı: p-Kı und V Kıpq für H»: p-K, und VK, pda. Wenn man indes nicht p kennt, sondern auf Grund der ersten K, Beobachtungen diese Wahrscheinlichkeit zu —_HAı Pı1 _ K;ı ansetzt, so wird die Erwartung im Verteilungsgesetz für H, gleich K;,- En gesetzt, so daß die Abweichung, statt zu x=p-K,-—H, bewertet zu werden, — H, KH Y KR. wird. Dabei wird die Erwartung für y allerdings Null, ebenso wie E(x), da K + E(H;) — E(H;) A, — — 90. K;ı pK; pK, () ist, wie auch das Verteilungsgesetz für y exponentiell wird ebenso wie das Verteilungsgesetz für x; während jedoch das Quadrat des mittleren Fehlers im letzteren Verteilungsgesetz, wie oben gesagt, E (x’) = K,pq wird, ergibt sich als Quadrat des mittleren Fehlers im Verteilungs- gesetz für y 257 u3= E( 2 (X 3 == y” = 2) .s K Ee K (X) ı Pd 2 Pd, da man sich H, und H, als gegenseitig unabhängig denken kann: ünd somit ist u? = K,pq (1 + R)- In diesem Ausdruck sind p und q unbekannt; aber berück- sichtigt man, daß das Quadrat des mittleren Fehlers im Verteilungs- zesetz für die bei den K, ersten Versuchen gefundene relative Häufigkeit (p;) P9 _ _ DıQL_ K,; K, ist (vgl. $ 156), so wird u? =— K; (K; + K,) Ku * Beispiel: Im Jahre 1915 wurden in Dänemark 70192 Kinder lebend ge- boren, davon waren 35 982 Knaben; wie viele der im Laufe der fünf Jahre 1916 —20 in Dänemark lebendgeborenen 361322 Kinder können hiernach als Knaben ge- rechnet werden ? Die Sexualproportion (die Wahrscheinlichkeit für eine Knabengeburt) wird nach Erfahrungen aus dem Jahre 1915 35 982 70192 = 0,5126. Man kann dann damit rechnen, daß von den in der Periode 1916—20 Ge- Jorenen 331322 pp, — 185 221 Knaben sein werden. Der mittlere Fehler is) vo pıd 367 322 . (361322 + 70 192) + EL, d. h. u — 745, so daß die Wahrscheinlichkeit dafür, daß die wirkliche Anzahl bei- 3pielsweise innerhalb der Grenzen 185221 — 3 u = 182 986 185221 + 3 u = 187456 fällt, gemäß der Tabelle 22 gleich 0,9973 wird. Tatsächlich war die Zahl 185299. Aufgabe 54. Einem Beutel mit N Kugeln, von denen einige weiß, andere rot sind, entnehme man eine Handvoll von n (n < N) Kugeln; es wird sich da- vei ergeben, daß p,.n weiß sind. Berechne, wieviele der übrigen Kugeln und 3ämtlicher N Kugeln hiernach als weiß anzunehmen sind, und gib an, mit welcher Sicherheit sich diese Berechnung vornehmen läßt. 173. Die im $ 172 betrachtete Aufgabe ist nur ein spezieller Fall der folgenden Aufgabe, bei deren Lösung wir die Summe Westergaard und Nybolle, Theorie der Statistik, 2. Autl. * 258 O0, = 01 + 02 +08 ....... On betrachten und wo die Summanden nicht gebunden sind, mit ge- wissen Wahrscheinlichkeiten einen von nur zwei verschiedenen Werten (0 und 1) anzunehmen, aber mit gewissen Wahrscheinlichkeiten einen unter beliebig vielen Werten annehmen können. Es wird jetzt wie früher vorausgesetzt, daß das Verteilungsgesetz für alle Summanden dasselbe ist; und wir geben diesem Verteilungsgesetz die Erwartung e und den mittleren Fehler u. Sind e und 4 bekannt, so werden sich die Werte, welche die Summe O0, von N Addenden annehmen kann, exponentiell mit der Erwartung N-e und dem mittleren Fehler uVN verteilen; wenn man dagegen bei n Beobachtungen als präsumptiven Wert für e das arithmetische Mittel e; = 10: gefunden hat und daraus schließt, daß die Summe von N Addenden Ne, wird, so findet man die Ab- weichung y=N- ej — Os. Das Verteilungsgesetz für y muß mit Annäherung ein Exponential- gesetz sein; es bekommt wie das Verteilungsgesetz für x=N-e—0 die Erwartung Null; da jedoch e, und O, wie früher als voneinander unabhängig betrachtet werden, wird das Quadrat des mittleren Fehlers im Verteilungsgesetz für y nicht u? - N, sondern dagegen 2 u? = N 4 Nu? = Nu? (1 + N) welche Größe, wenn n= Kı, N=K, und u?==pq ist, das oben gefundene Resultat gibt. Wenn man für den Mittelwert des Quadrats der Abweichunger zwischen den n Beobachtungen und dem Durchschnitte e, aus diesen (dem empirischen mittleren Fehler) wu? gefunden hat, dann kann mar wie früher damit rechnen, daß Mal n n—1 ist, und erhält also uU? — AS — N (N + n) A —1” Beispiel: Nach der Viehzählung in Dänemark im Jahre 1909 belief sich die Zahl der Kühe unter 10 Jahren in 18 zerstreut liegenden Kirchspielen des Kreises Svendborgz insgesamt auf 12.200: jedes dieser Kirchspiele hatte also durch 259 schnittlich 678 Stück, und der mittlere Fehler in der Verteilung dieser 18 Kirch- spiele betrug 338. Wie viele Kühe unter 10 Jahren darf man hiernach in den übrigen 72 Kirchspielen des Kreises!) vermuten, und wie zuverlässig läßt sich diese Berechnung durchführen ? Da N =72 und e, = 678 ist, so erhält man als Anzahl der Kühe in den übrigen 72 Kirchspielen N .e, = 72.678 = 48800, sodaß die Gesamtzahl der Kühe des Kreises auf 61000 veranschlagt werden kann. Als mittleren Fehler für diese Bestimmung erhält man: 78 0 PS] 2507124 = 6600, u? 338? , % warm) so daß die Wahrscheinlichkeit dafür, daß die faktische Zahl innerhalb der Grenzen 61000 — 3 u, == 41 000 und 61000 +3 u, = 81000 fällt, nach der Tabelle 25 jedenfalls größer als 0,889 ist und nach dem Exponential- gesetz 0,9973 sein sollte. Tatsächlich war die Zahl 67838. Diese Berechnung ist somit ziemlich unsicher; wenn man da- zegen außer dem im Beispiel Gegebenen zugleich über eine voll- ständige Erhebung des Kuhbestandes sämtlicher Gemeinden zu einem /rüheren Zeitpunkte, z. B. über die Ergebnisse der im Jahre 1898 abgehaltenen Zählung verfügt, wird man diese Kenntnis für eine genauere Berechnung ausnutzen können, indem man statt des eigent- lichen Kuhbestandes der 18 Kirchspiele entweder die Differenz zwischen dem Bestande der Jahre 1898 und 1909 (vgl. Aufgabe 55) oder das Verhältnis zwischen den Beständen dieser Jahre (den pro- zentischen Zuwachs), vgl. 8 174, betrachtet. Aufgabe 55. Für 18 zerstreut liegende Kirchspiele im Kreise Svendborg verteilten sich die Differenzen zwischen der Anzahl von Kühen unter 10 Jahren ‘898 und 1909 um den Durchschnitt 146 mit einem mittleren Fehler von 89. Mit welchem Bestandzuwachs von 1898 bis 1909 kann man rechnen 1. für die 72 übrigen Kirchspiele des Kreises, 2, für den ganzen Kreis? Berechne, wieviele Kühe unter 10 Jahren hiernach im Jahre 1909 vermutlich im ganzen Kreise Svend- voorg gewesen sind, weun der Bestand im Jahre 1898 sich auf 63418 belief, und gib an, mit welcher Sicherheit sich diese Berechnung vornehmen läßt. Aufgabe 56. Ein rechteckiges Feld von 50 m Länge und 30 m Breite st in 15 Quadrate zu je 10X10 m geteilt, und in der Mitte eines jeden ein Regenmesser aufgestellt, dessen Grundfläche ein Quadrat von 10 cm Seitenlänge st. Nach einem Gewitterregen werden den 15 Messern folgende Regenmengen abgelesen: "nm 25mm 21 mm 9 ıdi ‚’ Pa ‚7 19 h Von den Inselchen Lyo und Avernako sowie von den winzigen Land- zemeinden Nyborg, St. Jorgens und Faaborg ist hier abgesehen. 260 — Berechne, wieviele hl Regen nach diesen Messungen vermutlich dem Felde zugeführt werden, und gib an, mit welcher Sicherheit diese Berechnung vor- genommen werden kann. Von Meßfehlern beim Ablesen der Messer ist ab- gesehen. 17/4. Von den zwei im vorigen Paragraphen genannten Möglich- keiten wird die letztere am besten die Voraussetzung darüber er- füllen, daß das Verteilungsgesetz für alle Beobachtungen dasselbe sein soll. Bezeichnet man die gegebene und bekannte Viehzahl nach der älteren Zählung im Kirchspiel Nr. i mit a; und den Zuwachs, mit dem a; zu multiplizieren. ist, um den Viehbestand des Jahres 1909 zu ergeben, mit o:, dann nimmt der Ausdruck für den ge- samten Viehbestand in N Kirchspielen die Form eines Polynomiums O0 = 3,01 + 83,02 + 8308 + +... . anNON an. Wenn man nun im allgemeinen das Polynomium O0 = 01 82° 02 + .... 4 an“ On betrachtet, WO a, az, as .... gegebene Zahlenkoeffizienten, 0,, 0, 03... dagegen zufällig variierende Größen sind, welche dem gleichen Verteilungsgesetz init der Erwartung e und dem mittleren Fehler u folgen, dann wird das Verteilungsgesetz für O, die Erwartung E(O0)=e-4A4 und den mittleren Fehler u = 4 VB erhalten, wo der Kürze halbeı A=4 +8 +3 +.... + an B— a? H al2-tLHa24.,... + an? ist. Wenn man nun, nachdem auf dem Wege direkter Beobachtung aus 01, 02 ... On festgestellt ist, daß a 0, +8 00 +..... an‘ 0n= Qt wird, schließt. daß 0 e > = Ci, wo eı, eine zufällig variierende Größe mit dem mittleren Fehler £* YB ist und man daher für 0 = antı" 0On+1 7 An+2° On+2- ++ +++ AN+o * ON+n OO, = ee * C erhält. wo C=— an +1 T- an+2 ++ «os an+4-N ist, dann erhält man die Abweichung 261 y = €, . C— ©, welche ebenso wie xx=26:C—0 lie Erwartung Null hat; aber während man für den mittleren Fehler im Verteilungsgesetz für x den Wert uVD findet, wo D= dnt+ı? + &n+2?... . dn+NP ist, so findet man für den mittleren Fehler u, im Verteilungsgesetz für y, daß B ° 4?= C? 75 MH? + m? D = up {1 + A| Wenn alle Koeffizienten a,, a, a .... gleich groß und gleich a sind, so wird A=2-a3 B=n- a? C=N-a D=—VN- a? und demgemäß u? — (au)? « N(1 +2) übereinstimmend mit dem im 8 173 gefundenen Resultat. Falls sich dagegen die n Koeffizienten a +... an um den Durch- schnitt a mit dem mittleren Fehler « und die N Koeffizienten an+1 ++ am+N Sich um den Durchschnitt b mit dem mittleren Fehler 3 verteilen, wird A=na B = n(a? + «?) C=Nb D = N(b? + 87), ınd man erhält dann = N (2 89$1 - 1. : -- 1 “m 1 “ ll woraus aufs neue = u DU + S) folgt, wenn die Koeffizienten a, a... a und die Koeffizienten An+1-.... an+N die gleichen Durchschnitte und den mittleren Fehler (a = b und « = ß) haben, welche Bedingung oft annähernd erfüllt sein wird. Die Unterschiede, welche die Koeffizienten auf- weisen, werden ferner in manchen Verwendungen im Verhältnis 262 zur Größe der Koeffizienten klein sein, d. h. « und @ werden im Vergleich mit a und b klein sein, in welchem Falle man ebenfalls annähernd genau mit der einfachen Formel rechnen kann. In dem gefundenen Ausdruck für u? kennt man nun w* nicht: aber ebenso wie man präsumptiv eu A101 Ft 8202 to + +++ +++ AnOn e BEL — — = A setzt, kann man damit rechnen, daß A 1 1 2 2 . a0 . anOn ) + + €; ist. Die durchschnittliche Größe e, von 0;, 02, 03 .... On und der mittlere Fehler u? sind hierbei unter Berücksichtigung der verschiedenen Größe der Koeffizienten aı, a, as.... a; berechnet; wie gesagt, werden die Unterschiede zwischen diesen Koeffizienten in vielen Ver- wendungen ohne größere Bedeutung sein, so daß man mit guter An- näherung geradezu O4 +. 01 + 0a + 08 + e, — - . On „N Se 1 € £ und u? — = Soi* — a,% setzen kann. Beispiel: Nach der Viehzählung des Jahres 1898 verteilte sich die Zahl der unterzehnjährigen Kühe in 18 zerstreut gelegenen Kirchspielen im Kreise Svendborg um einen Durchschnitt von 514 mit einem mittleren Fehler von 275. Die entsprechenden Zahlen für die übrigen 72 Kirchspiele des Kreises betragen 613 + 292. Gemäß der 1909 abgehaltenen Viehzählung verteilten sich die Zu- wachsprozente von 1898 bis 1909 in den erstgenannten Kirchspielen um einen Durchschnitt von 25,6%, (e, = 1,256) mit einem mittleren Fehler von u — 0,108 Mit welcher Viehzahl muß man hiernach für's Jahr 1909 für die übrigen 7% Kirchspiele und für den ganzen Kreis rechnen. und mit welcher Sicherheit 1äßt sich diese Berechnung vornehmen ? Die Viehzahl des Jahres 1909 in den 72 Kirchspielen kann auf 72 . 613 - 1,256 — 55400 veranschlagt werden, und da die entsprechende Zahl für die 16 Kirchspiele 18 - 514 - 1,256 = 11600 ist, ergibt sich ein Viehbestand für den gauzen Kreis im Jahre 1909 von 67000, während er, wie im $ 173 erwähnt, faktisch 67838 betrug. Zur Feststellung des mittleren Fehlers im Verteilungsgesetz für diese zwei berechneten Zahlen ist zu bemerken, daß 2 N ho 5) 1,286 \ \ — ? = 1+ zZ — Ta) Se a 1+ (£) 263 und daß man erhält also D=72. (b? + 8) = 72 . 461033 = 33194000, u? = 0,108? = 0,01166: 4,7 = 0,01166 - 33194 000 . 5,192 u, = V2010000 = 1418, während man, wenn ganz einfach der Faktor 5,192 durch 1 + A 5 ersetzt rürde. 4, = V1935000 = 1391 erhalten hätte. Der Umstand, daß man aus den Ergebnissen einer früheren Zählung hat Nutzen ziehen können, hat somit die Unsicherheit bedeutend vermindert. Mit einer Wahrscheinlichkeit, welche; jedenfalis größer als 0,899 ist und vermutlich in der Nähe von 1 liegt, kann man hiernach rechnen, daß die richtige Zahl innerhalb der Grenzen 67000 — 3 x, = 62800 und 67000 + 3 u, — 71200 liegt. Aufgabe 57, In 22 der 66 Landgemeinden des Kreises Maribo machten im Jahre 1921 die 15- bis 25jährigen Männer von der männlichen Bevölkerung der ganzen Gemeinde Bruchteile aus, welche sich um 0,1744 mit einem mittleren Fehler von 0,015 verteilten. Wenn sich diese 22 Gemeinden nach der Zahl der Männer sämtlicher Altersklassen um den Durchschnitt 679 mit einem mittleren Fehler von 355 und die übrigen 44 Gemeinden sich um den Durchschnitt 673 mit einem mittleren Fehler von 310 verteilten, so ist die Zahl der 1921 im Kreise Maribo be- Ändlichen 15- bis 25jährigen Männer zu berechnen und anzugeben, mit welcher Sicherheit die Berechnung durchgeführt werden kann. 175. Man kann sich im Gegensatz zu der oben im $ 172 be- handelten Aufgabe denken, daß man bei Ziehungen aus einem Beutel lie Zahl der entnommenen weißen Kugeln, jedoch nicht die Anzahl ler gesamten Ziehungen ermittelt hat und daß man teils auf Grund ler vorgenommenen Aufzählung, teils auf Grund einer im voraus auf dem Wege der Erfahrung beschafften Kenntnis des Mischungs- verhältnisses im Beutel eine Berechnung über die Anzahl der Ziehungen und über die Sicherheit vornehmen kann, mit der sich ine solche Berechnung durchführen läßt. Diese Aufgabe kann folgendermaßen angefaßt werden: Das Ver- hältnis zwischen der Anzahl von weißen und roten Kugeln denkt man sich wie gewöhnlich mit p und q (p + q= 1) bezeichnet. Zieht man so lange aus einem Beutel, bis man n weiße Kugeln erhalten hat, dann läßt sich nach der Wahrscheinlichkeit p,, daß gerade r Male T=n) gezogen worden ist, fragen. Bezüglich der Feststellung von Dr ist zu bemerken, daß die n-te gezogene weiße Kugel die Versuchs- 264 reihe abschließt, einerlei, in welcher Ordnung die ersten (n— 1) weißen Kugeln gezogen worden sind. Die gesuchte Wahrscheinlich- keit ist daher die Wahrscheinlichkeit dafür, in den ersten (r— 1) Ziehungen (n— 1) weiße Kugeln und in der r-ten Ziehung weiß zu erhalten: die Wahrscheinlichkeit des Eintreffens dieser zwei Be- gebenheiten ist ' T— 1} n—1 ar—n " v(I7; pP q und p'=P, woraus folgt, daß ' " r—1 Dr = + D'= pt | _y) Id wo r=n. Ist im besonderen n==1, so wird die Wahrscheinlichkeit, daß sich weiß zum erstenmal im x-ten Zug (x = 1) zeigt, Px = pa*7). Für eine Größe x, welche diesem letzteren Verteilungsgesetze folgt, kann man leicht die Erwartung als Eix= pP und einen mittleren Fehler im Verteilungsgesetz von _V4 u V:: feststellen *). Betrachtet man danach die Summe = Xi X 30.0 004044 Xn aus der Anzahl von Malen, xX,, X, Xs, ..., Welche man ziehen muß, um die erste, die . zweite usw. und die n-te weiße Kugel zu erhalten. so wird sich als Erwartung für ı n E(r)=- (r) D und als mittlerer Fehler im Verteilungsgesetz prfür r 1 — u = Van = — Ynq D D ergeben. Ist nun so lange aus einem Beutel gezogen worden, bis man H; weiße Kugeln erhalten hat, und hat man zur Erreichung dieses Resnul- 1) Vergl. den Anhang. 265 tats K, Male ziehen müssen und in einer Reihe von K, neuen Versuchen H; weiße Kugeln erhalten, und wird nun daraus geschlossen, daß H, HE, K, Male zezogen worden ist, dann begeht man den Fehler H X — = K; — K,, wo die Erwartung für x __H, — _H, Hi H,_ E(x) = A, Kı) E(K,) = HL‘ DD 0, so daß der mittlere Fehler im Verteilungsgesetz für x also wird: H,\’Haa ,Hq_H q ( H ) 2) — u2— (=2) ZA — 24 —2 E(x?= u (E-) p? + D? D? LTE) In diesen ersten Ausdruck gehen p und q als unbekannte Größen ein; setzt man auf Grund der Resultate der ersten Versuchsreihe Kı—H a= h 1 so erhält man X, — H;) Hy AL —+ H. 2) Beispiel: Von 1916—20 wurden in Dänemark 361322 lebende Kinder zeboren, von denen 185299 Knaben waren. Mit wieviel lebendgeborenen Kindern kann man danach für das Jahr 1915 rechnen, wenn in diesem Jahre 35 982 lebende Knaben geboren wurden? Die Sexualproportion ist nach den Erfahrungen 1916—20 185299 Pı = 3613595 = 0,5128, Die Zahl der lebendgeborenen Kinder im Jahre 1915 kann hiernach zu 35982 35982 B= 0.5128 185989 * 961322 = 70163 angesetzt werden. Das Quadrat des mittleren Fehlers wird bei dieser Bestimmung 281292 35982 . 176023 | 35982 En {1 185299) So daß u = Y 79593 = 282 ist und die Wahrscheinlichkeit dafür, daß die wirkliche Anzahl der im Jahre 1915 lebendgeborenen Kinder innerhalb der Grenzen B—3 u =69347 B +3 u = 70979 liegt, nahe 1 liegen muß. Tatsächlich betrug die Zahl 70192. 266 — Aufgabe 58. Eine mit Würfeln gefüllte Schachtel (wobei die Würfel als un- merkbar falsch angenommen werden) wird sorgfältig geschüttelt und ihr Inhalt auf einen Tisch gekippt. Welchen Schluß kann man hinsichtlich der Zahl der Würfel aus dem Umstand folgern, daß 80 der Würfel Sechs ergaben? 176. Während die Reihe statistischer Probleme, zu der eine weitere Verallgemeinerung der im $ 175 behandelten Aufgabe An- laß geben kann, an dieser Stelle nicht weiter vertieft werden soll; ist hinsichtlich der in den 88 172—175 behandelten Aufgaben zu bemerken, daß sie in praxi bei Repräsentativzählungen verwandt werden können, wenn man mit Sorgfalt so gut wie möglich die Stichproben so auswählt, daß annähernd damit gerechnet werden kann, daß das Verteilungsgesetz für die Summanden in O0, = 0; +0... + On dasselbe wie für die Summanden in 0, = 02+1- 7 On+2--.-. 0n+N ist. Schließlich kann man sich oft vergewissern, daß der Ausschnitt dieselben Durchschnittseigenschaften wie die '"Totalmasse hat; man wird dann vor eine Reihe neuer Aufgaben gestellt !). 1V. Kapitel. Die Anwendung des Exponentialgesetzes. A. Allgemeine Bemerkungen, 17%. Wir bemerkten bereits oben ($ 166), daß das Exponential- gesetz bei vielen Beobachtungsreihen jedenfalls als vorläufiger Aus- druck für die Frequenzverteilung wird gelten können. Sofern die beobachtete Größe :als Summe vieler Addenden aufgefaßt werden kann, geht aus dem im $ 166 Entwickelten hervor, daß sich die Frequenzverteilung in größerem oder kleinerem Grade der exponen- tiellen Form nähern wird, auch wenn die einzelnen Summanden Ver- teilungsgesetzen folgen, welche nicht exponentiell sind (Beispiel hier- für ist die Binomialformel); dieses Verhältnis hat u. a. zur Auf- stellung der sogenannten Elementarfehlerhypothese Ver- anlassung gegeben, mit deren Hilfe man nicht nur das häufige Vor- kommen von Freauenzkurven. welche dem Exponentialgesetz ähneln. 1) Vgl. A. L. Bowley, Measurement of the precision attained in sampling. Bulletin de lInstitut International de Statistique. Tome 22. Roma 1926; ferne Adolph Jensen (vgl. Fußnote 1 auf S. 89). 267 sondern auch gewisse jedenfalls scheinbare Abweichungen von dieser Form zu erklären gesucht hat; man ging hierbei davon aus, daß sich die beobachtete Größe aus einer Anzahl von Größen zusammen- setzt, welche gewissen einfachen Verteilungsgesetzen folgen. Wie aus den im folgenden zu besprechenden Beispielen hervorgehen wird und bereits im $ 165 erwähnt wurde, werden sich indes die meisten der in der Statistik entstehenden Fragen ohne Anwendung einer solchen Hypothese entscheiden lassen. Die Wirkung der über- wiegenden Menge der in der Regel sehr großen Anzahl von Ur- sachen, welche auf die sozialen Phänomene einwirken, läßt sich im allgemeinen in dem Sinne eliminieren, daß man bei passender Teilung des Materials oft schnell erreichen kann, daß sich die Wirkungen dieser Ursachen insofern gegenseitig aufheben, als sie nur eine bei einem gewissen Exponentialgesetz angegebene Unsicherheit ver- ursachen. Jedenfalls bis zu einem gewissen Punkt in der Unter- suchung kann man daher dieses Gesetz als die wissenschaftliche Grundlage der Statistik ansehen, selbst wenn man sich, wie oben ge- sagt, sehr leicht vorstellen kann, daß man in gewissen Spezialaufgaben und bei der weiteren Verfolgung eines Problems nicht immer das Exponentialgesetz als den einzig möglichen Ausdruck für die Wirkung der Individualursachen (der „zufälligen“ Ursachen) festhalten kann. Die Teilung des Materials, welche hiernach im Hinblick auf das Exponentialgesetz sollte vorgenommen werden können, wird andererseits sehr oft die für das betreffende Phänomen entscheiden- den Ursachen vollständig abtrennen können, sodaß die Wirkung jeder dieser Ursachen insofern klar ist. Selbst wenn es bei einer Be- arbeitung des Materials geglückt ist, das Exponentialgesetz in An- wendung zu bringen, mögen sich indes hinter dieser Übereinstim- mung Ursachen verbergen, welche noch von den Individualursachen auszuscheiden sind, deren Erfassung jedoch erst bei einer neuen Teilung des Materials oder bei ganz neuen Beobachtungen glückt. Zur Beleuchtung der Methode und der hier behandelten Fragen sollen in diesem Kapitel einige Beispiele der Anwendung des Exponential- gesetzes in der Anthropometrie, der Bevölkerungs- und Wirtschafts- statistik gegeben werden. B. Anthropometrische Messungen. 178. Auf Grund der italienischen Militärstatistik!) sei zunächst die Verteilung nach der Körpergröße erwähnt. In der folgenden Ta- " R. Livi,. Antropometria Militare, Roma 1898—1905. 268 Tabelle 28, Die Körpergröße italienischer Rekruten. a Hiervon waren aus Ganz Talien T On | ven edig | Körpergröße | Absolute Zahlen! Sardinien 4 Lu 150 4 R7 ‚53 7 202 2658 10219 11.907 14.085 15473 19 748 19 484 22 268 21 700 21 436 21 917 19 472 17 798 15 649 12 558 12 428 9276 7672 5 650 4 488 3818 2898 2.066 1522 1.005 714 414 298 184 129 113 424 524 716 910 1194 1407 1712 1869 1.934 2122 2.053 1.985 1797 1565 1612 1280 1134 861 745 611 592 405 306 6 10 131 488 541 508 518 630 577 584 516 469 450 300 262 178 143 105 74 8 1 '4 4 ) 1 5 t 163 1.54 LEN 165 a . ) 7 78 ‚79 5 81 ?2 ii 9 LT 85 86 97 4 1] 1 X > 19 "o 1 2 3 4 9 ] x 195 , . ; Zusammen 299 355 1000 98509 6687 belle 28 ist diese Verteilung teils für ganz Italien (insgesamt 299355 Gemessene), teils für Venedig und Sardinien (jeweils 28509 und 6687 Gemessene) mitgeteilt, Da die Körpergröße als eine kontinuierliche Größe aufzufassen 6 ist, jedoch nur mit einer gewissen Genauigkeit gemessen werden kann, muß die Methode in praxi die sein, daß man bei Messungen jede Person gewissen Höhenklassen zuweist, welche so abgegrenzt sind, daß man leicht entscheiden kann, ob der Betreffende zur einen oder zur anderen Klasse gehört. Diese Methode ist natürlich desto leichter anzuwenden, in je gröberen Zügen man die Klassen wählt; andererseits erfährt man natürlich mehr, wenn man weiß, daß die Körpergröße zwischen 162 und 163 anstatt zwischen 160 und 165 cm liegt; ohne Anwendung einer besonders verwickelten Meßtechnik kann man indes leicht entscheiden, ob eine Person zwischen 153,5 und 154,5, ob zwischen 154,5 und 155,5 cm usw. mißt. Auf diese Weise ist die Tabelle 28 aufgestellt; sie gibt in Wirklichkeit an, daß die Körpergröße für 202 der 299355 Gemessenen zwischen 153,5 und 154,5 cm und für 2658 zwischen 154,5 und 155,5 cm usw. lag, wenn auch dies in der Tabelle dadurch bezeichnet ist, daß 202 gerade 154 und 2658 gerade 155 cm maßen usw. Bei der weiteren Benutzung der Zahlen hat man freilich so zu rechnen, als ob sämtliche in einer Klasse angeführten Rekruten die- selbe Größe hätten, und hierzu benutzt man gerade im allgemeinen den Mittelpunkt zwischen den Klassengrenzen, d.h. man bezeichnet nicht nur eine Größenklasse mit 154 cm, sondern rechnet auch so, als ob alle 202 Personen gerade die Höhe von 154 cm usw. be- säßen. Man könnte natürlich versuchen, mit noch größerer Genauig- keit zu messen, würde jedoch dann wieder genau demselben Problem gegenübergestellt werden: welcher Größe alle diejenigen zuzurechnen seien, welche hierdurch z. B. in der Größenklasse 154,6—154,7 cm angeführt würden. Dieser anscheinenden Schwierigkeit begegnet man überall, wo es sich um die Beobachtung einer kontinuierlichen Größe handelt, und sie läßt sich, wie gesagt, nicht aufheben, sondern nur durch genauere Messung begrenzen. Die Schwierigkeit ist jedoch in den aller- meisten Fällen ausschließlich theoretischer Art, und es soll aus den oben ($ 55) genannten Ursachen hier nicht näher darauf eingegangen werden, gerade deshalb nicht, weil sie nur bei sehr grober Klassen- teilung (wenn die beobachteten Größen nur in ganz wenigen Gruppen untergebracht sind) eine praktische Rolle wird spielen können). 179. Wenn man in dieser Weise vorgeht, kann man aus den in der Tabelle gegebenen Daten die Summe Ss, und die Quadrat- Summe s, sämtlicher 299355 Beobachtungen finden und dabei wieder ') Siehe u. a. J. F. Steffensen, Matematisk Jagttagelseslere, Kobenhavn 1923, 8. 85 £. 2710 — die empirischen Werte für den Durchschnitt und den mittleren Fehler der Verteilung bestimmen, Die einfachste Berechnung ist jedoch die, daß man, wie in der Tabelle 27 ($ 153), zuerst die Momente um eine Zahl bestimmt, welche vermutlich in der Nähe des Durchschnitts liegen; wählt man als Nullpunkt 165 cm, so erhält man als Mo- mente M, und M, um 165 — 144 780 8468160 Mı=-—509855 = 0,5 und M,= 599355 28,29. Es ist hierbei ohne praktische Bedeutung, ob man bei der Be- stimmung von M, durch 299355 oder 299354 dividiert (vergl. $ 156). Hieraus nun findet man ($ 127, IIa und IIc), daß der Durch- schnitt g = 165 — 0,5 = 164,5 cm und der mittlere Fehler u = V28,29—0,5? = 5,3 cm ist. Ungefähr dasselbe Resultat ergibt sich, wenn man nach der Ta- belle 22 den mittleren Fehler als den Maximalabstand, innerhalb dessen ?/; (genauer 687%) der Messungen fallen, bestimmt. Es geht nämlich aus der Tabelle 28 hervor, daß 640% 0 (66 + 65 + 74 +72 +72 + 73 + 65 +59 +52 + 42) der Messungen weniger als 5 cm und 734 %% 9 (640 +52 + 42) weniger als 6 cm vom Durchschnitt abweichen. Durch Interpolation findet man dann, daß den 687 %/,o ein Maximalabstand von ca. 5,4 cm ent- spricht. Eine solche Übereinstimmung kann man natürlich nur erwarten, wenn die Verteilung (Tabelle 28) ziemlich nahe mit dem Exponential- gesetz (Tabelle 22) übereinstimmt. Wie gut dieses Gesetz die Ver- teilung darstellt, kann nun dadurch geprüft werden, daß man unter- sucht, teils wieviele %, der Messungen faktisch innerhalb gegebener Spielräume, teils wieviele nach der Tabelle 22 innerhalb derselben Spielräume fallen. Dies ist für die Spielräume von 4, 8, 12, 16 und 90 em in der folgenden Übersicht angeführt: Wehrpflichtige Exponentialformel Spielräume Relative Maximal- Wahr- Häufigkeit abweichung scheinlichkeit 0,282 0,37 0,289 0,532 0,73 0,535 0,734 1,10 0,729 0,878 1,47 0,859 0.955 1,83 0.931 an Daß 282%, der Messungen innerhalb des Spielraums von 4 cm fallen. bedeutet dasselbe wie daß 282 %,2 höchstens 2 cm vom Durch- 271 schnitt 164,5 cm abweichen, d. h. einen der Werte 163, 164, 165 und 166 haben: wie aus der Tabelle 28 hervorgeht, ist dies mit 72 +72 +73 + 65 = 282 0 sämtlicher Messungen der Fall. Analog findet man, daß 532 % 0 innerhalb des Spielraums von 8 cm fallen, d. h. höchstens 4 cm vom Durchschnitt abweichen, und so fort. Wird nun 5,3 cm als Ausdruck für den mittleren Fehler benutzt, so ersieht man andererseits aus der Tabelle 22, daß einem Werte > -53- 0,37 die Wahrscheinlichkeit P=0,289 und x = =33 0,73 der Wert P = 0,535 entspricht, und so fort gemäß ‘ 3 obiger Übersicht. Aus dieser Übersicht erhellt, daß das Exponentialgesetz die Ver- teilung nach Körpergröße recht gut darstellt. Hierbei ist jedoch die Asymmetrie nicht berücksichtigt worden, welche in der Tabelle 28 dadurch zum Ausdruck kommt, daß 468%, der Messungen kleiner und 532% derselben größer sind als der Durchschnitt. Ferner kann auch bemerkt werden, daß die faktische Verteilung die verschiedenen Meß- resultate kaum so stark um den Durchschnitt sammelt wie das Ex- ponentialgesetz. 180. Abweichungen dieser Art trifft man sehr allgemein, und sie deuten fast immer darauf hin, daß unter den Ursachen, welche für das einzelne Maß entscheidend gewesen sind (im gegenwärtigen Bei- spiel die Höhe der Person), zwei oder mehrere Hauptursachen sind, welche sich bei passender Teilung des Materials ausscheiden lassen. Weiter unten sollen die Folgen davon, daß zwei oder mehrere Typen zusammengefaßt werden, näher besprochen werden. An dieser Stelle sei bemerkt, daß die für sämtliche 299355 Rekruten benutzte Vertei- lung nach der Körpergröße gesondert für verschiedene geographische Gruppen, Altersgruppen usw. vorliegt, und es ist dann verhältnismäßig leicht zu untersuchen, ob die vorliegende Gruppenteilung die An- nahme, daß Gruppen mit typisch verschiedenem Durchschnitt zu- sammengefaßt worden sind, stützt. Daß dies der Fall ist, scheint bereits daraus hervorzugehen, daß die Durchschnittsgröße für Personen nach Landschaften, rund ge- rechnet, eine abnehmende Reihe von Nord nach Süd bildet. Zur Be- leuchtung der geographischen Verschiedenheiten ist in der Tabelle 28 die Verteilung der in Venedig und auf Sardinien gemessenen 272 jeweils 28509 und 6687 Personen mitgeteilt. Die Werte, welche man in der oben beschriebenen Weise für den Durchschnitt und den mittleren Fehler ableiten kann, sind für Venedig g, = 166,6 cm, 14 = V 30,470 = 5,5 cm für Sardinien g, = 161,9 cm, u = V19,185 = 4,4 cm. Gemäß dem im $ 155 Entwickelten findet man als Ausdruck für den mittleren Fehler der Durchschnitte die Werte UM 1/30,470 __ Us = 728509 = Ve 509 0,0327 Wo 9/19,185 _ = = =V = 0,0534. Da zur Bestimmung von g, mehr Messungen zur Verfügung standen als zur Bestimmung von g,, so findet man auch, daß der mittlere Fehler bei g, bedeutend kleiner als bei g, ist, obgleich sich die Messungen, durch die g, bestimmt wird, etwas stärkeı streuen als die für g, benutzten Faktoren. Hieraus folgert man dann weiter, daß der mittlere Fehler im Verteilungsgesetz für die Differenz der Durchschnitte g, und g, (RER a E00 sein muß, und da die eigentliche Differenz der ermittelten Durch- schnitte 4,7 cm ist, handelt es sich hier um einen Unterschied, welcheı das 70- bis 80fache des mittleren Fehlers ausmacht. Es muß somit als ganz unwahrscheinlich angesehen werden, daß der faktisch er- mittelte Unterschied der Durchschnitte verschwinden oder in ent- gegengesetzter Richtung gehen würde, falls sich die Messungen unter den gleichen Umständen wiederholen ließen. 181. Ganz entsprechende Betrachtungen ließen sich nun über diejenigen Verteilungen nach Körpergröße anstellen, welche man bei der gesonderten Betrachtung von Personen eines bestimmten Alters erhält, und man könnte sich dabei das höchst interessante Problem des Aufhörens des Wachstums beleuchtet denken; man wird jedoch, wenn man hierzu die Messungen des Militärs be- nutzt, auf die Schwierigkeiten stoßen, daß ein solches Material in dieser Beziehung nicht repräsentativ ist. Dies kommt hier da- durch zum Vorschein, daß die jüngeren Altersklassen durchweg eine größere Körperlänge als die älteren aufweisen, was seine ein- fache Erklärung in dem Umstand hat. daß die Wehrpflichtigen. 273 welche ihre Dienstzeit so früh wie möglich abzudienen wünschen, lie Erlaubnis haben, sich bereits im Alter von 17—18 Jahren zu melden und in überwiegendem Grade aus gesunden und daher auch in der Regel wohlgestalteten jungen Männern bestehen werden, während alle übrigen Wehrpflichtigen (der Hauptteil) die Pflicht haben, sich jedenfalls vor Erreichung eines gewissen Alters zu melden; diese Gruppe wird dann auch die weniger wohl gestalteten Personen um- fassen. Ähnliche Verhältnisse machen sich beispielsweise auch bei ler Beobachtung der Körpergröße dänischer Rekruten bemerkbar. Aufgabe 59. Nach den dänischen Sessionsresultaten für 1925 betrug die Durchschnittsgröße der 2757 untersuchten 19-jährigen 170,4 cm, während die Durch- schnittsgröße der 4037 21-jährigen Gestellungspflichtigen 169,1 cm war; wenn der mittlere Fehler in der Verteilung nach Körperhöhe in den zwei Gruppen zu jeweils 5,9 und 6,8 gesetzt werden kann, dann ist zu untersuchen, ob die angeführte Anzahl von Messungen zur Begründung einer Annahme darüber ausreicht, daß der ge- {undene Unterschied zwischen den zwei Altersgruppen nicht „zufällig“ ist. 182. Wir haben oben gesagt, daß die Weise, in der die faktische Verteilung der 299355 nach Körpergröße Gemessenen vom Exponentialgesetz abwich, im allgemeinen auf eine Vermischung von Beobachtungen in Grup- pen mit typisch verschiedener Durchschnitts- größe deutete. Selbst wenn es ohne weitere Hilfsmittel unmöglich ist, in größerer Allge- meinheit die Probleme anzufassen, welche bei einer solchen eventuellen Vermischung („com- pounding“) entstehen können, kann man doch andererseits leicht einfache Beispiele konstru- ieren, welche beleuchten können, in welcher Weise die Verteilungskurve ihre Form wechselt, wenn man Gruppen mischt, in denen sich die [ndividuen zwar exponentiell, jedoch um typisch verschiedene Durchschnitte verteilen. 183. Das einfachste Beispiel erhält man, wenn es sich um die Vermischung von zwei gleich großen Gruppen z. B. von je 1000 In- dividuen handelt, welche sich exponentiell jede um ihren Durchschnitt mit demselben mittleren Fehler verteilen. Dieser mittlere Fehler kann, wenn die Verteilung z. B. die Körpergröße betrifft, der Einfachheit halber zu 5 cm ange- Westergaard und Nvbo@lle, Theorie der Statistik, 2. Autl. 274 setzt werden. Die Verteilung geschieht dann nach der Tabelle 22, wie es aus der umstehenden Tabelle 29 erhellt, welche, von kleineren Abrundungsfehlern abgesehen, angibt, wieviele der 1000 Individuen gerade die Durchschnittsgröße (die Abweichung 0) und wieviele Ab- weichungen von 1, 2,3... cm aufweisen (vgl. Aufgabe 18). Mischt man nun zwei solche Gruppen, in denen die Verteilung um den Durchschnitt nicht nur exponentiell mit gleichem mitt- leren Fehler ist, sondern welche auch denselben Durchschnitt auf- weisen, so werden all die Zahlen, welche für sämtliche 2000 Indi- viduen als Ganzes genommen die Häufigkeit von Individuen angeben, deren Körpergröße mit einem bestimmten Betrage vom Durchschnitt abweichen, natür- lich nur doppelt so groß wie die in der Tabelle 29 angeführten und ihre Summe wird gleich 2000 werden. Anders geht es, wenn die Individuen beider Gruppen zwar um die Durchschnittsgröße in gleicher Weise wie in der Ta- belle 29 (exponentiell mit dem mittleren Fehler von 5 cm), aber innerhalb jeder Gruppe um die spezielle Durchschnittsgröße bei- der Gruppen, z. B. um die Durch- schnitte 164 und 166 cm, verteilt gedacht werden. Wie die Ver- teilung ausfallen wird, wenn zwei solche Gruppen gemischt werden, geht aus der Tabelle 30 hervor. Die Verteilung muß aufs neue symmetrisch werden, jetzt aber um den gemeinsamen Durchschnitt von 165 cm. Diese Verteilung kann natürlich nicht genau exponentiell werden, obgleich sie andererseits nicht viel vom Exponentialgesetz (vgl. Tabelle 31) abweicht: entfernt man indes die zwei Reihen von eX- Rn 275 ponentiellen Häufigkeiten mehr und mehr voneinander, so daß die Durchschnitte allmählich um 4, 6, 8 ... usw. cm voneinander ab- weichen, so erhält man eine Reihe von Verteilungen, welche sich zenau so wie die obigen finden lassen und sämtlich symmetrisch werden; die Größe des mittleren Fehlers dieser Verteilungen kann lenn auch leicht dadurch ermittelt werden, daß man die Abweichungen zur zweiten Potenz erhebt und addiert, wobei man folgende Werte findet: Abstand zwischen den Durehschnitten Der mittlere Fehler der entsprechenden Verteilungen m cm )aw00 000000 40V 25 = 5,00 3.. VY 2 = 5,10 ‚V29= 5,39 .„VM = 5,83 3... YAH= 640 0. V50= 7,07 2 "= 7,81 7 8,60 u 9,43 Y125 = 11,18 16 X. Da alle Verteilungen, wie gesagt, symmetrisch sind, kann man zur Untersuchung des Grades der Abweichung vom Exponential- gesetz damit anfangen, wie gewöhnlich in jeder einzelnen Verteilung aufzuzählen, wieviele der je 2000 Individuen innerhalb der Spiel- räume 1, 3,5, 7... usw. fallen (d. h. um höchstens 0,1,2,3,4...cm von dem beiden Gruppen gemeinsamen Durchschnitt abweichen). In den dadurch erhaltenen „Spielraumstabellen“ kann man analog dem bisherigen Verfahren auf dem Wege einfacher Interpolation finden, wieviele %%, der 2000 Individuen innerhalb der Spielräume fallen, welche im Exponentialgesetz 250, 400, 500, 700, 850 und 950 00, nämlich (vgl. S. 177) 250 oo 100 500 700 350 I60 . a 5 a2 64 u u 12 276 ergeben würden, wo &% der mittlere Fehler der betreffenden Ver- teilungen ist (vgl. obige Übersicht über diese Werte). Bei dieser Interpolation findet man dann folgende in der Tabelle 31 angeführten Promillen für jede der Verteilungen, welche man erhält, wenn die Durchschnitte für die zwei zusammengelegten Gruppen nach und nach um 0, 2, 4... cm voneinander verschoben gedacht werden. Tabelle 31. Spiel- | Abstand in cm zwischen den Durchschnitten der Gruppen räume 0 2 4 6 10 12 14 16 20 ) 2) ®& © 6@ © %) ®@® © CO 0,64 u 250 250 248 243 232 217 196 170 144 96 1,05 u 400 399 396 389 377 356 2328 296 2265 205 1,35 u | 500 498 496 490 476 456 428 399 371 312 2,07 u 700 698 698 691 682 671 660 2649 711 624 2,89 u | 850 848 847 844 844 848 851 858 866 88€ 293 u 950 949 948 952 956 960 978 974 980 98% Q Erinnert man sich, daß all diese Promillenverteilungen genau dieselben sein werden wie die in der Kolonne 1 angeführten, wenn alle Verteilungen exponentiell wären, so kann man durch einen Vergleich der Kolonne 1 mit den übrigen Kolonnen einen Einblick darein gewinnen, wie das Verteilungsgesetz in dem Maße seine Form ändert, wie sich die Durch- schnitte der zusammenzusetzenden Gruppen voneinander entfernen, Solange die Verschiebung nicht größer ist (Kolonne 2 und 3) als der mittlere Fehler (5 cm) der bei der Zusammensetzung benutzten Gruppen, weicht das Verteilungsgesetz für sämtliche 2000 Individuen, als Ganzes genommen, nicht stark vom Exponentialgesetz ab. Die Ab- weichungen sind insgesamt nicht größer, als daß sie sich wahrscheinlich der Aufmerksamkeit entziehen würden, sogar bei Glückspiel- erfahrungen und ähnlichen Versuchsreihen. Ist die Verschiebung zwischen den Durchschnitten der Gruppen auf das Doppelte des mittleren Fehlers in der Verteilung der Einzel- gruppen (Kolonne 6) angewachsen, so hat man noch eine gewisse, wenn auch nicht besonders gute Annäherung ans Exponentialgesetz: diese Verschiebung entspricht im übrigen, rund gerechnet, dem Unter- schied zwischen der Körpergröße bei Männern und Frauen, so daß die Gesamtverteilung zwei voneinander recht abweichende Gruppen umfaßt. Ist die Verschiebung größer, so wird die Anhäufung um den den beiden Gruppen gemeinsamen Durchschnitt stets kleiner und erheb- 277 lich kleiner als die Anhäufung um den Durchschnitt im Exponential- gesetz, Untenstehende Figur 7 veranschaulicht dies. Die oberste Kurve bildet das gewöhnliche Verteilungsgesetz (das Exponentialgesetz) ab ; lie zweite ist aus zwei solchen Kurven von einem dem mittleren Fehler (5 cm) entsprechenden Abstand der Höhenpunkte abgeleitet: ;c " "nunkten cm > »» I? F ar bezüglich der dritten gilt das gleiche, da der Abstand das Doppelte des mittleren Fehlers (10 cm) ausmacht, während die unterste sattel- förmige Kurve einen Abstand von 15 cm zwischen den Höhen- punkten hat. Die Kurve Nr. 2 ähnelt, wie man sieht, sehr der Ex- ponentialkurve, und selbst die dritte Kurve ähnelt dieser in einigem Grade. 184. Anders liegen die Dinge, wenn die zwei zusammengemischten Gruppen nicht gleich groß sind. Zur Beleuchtung dieses Falles kann man annehmen, daß 5000 Individuen, welche sich exponentiell mit dem mittleren Fehler von 5 cm um die Mittelgröße 160 cm verteilen, mit 1000 Individuen, welche sich ebenfalls exponentiell mit dem mitt- leren Fehler von 5 cm, aber um die Mittelhöhe 166 cm verteilen, ver- mischt werden. Mischt man zwei solche Gruppen zusammen, dann läßt sich das Verteilungsgesetz für sämtliche 6000 Individuen, wie in der folgenden Tabelle 32 gezeigt, finden. Da es hier nicht auf große Genauigkeit ankommt, kann man sich mit genügender Annäherung lie Verteilung der 5000 Individuen durch Multiplikation der oben in der Tabelle 29 angeführten Häufigkeiten mit 5 gefunden denken, — 208 — während man diese Frequenzen selber als Ausdruck für die Ver- teilung der 1000 Individuen benutzt. Da der den 6000 Individuen gemeinsame Durchschnitt hier 5 A Sn 161 cm 6 werden muß, so wird man bei der Betrachtung der Verteilung um diesen Durchschnitt bemerken, daß die Symmetrie verloren gegangen ist. Eine Körperhöhe gleich dem Durchschnitt selber (161 cm) weisen 437 der 6000, d. h. ca. 73° 0 (gegen 80 °%.o, wenn die Verteilung exponentiell gewesen wäre), und eine Größe unter 161 cm 2837 (473% 0) auf, wäh- rend die Höhe von 2726 Männern (454 %/,0) 161 cm übersteigt. Die Asymmetrie ist somit nicht stark ausgeprägt. Anderer- seits aber verursacht selbst eine verhältnismäßig kleine Gruppe, deren Durchschnitt stark von der Hauptmasse abweicht, stets eine solche Asymmetrie. 185. Die hier angeführten Beispiele dienen natürlich nur der einfachen Illustration. In Wirklichkeit kann man selten oder nie damit rechnen, daß die Zahl der zusammengemischten Typen nicht größer als zwei, wie in unseren bisherigen Beispielen vorausgesetzt, ist. Die Zusam- mensetzung der Gesellschaft ist in der Regel weit verwickelter. Selbst wenn eine Fortsetzung auf demselben Wege eine Erweite- rung der oben für zwei Typen gewonnenen Resultate ermöglichen würde, so wird man doch bereits in diesen Ergebnissen die Art der Abweichungen vom Exponential- nn 279 gesetz, welche oben ($ 180) für die Verteilung nach Körpergröße ge- [unden wurden, wiedererkennen können, und insoweit ist schon dabei Grund genug, die Aufmerksamkeit auf die Möglichkeit zu lenken, daß sämtliche 299355 gemessene Personen Gruppen mit typisch verschie- dener Durchschnittsgröße umfassen, ein Verhältnis, das auch bei der Betrachtung der Verteilung innerhalb eines Paares von — geographisch bestimmten — Gruppen bekräftigt wurde. Die oben benutzten Beobachtungen über die Körpergröße sollten nach dem Angeführten also umfangreich genug sein, es als über- wiegend wahrscheinlich hinzustellen, daß z. B. der Unterschied zwischen len Durchschnittsgrößen in Venedig und auf Sardinien nicht „zu- fälligen“ Ursachen zugeschrieben werden kann; während die eigent- liche Existenz gewisser entscheidender Gemeinursachen hiermit er- wiesen ist, ist es natürlich noch eine offene Frage, worauf der ge- fundene Unterschied in den Wachstumsbedingungen zuguterletzt be- ruht, d. h. welches diese Ursachen sind; diese Frage ist im wesent- lichen biologischer Art; sie läßt sich nicht lediglich durch eine Be- trachtung der benutzten Beobachtungen beantworten, sondern er- fordert ganz neue Beobachtungen, bei deren Behandlung man natür- lich aufs neue zu der Frage veranlaßt werden kann, ob sie umfang- reich genug sind zu entscheiden, ob dieses oder jenes Moment die Körpergröße wesentlich beeinflußt. 186. Unter den Momenten, welche hierbei in Betracht kommen können, spielt u. a. der Begriff der Erblichkeit eine wesentliche Rolle als Ausdruck für die Verschiedenheiten, welche auf Verschieden- heiten zwischen den Vorvätern der Individuen zurückgeführt werden gönnen. Auf diese Fragen können wir hier nicht näher eingehen; jedoch sei bemerkt, daß ihre rationelle Behandlung gerade zu Be- irachtungen obiger Art führt!); in Anknüpfung an diese soll daher hier eine eigenartige Aufgabe besprochen werden, welche von Galton herrührt und an der Hand der in den $$ 183—184 behandelten Bei- spielen beleuchtet werden kann. Das Galtonsche Problem läßt sich folgendermaßen schematisieren: Denken wir uns, eine Bevölkerung bestehe aus zwei gleich großen Gruppen, von denen jede ihre typische Körpergröße hat, um welche sich die Individuen der Gruppen ex- ponentiell verteilen, indem gewisse spezielle Verhältnisse innerhalb 1) Siehe hierüber W. Johannsen, Elemente der exakten Erblichkeitslehre, 3. Ausgabe. Jena 1926 (2. Ausg. Jena 1913). 280 der einen Gruppe für diese eine Durchschnittsgröße von beispiels- weise 164 cm im Gefolge haben, während gewisse Verhältnisse in der anderen z. B. eine durchschnittliche Körpergröße von 160 cm verursachen. Will man nun wie Galton untersuchen, inwieweit sich der Typus der Kinder mit der Auswahl der Eltern verschiebt und daher diese in zwei Gruppen, z. B. in eine, deren Größe unter dem der zanzen Bevölkerung gemeinsamen Durchschnitt von 162 cm, und eine, deren Größe über dieser Grenze liegt, teilen und danach die Körpergröße für die Nachkommen jeder dieser Gruppen unter- suchen, dann wird man finden, daß der Unterschied zwischen den Durchschnittsgrößen für. die zwei Gruppen von Kindern kleiner als der Unterschied zwischen den Durchschnittsgrößen für die beiden Elterngruppen ist. Diese Verkleinerung des Größenunterschiedes will Galton als eine Rückkehr (Regression) zum ursprünglichen Typus auffassen; man kann indes leicht einsehen, daß die beobachtete Ver- ringerung des Größenunterschiedes insofern formell ist, als sie sich vermutlich stets dann zeigt, wenn die Beobachtungen in der an- gegebenen Weise angestellt werden. Hat man nämlich kein anderes Kennzeichen als die Körpergröße, um große und kleine Eltern zu unterscheiden, so sind die hier in Be- tracht kommenden Größen zumeist nicht weiter voneinander ver- schieden, als daß unter den Eltern, welche faktisch kleiner als 162 cm sind, sehr wohl ein Teil sein kann, welcher — wenn man restlos sämtliche Kennzeichen des hohen Typus erfaßt hätte — dann als diesem und nicht dem kleineren Typus angehörig erkannt werden könnte, der jedoch aus Ursachen, die nichts mit dem Veranlagungs- gepräge zu tun haben, „zufällig“ nicht über die 162 cm hinaus ge- langt ist, während umgekehrt ein Teil der Eltern, welche faktisch größer als die 162 cm sind, in gleicher Weise als zum niedrigen Typus gehörig anzusprechen wäre. Die Folge davon, daß man also in Wirklichkeit vom Beginne des Versuches an dazu genötigt wird, die Typen etwas zu vermischen (nicht nach „reinen Linien“ arbeitet), ist die, daß sich die Kinder anscheinend kleiner Eltern in Wirklichkeit in zwei Gruppen teilen, teils in Kinder von tatsächlich kleinen Eltern, welche sich um die Durchschnittsgröße von 160 cm verteilen, teils in Kinder von nur anscheinend kleinen Eltern, welche — als Kinder von Eltern des höheren Typus — sich um 164 cm als Durchschnittsgröße verteilen, Dieses letztere Plus wird natürlich bewirken, daß die Durchschnitts- vröße der Kinder von anscheinend kleinen Eltern größer als 160 cm 281 wird, während umgekehrt die Nachkommen der anscheinend großen Eltern eine Durchschnittsgröße bekommen, welche etwas unter die L64 cm des höheren Typus hinabgedrückt wird, weil diese anscheinend aohen Eltern einen Teil mitumfassen, der in Wirklichkeit dem niedrigen Typus angehört und deren Kinder sich deshalb um den Durchschnitt von 160 cm verteilen werden. Der Unterschied zwischen den Durchschnittsgrößen der Kinder wird also schon aus dem Grunde verkleinert, daß man als Ausgangs- punkt nicht hat „reine Linien“ halten können. Das behandelte Bei- spiel kann überhaupt als Hinweis darauf dienen, daß man keinen Ausdruck für den wahren Sachverhalt erwarten darf, bevor man — vielleicht nach vielen vergeblichen Versuchen — dazu imstande ist, eine hinlänglich tiefgehende Teilung der Beobachtungen nach Ein- teilungsmerkmalen vorzunehmen, welche in selbständiger Weise die Typen charakterisieren können (vgl. $ 162). Man könnte sich die Möglichkeit denken, die im Beispiel gewählten zwei Typen bei einer Betrachtung der Verteilung der Nachkommenschaft nach Körper- zröße zu trennen; die eine dieser Verteilungen (die Kinder anscheinend <leiner Eltern) muß man sich nämlich zusammengesetzt denken aus einer gewissen Hauptgruppe des niedrigeren Typus und einer ge- wissen weniger umfangreichen Ergänzungsgruppe des höheren Typus, so daß die Verteilungen der Nachkommenschaft einer Dekomposition bessere Bedingungen böten als die der Eltern; wie oben hervor- gehoben, wird indes die Verteilung für eine Mischung von zwei Typen, von der jede für sich sich exponentiell verteilt, erst dann kenntlich vom Exponentialgesetz abweichen, wenn sich die Durch- Schnitte der zwei vermischten Typen voneinander mit Beträgen ınterscheiden, welche größer sind als das 1- bis 2fache des mittleren Fehlers in der Verteilung der Typen; dieses Verhältnis erschwert .n Wirklichkeit die Trennung der Verteilungen der Eltern wie der Kinder, weil es sich in der Regel um Verschiedenheiten handelt, welche bedeutend kleiner sind, und namentlich um Mischungen, in lenen eine größere Anzahl von Typen auftritt. 187. Auch die Statistik des Kopfindex (des Verhältnisses zwischen Breite und Länge des Kopfes) gibt ein interessantes Be- )bachtungsmaterial ab. Dem angeführten Werk über italienische Wehrpflichtige können die Zahlen der Tabelle 33 entnommen werden. Der Index ist in Hundertsteln (%) angegeben, und wie bei der Tabelle über die Körpergröße bedeutet beispielsweise „Index 77“ in Wirklichkeit einen Index, dessen Größe zwischen den Grenzen 0.765 282 Tabelle 33. Index 690 37 7) 2? 2” »” 27 32 18 Index °4 2” ” '7 »” 22 19 73 $ € a0 EB 3 17 7 39 ‘9 »3 3 b. N ) 22 33 “1 88 83 c 9 c Zusammen 1000 und 0,775 liegt. Berechnet man wie im $ 179 Durchschnitt und mittleren Fehler, so findet man g= 82,7° und u=4,79%%. Zwecks Vergleiches mit dem Exponentialgesetz kann man zu- erst durch Interpolation berechnen, wieviele %, der Beobachtungen in Intervallen fallen, welche symmetrisch um den gefundenen Durch- schnitt liegen, also außer in Intervallen von 82,2 bis 83,2 (welche man erhält, indem 0,5 nach beiden Seiten abgetragen wird) in sämt- lichen Intervallen 68,2—69,2—70,2 ..... 81,2—82,2—83,2 ..... 96,2—97,2—98,2. Wieviele %,, der Beobachtungen in diese Intervalle fallen, findet man am leichtesten, wenn man durch Summierung in der Tabelle 33 zuerst eine Tabelle bildet, aus der hervorgeht, wieviele %, der Be- obachtungen kleinere Indices als 68,5, 69,5, 70,5 .... usw. auf- wiesen, wie es die folgenden Zahlen andeuten: Index kleiner als 68,5 hatten 9% ” .. „5 .r " ” 2 IC 23 2 „7 5- 197 „B57 „ 656 Durch Interpolation in dieser Tabelle findet man beispielsweise folgende Zahlen: 283 — [ndex kleiner als 81,2 hatten 365 °/.o » a 2 bl 448 ” ‚2 532 ” 34.2 626 ., 30 daß aufs Intervall 81,2—82,2 33 °%, entfallen. „ „ 82,2—83,2 84 ,, 27 ” 83,2—84,2 94 is Hieraus folgt weiter, daß innerhalb des Spielraums 1 (82,2—83,2) 84 °/o liegen, 23 ” 9” 3 (81,2—84,2) 261 »” ” ınd so fort. Überhaupt kann man auf diese Weise folgende Tabelle finden: Wehrpflichtige Exponentialformel Spielräume Relative Maximal- Wahr- Häufigkeit abweichung scheinlichkeit 0,261 7.32 0,251 0,537 4 0,541 0,751 7 0,758 0,897 1,60 0,890 0.964 202 0.957 Wird 4,7 als Ausdruck für den mittleren Fehler benutzt, so findet man aus der Tabelle 22 die nach dem Exponentialgesetz den hier angeführten Spielräumen entsprechenden Wahrscheinlichkeiten, da beispielsweise dem Spielraum 3 der Maximalabstand a= 2 =15 entspricht, so daß x= 218 =— 0,32 den Wert P = 0,251 ergibt u. so fort. Wie man sieht, ist die Übereinstimmung mit dem Exponential- gesetz auch hier recht gut. Wenn man auf Grund der oben vor- zenommenen Summierung durch Interpolation bestimmt, wieviele %/,o der Beobachtungen Indices aufweisen, welche kleiner sind als der Durchschnitt 82,7, so findet man, daß 491 %,o der Beobachtungen anter dem Durchschnitt, also 509 %, über diesem Punkte liegen. Es scheint also einige Asymmetrie vorzuliegen, welche jedoch kaum von Belang sein kann. Wie wir bei der Betrachtung der Körpergröße sahen, wird man auch hinsichtlich des Kopfindex sehr große Verschieden- heiten von einem Landesteil zum andern beobachten können; bei- spielsweise ist der Durchschnittsindex am größten für Piemont (86). am kleinsten für Sardinien (77,5). 188, Lehrreich ist auch die Statistik des Körpergewichts. Für sämtliche 299355 Behandelten erhält man untenstehende Ver- zeilung: — 284 Canal. Tabelle 34 Körpergewicht 415—47 kg 48—50 51—53 54—56 57—59 60—62 53—65 56—68R B9— Zusammen Lı rn Us DR -x% 729 X’y 32 189 316 172 203 588 774 736 475 324 196 FA Q1 415( Daß 2%, ein Körpergewicht von 45—47 kg haben, bedeutet hier wie weiter oben, daß das Körpergewicht für 2%. innerhalb der Grenzen 44,5 und 47,5 kg lag usw. Um den Durchschnitt und den mittleren Fehler zu finden, kann man damit anfangen, die Momente z. B. um den Mittelpunkt (58 kg) der Gruppe 57—59 kg zu berechnen. Dies ist in der Tabelle in ähn- licher Weise wie in der Tabelle 27 gemacht worden, indem in der Kolonne „x“ 0 bei dieser Gruppe gesetzt wird und die übrigen Gruppen von diesem Punkte aus numeriert werden. Es ist dann ein Leichtes, durch Multiplikation die Kolonnen xy und x’?y zu bilden, wo y die Häufigkeiten sind. Man erhält dann durch Addition dieser Kolonnen M, = 0,732 und M, =4,150 und für den mittleren Fehler also u =V4,150 — 0,732? = / 3614 =1,9. Da man, wenn Gewichtsklassen zu je 3 kg mit 1, 2, 3 usw. numeriert werden, mit einer Gewichtseinheit von 3 kg rechnet, werden die gefundenen Werte für M,, und uw, wenn sie in Kilogramm ausgedrückt werden sollen, dreimal so groß, so daß sich als Durch- schnittsgewicht g=58 kg + 0,732 - 3 kg = 60,2 kg und als mittlerer Fehler u=19-3 kg=57 kg ergibt. Wenn man analog der obigen Betrachtung des Kopfindex durch Interpolation die Tabelle 34 so umrechnet. daß sie angibt, wieviele 285 9 der Beobachtungen in Gruppen zu je 3 kg fallen, welche sym- metrisch um das Durchschnittsgewicht (z. B. in Intervallen von 15,2—48,2 .... 57,2—60,2—63,2 kg) liegen, so wird man finden, jaß 531%, der Beobachtungen ein Körpergewicht, welches unter Jem Durchschnitt liegt, zeigen, d. h. daß die Verteilung eine ähn- liche Asymmetrie wie die Verteilung nach der Körpergrößejaufweist. Wenn die genannte Interpolation vorgenommen wird, kann man auch leicht die Quadratsumme getrennt für die 531 negativen und die 469 positiven Abweichungen berechnen und als Ausdruck für den mittleren Fehler jeweils 5,56 und 5,94 kg, also eine etwas größere Streuung nach oben als nach unten erhalten. Sieht man von dieser Schiefe ab und berechnet man den Maximal- abstand, innerhalb dessen ?%/3 (genauer 687%, vgl. Tabelle 22) der Beobachtungen fallen, so ergibt sich als Ausdruck für den mittleren Fehler der Wert 5,72 kg, also sehr annähernd derselbe wie der oben festgestellte. Man kann dann auch leicht folgende Übersicht zum Vergleich der faktischen Verteilung mit dem Exvnonentialgesetz auf- stellen : Wehrpflichtige Relative Häufigkeit 0,398 0,712 0,889 0,964 DD 987 Spielräume 2} Exponentialformel Maximal- Wahr- abweichung scheinlichkeit 0,397 0.706 ©, 884 0,964 ().991 Wie man sieht, ist die Übereinstimmung recht befriedigend; zum Teil hätte man die Unebenheiten durch eine komnliziertere Inter- Dolation entfernen können. Wenn man das Material in kleinere Gruppen einteilt, wird man den Ursachenverbindungen auf die Spur kommen können. Als Bei- spiel hierfür sei angeführt, daß ca. 15700 der 299000 Gemessenen als nicht dienstfähig nach Hause geschickt wurden (riformati). Ihr Durchschnittsgewicht war etwas kleiner als das der Gesamtheit, un- zefähr 58,8 kg, während der mittlere Fehler in der Verteilung mit 5,7 kg so ziemlich dem oben gefundenen entspricht. Der mittlere Fehler des bei diesen 15 700 Beobachtungen bestimmten Durchschnitts kann dann gleich FE To = 006 kg gesetzt werden; man kann daher auch mit großer Sicherheit schließen, daß das typische Körper- yzewicht der Nichtdienstfähigen kleiner als das für die ganze Masse m 286 — festgestellte ist. Andererseits hatten die Soldaten, welche im Dienste starben, ein den Durchschnitt etwas übersteigendes Gewicht, und auch hier scheint der mittlere Fehler klein genug zu sein, um einen sicheren Schluß zu erlauben. Dagegen kann man keinen typischen Unterschied zwischen den während der Dienstzeit Krankgemeldeten und den Nichtkrankgemeldeten finden; hier ist das Durchschnittsgewicht fast gleich. 189. Ungefähr analog verhält es sich mit den Beobachtungen über den Brustumfang. Über und unter einem Durchschnitt von 87 cm hat man 47 und 53%. Für sämtliche Beobachtungen kann man den mittleren Fehler zu 3,69 cm, für den untersten Teil allein zu 3,63, für den obersten zu 3,77 setzen. Unter Benutzung der Zahl 3,69 läßt sich folgende Tafel berechnen: Wehrpflichtige Exponentialformel „. _Relative Maximal- Wahr- Spielräume Häufigkeit abweichuug scheinlichkeit R 0,305 0,41 0,318 0,490 0,68 0,504 0,783 1,22 0,778 0,931 1,76 0,922 0,983 2.30 0,978 Auch hier würden die wenigsten zögern, das Exponentialgesetz auf die Beobachtungen anzuwenden. 190. Wie vorsichtig man indes bei Untersuchungen über anthro- pometrische Verhältnisse sein muß, das zeigt die Kombination mehrerer Eigenschaften. Wenn man z. B. den Kopfindex mit der Körper- größe vergleichen will, wird man aus dem italienischen Material die folgenden Zahlen ableiten können. Diese Zahlen sind allerdings nur annähernd, da die Gruppeneinteilung nicht sehr detailliert ist. Körpergröße Kopfindex unter 160 cm 82,0 160—165 ,, 82,4 165—170 ,, 82,8 über 170 ‚, 83.1 Aus diesen Zahlen möchte man vielleicht schließen, daß der Kopfindex etwas mit der Körpergröße wächst; teilt man jedoch die Beobachtungen nach geographischen Linien, so gewinnt man einen anderen Eindruck. Allerdings hat die sehr eigentümliche und, wie es scheint, verhältnismäßig unvermischte Bevölkerung Sardiniens dieses Gepräge, da der Kopfindex (durchschnittlich 77}) durch die vier Intervalle mit ungefähr 0,8 wächst, aber für Piemont (un- gefähr 86) erhält man eine entgegengesetzte Reihe mit einem Nieder- 287 gang von 0,3, und auf Sizilien (80) haben alle Gruppen fast die- selben Zahlen. Hat man in einem Teile eines Reiches aus ethnischen oder anderen Gründen eine wohlgewachsene Bevölkerung mit hohem Kopfindex, während in einem anderen Teil das Gegenteil der Fall ist, so wird es leicht geschehen können, daß die Zahlen für das ganze Reich mit zunehmender Körperhöhe wachsenden Kopfindex aufweisen; lies ist jedoch ein mehr formelles als reelles Verhältnis. Auch die Beobachtungen über Haarfarbe weisen in gleicher Richtung. Der kastanienbraunen Haarfarbe entspricht für das ganze Reich ein etwas größerer Kopfindex als der schwarzen. Dies zeigt sich auch für Sardinien allein, auf Sizilien gibt es jedoch gar keinen Unterschied, und in Piemont ist der Unterschied recht un- bedeutend. Wenn man hier den Ursachen auf die Spur kommen will, wird es also notwendig sein, eine tiefgehende Spaltung des Materials vorzunehmen, um über einigermaßen homogene Beobachtungen ver- Mügen zu können. Jedenfalls wird das hier Angeführte zeigen, daß man in der Anthropometrie weitreichende Analogien zur Wahrscheinlichkeits- rechnung hat und daß das Exponentialgesetz bei überaus vielen Ge- ‚egenheiten mit ausreichender Klarheit die Wirkung der Ursachen- zomplexe hervortreten läßt. Wie ein solcher Ursachenkomplex in seine Elemente aufgelöst werden muß, das ist indes eine Frage, welche bei näherer Untersuchung in jedem einzelnen Falle zu be- intworten ist. 191. Aus dem bereits Angeführten geht hervor, daß sich die anthropometrischen Beobachtungen einerseits häufig um einen Durch- schnittspunkt gruppieren, während andererseits wohl eine Verbindung zwischen zwei Größen, z. B. der Körpergröße und dem Kopfindex, festgestellt werden kann; diese Korrelation jedoch ist im ganzen recht schwach. Aus der einen Dimension wird man also nicht die übrigen berechnen können; der Mensch ist nicht in allen Richtungen nach einer bestimmten Form gebildet; kleine Menschen z. B. können einen sehr langen oder sehr breiten Kopf, großen Brustumfang usw. 3aben. Auf diesem Mangel an Proportionalität beruht das geniale Identifizierungssystem, welches 1881 zuerst von Alph. Ber- tillon (1853—1914) vorgeschlagen und danach von der Pariser Polizeipräfektur in die Praxis umgesetzt wurde; später ist es mit zroßem Vorteil in der ganzen Welt verwandt worden. Nach diesem System sollte eine verdächtige Person sofort in verschiedenen Rich- tungen gemessen, ferner von vorn und von der Seite photographiert DRQKQ werden, da gerade das Ohr ein vorzügliches individuelles Kennzeichen ist. Um sich das System klar zu machen, kann man sich 10000 Personen gemessen denken, welche nach der Länge des Kopfes in 10 Abteilungen geteilt werden, so daß durchschnittlich also 1000 in jeder Abteilung sind. Wenn dann jede Abteilung wieder nach der Fußlänge in 10 Unterabteilungen geteilt wird und diese wieder auf Grund der inneren Beinlänge rubriziert werden, dann hat man zuletzt in jeder Spezialgruppe durchschnittlich nur 7955 der Gemes- senen, hier also 10, welche ohne Schwierigkeit auseinander gehalten werden können, da man auch andere Kennzeichen wie Kopfbreite, Länge des Mittelfingers usw. in Betracht zieht. Wenn eine ver- dächtige Person nunmehr zu identifizieren ist, läßt sich sehr leicht feststellen, ob sie früher gemessen worden ist oder nicht. Je kleiner die Korrelation zwischen den Massen ist, desto leichter läßt sich diese Methode augenscheinlich anwenden. — Es sind selbstverständ- lich übrigens nur die Prinzipien der Methode, welche hier dargestellt worden sind; es ist hier nicht unsere Aufgabe, alle technischen Einzel- heiten zu beschreiben; in der letzten Zeit werden besonders Finger- abdrücke benutzt, da diese ebenfalls für die einzelnen Individuen charakteristisch sind. Die Anwendbarkeit der Methode ist in den späteren Jahren durch den dänischen Polizeibeamten Hakon Jor- gensen verbessert worden (telegraphische Fernidentifizierung). C. Bevölkerungsstatistische Anwendungen, 192. Eins derjenigen Zahlenverhältnisse, welche am frühesten die Aufmerksamkeit auf sich zu lenken vermochten, ist die Sexual- proportion; hierunter wird im folgenden stets der Bruchteil der Geborenen, welcher männlichen Geschlechts ist (das Knabenprozent), verstanden. Wie im $ 72 gesagt, hat die eigentliche Geburtenfrequenz stark varliert (wir kommen weiter unten darauf zurück), während die Schwankungen, denen die Verteilung der Geborenen nach Geschlecht unterworfen gewesen ist, im Vergleich hiermit ganz unbedeutend waren, vgl. die Tabelle auf S. 99. Um die aus dieser Tabelle für Jahrzehnt zu Jahrzehnt ersichtlichen Veränderungen in der Größe der Sexualproportion zu untersuchen, kann man z..B. die mittleren Fehler der für die einzelnen Jahrzehnte gefundenen Verhältniszahlen und danach den mittleren Fehler der Differenz zwischen je zwei von diesen berechnen. Für die Periode 1820—929 erhält man auf diese Weise 289 X == Dis —0,5146 mit einem mittleren Fehler 44, =— Va REM ana: 47823 z |/ 0,00000320 = 0,0018 und für die Periode 1830—39 &a = 93383 . 0,5121 - 0,4879 — 0,5121 mit einem mittleren Fehler 4, = VE = VC,00000268 = 0,0016. Hieraus folgt weiter, daß X, — 03 == 0,0025 mit einem mittleren Fehler von u=Vu? + 12? = V 0,00000588 = 0,0024 ist. Analog findet man die übrigen in der Tabelle 35 angeführten Zahlen. Tabelle 35. Sexual- aroportion 1820—29 2,5146 1830—39 0,5121 L840—40 0,5139 850—5° 2,5158 860—6" ),5124 1870—7° 0.5144 1880—8 0,5124 1890—99 0,5134 ‚900—09 0,5156 Keine dieser 8 Differenzen überschreitet die Grenzen des Mög- lichen, wenn das Exponentialgesetz Gültigkeit hat. Jedoch sind die größeren Abweichungen verhältnismäßig häufiger; es scheint daher möglich, bei der weiteren Bearbeitung des Materials besondere Ur- sachen zu finden, die diese Verteilung nach Geschlecht beeinflussen. Da aber die Annäherung ans Exponentialgesetz verhältnismäßig deut- lich ist, sind große Einwirkungen dieser Art jedoch nicht zu er- warten. Zur weiteren Nachprüfung der Übereinstimmung kann man dann lie Größe der Sexualproportion Jahr für Jahr untersuchen; diese Untersuchung ließe sich ganz unmittelbar wie im $ 161 vornehmen, falls die jährliche Geburtenziffer ganz oder annähernd konstant wäre oder falls man aus der Geburtenstatistik Perioden gleicher Geburten- nenge herausnehmen könnte. Da dies nicht möglich ist, muß man berücksichtigen, daß sich die jährliche Geburtenziffer bedeutend von Anfang bis Schluß der betrachteten Periode geändert hat; ums Jahr 1820 lag beispielsweise WVesterranard und Nvbolle. Theorie der Statistik, 2. Aufl. 19 Mittlerer Fehler der Differenz 9200 die jährliche Anzahl von Geburten um 7000, zu Beginn des 20. Jahr- hunderts jedoch um 50000. Während sämtlicher hier betrachteten 90 Jahre nun wurden insgesamt 2593228 Kinder, hiervon 1332543 Knaben, geboren. Die hieraus berechnete Sexualproportion ist 0,5139, und betrachtet man diese Zahl als fehlerfrei im Vergleich mit den für die einzelnen Kalenderjahre bei weit geringeren Geburtszahlen berechneten Sexual- verhältnissen, dann kann man in ähnlicher Weise wie im $& 89 ver- fahren, d.h. für jedes Jahr berechnen, wieviele Knabengeburten man erwartet haben würde, und den mittleren Fehler, mit dem die Ab- weichungen erwartungsgemäß eintreffen, feststellen. Z.B. wurden im Jahre 1830 8574 Kinder geboren ; man würde erwartet haben, daß 8574- 0,5139=4406 (mit einem mittleren Fehler von V8574 - 0,5139 - 0,4861 == 46,3) von diesen Knaben seien, während die faktische Zahl 4435 war; die Abweichung ist 29, mit dem mittleren Fehler gemessen also 0,627 u. Wenn diese Berechnung für sämtliche 90 Einzeljahre wieder- holt wird, entsteht die Frage, wie die Größengliederung dieser Ab- weichungen mit dem Exponentialgesetz übereinstimmt. Man gelangt zu folgendem Resultat, wo die nach dem Exponentialgesetz erwarteten Zahlen nach der Tabelle 22 berechnet sind: Zahl der Nach dem Abweichungen Faktisch Exponentialgesetz erwartet unter 0,5 u 29 345 10 u 59 615 “Xu 75 77,9 iR 88 85,9 „ Z5u 90 88,9 Nach diesen Resultaten scheint man das Exponentialgesetz auf diese Art Beobachtungen anwenden zu können. 193. Wie schwierig es ist, bei einer Teilung des Materials zu größeren Abweichungen von diesem Gesetz zu gelangen, das zeigt eine Behandlung der Beobachtungen nach dem Alter der Eltern. Gemäß der Hofacker-Sadlerschen Theorie sollte die Wahr- scheinlichkeit einer Knabengeburt größer werden, je mehr das Alter des Vaters das der Mutter übersteigt. Man erhält für Berlin für die Jahre 1907—09 folgende Zahlen für ehelich Geborene: Zahl der Geburten "jiervon Knaben- -eburten Der Vater 8 Jahre älter oder mehr 16 972 8798 22 El 3—7 ” »” 7 46 281 23.778 Die Eltern ungefähr gleichaltrig 48 271 924. 958 Der Vater 3 Jahre jünger oder mehr| 10645 5 491 Von 10000 Geborenen waren Knaben 5184 5138 5170 5158 Quadrat des mitt- leren Fehlers ı 1471 540 | 517 9346 201 Die Differenzen sind im Verhältnis zu den mittleren Fehlern nicht groß genug, um eine typische Ursache festzustellen; nur wenn man über eine weit umfassendere Beobachtungsreihe verfügte, welche nicht wesentlich kleinere Differenzen ergäbe, könnte man ein Resul- ‚at erreichen *). Genau dasselbe gilt, wenn man eine andere Teilung des Materials, nämlich nach der Geburtsnummer, versucht. Man wird dann für die Jahre 1907—09 folgende Tabelle (ehelich Geborener) erhalten: Geburts- nummer 4 1—6 7 und darüber ınhekannt Zusammen Zahl der Aeborenen 10 967 30 11 18 513 22.875 24€ LAG rn Hiervon Knaben 21 057 ‚5 964 9476 856 "46 RA 651.53 von 10000 Geborenen waren Knaben 11/0 165 5174 5.183 5136 3159 Quadrat des mittleren Fehlers 610 808 1 363 1 091 2762 Die Erstgeburten und die Gruppe von Kindern mit der Ge- yurtsnummer 4—6 weisen allerdings eine Differenz auf, aber der mittlere Fehler hat ungefähr dieselbe Größe, und man darf daher keine Schlüsse aus diesem Material ziehen. Eine Erklärung für dieses Verhältnis ist übrigens teilweise von Arthur Geißler?) gegeben worden, der u. a. die Ehen nach den verschiedenen Kombinationen hinsichtlich des Geschlechts der ge- borenen Kinder, in Ehen, in denen bisher nur Knaben, solche, in jenen bisher nur Mädchen, solche, in denen bisher sowohl Knaben wie Mädchen geboren worden waren, teilte: letztgenannte Ehen zer- fielen in Gruppen nach Knabenüberschuß (resp. Mädchenüberschuß) von 1, 2, 3 usw. In 197891 Ehen, in denen bisher nur Knaben geboren waren, war das nächste Kind in 102812 Fällen ein Knabe: hieraus erhält man die Sexualproportion 102818. 0,5195 mit dem mittleren Fehler / 0,00000 126. In 180620 Ehen. in denen bisher nur Mädchen geboren waren, 1) Vgl. hierzu S. D. Wicksell, Sex proportion and parental age in der Jahresschrift der Universität Lund, N. F. Avd. 2, Bd. 22, Nr. 6, Lund 1926. ?) Beiträge zur Frage des Geschlechtsverhältnisses der (jehorenen in der Zeitschrift des Kel. Sächsischen Stat. Bur.. 1889. A” 9992 war das nächste Kind in 91798 Fällen ein Knabe; hieraus folgt als Sexualproportion 91 798 en . nn 180.620 0,5082 mit einem mittleren Fehler von V 0,00000138. Der mittlere Fehler (0,0016) der Differenz ist vielemal kleiner als die Differenz (0,0113) selbst. Es gibt also Ehen, wo besondere Hindernisse dafür vorliegen, daß das eine oder das andere Geschlecht unter den Kindern repräsentiert wird, selbst wenn dieser Unter- schied an und für sich nicht gerade groß ist. Wenn dagegen zwar verhältnismäßig viele Knaben in einer Familie sind, diese jedoch ebenfalls Mädchen zählt, dann scheint bei der nächsten Geburt das entgegengesetzte Phänomen einzutreten: es zeigt sich dann eine Tendenz der Ausgleichung des Unterschieds. Dies erhellt aus folgender Übersicht: Es wurden mehr Knaben als Mädchen U der | geboren en Knabe mehr Knaben »” /„ 2 7} ” 2” 2» +‘ a, 111 455 62 403 33 069 16 285 13 502 62 856 über 4 39 2 | Es wurden mehr Mädchen als Knaben geboren i Mädchen mehr! L05 360 55 860 27 946 12 876 9311 50 133 £ über 4 .. 2 2» R) as Das nächste Kind war ein Knabe 36 056 31.115 16 476 7 992 6674 31 142 55 326 29 641 14 736 6 959 5 030 26 725 Sexual- | verhältnis 1,5031 5,4986 0,4982 0,4908 0,4943 0.4954 0,5251 0,5306 0,5273 0,5405 0,5402 0,5331 Quadrat des mittleren Fehlers 0.00000°25 401 756 1535 1851 308 0,000 00237 446 892 1929 2668 496 Wie man sieht, ist die Häufigkeit einer Knabengeburt verhält- nismäßig klein, wenn bereits mehrere Knaben geboren sind; sind umgekehrt verhältnismäßig viele Mädchen geboren, so wird nächstes- mal häufiger ein Knabe geboren. Der mittlere Fehler des Unter- schiedes zwischen den zwei Reihen liegt zwischen 0,002 und 0,007, während die Differenz zwischen 0,02 und 0,05 liegt. Dieses Phänomen erklärt zum Teil die Beständigkeit im Sexualverhältnis; dagegen ist natürlich nichts über die Art der wirkenden Ursachen entschieden. Aufgabe 60. Werden die oben genannten Ehen, in denen bisher nur Knaben (resp. Mädchen) geboren wurden. nach der Zahl der bisher geborenen 203 Knaben (resp. Mädchen) geteilt, dann findet man dadurch getrennt für jede der anten angeführten Gruppen folgende Zahlen zur Bestimmung der Größe der Sexualprovnortion bei der nächstfolgenden Geburt: F Mindestens Xnabe 7nahen Zahl der Geburten 7 je 82 +63 T BE Hiervon Knaben 2 ‘9 12 294 „371 v 037 3278 “ 335 5349 Mindestens AA an C „ AF Zahl der (Aeburten 1620 ‘1 41 46 142 203 207 Hiervon Knaben 31 798 3€ 02 14 674 5 915 2 340 909 254 Untersuche den Unterschied zwischen der Größe der Sexualproportion in solchen Gruppen, in denen bisher gleichviele Kinder geboren wurden 194, Den überall regelmäßig beobachteten Überschuß an Knaben faßte namentlich Süßmilch (vgl. $ 32) als Mittel dazu auf, trotz größerer Sterblichkeit der Knaben das Gleichgewicht zwischen den Geschlechtern im heiratsfähigen Alter herzustellen. Die Frage dieses Gleichgewichts ist indes nicht nur eine Frage von bevölkerungs- statistischem (und sozialökonomischem) Interesse, sondern enthält auch ein biologisches Problem, nämlich die Frage nach den ge- schlechtsbestimmenden Ursachen. Trotz des auf diesem Gebiete vorliegenden ungeheuer umfangreichen Beobachtungsmaterials!) ist es bisher der Statistik nur in geringem Grade geglückt, diese Frage zu beleuchten. Eine der Ursachen hierzu ist der erhebliche Unter- schied, welcher sich oft zwischen der registrierten Sexual- proportion und der wirklichen nachweisen läßt, d. h. derjenigen, welche für sämtliche zugrundegelegten Lebewesen gilt, sowohl für die, welche das Licht der Welt erblicken als auch für tot- geborene oder unvollkommen entwickelte; diese Sexualproportion ist vermutlich weit größer als diejenige, mit der man gewöhnlich zu rechnen pflegt (510 bis 515 °%). Namentlich Tschuprow hat die Auf- nerksamkeit auf obigen Unterschied der Sexualproportionen gelenkt ?). Aufgabe 61. In Paris wurden in den Jahren 1745—1784 insgesamt (70941 Kinder geboren, von denen 393386 Knaben waren. In London betrug die Geburtenzahl von 1664—1758 insgesamt 1436587, davon waren 737629 Knaben, Untersuche den Unterschied zwischen den durch diese Zahlen hestimmten Sexual- proportionen. \ Vgl. Wedervang, Om seksualproporsjonen ved fodselen, Oslo 1924. ‘) Al. A. Tschuprow, Zur Frage des sinkenden Knabenüberschusses ınter den ehelichen Geborenen, Bulletin de l’Institut internat. de Stat., T. XX, Wien 1915. Vel. auch S. D. Wicksell, a. a. O0. 294 195. Ist es auch oft schwierig, den wirkenden Ursachen auf die Spur zu kommen, so ist die Sache sehr einfach, wenn man die Geburten in Totgeburten und Lebendgeburten teilt. Es zeigte sich oben ($ 73), daß das Risiko für eine Totgeburt bedeutend größer bei Knaben- als bei Mädchengeburten ist, da die Sexual- proportion wesentlich größer unter Totgeborenen als unter Lebend- geborenen ist. Für die ganze Periode 1820—1909 ergeben sich folgende Zahlen: Von je 1000 Sexualverhältnis (°/,o) a sten T D N burt en Geborenen waren Geburten Totge- pP E totgeboren überhaupt burten Knaben 1.332 543 56 392 42 514 560 Mädchen 1.260 685 44 293 35 486 440 Zusammen 2593298 100 685 39 1000 1000 Wenn das Exponentialgesetz gilt, kann man also mit großer Sicherheit schließen, daß Knaben weit häufiger als Mädchen tot zur Welt kommen. Der Unterschied zwischen den zwei Verhältniszahlen (0,046) hat einen mittleren Fehler von ungefähr 0,0016, eine Größe, die im Vergleich zum Unterschied sehr klein ist. Zum Vergleich des Geschlechtsverhältnisses in den einzelnen Jahrzehnten kann man analog dem $ 192 die folgende Tabelle 36 aufstellen. Totgeburten 1820—29 3.967 1830—39 4516 1840—49 5 392 1850—59 6879 1860—69 11.296 1870—79 16 242 1880—89 17 628 1890—99 18 384 1900—09 18 381 Zusammen 100 6535 Tabelle 36. davon von je Differenz der Mittlerer Kuab en 1000 waren Verhältnis- Fehler des Knaben zahlen Unterschiedes Kom D f 36 P uU At 56 392 .. RB Wie man sieht, ist die Übereinstimmung recht gut. Wird 0,560 als Ausgangspunkt gewählt (vgl. $ 192), und werden alle Ab- weichungen von diesem Punkte für die 90 einzelnen Jahre in der Weise berechnet, daß man sie überall mit dem mittleren Fehler als Einheit mißt, so ergibt sich folgendes Resultat: 205 Zahl der Nach den Nach dem Abweichungen Beobachtungen Exponentialgesetz unter OR u 34,5 u ö1,5 ; 35,9 89,7 90.0 sämtlich. X _„Dweichungen V Die größte Abweichung lag etwas über 3 (im Jahre 1896). In Jer Nähe des Durchschnittspunktes liegen verhältnismäßig wenige Abweichungen, jedoch gleicht sich in etwas größerem Abstande der Unterschied aus, so daß man im großen und ganzen den mittleren Fehler als Maßstab anwenden darf. Übrigens wird sich bei der Be- trachtung kleinerer Perioden eine bessere Übereinstimmung ergeben. Z. B. kann innerhalb einer so langen Periode ein Unterschied in jer Abnahme der Sterblichkeit entstehen; vgl. folgende Zahlen: 1820—49 L850—79 880 —190y Zusammen Von 1000 Geburten waren Totgeburten Knaben Mädchen Überhaupt 47 43 35 20Q Der Niedergang in der Totgeburtenfrequenz ist größer bei Knaben als bei Mädchen, und der Durchschnittspunkt verschiebt sich daher ein klein wenig, was ja auch die Tabelle 36 andeutet. 196. Jede der im Vorhergehenden betrachteten Verhältniszahlen hat also ihr Zentrum, um welches sie schwingt. Dieses Zentrum (äßt sich nicht mit absoluter Genauigkeit feststellen (vgl. $ 93), bei den meisten praktischen Anwendungen ist die erzielte Genauigkeit jedoch vollständig ausreichend. Man kann also bezüglich des Sexual- verhältnisses Vorausberechnungen vornehmen und die Unsicherheit angeben, welche solchen Berechnungen anhaftet (vgl. $ 172 f.). Es ist indes nicht nur von Interesse, die Größe des Sexual- verhältnisses, sondern auch die absoluten Zahlen, beispielsweise die Zahl der Lebendgeburten und der Totgeburten vorausberechnen zu können. In dieser Beziehung stellt jedoch die Abnahme der Ge- burtenfrequenz eine Schwierigkeit in den Weg. In Berlin be- yinnt der Niedergang in den 70er Jahren. Auf Grund des deutsch- iranzösischen Krieges war die Zahl der Geburten des Jahres 1871 auf- fallend klein, danach aber stieg sie stark und erreichte ihren Höhe- dunkt 1876. von welchem Jahre an ständige Abnahme zu beobachten 296 ist. Aber selbst wenn man sich auf die Zeit vor 1871 beschränkt, wird man größere Unregelmäßigkeiten in dem summarischen Geburten- prozent beobachten, als mit dem Exponentialgesetz vereinbar ist. Weit regelmäßiger werden jedoch die Zahlen, wenn die außer- ehelich Geborenen ausgeschieden und die übrigen Geburten zu den bestehenden Ehen ins Verhältnis gesetzt werden. Selbst dann aber fallen die Schwingungen von Jahr zu Jahr im Vergleich mit dem mittleren Fehler viel zu groß aus. Vor allem gilt es dann, das Alter der Mutter zu berücksichtigen. Hier sei nur ein einzelnes Beispiel aus der dänischen Statistik für das Jahr 1880 an- geführt. In diesem Zeitpunkt konnte man (jedenfalls außerhalb der Hauptstadt) noch keinerlei Abnahme der Geburtenhäufigkeit be- merken. Wird nun auf Grund der Beobachtungen 1870—79 und unter Berücksichtigung der Altersgliederung der verheirateten Frauen die erwartete Anzahl von Geburten außerhalb der Stadt Kopenhagen berechnet, dann ergeben sich 50140 eheliche Geburten mit einem mittleren Fehler von ungefähr 200. Die faktische Zahl 50082 stimmt also mit dem erwarteten Ergebnis gut überein. Wäre nur eine summarische Berechnung vorgenommen worden, so hätte man eine im Vergleich zum mittleren Fehler weit größere Abweichung fest- vestellt. 19%. Nach der Bestimmung der Geburtenzahl von Jahr zu Jahr ist die Frage die, ob sich hinsichtlich der Totgeburtenfrequenz ähn- liche Untersuchungen vornehmen lasssen wie die oben bezüglich des Sexualverhältnisses der Geborenen angestellten. Man stößt hier auf die Schwierigkeit, welche die Definition des Begriffes Totgeburt mit sich führt. Einerseits kann von Aborten, welche vielleicht Tot- geburten zugerechnet werden, die Rede sein, und andererseits können Kinder, welche zwar geatmet, jedoch nur ganz kurz gelebt haben, fehlerhafterweise als totgeboren angegeben‘ worden sein. Man kann sich z. B. des Gedankens nicht erwehren, daß in Berlin im Jahre 1890 eine Änderung hinsichtlich der Auffassung des Begriffes Tot- geburt stattgefunden haben muß, da die Totgeburtenfrequenz auf einmal in ganz auffallendem Grade fiel. In einer kürzeren Reihe von Jahren lassen sich jedoch oft vereinzelte Unebenheiten be- obachten. Für die Jahre 1900—09 erhält man z. B. folgende Zahlen für Totgeburten in Prozenten sämtlicher Geburten: 1900 1901 1902 1903 1904. 3,56 3,46 3,57 3,53 361 1905 1906 1907 1908 1909 3,59 3,63 3,64 3.63 379 297 Mit einer Geburtenzahl von ungefähr 50000 wird der mittlere Fehler der Differenz zweier aufeinander folgender Werte der Tot- geburtenfrequenz etwa 0,0012 sein; man sieht, daß sich die Diffe- renzen überall innerhalb der Grenzen für die zufälligen Abweichungen halten. 198. Ebenso wie die Verteilung zwischen den beiden Ge- schlechtern dieselbe ist, einerlei ob die Geburtenhäufigkeit groß oder klein ist, so wird man auch bei einer Spaltung des Materials nach anderen Richtungen eine bedeutende Ausgleichung der Zahlen beobachten können; die wirkenden Ursachen üben also ihre Wirkung auf sämtliche Gruppen aus. Als Beispiel nehmen wir die Teilung der Geburten in eheliche und außereheliche. Be- arbeitet man z. B. das ganze Material für Berlin für die Jahre 1820—1909, so ergibt sich, daß 3,51 %, der ehelich Geborenen und 5,04 9% der außerehelich Geborenen totgeboren waren. Es ist also letztgenannte Zahl 72 %, größer als die erstere. Für die einzelnen Jahrzehnte findet man folgende Zahlen: Tabelle 37. 1820 — 2; 1830 —3* 1840—49 1850—59 L860— 69 1870—79 1880 —89 1890—99 L900.— 09 Überhaupt Ehelich Geborene davon totgeboren ' Anzahl 9 35 554 78553 065 «3372 1 90422 921 ‚10 599 437 476 1925 118 “Doc xß/ 1 1:)4r "92 7C 53 14.135 12816 120987 5 3 Außerehelich Geborene davon totgeboren Anzahl 9, Überhaupt 78 IM “38 52 52 87 7326 50 192 3568 14394 25 0, 7,3 1,9 4,6 48 5,5 4,9 5.1 Fr) A A nr „632 R6 7207 Vergrößert man die hier für die ehelich Geborenen angeführten Totgeburtenprozente um 72 %,, so ergibt sich eine Zahlenreihe von ıngefähr denselben Bewegungen wie bei den außerehelich Geborenen, ohne daß man jedoch zu einer deutlichen Übereinstimmung mit dem Exponentialgesetz gelangen kann. Zwecks einer näheren Unter- suchung der Bewegung in der Größe der Totgeburtenprozente wird es jedoch nicht allein wünschenswert sein, die Veränderung von Jahr zu Jahr zu betrachten, sondern auch verschiedene andere Ur- sachen, welche eine bedeutende Rolle spielen, in allererster Linie lie Geburtsnummer zu berücksichtigen (vgl. $ 348). Erst wenn man das Material nach diesen Richtungen hin bearbeitet hat, kann man mit einer Annäherung ans Gesetz rechnen. Daß keine Überein- 298 stimmung vorliegt, dürfte gerade ein Fingerzeig dafür sein, daß es möglich ist, kräftig wirkende Ursachen zu finden. Aufgabe 62. Finde den Korrelationskoeffizienten für die bei den 9 Paaren von Totgeburtenprozenten der Tabelle 37 gegebene Korrelation. 199. Von erheblich größerem praktischen Interesse ist es, die Sterblichkeitsstatistik bearbeiten zu können, sodaß zuletzt das Exponentialgesetz hervortritt; und kein Gebiet der Bevölkerungs- statistik ist wie dieser Zweig Gegenstand derartiger Untersuchungen gewesen. Im $ 74 wurde bereits erwähnt, daß die jährliche Anzahl von Todesfällen eine sehr variierende Größe ist; so sind denn auch die Sterblichkeitsquotienten oft Schwingungen ausgesetzt, welche die bei den Glückspielen festgestellten Grenzen weit überschreiten. Die Ursachen hierzu sind teils in sozialen (hygienischen und öko- nomischen), teils in meteorologischen Verhältnissen zu suchen. Als gemeinsamer Zug kann für die meisten modernen Kulturstaaten auch der allgemeine Niedergang hervorgehoben werden, dem die Sterblich- keit im letzten Halbjahrhundert unterworfen gewesen ist. Im $ 74 wurde die Berliner Statistik mit Hinblick auf die Ver- teilung der Sterbefälle nach Geschlecht behandelt. Betrachtet man hier die Abweichung von einem Jahr zum andern, so wird man finden, daß die Differenzen im Vergleich mit dem mittleren Fehler ziemlich groß sind. Hier darf jedoch nicht übersehen werden, daß sich die Geschlechtsgliederung im Laufe der Zeit ein ganz Teil ver- schoben hat. Der jetzige Frauenüberschuß ist, was Berlin anbetrifft, ein modernes Phänomen. Der Wendepunkt tritt erst in den 70er Jahren ein. Es ist daher kein Wunder, daß die Frauen mit wachsender Überzahl stets größeren Anteil an den Sterbefällen haben. Wenn man jedoch eine einzelne zehnjährige Periode wählt, ist eine größere Stabilität zu erwarten. Für die ‚Jahre 1900—09 ergibt sich z. B., wenn von den Totgeburten abgesehen wird, folgende in der Tabelle 38 angeführte Anzahl von Sterbefällen (siehe S. 299). Der mittlere Fehler der jährlichen Verhältniszahlen wird um 0,003 liegen, und man wird daher im großen und ganzen die Über- einstimmung mit dem Exponentialgesetz befriedigend finden. Jedoch muß man unweigerlich bemerken, daß die drei letzten Jahre z. B. eine verhältnismäßig geringere Anzahl Sterbefälle aufweisen als die drei ersten, und die Frage meldet sich, wie diese Verschiebung ent- standen ist. Wie oben bemerkt, kann sich die Gliederung der Bevölkerung nach Geschlecht bereits im Laufe eines Jahrzehnts soviel ändern, daß 299 WMänner “8710 7 923 175 55 ‚73 OR 9 374 32 190% ‚05 Zusammen 172 670 Tabelle 38. rauen 701 173 566 227 2 "46 ‚50 479 126 ‘39 {56 589 Zusammen A111 )96 1741 7 8382 2425 14 451 32 648 32 353 32 108 31714 329 259 Von je 1000 Sterbefällen waren männliche 328 526 526 5322 325 528 327 522 318 5321 301 man nicht von diesem Moment absehen kann. Ein Vergleich zwischen Jen Volkszählungsergebnissen der Jahre 1901 und 1910 wird teils ein Anwachsen des Frauenüberschusses, teils eine Abnahme der -elatiyven Anzahl von Säuglingen und eine Zunahme für die älteren Altersklassen ergeben. Eine Untersuchung der Sterblichkeitsverhält- nisse in den einzelnen Altersperioden würde jedoch zeigen, daß der Binfluß auf die Verhältniszahlen beider Geschlechter nicht besonders zroß sein kann. Ein Blick auf die Statistik über den Verlauf jer Entwicklung der Sterblichkeit wird dagegen eine andere, noch kräftiger wirkende Ursache aufzeigen. Während die Kindersterbe- fälle (d.h. die Todesfälle im Alter von 0—1 Jahr, ohne Totgeburten) im Jahre 1900 6,3 °%o der gesamten untereinjährigen Bevölkerung jetrafen, machten sie 1909 nur 3,5%, aus. Dagegen haben die äbrigen Sterbefälle nur von 12,7 bis auf 12,0 %, abgenommen. Man kann ajne bessere Überstimmung erzielen, wenn die Berechnung dieses Verhältnis berücksichtigt und die Altersklasse „unter ein Jahr“ und „über 1 Jahr“ gesondert betrachtet werden; für diese beiden Klassen ergeben sich dann {folgende Zahlen: 1900 1901 1902 1903 L904 1905 1906 1907 1908 1909 )berhaupt atarhen unter .Tahr 762 ‘25 „927 1452 783 - 50 J1ıl 3.295 3 250 2187 über Jahr “m >40 a = x AS 31 37 958 24 158 4 657 Hiervon waren Männer unter | über 1 Jahr | Jahr "505 183 )07 89 31 30 „53 + 661 4 689 1.067 \Y_— “AC 68 “BE 12 A475 2045 12213 12.093 19 538 Sexzualverhältnis unter Jahr über ı Jahr a 19 65 33 SE :62 568 566 6 all 512 d1ll 08 14 12 508 501 Z0R — 300 Der mittlere Fehler der hier berechneten 2 Reihen von Sexual- verhältnissen wird jeweils ca. 0,0051 und 0,0034, und man sieht sofort, daß die Schwingungen in den zwei Zahlenreihen sich mit Leichtigkeit mit den Glückspielerfahrungen in Einklang bringen lassen. Daß die durch die Tabelle 38 ausgedrückten Schwingungen zu einem wesentlichen Teil auf Änderungen in der Kindersterblich- keit beruhen, leuchtet ferner ein, wenn passende Normalwerte für das Sexualverhältnis in den zwei hier betrachteten Altersgruppen gewählt werden und bei der Berechnung eines für beide Altersklassen durchschnittlichen Sexualverhältnisses für das einzelne Jahr die spezielle Altersgliederung des Jahres berücksichtigt wird. Wählt man als Ausdruck für das Sexualverhältnis in den zwei Alters- klassen die für 1909 gefundenen Zahlen (566 und 508), so findet man natürlich für 1909 die in der Tabelle 38 angeführte Zahl (0,521) wieder, da 1187-0,566 + 24 657-0,508 __ 0,521: 7187 + 24 657 ER dagegen ergibt sich z. B. für das Jahr 1900 11762-0,566 + 23649-0,508 _ 0-97 11 768 + 23 649 TA also sehr annähernd eine der in der Tabelle 38 angeführten ent- spechende Zahl. Überhaupt erhält man folgende Zahlen: Faktisch Berechnet 1900 528 527 1901 526 527 1902 526 526 1903 522 525 1904 5925 5925 Faktisch Berechnet 1905 528 525 1906 527 524. | 1907 529 523 | 1908 518 523 1909 521 521 In den dem Jahrzehnt 1900—09 voraufgehenden Perioden lassen sich höchst eigenartige Verschiebungen beobachten; bis um das Jahr 1870 hatten die Männer regelmäßig das Übergewicht, und die Verteilung der Verstorbenen nach dem Alter varliert stark. Führt man für die Periode 1850—99 eine Berechnung wie die hier für 1900—09 vorgenommene durch, so ergeben sich, da man auch hier die Werte 0,566 und 0,508 als Ausdruck für das Sexualverhältnis in den zwei Altersgruppen benutzt, folgende Zahlen: 501 ‚850—59 860. 6C Ama rn LI 890 — 99 Durchschnittliche jährliche Anzahl Sterbefälle in %,, der Bevölkerung unter | über Jahr 1 Jahr U. dh Erwartete Verteilung nach Ceschlecht A A 28 Faktische Verteilung nach Geschlecht 524 529 534 530 R90Q Trotz der im Vergleich mit der Anzahl der verstorbenen Überein- jährigen großen Anzahl Sterbefälle unter Säuglingen im Jahrzehnt 1870—79 ist die Übereinstimmung gut. Dies ist dagegen nicht der Fall für die drei ersten Dezennien (1820—50); es ist für diese daher eine noch tiefer gehende Bearbeitung erforderlich. 200. Entsprechende Beobachtungen wird man oft anstellen können. Die Zahl der Todesfälle schwankt ganz außerordentlich von Jahr zu Jahr; nichtsdestoweniger aber ist das Sexualverhältnis, in kürzeren oder längeren Altersperioden, unverändert: die wirkenden Ursachen üben auf beide Geschlechter den gleichen Einfluß aus. Um ein Beispiel aus der dänischen Statistik zu nehmen, so kann die jährliche Anzahl von Sterbefällen (in Altersklassen von 5 Jahren) zwischen 25 und 45 Jahren in jedem der Jahre 1901—10 untersucht werden. Für die Männer bewegen sich die Zahlen zwischen 1753 ınd 1971, für die Frauen zwischen 1899 und 2065. In jedem der Jahre verteilten sich 1000 Sterbefälle auf die 4 benutzten Alters- klassen im übrigen wie folgt: 1901 1902 1903 L904 L905 L906 1907 u 1908 221) 1909 224 1910 | 223 Durchschn 92927 hre “nner IR CS ahra 38 224 220) - 40 Tahre 253 256 DAR 10—45 Jahre 35 297 20ß 25—30 Tahre 15 50 Franen Van Tahre 10 h TE 259 Di z46 \”44 “)—45 ıahre 76 65 267 258 760 45 54 263 265 246 260 Der mittlere Fehler im Verteilungsgesetz für die Abweichungen zwischen den angeführten Durchschnittswerten und den Häufigkeiten 302 der einzelnen Jahre liegt für sämtliche Abweichungen um 0,009 und 0,010. Das Doppelte dieser Größe erreicht man nur in 4 der sämtlichen 80 Gruppen, was mit dem Exponentialgesetz genau über- einstimmt. Im übrigen sind Abweichungen unter dem mittleren Fehler etwas seltener, Abweichungen vom 1- und 2-fachen des mitt- leren Fehlers etwas häufiger, als erwartet, aber im großen und ganzen ist die Annäherung an das Exponentialgesetz eine recht ‚gute. Wählt man andere Altersperioden, dann wird oft eine weitere Teilung des Materials erforderlich sein. Kinder unter 1 Jahr sind, wie oben $ 74 bewiesen wurde, in den Monaten August und Sep- tember in erheblichem Grade gewissen Gefahren ausgesetzt. Um eine größere Annäherung an das Exponentialgesetz zu erzielen, könnte man dann eine Gliederung der Jahre nach meteorologischen Verhältnissen versuchen. Für die Alten werden Frühjahr und Spät- winter unter ungünstigen meteorologischen Verhältnissen verhängnis- voll sein. Man kann die Resultate für die Altersperiode von 25—45 Jahren so ausdrücken, daß es in jedem Kalenderjahr ein neues Sterblichkeitsniveau gibt. Aber bei steter Beobachtung der Ab- weichungen von diesem Niveau findet man, daß sich diese inner- halb der Grenze der Zufälligkeiten halten. Kennt man das Niveau des betreffenden Jahres für sämtliche Sterbefälle in der Altersperiode, dann lassen sich die einzelnen Zahlen einigermaßen genau berechnen. Als Beispiel hierfür sei eine Untersuchung!) angeführt, welche ihren Ausgangspunkt in drei Sterbetafeln für Nord-Wales für die Jahrzehnte 1861—70, 1871—80 und 1881—90 hatte und auf eine Vergleichung der Größe der Sterblichkeit auf verschiedenen Alters- stufen für die 3 Jahrzehnte und für die 18 Regierungsbezirke in Nord-Wales hinausging. Für die Altersklasse 35—45 Jahre sollte das Sterblichkeitsniveau nach der Tafel für das erste Jahrzehnt, alle 18 Bezirke als Ganzes genommen, durchschnittlich um ca. 11% erhöht werden., um in Höhe mit dem Niveau für das zweite Jahr- zehnt zu gelangen. Für einen Bezirk nun war die Sterblichkeit im ersten Jahrzehnt durch 10,70%, im zweiten Jahrzehnt durch 13,08 %%o ausgedrückt. Erhöht man die 10,70 %%, um 11% ,, dann ergibt sich nur 11,78 %wo, also eine Abweichung von 1,30 °%»o. Berück- ij) Westergaard, Die Lehre von der Mortalität und Morbilität, 2. Ausg. Jena 1901, S, 198 £., wo zugleich (S. 195£.) eine von van Pesch vorgenommene Untersuchung der holländischen Sterblichkeitstafel für 1880—90 (Sterftetafels voor Neederland, 1897) besprochen wird, eine Untersuchung, die auch mit der Theorie eine gute Übereinstimmung erzielte. 303 sichtigt man die Volkszahl und die Anzahl von Sterbefällen im Distrikt, so findet man als Ausdruck für den mittleren Fehler dieser Abweichung 1,40%, So daß die gefundene Abweichung, . mit dem mittleren Fehler als Einheit gemessen, etwa 0,9% wird. Auf ähn- liche Weise muß die Sterblichkeit im dritten Jahrzehnt um ca. !/ erhöht werden, um ebenfalls die Höhe der Sterblichkeit im zweiten Jahrzehnt zu erreichen. Im selben Bezirk nun war die Sterblichkeit im dritten Jahrzehnt durch 10,09%, ausgedrückt, was, um !/g erhöht, 11,77% ergibt, ein Resultat, das dem Niveau im zweiten Jahrzehnt 13,08 %%) gegenüber eine Abweichung von 1,31 %.o aufweist. welches wiederum ca. 0,9 w ausmacht. Bei entsprechender Umrechnung beider Abweichungen für sämt- liche 18 Bezirke erhält man insgesamt 36 Abweichungen, die sich, mit den mittleren Fehlern als Einheit gemessen, nach der Größe, wie folgt, verteilen: [7 ter NR 4 L Faktisch Erwartet 12 13,8 11 10,8 10 9,8 3 16 Hier sind die erwarteten Zahlen nach der Tabelle 22 berechnet, und man sieht die deutliche Übereinstimmung zwischen Erfahrung und Berechnung. Auch für andere Altersklassen ließen sich mit gutem Resultat ähnliche Berechnungen vornehmen. Die Ursachen, welche eine erhöhte Sterblichkeit hervorrufen, wirken also gleich- zeitig mit ungefähr gleicher Stärke auf das ganze Gebiet ein, so daß mögliche Abweichungen in der Regel als zufällig aufgefaßt werden zönnen (s. weiter unten $ 341). Sehr oft wird allerdings eine Untersuchung dieser Art bedeutende Abweichungen vom Exponentialgesetz ergeben. Die größeren Städte z. B. werden Unregelmäßigkeiten hervorrufen, u. a. auf Grund hygi- anischer Maßnahmen, welche in der Regel nicht gleichzeitig in allen Städten durchgeführt werden. Eine Bearbeitung des Materials unter solchem Gesichtswinkel wird daher notwendig sein, bevor man auf Übereinstimmung mit der Theorie rechnen darf. Auch eine Bearbeitung der Statistik über die Sterblichkeit in verschiedenen Berufen hat, wie es scheint, Aussicht darauf, zu einer Übereinstimmung mit dem Exponentialgesetz zu führen. Führt man z. B. für 9 Berufszweige, welche von 1860—61 und 1871 in der englischen Bevölkerungsstatistik einigermaßen gleichartig behandelt wurden. für 5 Altersklassen zu je 10 Jahren, zwischen 25 und 75 za 304 Jahren, ähnliche Berechnungen wie die obigen aus, indem man das Sterblichkeitsniveau 1860—61 um so viel erhöht, wie die Sterblichkeit der gesamten Bevölkerung aufweist, dann werden sich die 45 Ab- weichungen zwischen der Sterblichkeit 1860—61 und 71 wie unten verteilen: Faktisch Erwartet 0—0,5 Male den mittleren Fehler 15 17,2 05—17 . 13,5 1,0—2, * 12,2 mehr als & 21 Zusammen 45,0 73 Auch hier kann man von einer recht guten Übereinstimmung sprechen. 201. Wenden wir uns nun den Trauungen zu, so haben wir aufs neue ein Gebiet, wo auf den ersten Augenschein die Unregel- mäßigkeit sehr groß ist, wo man jedoch nach einer einfachen Be- arbeitung des Materials mit Leichtigkeit eine Annäherung an das Exponentialgesetz erzielt. Wirtschaftliche und soziale Verhältnisse verschiedener Art üben hier einen bedeutenden Einfluß aus; bei einer Sonderung nach dem Alter der Braut oder des Bräutigams, nach Glaubensbekenntnis und Zivilstand wird man jedoch finden, daß diese Ursachen gleichmäßig wirken, so daß die Zahlen verhältnis- mäßig im selben Grade vergrößert oder verkleinert werden. Auch die Verteilung der Ehescheidungen nach dem Glaubensbekenntnis ist lehrreich. Man kann z. B. die im $ 71 enthaltene Tabelle näher bearbeiten, um dann zu folgenden Zahlen zu gelangen: 899 1900 1901 1902 1903 L904 1905 1906 1907 1908 Zusam. Zahl der | evan geinte | gemischte Ehescheidungen Then Ehen UN I36 984 27 260 R7F 49 21 722 769 c79 1 48 9 +q 7“ a n 14 109 u vol 2134 | Erwartete Zahlen |evangelische| gemischte Ehen Ehen fi 2 LA 7692 951 983 066 :01 mA) ‘% 14 152 190 196 213 220 254 276 289 92184 Pa 467 10931 Es erhellt, wie genau die berechneten Zahlen den faktischen folgen. Berechnet man unter Berücksichtigung der der Gesamtzahl 305 anhaftenden Unsicherheit den mittleren Fehler, dann wird sich heraus- stellen, daß von den 20 berechneten Zahlen 8 eine Abweichung von dem Ein- bis Zweifachen des mittleren Fehlers haben, während die übrigen Abweichungen unter dieser Größe liegen. Wie sehr sich die Zahl der Ehescheidungen von Jahr zu Jahr auch verändert, so ist dennoch die Verteilung nach der Art der aufgelösten Ehen un- gefähr konstant. Untersucht man nun, wie häufig Trauungen und Scheidungen jeder Art sind, dann wird sich z. B. ergeben, daß von den Eheschließungen der Jahre 1907—09 ungefähr 17!% gemischt, etwa 74%, rein evangelisch, 5%, rein katholisch und 3°, rein jüdisch waren. Dagegen hatte man für die Geschiedenen 78 %% rein evangelische Paare, 16°, gemischte Ehen, ungefähr 3°, rein jüdische und die gleiche Prozentzahl rein katholische Ehen. Nach diesen (allerdings sehr summarischen) Zahlen würde man zu dem Schluß neigen, daß die katholischen Ehen stabiler sind als die anderer Bekenntnisse. Auch eine Untersuchung hinsichtlich der Anzahl von Kindern in den aufgelösten Ehen dürfte voraussichtlich gewisse typisch wirkende Ursachen aufweisen. 202. Unter den Todesursachen nehmen die Selbstmorde eine eigenartige Stellung ein. Für Berlin hat man beispielsweise die in ler Tabelle 39 enthaltenen Zahlen: Tabelle 39. Zahl der Selbstmörder erhänet Hiervon haben sich ertränkt Männer! Frauen! Zus. Jahr Männer! Frauen! Zus Männer! Franen 2 ? „05 3 90 676 2 84 «18 726 O2? 3 28 90 ) | 1018 [3518 | 907 | 272 | 1179 | 281 | 140 | 224 Durchschnittlich waren unter 1000 Selbstmördern 289 Frauen; berechnet man mit dieser Zahl als Ausgangspunkt die erwartete Anzahl weiblicher Selbstmörder von Jahr zu Jahr, so ergibt sich folgendes Resultat: Zahl der weiblichen Selbstmörder Erfahrung Berechnung L907 183 196 L908 220 212 L909 207 204 L910 190 196 1911 218 210 Westergaard und Nvyboile, Theorie der Statistik, 2. Aufl. 1907 „008 ‚909 LO1C [9.1 Zusam. ‘ 3 x 7" — 306 Da der mittlere Fehler dieser berechneten Zahlen um 12 herum liegt, sieht man, daß die Zahlen überaus gut mit dem übereinstimmen, was man nach dem Exponentialgesetz erwarten mußte, während sich bei Hineinziehung älterer Beobachtungen eine kenntliche Verschiebung ergibt (für 1897—1906 findet man beispielsweise, daß durchschnitt- lich 263%, der Selbstmörder Frauen waren). Auch hinsichtlich der Art der Selbstmorde wird sich im großen und ganzen eine befriedigende Übereinstimmung ergeben, wenn man nicht eine zu lange Periode betrachtet. Für das Jahrfünft 1907—11 ist, wenn sich von Männern 363 °/,, erhängten und 114 % ertränkten von Frauen 267 °% 9 erhängten und 138 °%,g ertränkten, das Resultat folgendes: Erhängur: Erfah- rung Au2- Männer Ertränkung | h- rung Berech- Nung Frauen a Erhängung | Ertränkung Erfah- | Berech- Erfah- | Berech- rung | nung |! rung | nung 1907 + 178 54 +. 49 „3 ; 1908 | 190 0 Fo 61 59 | 31 | 3 1909 192 1 56 1] 50 | 55 97 29 1910 167 | 176 53 | 55 54 51 | 31 26 1911 180 | 184 62 58 53 58 98 30 Keine der Abweichungen kommt außerhalb des Gebietes der Zu- fälligkeiten zu liegen; auch hier kann man jedoch, wenn man weiter in die Vergangenheit zurückgeht, erhebliche Verschiebungen wahr- nehmen. Es läßt sich mit bedeutender Sicherheit aus den Zahlen der Schluß ziehen, daß die Neigung zum Sich-Erhängen bei männlichen Selbstmördern größer ist als bei weiblichen. Dagegen haben diese verhältnismäßig häufiger den Ertränkungstod gesucht als die Männer; der mittlere Fehler ist hier jedoch zu groß, um vollständig sichere Schlüsse zu ermöglichen. Geht man zur Periode 1897—1906 zurück, so wird man — mit etwas anderen Verhältniszahlen — hinlänglich viele Beobachtungen zur Verfügung haben, um den betreffenden Schluß ziehen können. - Aufgabe 63. Finde auf Grund der Zahlen in der Tabelle 39 einen Aus- druck für die Erhängungsfrequenz bei Männern und bei Frauen und den mitt- leren Fehler dieser Häufigkeiten. Wie groß ist der Unterschied zwischen diesen Häufigkeiten und der mittlere Fehler des Unterschiedes? ‚Dieselben Fragen für die Ertränkungsfrequenz. Aufgabe 64. In Dänemark begingen von 1897—1905 insgesamt 4276 Männer und 1200 Frauen Selbstmord, hiervon suchten den Ertränkungstod jeweils 334 307 und 331. Wie groß ist der Unterschied zwischen den Ertränkungsfrequenzen, die sich hieraus getrennt für Männer und Frauen berechnen lassen, und wie groß ist der mittlere Fehler des Unterschiedes ? Bei einer Betrachtung der Verteilung der Selbstmorde nach Jahreszeiten wird man eine regelmäßige Periode erkennen können. So ergibt z. B. eine Addition der Zahlen für die 5 Jahre 1906—10, daß 258 %0o auf das erste Vierteljahr, 272 auf das zweite und jeweils 244 und 226 %o auf die beiden letzten Quartale entfallen. Wie ge- wöhnlich, ist das Frühjahr in dieser Beziehung die schlimmste Zeit. Eine Untersuchung der Abweichungen der einzelnen Monate vom Durchschnitt des Jahrfünfts ergibt eine recht gute Harmonie mit lem Exponentialgesetz; man darf daher die gewöhnlichen Kriterien auf die Monatszahlen anwenden. Es bestätigt sich dann die Grund- annahme, daß die Selbstmordfrequenz im zweiten Quartal ihr Mazxi- mum erreicht, während das Minimum im letzten Teile des Jahres liegt. Man besitzt also hier ein Mittel, einen zuverlässigen Schluß zu ziehen. 203. Es lassen sich nun auch lehrreiche Beispiele auf einem Gebiete der menschlichen Willensäußerung wie dem der Verbrechen finden. Seit 1897 kann man in der dänischen Statistik die Rück- fälle der zum erstenmal Verurteilten verfolgen. Wir können uns hier darauf beschränken, nur diejenigen Rückfallsfrequenzen zu be- trachten, welche sich unmittelbar aus den Zahlen der in jedem Kalenderjahr „zum erstenmal Verurteilten“ und aus denjenigen von diesen, welche vor Ablauf desselben Jahres zum zweitenmal ver- urteilt wurden, ableiten lassen. Für reichsangehörige männliche „Ver- brecher-Anfänger“ hat man beispielsweise für die Jahre 1897—1915 folgende Zahlen (s. Tab. auf S. 308). In einem späteren Kapitel ($ 326) kehren wir in einer anderen Ver- bindung zu diesen Beobachtungen zurück. Es sei jedoch bereits hier bemerkt, daß die aufgeführten Rückfallsprozente nicht die Wahr- scheinlichkeit für einen Rückfall vor Ablauf eines Jahres nach der ersten Verurteilung angeben können. Von den 1539 im Jahre 1897 zum erstenmal Verurteilten werden einige so spät am Schlusse des Jahres verurteilt worden sein, daß ihr erster Rückfall im Jahre 1898 eintreffen kann, jedoch vor dem „Jahrestage ihrer ersten Aburteilung. Ferner können Verbrecher-Anfänger vor diesem Jahrestage sterben oder auswandern, ein Moment, das ebenfalls nicht berücksichtigt ist; und schließlich hat man auch die Dauer des ersten (jefängnisaufenthalts außer acht gelassen. obwohl die Strafverbüßung D0* 308 . Rückfälle | Für je 100 war EN Ber” | im selben | Rückfall zu HEADS Kalenderiahr verzeichnen 1897 1539 1898 1488 (899 1438 1900 1514 1901 427 1902 1376 1903 403 1904 411 1905 1672 1906 1422 L907 1487 1908 1465 1909 1470 1910 1654 1911 1682 1912 1532 1913 1729 1914 1619 1915 1885 Zusammen 29213 ie 8,51 7,33 6,40 7,53 6,45 6,54 6,49 7,37 7,72 5,20 5,45 5.19 8,67 5,93 6,18 5,61 5,09 a a2 GC. natürlich die Möglichkeit eines Rückfalls ganz außerordentlich ver- mindert. Nichtsdestoweniger haben die Zahlen ein deutliches Gepräge der Regelmäßigkeit. Jedoch wird man unweigerlich eine Abnahme in der Rückfallsfrequenz nach 1905 bemerken. Für die 9 ersten Jahre als Ganzes ergibt sich eine Rückfallshäufigkeit von 7,18 %,, für die letzten 10 Jahre dagegen nur 5,79 %, und untersucht man den mittleren Fehler der Differenz, so ist leicht ersichtlich, daß hier recht kräftige Ursachen haben einwirken müssen. Es kommt hier besonders das Vormundschaftsratsgesetz vom 14. April 1905 in Be- tracht, wonach Kinder unter 14 Jahren überhaupt nicht mehr und jugendliche Verbrecher von 14—18 Jahren in der Regel ebenfalls nicht bestraft werden, da das Gesetz die Möglichkeit eröffnet, für solche Personen Erziehung anzuwenden. Gerade für jugendliche Verbrecher ist die Rückfallsfrequenz groß. Es muß daher empfohlen werden, das Material in zwei Gruppen: 1897—1905 und 1906—15 zu teilen. "Tut man dies, so ergeben sich bei der Berechnung der erwarteten Anzahl von Rückfällen folgende Resultate (s. Tabelle auf S. 309) : Man ersieht leicht, daß die Zahlen leidlich mit dem Exponential- gesetz übereinstimmern. Für die ersten 9 Zahlen ist der mittlere Fehler ungefähr. 9, für die letzten ungefähr 8. Nach diesem Re- 1897 1898 1899 L900 1901 1902 1903 904 1905 > Rückfälle gemäß Beobachtung Berechnung +2 309 —— "m 006 007 8 x nn ‚415 Rückfälle gemäß Beobachtung Berechnung a) a7 89 ‚00 94 109 2 LOK sultat würde man kaum Bedenken tragen, die Wahrscheinlichkeits- rechnung auf dieses Material anzuwenden. Man kann dann die Beobachtungen in verschiedenen Richtungen spalten, um so wirkenden Ursachen auf die Spur zu kommen. Man kann z. B. im Alter bei der ersten Verurteilung seinen Ausgangs- punkt nehmen und gelangt dann zu folgenden Zahlen: Anzahl hiervon Rückfälle im ersten Jahre überhaupt | % unter | über unter ] über ‘ unter | über A Tahren!95 Tahren!95 Jahren 95 Tahren/25 Jahren/25 Jahren 7 568 2311 361 a8 274 3015 384 0 1258 3240 315 ‚ 4677 3770 82 14 y2 Zusammen: | 16877 | 12336 | 1442 | 433 1 85 | Für die Altersgruppe über 25 Jahre sind die Abweichungen nicht größer, als daß sie sich mit dem Exponentialgesetz vereinen {assen. Für jugendliche Verbrecher gilt dasselbe für die zwei ersten Perioden, während die letzten beiden Perioden ein ziemlich niedriges Prozent haben. Hier zeigen sich also die Wirkungen des Kinder- schutzgesetzes vom Jahre 1905. Man sieht, daß, wie oben gesagt, die jugendlichen Verbrecher verhältnismäßig weit häufiger im ersten Xalenderjahre „zurückfallen“ als die älteren. Auch hinsichtlich der Art des Verbrechens lassen sich inter- essante Zahlen finden. Die Sittlichkeitsverbrecher haben im ersten Kalenderjahr (wie überhaupt) nur ein kleines Rückfalls- prozent, während Diebe verhältnismäßig recht häufig erneute Ver- brechen begehen; die Notzüchtiger nehmen in dieser Beziehung eine Mittelstellune ein. 1897— 190° 1901—1905 1906— 1910 1911— 1915 _—. 310 — D. Die Wirtschaftsstatistik. 204. Wenden wir uns nun der Wirtschaftsstatistik zu, so begegnen uns hier große Schwierigkeiten. Zum ersten ist dieser Zweig der Statistik, trotz der ungeheuren Fortschritte der letzten Dezennien, im Vergleich mit der Bevölkerungsstatistik nur wenig entwickelt, und zweitens ist sie an und für sich weit verwickelterer Natur. Zu guter Letzt ist jedoch die Aufgabe dieselbe, nämlich wie oben die mannigfaltigen wirkenden Ursachen in zwei Hauptgruppen zu sammeln, teils solche Ursachen, welche einen kenntlichen Einfluß auf die sozialökonomischen Phänomene ausüben und daher so weit wie möglich jede für sich isoliert behandelt werden müssen, teils solche, die man als zufällig auffassen kann und deren Wirkung sich innerhalb gewisser verhältnismäßig enger Grenzen halten; diese Grenzen müssen dann, wie bei den Glückspielerfahrungen und den Erfahrungen in der Bevölkerungsstatistik studiert werden. In mancher Beziehung hat jedoch diese Aufgabe relativ bessere Aussichten auf eine fruchtbringende Lösung als bisher. Die Regel- mäßigkeit in den ökonomischen Phänomenen ist in unseren Tagen weit größer als einst, so z. B. hinsichtlich der Ernte, die sich jetzt oft nur auffallend wenig von Jahr zu Jahr verändert. Und z. T. wird das Studium der wirkenden Ursachen dadurch erleichtert, daß jetzt mehr als je die Welt ein Ganzes ist und viele Be- wegungen daher parallel sind. Lazard!) z. B. hat bei einer Ver- gleichung von deutscher und französischer Arbeitslosenstati- stik eine recht gute Übereinstimmung zwischen dem Risiko der Arbeitslosigkeit in den einzelnen Gewerbezweigen dieser beiden Länder festgestellt, so daß es im Bereich der Möglichkeiten zu liegen scheint, auf diesem Gebiete der Statistik ähnliche Gesetze wie in der Bevölkerungsstatistik anzuwenden. Betrachtet man, um ein verhältnismäßig einfaches Beispiel zu nehmen, die Verteilung der Einkommen oder Ergebnisse ent- sprechender Erhebungen (z. B. die Verteilung der Vermögen, der Erbfälle nach Größe), so wird sich in der Regel ergeben, daß diese Verteilungen sehr unsymmetrisch sind; die niedrigeren Einkommens- klassen sind meistens weit zahlreicher vertreten als die höheren. Als Beispiel möge die Einkommenverteilung der Versorger ?) in Däne- !) Le chömage et la profession, Paris 1909. . 2) Vgl. Statistisk Tabelverk Litra A Nr. 16, Folketellingen den 1. Februar 1921. Kobenhayn 1925. 311 mark auf Grund der Veranlagungen des Finanzjahres 1921—22 (im wesentlichen auf Grund der Einnahmen im ‚Jahre 1920) erwähnt werden. welche Verteilung aus der Tabelle 40 ersichtlich ist. Tabelle 40. Verteilung der Einkünfte des Jahres 1920. Gruppen von Ein- ) kommen ınter 1000 Kr. 1000— 1500 ,, 1 500— 2000 2000— 3000 3000— 4A 1000— BON 5° 0— N LO YA 20.000 - 50 00 ıher Zusammen Zahl der Ein- künfte Deren Gesamt- betrag ION) Kr \ „X LO6 771 ‚57 268 ‚38 732 89 961 48629 13 400 50707 9 66 282 L87 800 231 905 451 161 502 537 195.115 )37 155 373.111 ’39 105 Sn „09 054 396 | 8 84? Grenzen von Einkommen Zahl der Ein- künfte + \ über 0 Kr.! 1054 326 1000 „947555 1500 „790287 2000 „ 651555 3000 „ 461 594 4000 „ 312965 500 199 565 MM 38 788 IN 90 RS Deren Gesamt- betrag iM) Kr. 3 843 464 3.777.182 3 589 382 3357477 2.906 316 2403 779 ' 908 664 371 509 498 398 259 293 153 584. Außer den in dieser Tabelle enthaltenen 1054326 Versorgern, Jleren Einkommen bekannt war, wurden noch insgesamt etwa 470000 Versorger (ca. 230000 Männer und 240000 Frauen) mit unbekanntem Einkommen gezählt; da vermutlich jedenfalls der überwiegende Teil dieser Einkünfte sehr klein gewesen ist, so wird trotz des Mangels aus der Tabelle 40 hervorgehen, daß die Einkommenverteilung sehr ınsymmetrisch ist und äußerst geringe Ähnlichkeit mit dem Expo- nentialgesetz hat, und ganz ähnliche Formen nehmen die Verteilungen bei anderen entsprechenden Einkommenerhebungen an. Dieses Ver- hältnis hat dazu Veranlassung gegeben, besondere Gesetze für die Form der Einkommenverteilung aufzustellen und ihre Begründung zu versuchen; und hier hat das von Pareto vorgeschlagene Ge- setz eine ganz besondere Aufmerksamkeit erregt!). Nach Pareto sollte die Gesamtzahl der Personen (y), deren Einkommen mindestens von der Größe x war, mittels der Formel 1) Siehe unter neueren Abhandlungen: J.C. Stamp, A new illustration of Pareto’s law. Jonrn. Roval Stat. Saoe.. Vol. 77. 1914. 312 festgestellt werden können; k und a seien in dieser Formel von x unab- hängige Größen, die jedoch bestimmbar wären, so daß die Formel sehr annähernd einer gegebenen (beobachteten) Verteilung entspräche. Es läßt sich leicht nachweisen, daß das Gesetz Paretos nicht besonders gut mit den Beobachtungen übereinstimmt; man wird übrigens oft zu einer besseren Übereinstimmung gelangen, wenn man, anstatt die Zahl der Einkünfte über oder zwischen gegebenen Grenzen zu prüfen, das Gesetz an Einkommenmassen, welche von Einkünften über oder zwischen gegebenen Grenzen herrühren, an- zupassen versucht. Zur Beleuchtung dessen hat man in der Tabelle 40, außer den Zahlen der Kolonnen (1) und (2), welche die eigent- liche Einkommenverteilung betreffen, gleichzeitig mittels sukzessiver Aufsummierung von unten her aus den Zahlen der Kolonnen (1) und 2) berechnet, teils‘ wieviele der 1054326 Einkünfte größer als jeweils 100000, 50000, 20000 ... usw. Kronen waren (Kol. 3), teils ein wie großer Teil der gesamten Einkommenmasse (3843 Mill. Kr.) auf Einnahmen entfielen, welche größer waren als die benutzten Grenzen für Einkommengruppen (Kol. 4). Für die genannte Anpassung spräche vielleicht der Umstand, daß sich eine Person mit kleinem Einkommen in der Regel weit mehr anstrengen muß, eine gewisse Erhöhung der Einnahmen zu erzielen, als eine wohlhabende Person. Da Probleme dieser Art sich ohne Anwendung weitergehenderer mathematischer Hilfsmittel nur schwer verfolgen lassen, so sei hier nur bemerkt, daß, selbst wenn es vielleicht richtig ist, daß nur ein Bruchteil einer Gesellschafts- klasse unter der jetzigen Gesellschaftsordnung sich zu besseren Ver- hältnissen emporzuschwingen vermag, es doch andererseits wahr- scheinlich ist, daß jegliche Veränderung in den wirtschaftlichen Ver- hältnissen der Gesellschaft auch auf die Einkommenverteilung einen Einfluß ausüben wird; man kann somit nicht immer die sehr un- symmetrische Verteilung, auf die das Gesetz Paretos in erster Linie hinzielt, erwarten. Da die ausgeprägte Abweichung von der Form des Exponential- gesetzes, welche die Verteilung der Einkünfte aufweist, uns in Wirklichkeit einem ähnlichen Problem wie dem oben ($$ 183—184) in Verbindung mit den anthropometrischen Messungen besprochenen gegenüberstellt, so wird auch hier — wie sonst — die Spaltung des Materials in Gruppen zu empfehlen sein, welche jede für sich einigermaßen homogen sind. Hierzu wird um so mehr Veranlassung sein, da der Begriff des Einkommens im Gegensatz zu den meisten 313 anderen der im vorhergehenden behandelten Verhältnissen sehr häufig äußerst schlecht definiert ist, weshalb denn auch die auf das Ein- kommen bezüglichen Beobachtungen oft unzuverlässig und gruppen- weise mit systematischen Fehlern behaftet sind. 205. Versucht man indes eine Spaltung des Materials nach Gesellschaftsklassen, so wird man sehen, daß die Gesellschaft nicht so sehr wie ein „pyramidal“ aufgebautes, organisches Ganzes, sondern eher als ein Aggregat aus vielen einzelnen Gruppen, von denen jede ihrem Verteilungsgesetz folgt, aufgefaßt werden muß. Daß mittels einer solchen Spaltung tatsächlich Aussicht auf eine [Isolierung kräftig wirkender Ursachen ist, wenigstens wenn man über ausreichend gute und umfangreiche Beobachtungen verfügt, das wird bereits aus der Tabelle 41 erhellen, die einige Beispiele der Einkommenverteilung innerhalb verschiedener Berufe enthält: Tahelle 41. Gruppen von Einkommen unter 1000 Kr. L000— 1500 , L 500— 2 000 2000— 3 000 3 000— 405 1 000— 500 5 000—10 0 10 000—20 06 20 000—50 66 über RO 00 : Pa 7 | 1 © „gg - VE 3 Ss n 3 2848158 '258 A 55| 2 [22 398% 7 = x Sa hm N a: 3252531 %°3 25 SE 3% Hi SE 583923 .38 58 SE 351 = |Ss TR) © DE 1 reGRS8 S% X 3 4 +» <q MO | ä8 28 AN Sr Br nn Atze Männer! An nnerl Männer! Männer! Frauen 2 {22 207 Sr” Fa 3 “m NA 4 28 6 8 > 9 10 29 N >91 -20 ca CO) „dd {1 (WW) ur + Obwohl die vorliegenden Einkommenintervalle von höchst ver- schiedener Größe sind, so wird doch aus der Tabelle hervorgehen, laß bereits eine bloße Gliederung nach Beruf und Geschlecht eine [solierung verschiedener Gruppen ermöglicht, deren Verteilung nach Einkommen vollständig die der ganzen Bevölkerung eigentümliche Form verliert, welche oben (Tabelle 40) gefunden wurde, und sich allenfalls der Ähnlichkeit mit dem Exponentialgesetz in dem Grade nähert, wie eine deutliche Zusammenhäufung um ein typisches Durchschnittseinkommen und eine größere oder kleinere Streuung dach beiden Seiten statthat; selbst wenn die Asymmetrie in den Verteilungen noch größer ist als mit dem Exponentialgesetz verein- 314 bar, so ist doch andererseits zu erinnern, daß die angeführten Gruppen noch sehr zusammengesetzt sind. Aussicht auf Ausbeute hätte ebenfalls eine Scheidung zwischen verschiedenen Altersklassen und namentlich zwischen der Stadt- und Landbevölkerung. Da die Beobachtungen über die hier benutzten, von der Steuerveranlagung herrührenden Einnahmen vermutlich mit erheblichen Fehlern be- haftet sind (vgl. insbesondere die große Anzahl von Personen, deren Einkommen nicht bekannt ist), so wird es klarer sein, den Nutzen einer Spaltung wie der obigen an Hand eines anderen Beispiels zu beleuchten. 206. Hierzu kann eine Kopenhagener Lohnstatistik!) aus>dem Jahre 1909 benutzt werden, indem man alle solchen Arbeitergruppen ‘Erwerbszweige usw.), deren Einkommenverteilung bekannt ist, und welche insgesamt 6064 männliche und weibliche Arbeiter umfassen, herausnimmt; die Verteilung dieser Gruppen nach dem Einkommen erhellt aus folgender Übersicht: unter 100 Kr. 100—200 ,, 200—300 ,, 300—400 ,, 400—500 ,. 500— 600 600—700 ,, 700)—800 ,, 800—900) 7 9/ € 5 900—1000 Kr. 18 1000—1200 ,, 48 1200—1400 ,, 139 1400 —1600 ,, 167 LAIEN 119 180 4-7 77 über Z. , 16 Zusammen 1000 Die Verteilung ist sehr unregelmäßig; sie ergibt zwei Maximal- punkte, welche erheblich voneinander entfernt liegen, so daß von einer Annäherung an das Exponentialgesetz kaum die Rede sein kann. Wenn man indes die Arbeiter in Gruppen nach Geschlecht und Erwerbszweig einteilt und gesondert für jede einzelne der hier- bei entstandenen Gruppen die Einkommenverteilung betrachtet, dann findet man wie oben ($ 180), daß die einzelnen Gruppen sehr ver- schiedene Durchschnittspunkte haben. Wenn mittels einfacher linearer Interpolation in der Verteilung der Gruppen festgestellt wird, wieviele der Einkünfte Abweichungen aufwiesen, welche z. B. zwischen 0 und 100 Kr., 100 und 200 Kr. usw. lagen, und demnächst die Anzahl von positiven und negativen Abweichungen aufgezählt wird, dann erhält man folgende Zahlen: ı) Cordt Trap, Arbejdslonnen i Kobenhavn i Aaret 1909, Kebenhavn 1911. 315 i Ü Erwartet gemäß Abweichung | Unter dem Über dem | S Kr. Durchschnitt | Durchschnitt ‘dem Kxponential ü— 1 L00—200 200 — 300 300—400 100—500 306 — 600 X 70 a J— 299 m a (15 ? 1 > Zusammen Bei der Berechnung ist lediglich darauf Rücksicht genommen, daß jede Gruppe ihren speziellen Durchschnitt („moving average“) hat, dagegen nicht darauf, daß die einzelnen Gruppen auch Vver- schiedene Streuungen aufweisen können; berücksichtigt man auch dies, ist übrigens — namentlich bei umfangreicherem Material — Aussicht auf eine noch bessere Übereinstimmung. Der mittlere Fehler, berechnet aus der Quadratsumme der hier benutzten Ab- weichungen, beträgt 196 Kr. Die Ähnlichkeit mit dem Exponentialgesetz nun ist ziemlich deutlich. Für die Abweichungen unter 100 Kr. ist die erwartete Zahl etwas zu klein, für die folgenden Gruppen dagegen stimmen die Zahlen recht gut; später treten einige Abweichungen auf, die jedoch nur in geringem Grade das Gesamtbild stören. Es scheint also nicht unmöglich, ein Material dieser Art so zu bearbeiten, daß das Exponentialgesetz zur Anwendung kommen kann. Die einzelnen Gruppen von Arbeitern leben unter äußerst ver- schiedenen wirtschaftlichen Verhältnissen, in der Gruppierung um den Durchschnitt jedoch scheinen sie mit Annäherung der Exponential- formel zu folgen. Einige Arbeitergruppen in dem Kopenhagener Material ergeben aber Abweichungen, so z. B. die Gaswerks- arbeiter; möglicherweise bestehen sie aus mehreren Klassen mit einzelnen oder mehreren Durchschnittspunkten. Zerlegt man das Material in gelernte und ungelernte Arbeiter und Arbeiterinnen, so ergeben sich folgende Resultate (die Zahl der Beobachtungen in den drei Abteilungen ist 1179, 2286 und 2599, der mittlere Fehler jeweils 213, 202 und 180) [s. S. 316]: Daß die kleineren Abweichungen verhältnismäßig häufig sind, ‚äßt sich dadurch erklären, daß für die meisten Arbeiter Lohntarife relten. 316 Abweichungen Kr Gelernte ln _Ungelernte | Arbeiterinnen unter | über! sa lunter ] über‘ Dei dem Dureh-| x (dem Durch-' schnitt N schnitt unter | über’ dem Durech-'| schnitt 0—100 100—200 200—300 300-—400 400—500 500—600 über 600 U Zusammen | 541 | 459 | 500 ı 4 232 | 183 ‚148 | 102 | 91 | & 47 | 4R 1° &. 181 145 c 208 7 1 Ott” +09 999 222 118 213 154 87 34 10 > ) ‚ By I WUU ı 519 | 481 | 500 207. Es geht aus diesen Beispielen hervor, daß sich sehr große Abweichungen von dem Exponentialgesetz (Asymmetrie in der Ver- teilung, mehrere Maximalpunkte [„Puckel“] usw.) in der Regel durch das Vorhandensein durchgreifender Ursachen erklären lassen, welche bei passender Gruppenteilung .in höherem oder geringerem Grade isoliert werden können, was wiederum dazu beiträgt, daß sich die Verteilung exponentieller Form nähert. Der Unterschied, welcher hier zwischen Phänomenen des Wirtschaftslebens auftreten kann, und die oben bei den anthropometrischen Untersuchungen be- sprochenen Beobachtungen beschränken sich zumeist darauf, daß, während man bei diesen letzteren häufig mit Gruppen von einiger- maßen gleicher Größe rechnet, man, wenn es sich beispielsweise um die Untersuchung der Einkommenverteilung handelt, eher erwartet, daß die Größe der Gruppen mit wachsendem Einkommen abnimmt. Das hier hinsichtlich der Wirtschaftsstatistik Angeführte kann allerdings nur als Andeutungen aufgefaßt werden; andererseits aber zeigen solche in gleiche Richtung, da man überall größere oder kleinere Ähnlichkeiten mit den Phänomenen in der sozialen Statistik erkennen wird, so daß die Hauptaufgabe darin besteht, die sich hinter der Gesamtheit verbergenden Teilungslinien zu finden. 208. Um die in diesem Kapitel gewonnenen Erfahrungen zu rekapitulieren, kann man sagen, daß vermutlich nach einer gewöhn- lich recht einfachen Teilung des Materials eine verhältnismäßig gute Übereinstimmung mit dem Exponentialgesetz erzielt wird, selbst wenn diese Übereinstimmung oft genug erhebliche typische Ungleichheiten verschleiern kann, so daß es sich oft auch bei recht befriedigender Übereinstimmung mit dem Exponentialgesetz verlohnen wird, -noch tiefer zu schürfen, um mehr wirkende Ursachen 317 zu erfassen. Eine Bevölkerungsgruppe kann hinsichtlich der Sterbe- fälle eine Verteilung ergeben, die an und für sich zufriedenstellend scheint, d. h. welche statistische Schlüsse ermöglicht, sich jedoch dei näherer Untersuchung als aus verschiedenen Gruppen zusammen- gesetzt entpuppt, von denen jede ihre Verteilung, jede ihren Schwer- punkt hat. Viele Statistiker neigen dazu, den entgegengesetzten Weg einzuschlagen. Nach ihrer Betrachtung liegt es näher, die fak- tische Verteilung nach dem Einkommen einer Bevölkerung oder lie Verteilung der Betriebe, der Viehbestände usw. zu beobachten ınd dann Formeln aufzustellen, welche mit größtmöglicher Ge- nauigkeit die Gliederung wiedergeben. Die englische Schule z. B. hat manche meisterliche Versuche lieser Art angestellt. Man hat jedoch keinerlei Sicherheit dafür, daß sich die gefundene Form halten wird. Eine Verschiebung in Jen wirtschaftlichen Verhältnissen, in den äußeren Lebensbedingungen eines Volkes, wird auch die Einkommenverteilung beeinflussen. Es muß immer zugeraten werden, die betreffende Verteilung soviel wie möglich in ihre Komponenten aufzulösen, damit man jede für sich studieren kann. Etwas Ähnliches gilt hinsichtlich des überaus interessanten Ver- suches, den Lexis machte, um sozusagen das normale Lebens- alter!) des Menschen zu bestimmen. Eine Sterbetafel wird in der Regel zwei stark hervortretende Maximalpunkte für die menschliche Sterblichkeit aufweisen; betrachtet man bei den Sterbe- fällen diejenige Altersgruppierung, die sich aus einer gewöhn- lichen Dekrementtafel (vgl. Kap. VI) berechnen läßt, so wird sich ergeben, daß verhältnismäßig viele im ersten Lebensjahre sterben wonach dann die Anzahl sinkt und im Jünglingsalter ihren niedrigsten Punkt erreicht; danach wächst die Zahl durch eine lange Periode ler Altersskala, bis in den Greisenjahren ein Maximalpunkt erreicht wird; auf welcher Altersstufe (das „normale“ Lebensalter) dieser Umschlag eintrifft, hängt von mancherlei Verhältnissen, dem glück- lichen Kampf gegen gewisse Krankheiten, vom Fortschritt in den wirtschaftlichen Verhältnissen, von der Änderung der Lebensweise Alkoholismus) ab, von Faktoren, die alle einen bedeutenden Einfluß ausüben: der Maximalpunkt wird denn auch bald früher, bald 1) Zur Theorie der Massenerscheinungen 1877. Abhandlungen zur Theorie Jer Bevölkerungs- und Moralstatistik. Jena 1903. S 111ff 318 später erreicht. Es gilt auch im Greisenalter die eigentümliche Auswahl zu untersuchen, welche sozusagen die Bevölkerung in mehrere Schichten teilt, deren jede ihre besonderen gesundheitlichen Verhältnisse hat; die gesundeste dieser Gruppen wird in dem Maße, wie das Alter zunimmt, eine stets größere Rolle!) spielen. Hier wie überall ist die bedeutsamste Aufgabe die, die Anhäufung um den Durchschnitt innerhalb der Spezialgruppen zu studieren, anstatt einen abgeleiteten Ausdruck für die Sterblichkeit zu suchen. Andererseits ist die von Lexis hervorgehobene Übereinstimmung mit dem Exponentialgesetz ein weiteres Zeugnis für die Tatsache, daß diese Formel (wie oben $ 177 gesagt) oft verhältnismäßig leicht zur Anwendung kommen kann, selbst da, wo die Verhältnisse kompli- ziert sind. V. Kapitel. Interpolation und Ausgleichung. A. Allgemeine Bemerkungen. 209. Bisher ist für die Interpolation Verwendung gewesen bei der Berechnung der Spielräume z. B., die in einem gegebenen Verteilungsgesetz gewissen Wahrscheinlichkeiten entsprechen (vgl. z. B. die 88 81 und 113) oder umgekehrt bei der Berechnung der Anzahl oder des Prozentteils von Abweichungen, welche innerhalb aines gegebenen Spielraumes (vgl. z. B. $ 206) fallen. Überhaupt wird man in der Statistik oft ähnliche oder andere Methoden anwenden müssen zur annähernden Berechnung von Größen, welche entweder gar nicht auf andere Weise beschafft werden können, oder deren direkte — wenn möglich genaue — Bestimmung eine unverhältnismäßig große Arbeit beanspruchen würde. Solche An- näherungsmethoden lassen sich unter der Bezeichnung von Inter- polations- und Ausgleichungsmethoden zusammenfassen. Bei beiden Arten von Methoden wird vorausgesetzt, daß ein gewisser Zusammenhang (Abhängigkeit) zwischen den Zahlen, mit denen ge- arbeitet wird, vorhanden ist. Dieser Zusammenhang kann sehr ver- schiedener Art sein und in höchst verschiedener Weise gegeben oder begründet sein; obwohl man von den meisten der in der Statistik verwendeten Größen sagen muß, daß sie mit nicht nur einer, sondern mehreren Größen im Zusammenhang stehen oder mehr oder weniger ı» Westergaard, Die Lehre von der Mortalität, 2. Ausg. 1901, S. 209 ff 319 von solchen abhängig sind, so wollen wir uns dennoch im folgenden der Einfachheit halber im wesentlichen darauf beschränken, die „Funktionen einer variablen Größe“ zu betrachen, d. h. Fälle, in denen eine Größe (eine „Funktion“) nur von einer einzelnen anderen Größe (einer „unabhängig“ variablen) abhängig ist. Abhängigkeiten (Funktionen) dieser Art wurden bereits im $ 68 besprochen, wo auch einzelne Beispiele und darauf Anweisungen ge- zegeben wurden, wie man in ein Koordinatensystem die unabhängig Variable als Abszisse und die Funktion als Ordinate ansetzen und sich einen anschaulichen Überblick über die Form des Zusammen- hangs (den „Verlauf der Funktion“) verschaffen kann; auch bei der Behandlung des Exponentialgesetzes ist im Vorhergehenden von liesem graphischen Hilfsmittel in großem Maße Anwendung ge- macht worden. . 210. Was nun mit „Interpolation“ gemeint ist, wird am leich- testen aus einem ganz einfachen Beispiel erhellen. Denken wir ıns z. B. log 3 = 0,4771 log 4 = 0,6021 log 5 = 0,6990 log 6 — 0,7782 zegeben, und man wünsche log 4,5 zu kennen. Der Wert des log 4,5 kann allerdings nun ebenso wie der Wert des Logarithmus einer beliebigen anderen Zahl bestimmt werden ohne Kenntnis der Größe der oben angeführten vier Logarithmen, welche sogar als zur Frage der Größe des log 4,5 in keinerlei Be- ziehung stehend betrachtet werden können, da die Definition des Logarithmus allein dafür entscheidend ist, wie groß log 4,5 ist. Da man indes weiß, daß log x beständig mit zunehmendem x wächst, so folgt schon aus den gegebenen Werten, daß, wenn 4<x<5, dann 0,6021 < log x < 0,6990 wird. Daß der Wert von log x, in dem Maße wie sich x von 4 entfernt und 5 nähert, sich vom Werte I,6021 entfernt und dem Werte 0,6990 nähert, dem kann man nun u. a.!) dadurch Ausdruck verleihen, daß man so rechnet, als ob sich log x in der Weise mit x ändere, daß, wenn x den Bruchteil x—4 des Intervalls von 4—5 durchlaufen, log x denselben Bruchteil des Interyalls von 0.6021—0.6990 durchlaufen hat. daß also ı Wie gerade im folgenden gezeigt werden soll, kann man auch diese Ab- hängigkeit durch andere Ausdrücke wiedergeben. — 320 — log x — 0,6021 x — 4 0.6990 — 0.6021 5 — PM woraus folgt, daß log x = 0,6021 + 0,0969 (x — 4). Mit Hilfe dieser Formel lassen sich Annäherungswerte für log x für alle möglichen Werte von x, zwischen 4 und 5 gelegen, finden. Speziell erhält man für x = 4,5 log 4,5 = 0,6506; wie stimmen indes die Werte, welche man in dem angeführten Beispiel findet, mit den wirklichen überein? Zur Beleuchtung dessen sind in der Tabelle 42 teils die Werte, welche die Formel für x = 4,0, 4,1, 4,2 usw. ... 4,9 und 5,0 ergibt (Kol. 2), teils die entsprechenden Werte von log x. (Kol. 3) an- geführt. Es geht hieraus hervor, daß Kol. 2 und 3 hinsichtlich der beiden ersten Dezimalen, jedoch nicht für die folgenden miteinander Tabelle 42 Interpol. Wert für log x 2) 0,6021 0,6118 0,6215 0,6312 0,6409 0,6506 0,6602 0,6699 0,6796 0,6893 0.6990 übereinstimmen. Anstatt der etwas unbestimmteren Antwort, daß log 4,5 größer als 0,60, aber kleiner als 0,70 ist, bekommt man also zu wissen, daß log 4,5 zwischen 0,645 und 0,655 liegt. Wenn die in der Tabelle 42 angeführten Werte für log 4,4 =— 0,6435 und log 4,6 = 0,6628 anstatt von log 4 und log 5 gegeben gewesen wären, so hätte eine ganz entsprechende Betrachtung zu einem interpolierten Wert für log 4,5 von 0,6532 geführt, welcher in den vier ersten Dezimalen vollständig mit log 4,5 übereinstimmt, was also eine entschieden bessere Annäherung bedeutet. Daß die Annäherung so viel besser wird, beruht darauf, daß man bei dieser Interpolation seinen Ausgangspunkt in der Größe der Logarithmen- funktion für Werte von x (4,4 und 4,6) nehmen kann, welche er- heblich viel näher als im ersteren Falle bei 4,5 liegen. 391 211. Man gewinnt einen ungemein guten Einblick sowohl darin, was überhaupt bei der Interpolation vor sich geht, als auch darin, was den erzielten Annäherungsgrad bedingt, wenn man wie hier die wirklichen Werte von log x kennt und daher in einem gewöhnlichen rechtwinkligen Koordinatensystem als: Abszisse x und als Ordinate ;‚eils die bei der Interpolation gefundenen Annäherungswerte, teils lie wirklichen Werte für log x ansetzen kann. In der Fig. 8 sind lie Punkte A, B,E und F durch die Abzissen 3, 4,55 und 6 bestimmt, während die Höhen AA,, BB,, EE, und FF, die Größen der Loga- rithmen dieser Zahlen angeben. Setzt man ferner für log x (mit Fig, 8. Hilfe einer Logarithmentabelle) hinlänglich viele andere Punkte ab, welche verschiedenen Werten von x in dem betrachteten Intervall von x = 3 bis x = 6 entsprechen, dann erhält man eine Reihe von Punkten auf einer gewissen krummen Kurve („Logarithmen- Kurve“), die in der Fig. 8 durch die krumme Kurve A, B, C, D, E, F, bezeichnet ist. Wenn dagegen für eine Reihe von Werten von x in entsprechender Weise als Höhen die Werte abgetragen werden. welche sich aus der gefundenen Formel log x = 0,6021 + 0,0969 (x—4) für log x ergeben, dann erhält man eine Reihe von Punkten, die sämtlich auf der geraden Linie durch die Punkte B, und E, gelegen sind. Dies geht aus dem benutzten Ausdruck für log x hervor, indem jemerkt wird, daß x, mit der Konstante 0,0969 multipliziert. Westergaard und Nvbolle, Theorie der Statistik. 2. Aufl. DI 3922 Jjediglich als Addend in diesen Ausdruck eingeht. Eine Größe, welche in dieser einfachen Weise von x abhängt, heißt „eine Funktion ersten Grades von x“ (da x nur in der Form der ersten Potenz auftritt); die Interpolationsmethode, welche zu diesem Aus- druck führt, wird daher denn auch oft „eine Interpolation ersten Grades“ genannt. Was man sich bei der hier betrachteten Interpolation ersten Grades vorgenommen hat, läßt sich nun, wie die Fig. zeigt, in Kürze in der Weise ausdrücken, daß man die eigentliche Loga- rithmenkurvegegendiegerade Linie B, E, umgetauscht hat. Da ein „Ausdruck ersten Grades für x“ stets, wenn er in der hier beschriebenen Weise in einem Koordinatensystem abgebildet wird, durch eine gerade Linie dargestellt werden wird, so nennt man auch oft eine Interpolation ersten Grades „eine lineare Inter- polation“ (vgl. $ 81). Außer der linearen Interpolation gibt es eine Menge andere ‘praktisch gesprochen unendlich viele andere) Interpolationsmethoden, von denen einige wenige der wichtigeren im folgenden behandelt werden sollen. Wie die lineare Interpolationsmethode beruhen auch alle übrigen darauf, daß man die Funktion (Kurve), mit der man es zu tun hat, mit einer anderen Kurve, die die betrachtete Funktion zwar nicht genau deckt (es wäre dann nicht von einem Umtausch die Rede), jedoch in größerem oder geringerem Grade als eine An- näherung betrachtet werden kann, vertauscht. Dabei wird im all- gemeinen der Annäherungsgrad um so besser werden, je kleiner das Intervall, für welches der Umtausch vorgenommen wird (als geltend betrachtet wird), ist. Oben hieß es z. B., daß man mit ge- gebenen Werten des log 4,4 und des log 4,6 eine bessere Annäherung an den Wert des log 4,5 erziele, als wenn man von der Kenntnis von log 4 und log 5 aus sich zum log 4,5 interpolieren müsse. Es geht auch aus der Figur hervor, daß das Resultat ein besseres sein muß, wenn man bei der linearen Interpolation für log 4,5 die mit den Werten von log 4,4 und log 4,6 bestimmte gerade Linie C, D, anstatt des geraden Linienstücks C, D,, welches mit der durch log 4 und log 5 bestimmten Geraden B, E, zusammenfällt, benutzt. 212. In dem hier betrachteten Beispiel sind bei der Inter- polation zum Wert des log 4,5 die gegebenen Werte für log 3 und log 6 gar nicht zur Anwendung gekommen. Der Grund dazu ist der, daß wir uns lediglich einer linearen Interpolation bedient haben; die hierfür benötigten geraden Linien sind nämlich allein durch die 3923 zwei Punkte B, und E, resp. C, und D, bestimmt. Wenn man mit Hilfe der durch die Punkte B, und E, bestimmten linearen Formel log x = 0,6021 + 0,0969 (x—4) nun auch den Wert von z. B. log 3,5 berechnen wollte (was Extra- polation genannt wird, weil x= 3,5 außerhalb des Intervalles von 4 bis 5 liegt), dann erhielte man log 3,5 = 0,5537, während log 3,5 faktisch 0,5441 beträgt; es ist dies also eine viel schlechtere Annäherung als diejenige, mit der sich log x für Werte von x zwischen 4 und 5 berechnen ließ. Benutzt man dagegen zur Be- stimmung von log 3,5 die durch die Punkte A, und B, bestimmte gerade Linie, welche die lineare Interpolationsformel log x== 0,4771 + 0,1250 (x—3) ergibt, und für log 3,5 den Wert 0,5396, dann erhält man eine bessere Annäherung, wovon uns auch schon ein Blick auf die Figur über- zeugt. Das Resultat einer Betrachtung der durch die Punkte Eı und F, bestimmten geraden Linie ist dies, daß etwas ganz Ent- sprechendes hinsichtlich des Intervalls von x=5 bis x=6 gilt. 213. Wenn man in der hier beschriebenen Weise alle vier zegebenen Werte von log x in Betracht zieht, dann lassen sich also lie Logarithmenkurven durch 3 gerade Linienstücke A,B,, B,E, und E,F; ersetzen, welche jeweils den Intervallen 3 bis 4 und 4 bis 5 und ) bis 6 entsprechen. Da indes die Beträge, mit denen log x wächst, wenn x jeweils von 3 bis 4, von 4 bis 5 und von 5 bis 6 anwächst l. h. die Differenzen og 4 — log 3 = 0,1250 log 5 — log 4 = 0,0969 og 6 — log 5 = 0.0792 nicht gleich groß sind, so können die 4 Punkte Ay B,, E; und F, nicht auf derselben Geraden liegen (d. h. die Logarithmenkurve ist ‚krumm“); es wird daher auch der „Ersatz“, den man durch diese zenannten 3 geraden Linienstücke für die Logarithmenkurve erhält, in den Punkten B, und E, (vgl. die Fig.) einen „Bruch“ aufweisen. Wenn wie hier nicht bloß die Werte von log 4 und log 5, sondern auch die Werte von log 3 und log 6 gegeben sind, so daß jedenfalls etwas darüber gegeben ist, wie stark sich die Logarithmenkurve in dem betrachteten Intervall krümmt, dann kann man hieraus Nutzen ziehen, indem man die Logarithmenkurve anstatt sie durch 3 gerade Linienstücke zu ersetzen, durch irgendeine andere, sämt- liche vier Punkte passierende krumme Kurve ersetzt. Man erhält 51% 324 z. B. eine solche Kurve, wenn für hinlänglich viele verschiedene Werte von x zwischen 3 und 6 diejenigen Werte für log x abgesetzt werden, welche sich nach der Formel be __ 104 v3 — 2091 x? + 18289 x — 10230 EX= 60.000 berechnen lassen, einer Formel, die für x==3, x= 4, x=5 und x<—6 gerade die oben gegebenen Werte für log x annimmt. Weiter unten (8 221 und $ 228) wird in größerer Allgemeinheit darauf ein- yegangen werden, wie ein solcher Ausdruck von der Kenntnis des log 3, log 4, log 5 und log 6 aus zuwege gebracht werden kann. An Jieser Stelle sei nur bemerkt, daß man sich natürlich unendlich viele Kurven durch die 4 Punkte gelegt denken kann, daß sie jedoch bei weitem nicht alle als Annäherungen zur Logarithmenkurve inter- essieren können. Dies gilt beispielsweise der in der Figur punktiert ıngedeuteten Kurve, die sogar nirgends Interpolationswerte geben kann, welche besser sind als diejenigen, welche aus den drei Linien- stücken hervorgehen. Dagegen erzielt man bei Benutzung der an- geführten (nicht linearen) Interpolationsformel nicht bloß, daß die Kurve, durch die man dann die Logarithmenkurve ersetzt, in den Punkten B, und E, keinen Bruch hat, sondern auch, daß sie im ganzen Intervall von x=4 bis x=5 bessere Annäherungswerte gibt als die oben betrachtete lineare Interpolationsformel (vgl. Tabelle 43). LO { 49 5.0 Tabelle 43. Interpol. Wert für log x J,6021 2,6129 * 3234 6337 1,6437 15534 0,6630 0,6723 0,6814 0,6903 0,6990 log x 16021 )6128 ),6232 6335 1,6435 „6532 0,6628 0,6721 0,6812 0,6902 0.6990 Unterschied 0,0000 0,0001 0,0002 0,0002 0,0002 J,0002 0,0002 0,0002 0 0002 0,0001 0,0000 Die den hier angeführten interpolierten Werten für log x ent- sprechende Kurve ist nicht in die Fig. 8 eingezeichnet, da die Interpolationskurve mit der Logarithmenkurve so genau überein- stimmt, daß diese Kurven sich nur durch eine erhebliche Ände- rung der Maßstabverhältnisse der Figur voneinander unterscheiden lassen. 395 214. Da jede Interpolationskurve infolge ihrer Natur nur mit einer gewissen Annäherung die der betrachteten Funktion ent- sprechende Kurve ersetzen kann, so muß man sich natürlich darüber Klarheit zu verschaffen suchen, wie groß die erzielte Annäherung ist. [n obigem Beispiel haben wir, um nicht mehrere Probleme mit- einander zu vermischen, mittels Interpolation Werte berechnet, die im voraus bekannt waren, so daß man gleich die nötige Kontrolle zur Hand hatte; da man bei einer Interpolation gerade Funktions- werte sucht, welche nicht bekannt sind, so muß man in anderer Weise in praxi einen Ausdruck für die erzielte Präzision finden. Wie sich diese Frage untersuchen läßt, das ist indes in wesent- lichem Grade davon abhängig, was man — außer den gegebenen Funktionswerten — von dem Zusammenhang (der Abhängigkeit), von der die Rede ist, weiß. So sind z. B. in dem oben betrachteten Beispiel nicht allein die vier Punkte gegeben, sondern gleichzeitig ist bekannt, daß die Abhängigkeit, um die es sich handelt, die wohl- definierte und wohlbekannte Logarithmenfunktion ist. In Fällen dieser Art wird die Frage über die erzielte Präzision ein rein mathematisches Problem. Da wir uns im folgenden im wesentlichen mit Fällen beschäftigen werden, wo eine solche wohldefinierte Kenntnis der Natur des betrachteten Zusammenhangs im allge- meinen nicht vorliegt, so wollen wir hier nicht weiter auf die- jenigen Methoden eingehen, mittels deren man sich, wenn es sich um Interpolation zu Funktionswerten von! einem. auf mathe- matischem Wege bestimmten Zusammenhang handelt, Ausdruck für die Genauigkeit!) verschaffen kann. Jedoch sei folgendes bemerkt: Wenn die betrachtete Abhängigkeit auf rein mathematische Weise bestimmt ist und daher in ganz besonderem Grade jegliche Inter- polation mit zugehörender Untersuchung der erzielten Genauigkeit überflüssig macht, dann kann man fragen, ob es dann nicht besser wäre, sich die gesuchten Zahlen auf dem Wege zu beschaffen, den die Bestimmung der betreffenden Abhängigkeit angibt; aber hier ist zu erinnern, daß, abgesehen von den Abhängigkeiten, welche hier so ainfach sind, daß eine Interpolationsformel kein einfacheres Mittel zur Berechnung geben kann, es sich in der Regel um Größen handeln wird, die sich entweder nur mit Hilfe vieler Dezimalen genau ausdrücken lassen, oder um Größen, welche wie Vx, log x usw. im allgemeinen irrationell sind und sich überhaupt nicht mit voll- A Siehe hierüber z.B. J. F. Steffensen, Interpolation. Baltimore 1927. 326 ständiger Genauigkeit berechnen lassen. Es wird dann schon aus diesem Grunde entweder unpraktisch oder ganz untunlich sein, mit voller Genauigkeit zu rechnen, so daß man, ob man die Interpolation benutzt oder nicht, trotzdem gezwungen ist, den Annäherungsgrad zu untersuchen; außerdem würde z. B. eine Logarithmentafel, falls sie alle diejenigen Logarithmen enthielte, für die man möglicher- weise später Gebrauch hätte, zu einem ungemein dicken Bande an- schwellen; wir begnügen uns hier damit, die Tafel nur verhältnis- mäßig wenige berechnete Logarithmen enthalten zu lassen, da man dann alle übrigen auf dem Wege der Interpolation finden kann. 215. In der Statistik nun trifft man, wie oft betont, auf eine Aufgabe von ganz ähnlicher Art wie die im Vorhergehenden be- nandelte: für eine von x abhängige Größe y kennt man die Werte für zwei oder mehr Werte von x, und man bedarf der Kenntnis des Wertes von y für einige Werte von x, welche nicht unmittelbar gegeben sind. Als Beispiel sei folgendes erwähnt: man kennt die Volkszahl eines Landes zu zwei verschiedenen Zeitpunkten, wünscht jedoch, die Einwohnerzahl für einen oder mehrere Zeitpunkte, welche zwischen den gegebenen liegen, zu kennen. Ein anderes Beispiel hat man in der Altersgruppierung der Bevölkerung: es ist bekannt, wieviele Personen von der gesamten Bevölkerung oder von einer innerhalb dieser ausgeschiedenen Gruppe z. B. unter 10 Jahren und wieviele unter 20 Jahren sind; man wünscht jedoch zu wissen, wie- viele unter 15 Jahren sind usw. Beim ersten Augenschein könnte eine solche Aufgabe ganz un- lösbar scheinen, Streng gesprochen besteht eine Volkszahl (oder derjenige Teil dieser, welcher Personen unter einem gegebenen Alter umfaßt) aus Einern und die Bewegung, welche angibt, wie sich die Zahl im Laufe der Zeit verändert (oder wie sich die Zahl der Per- sonen unter x Jahren mit x verändert), kann also in Wirklichkeit nur in Sprüngen mit einem oder mehreren Individuen aufs Mal vor sich gehen. Wenn indes bei Berechnungen dieser Art nur An- näherungswerte gefordert werden (und oft braucht man nicht mehr als solche), dann wird man oft mit Vorteil die Fiktion benutzen können, daß die Bewegung kontinuiert sei, daß also die dem Zeit- punkt x entsprechende Volkszahl, die Zahl der Personen unter x Jahren usw. mit Annäherung als Funktionen von x betrachtet werden können, Funktionen, welche sich ebenso wie log x innerhalb begrenzter Intervalle mit Annäherung durch eine passende bestimmte Interpolationsformel ersetzen lassen. Hiermit aber hört auch die 397 Ähnlichkeit auf; denn während man es bei der Berechnung durch Interpolation von Werten einer gewissen mathematisch gegebenen Funktion in der Macht hat, die Genauigkeit des Resultats zu xontrollieren, ist etwas Sinngemäßes, Entsprechendes nicht möglich, wenn man Interpolationen auf Grund der in der Statistik beob- achteten Zahlen vornimmt. Andererseits ist [man nicht ganz ohne Anhaltspunkte für eine Begründung der Berechtigung solcher Inter- polationen. Berechnet man durch Interpolation z. B. im voraus bekannte Größen, so kann man im allgemeinen die Genauigkeit zu beleuchten versuchen, die sich in den verschiedenen Arten von Aufgaben erzielen läßt. In Dänemark war im Jahre 1901 die Volkszahl 2450 tausend, 1911 2757 tausend. Auf dem Wege linearer Interpolation ergibt sich, daß sie im Jahre 1906 2603 tausend sein müsse, während sie faktisch 2589 tausend betrug. Man ersieht hieraus, daß die durch Interpolation bestimmte Volkszahl, wenn sie in ganzen Hundert- tausenden angegeben wird, mit der faktisch gezählten Bevölkerung übereinstimmt; ebenfalls aber erfährt man, daß man jedenfalls nicht in allen Fällen erwarten kann, mittels einer solchen Interpolation lie Volkszahl bis auf beispielsweise Hunderte genau zu bekommen. Würden an Stelle der Zählungsergebnisse der Jahre 1901 und 1911 die Volkszahlen für 1901 und 1916 (jeweils 2450 und 2921 tausend) als Ausgangspunkt für die Interpolation benutzt, so ergibt sich für das Jahr 1906 die Zahl 2607 tausend, welche eine ähnliche Übereinstimmung aufweist. Man folgert hieraus, daß sich die mit der Zeit wachsende Volkszahl jedenfalls in groben Zügen für den Zeitraum von 1901 bis 1916 durch eine gerade Linie wiedergeben läßt, wenn die Bewegung in gewöhnlicher Weise in einem Ko- ördinatensystem abgebildet wird. 216. Wenn es eine Interpolationsformel zu finden gilt, kann man zuerst eine passende Auswahl der Variabeln vornehmen. Es ist nicht immer ratsam, die Größe zu suchen, welche unmittelbar arfragt wird; mitunter ist eine andere, von dieser abhängige, Größe vorzuziehen, wenn man davon ausgehen kann, daß die so entstehende Funktion einfacher ist. Hier kann in erster Linie auf die bereits im $ 124 besprochene Möglichkeit dafür verwiesen werden, die unabhängig Variable in anderen Einheiten und von einem anderen Nullpunkt als dem unmittelbar gegebenen aus zu bestimmen, wodurch lie Berechnungen oft erheblich erleichtert werden können. Wenn ferner z. B. bei anthronologischen Untersuchungen von der Verbin- 328 dung zwischen Körperhöhe und Gewicht die Rede ist, könnte man beim ersten Versuch nicht das eigentliche Gewicht, sondern dessen dritte Wurzel mit der Motivierung einführen, daß, wenn alle Menschen die gleichen Proportionen hätten und Knochen, Muskeln usw. keine Verschiedenheiten bedingten, sich das Gewicht wie die dritte Potenz der Körpergröße verhalten würde. Und da die Bevölkerung oft die Tendenz hat, wie ein auf Zinsen angelegtes Kapital zu wachsen („geometrisch“, wie die Malthusische Theorie sich ausdrückt), so kann es vorteilhaft sein, an den Logarithmen der Volkszahlen zu interpolieren anstatt an den Zahlen selbst. Wie man gerade in der Frage der Bestimmung des Wachstums einer Bevölkerung den Be- odbachtungen mittels passender Wahl der Variablen noch näher kommen kann, dafür sei weiter unten ($ 231) ein Beispiel gegeben. Bei anderen Aufgaben kann es zur Erzielung besserer Annähe- rung notwendig sein, sich nicht gerader Linien als Interpolations- kurven zu bedienen; in allen Fällen jedoch hat die Interpolation zwischen beobachteten Zahlen zur Voraussetzung, daß ein die Zahlen beherrschender Zusammenhang existiert. Da sich die Ursachen, welche in der Sozialstatistik die Zahlen beherrschen, indes ständig verändern, und da neue Ursachen, welche nicht früher in Betracht gezogen werden konnten, hinzukommen können, so muß man auf diesem Gebiete die größte Vorsicht anwenden. Zu verschiedenen Zeiten vorgenommene Beobachtungen, z. B. die Volkszählungen, stehen zwar miteinander in genauem Zusammenhang, insofern sie überhaupt auf Verhältnissen, welche in derselben Gesellschaft herrschen, beruhen; aber die Beobachtungen hinsichtlich der Volks- zahl bringen nicht alle diejenigen Momente zum Ausdruck, von jenen die Einwohnerzahl abhängig ist. 317. Die Bevölkerung Dänemarks war beispielsweise das 19. Jahr- hundert hindurch in stetem, bald stärkerem, bald schwächerem An- wachsen begriffen; die Ursachen dieses Phänomens aber waren grundverschieden. In den 30er Jahren wurde das Land z. B. von verschiedenen Epidemien heimgesucht, in den 50ern wütete teils die Cholera (1853), und teils wirkte die liberale Bewegung, neben ver- schiedenen anderen wirtschaftlichen und sozialen Verhältnissen, auf dem Wege der Wirtschaftsgesetzgebung. Von 1860 bis 1880 wirkte (außer dem Kriege 1864) teils eine abnehmende Sterblichkeit, teils eine wachsende Auswanderung, also zwei Ursachen in entgegen- gesetzter Richtung; in der letzten Zeit kommt eine neue Ursache hinzu: die abnehmende Geburtenfrequenz, ein Phänomen, das 3929 sich vor einem Menschenalter nur in gewissen Gesellschaftsklassen bemerkbar machte. Man benötigte eine ungemein große Anzahl von Beobachtungen, um alle wirkenden Ursachen zum Ausdruck bringen zu können. Die Interpolationsrechnung kann uns also nicht in den Stand setzen, Vergangenheit und Zukunft mit derselben Sicherheit zu berechnen wie z. B. die Astronomie auf ihrem Gebiet vermag. Sie kann uns z. B. nicht die Kunst lehren, aus der ersten Wirkung einer neuen Staatsverfassung, eines Krieges, einer Epidemie oder yewisser hygienischer Fortschritte etwas hinsichtlich der Größe der Auswanderung während der folgenden Jahrzehnte zu schließen. In der Regel ist die Übereinstimmung zwischen der Bewegung in der Bevölkerung und einer mathematischen Funktion rein zufällig, und je ferner die Vergangenheit oder Zukunft liegt, auf die man schließen muß, desto größeren Fehlern ist man ausgesetzt. Es sei daher wie oben ($ 211) davon abgeraten, eine allzu lange Strecke zur Interpolation zu benutzen. Im allgemeinen wird man dazu ge- nötigt sein, von Beobachtungen über dicht aufeinander fol- gende Werte der unabhängig Variablen (z. B. der Zeit) mit Hilfe der Interpolation auf Werte der Funktion zu schließen, welche innerhalb des betreffenden kurzen Intervalls liegt. Man kann nämlich damit rechnen, daß ungefähr dieselben Verhält- nisse einen kurzen Zeitraum, wenn auch mit verschiedener Kraft, beherrschen werden, während man sich bei der Benutzung von weit auseinander liegenden Beobachtungen dem aussetzt, daß sich sehr verschiedenartige Einflüsse geltend machen, welche nur auf vielen Umwegen miteinander in Verbindung gebracht werden können, und welche weit mehr Beobachtungen, als man gewöhnlich zur Ver- fügung hat, erfordern würden. Da eine genaue Beobachtung selbst durch die beste Hypothese nicht ersetzt werden kann, könnte man auch hier fragen, ob es nicht möglich wäre, unmittelbar durch Beobachtung sämtliche benötigte Zahlen zu beschaffen. In der Praxis wird sich jedoch eine Vervoll- ständigung des Materials auf dem Wege der Beobachtung selten lurchführen lassen. Eine versäumte Zählung läßt sich später nicht mehr nachholen, und wenn in der ersten Hälfte des 19. Jahrhunderts aur wenige Volkszählungen vorgenommen wurden, so wird es bei manchen Untersuchungen notwendig sein, sich auf bestmögliche Weise zu helfen. Und was die Gegenwart anbetrifft, so wird man aus praktischen Gründen genötigt sein, auf viele Zählungen, deren Durchführung an und für sich wünschenswert wäre. zu verzichten. 330 Man könnte sich ja doch nie darauf einlassen, Volkszählungen jähr- lich mehrere Male abzuhalten, während zahlreiche andere Gebiete der Statistik entsprechend vernachlässigt würden. 218. In naher Verbindung mit der Interpolation steht die Aus- yleichung. Wir haben gesehen, daß ein jedes Material mehr oder weniger mit Fehlern behaftet ist; die Abweichungen sind bald „zu- fällig“, bald von einer oder mehreren tiefer gehenden Ursachen be- einflußt. Wenn es gilt, das die Zahlen beherrschende Gesetz zu finden, z. B. die Abhängigkeit des Körpergewichts von der Körper- länge, die Verbindung zwischen der Zahl der Steuerzahler und der Größe der Einnahme usw., so wird diese Aufgabe dadurch erschwert, daß das Gesetz bei diesen größeren oder kleineren Abweichungen verschleiert wird. Man hat daher oft versucht, eine Methode zu finden, mittels der sich Unregelmäßigkeiten entfernen ließen; eine solche Methode heißt Ausgleichung. Voraussetzung für jede Ausgleichung ist in Wirklichkeit, ganz einerlei, welche Ausgleichungs- methode man auch benutzt, ein wenigstens behauptetes besseres Wissen (eine „Theorie“) über das betreffende Phänomen als das- jenige, welches die Beobachtungen selbst ergeben, ein besseres Wissen, welches man in dem Grade respektiert verlangt, daß, wenn die Be- obachtungen dagegen streiten, man die Übereinstimmung dadurch zu- wege bringt, .daß man die Beobachtungen mit „Fehlern“ behaftet er- klärt, deren Größe gerade dadurch bestimmt wird, daß man mittels Ausgleichung die verlangte Übereinstimmung zwischen Beobachtungen und „Theorien“ herstellt. Wenn z. B. verschiedene Personen, jede mit gleichen Meßapparaten versehen, dieselbe Wegstrecke aus- messen, werden sie im allgemeinen zu verschiedenen Resultaten ge- langen. Die „Theorie“ geht hier darauf hinaus, daß die Länge des Weges in allen Fällen dieselbe gewesen ist, daß also die Beob- achtungen mit Fehlern von solcher Größe behaftet sein müssen, daß man volle Übereinstimmung zwischen Theorie und Beobachtung finden würde, falls sich die Größe der Fehler feststellen ließe und die Beobachtungen korrigiert würden. Aus der Meßtechnik sei ein weiteres Beispiel genannt: Drei Personen haben jede für sich je einen der Winkel eines im Felde abgesteckten Dreiecks gemessen. Sie werden dann im allgemeinen nicht zu Resultaten gelangen, welche der Forderung einer gesamten Winkelsumme von 180° ge- nügen. Und auch hier muß man mittels einer Ausgleichung der gemessenen Winkel Übereinstimmung zwischen Theorie (welche eine Winkelsumme von 180° verlangt) und Beobachtung zuwege bringen. 331 In den Naturwissenschaften und deren Anwendungen begegnet man häufig Problemen, welche mit obigen Beispielen dies gemein haben, daß sich die Theorie auf einfache Art und Weise ausdrücken läßt. Es gibt z. B. das einfache Gesetz, daß der Gefrierpunkt für eine Salzlösung um so niedriger liegt, je mehr Salz die Lösung ent- hält, und daß die Senkung des Gefrierpunktes sich proportional zur Menge des in einem Liter Wasser aufgelösten Salzes verhält. Löst man nun allmählich x, X, X... g Salz in einem Liter Wasser auf und mißt man, wie groß die entsprechenden Gefrierpunkts- senkungen yYı, Yıs Ya --... werden, und setzt man in ein Koordinaten- system x als Abszisse und y als Ordinate ein, so müßte man eine Reihe von Punkten finden, welche auf einer Geraden durch die Anfangspunkte jägen und von der Gleichung y==kx wären. Da indes sowohl beim Zuwiegen der Salzmengen wie beim Ablesen der Gefriertemperatur Fehler begangen werden können, wird man finden, daß die ab- gesetzten Punkte nicht auf einer Geraden liegen, wozu sie da- gegen mittels der Ausgleichung gebracht werden können, welche die beobachteten Gefrierpunkte korrigiert und durch die dann die Konstante k bestimmt wird. Ein Beispiel, in dem sich die Ab- hängigkeit nicht durch eine gerade Linie, sondern durch eine krumme Kurve ausdrücken läßt, hat man in der Untersuchung darüber, wie weit ein Körper beim freien Fall in einer gegebenen Zeit gelangt. Werden hier die Fallzeiten (t) als Abszisse und die entsprechenden Fallhöhen (y) als Ordinate angesetzt, so müssen, falls das Gesetz der Schwere richtig ist, die abgetragenen Punkte alle auf einer Kurve (Parabel) von der Gleichung y—cC- liegen. Da auch hier die Messungen mit Fehlern behaftet sein werden, wird sich als allgemeine Regel ergeben, daß eine Kurve von der angeführten Gleichung, auf der sämtliche Punkte auf einmal gelegen sind, nicht existiert; eine zweckmäßige Ausgleichung dagegen kann 3>ine solche Lage der Punkte erzielen, indem man die beobachteten Fallhöhen korrigiert und so die Akzeleration der Schwere, welche das Doppelte der Konstante c beträgt, bestimmt. 219. Wenn man aus dem Umstand, daß die Beobachtungen nicht yanz mit der Anschauung (Theorie) über das betrachtete Phänomen übereinstimmen, Veranlassung nähme, entweder die Theorie oder die Beobachtungen vollständig als unbrauchbar und unnützlich zu ver- werfen. dann würde man sich ganz die Möglichkeit versagen, je- 332 mals eine Anschauung zu prüfen (wenn möglich zu bekräftigen) und jemals den Bereich unserer Erkenntnis zu erweitern. Es muß infolge- dessen eine wichtige Aufgabe sein zu untersuchen, auf welche Weise und in welchem Umfange sich Theorie und Erfahrung miteinander in Übereinstimmung bringen lassen. Wenn sich in obigen Bei- spielen die Theorie durch eine einfache Formel ausdrücken läßt, so nimmt diese Aufgabe in den meisten Fällen eine recht anschauliche Form an. Bei vielen ähnlichen Aufgaben in der sozialen und Wirt- schaftsstatistik geht es indes wie bei den Interpolationsaufgaben. Man besitzt im allgemeinen gar keinen mathematischen Ausdruck für die Abhängigkeiten, um welche es sich hier handelt. Daß man der „Theorie“ nicht auf diesem Wege Ausdruck verleihen kann, führt wohl nicht mit sich, daß man daran gehindert ist, sich über- haupt eine gewisse Anschauung über die Form eines Zusammenhangs zu bilden, da man einer solchen „Theorie“, wenn auch weniger treffend, auf andere Art und Weise Ausdruck verleihen kann; die Art und Weise aber, in der man so die Theorie zu einer Aus- gleichung benutzen kann, nimmt dann natürlich auch andere Formen an, mittels deren das auf dem Wege der Ausgleichung Erreichte in entsprechend geringerem Grade präzisiert werden kann. Beispiels- weise sei die auf S. 83; erwähnte Anhäufung um die runden Lebensjahre angeführt. Die „Theorie“ geht hier darauf hinaus, daß liese Anhäufung lediglich Beobachtungsfehlern zuzuschreiben sei, da teilweise solche Personen, deren Alter am Stichtage nahe bei 50 Jahren liegt, in die Alterserhebung in der Weise eingehen, als ob sie tat- sächlich 50 Jahre alt seien. Wie man die beobachteten Zahlen be- richtigen kann, so daß sie.in höherem Grade mit der Theorie über- einstimmen, dafür werden weiter unten Beispiele gegeben. Hier sei nur bemerkt, daß auch bei Aufgaben dieser Art die Ausgleichung auf der Behauptung fußt, daß, falls die Beobachtungen nicht mit Fehlern behaftet wären, das Resultat ein anderes sein würde; die nähere Formulierung dessen kann mehr oder weniger scharf sein, und von ihr ist wiederum abhängig, in welchem Umfange sie sich als Ausgangspunkt für eine Ausgleichung verwenden läßt. 220. Über solche Fälle, in denen eine Ausgleichung darauf hinausgeht, einen Ausdruck für einen Zusammenhang (eine Abhängig- keit) zwischen zwei Größen zuwege zu bringen, und wo man sich also das Resultat der Ausgleichung durch irgend eine Kurve (Funktion) wiedergegeben denken kann, sei noch bemerkt, daß man — wie in der Interpolationsrechnung — die gefundene Kurve als Inter- 333 polationskurve, d. h. zur Berechnung von Werten benutzen kann, die nicht unmittelbar gegeben sind. Von den Aufgaben der [nterpolation und der Ausgleichung kann daher bis zu einem ge- wissen Grade gesagt werden, daß sie sich ähneln. Wie erwähnt, tritt solche Ähnlichkeit jedoch nur dann hervor, wenn der Zweck der Ausgleichungsaufgabe der ist, eine Kurve herzustellen, welche der Ausdruck einer gewissen Abhängigkeit ist, und selbst in diesem Falle besteht zwischen den beiden Arten von Aufgaben der ent- scheidende Unterschied, welcher sich nach obigen Ausführungen kurz folgendermaßen charakterisieren läßt: Bei der Interpolation gilt es, eine Kurve zu legen, welche durch gegebene, in ein Koordinaten- system eingetragene Punkte, die als fehlerfrei betrachtet werden, geht; diese Kurve soll möglichst genau diejenige Kurve ersetzen können, welche in Wirklichkeit der Ausdruck der betrachteten Ab- hängigkeit ist. Bei einer Ausgleichung, welche einer gewissen Ab- hängigkeit Ausdruck verleihen soll, ist das Ziel ebenfalls eine Kurve; von dieser wird jedoch nicht verlangt, daß sie durch die gegebenen Punkte geht, sondern daß sie andere Eigenschaften besitzt (eine Gleichung von einer gegebenen Form hat, speziell eine gerade Linie ist oder eine Form von charakteristischen, auf andere Weise gegebenen Eigenschaften hat), da die Abweichungen, welche dadurch zwischen der gefundenen Kurve und den gegebenen Punkten entstehen, als Fehler derjenigen Beobachtungen erklärt werden, die den Platz der Punkte im Koordinatensvystem bestimmt haben. B. Interpolationsmethoden. 221. Eine allgemeine Methode, mit Hilfe deren man sich eine Interpolationsformel beschaffen kann, besteht darin, irgend einen zweckmäßigen Ausdruck aufzuschreiben, der außer der Variablen (x) zewisse Konstanten enthält (a, b, c ...), deren Wert man in der Weise zu bestimmen sucht, daß der Ausdruck für die gegebenen Werte‘ von x gerade die diesen Werten von x entsprechenden Funktionswerte (y) ergibt. Da jedes Wertepaar (jeder Punkt) x, y, welches man der Kurve gegeben hat, eine Gleichung zur Bestimmung ler Konstanten gibt, so muß die Anzahl von Konstanten in der [nterpolationsformel im allgemeinen gerade dieselbe sein wie die Anzahl von Punkten, durch welche man wünscht, daß die der Formel entsprechende Kurve gehen soll. Eine Interpolationskurve, welche man durch 2, 3.4 ... Punkte zu legen wünscht. muß man also 334 durch eine Formel auszudrücken suchen, welche jeweils 2, 3, 4... Konstanten enthält. Eine der einfachsten Interpolationsformeln ist, wie oben erwähnt, diejenige ersten Grades oder die lineare Interpolationsformel, mittels der man zwischen zwei gegebenen Punkten interpolieren kann. Soll y von x linear abhängig sein, dann muß sich die Formel, welche diesen Zusammenhang ausdrückt, in der Form y= «+ ßx schreiben lassen, wo «x und 8 Größen sind, die unabhängig von x sind (Konstanten), und deren Wert sich wie im Beispiel im $ 210 bestimmen läßt, so daß z. B. x==4 den Wert y = 0,6021 und x =5 den Wert y = 0,6990 ergibt. Man erhält also &« + 48 — 0,6021 &« +58 =— 0,6990 aus welchen Gleichungen sich &« und @ bestimmen lassen; man findet x — 0,2145 und 8 = 0,0969, also y = 0,2145 + 0,0969 x, welcher Ausdruck mit dem oben ($ 210) gefundenen übereinstimmt und daher auch die in der Tabelle 42 angeführten Interpolations- sesultate ergeben wird. Wenn indes verlangt wird, daß die Interpolationskurve durch mehr als zwei Punkte gehen soll, dann muß die Formel so erweitert werden, daß sie mehrere Konstanten enthält. Eine der einfachsten Methoden, in der sich eine solche Erweiterung vornehmen läßt, ist lie, die Formel nicht nur Glieder ohne x und Glieder mit x in erster Potenz (die lineare Interpolationsformel) enthalten zu lassen, sondern Glieder, welche nach und nach x in 2., 3.... n-ter Potenz enthalten. Die Interpolationsformel bekommt dann die Form y= 0 + 4X + 0, X? x ... An X? Eine Funktion, welche sich in dieser Form ausdrücken läßt, heißt ein algebraisches Polynomium (1., 2., 3.... n-ten Grades) und ist in einer Menge von Fällen ungemein anwendbar als Ausdruck für eine (kxrumme) Interpolationskurve durch eine Reihe von Punkten, die nicht auf derselben Geraden liegen. Die einer Funktion L, 2., 3... .. Grades entsprechende Kurve wird oft eine Parabel (1., 2., 3., usw. Ordnung) genannt. Die Größe der Konstanten (der Koeffizienten zu x°%, x!', x? ,.,.) kann ganz analog dem eben be- trachteten Falle bestimmt werden, da die Funktion ersten Grades war. Sind wie im Beispiel im 8 213 4 Werte der Funktion gegeben, dann muß man 335 y=@% +0, X + 03x? + 03 x® setzen und erhält dann folgende 4 Gleichungen zur Bestimmung der Konstanten (Koeffizienten): & + 30, + 909 + 2703 = 0,4771 & + 40, + 160%, + 6403 = 0,6021 x + 50, + 2504 + 125043 = 0,6990 X + 60, + 3602 + 21603 = 0,7782 welche Gleichungen 10230 M 18289 7 = — 0,1705 CC = 60000 2091 104 60000 7" — 0,0348, 03 = 60006 7 0,0017 ergeben; man erhält hierbei den oben ($ 213) angeführten Ausdruck, welcher die Eigenschaft hat, daß er für x==3, x=4, x=5 und <= 6 gerade die gewünschten Werte ergibt. 223. Es geht aus diesem Beispiel hervor, daß, wenn man sich ein ganzes Polynomium verschaffen will, das eine durch n gegebene Punkte gehende Parabel darstellt, die Formel im allgemeinen, um na disponible Konstanten zu enthalten, von der Ordnung (n—1) sein muß; andererseits wird man dann auch n lineare Gleichungen zur Bestimmung der n Koeffizienten (Konstanten) erhalten, so daß sich im allgemeinen immer eine und nur eine Parabel der Ordnung 'n—1) findet, welche durch die n gegebenen Punkte geht. In dem oben benutzten Beispiel sind die 4 Gleichungen, welche zur Bestimmung der 4 Konstanten (@xo, &,, x und «g) dienen, ein- flacher Form; und es ist eine verhältnismäßig leichte Sache, die Gleichungen aufzustellen und zu lösen. Anders stellt es sich, wenn die Werte für x, für welche die Werte der Funktion gegeben sind, gebrochene Zahlen oder Zahlen sehr verschiedener Größe sind, oder wenn die Zahl der Gleichungen größer wird; in solchen Fällen — wie überhaupt immer, wenn man ein ganzes algebraisches Polynomium als Interpolationsformel benutzt — lassen sich die Be- rechnungen am leichtesten in der weiter unten beschriebenen Weise durchführen, indem man die von Newton eingeführten dividierten Differenzen!) benutzt; hierbei vermeidet man nicht nur die direkte ) Newtons Beitrag hierzu findet man in 3 Abhandlungen, nämlich in: I) Methodus differentialis (1711 erschienen, doch viel früher ausgearbeitet), 2?) einem Brief, datiert den 8. Mai 1675, 3) dem III. Buch der „Principia“ (Philo- sophiae naturalis principia mathematica) London 1687. Vegl.im übrigen D.C. Fraser. 336 und oft beschwerliche Lösung mehrerer Gleichungen mit mehreren Unbekannten (Koeffizienten des Polynomiums), sondern zugleich die im allgemeinen ebenso beschwerlichen Berechnungen, welche die direkte Berechnung der Werte des Polynomiums für neue Werte von x mit sich führt. Eine andere Methode zur Bestimmung des ganzen algebraischen Polynomiums, welches für gewisse Werte von x gegebene Werte annimmt, ist — übrigens in einer in formeller Be- ziehung außerordentlich anschaulichen Form — von Lagrange?) angegeben worden. Für numerische Berechnungen jedoch ist die Lagrangesche Formel nicht bequem (vgl. den Anhang); wir be- schränken uns hier daher auf eine Besprechung der Newtonschen Interpolationsformel. 223. Wenn eine Funktion (y) von x für x= 3, <= bb, X=C... usw. die Werte y=A4, y=B y=C usw. wie in der nebenstehenden Tabelle angedeutet, annimmt, kann man die Quotienten D C d \ A B C D B—A - — — 3 (ad) = BA 90 mc) = 978 a0) (ac) = — ‚.. usw. berechnen; diese Quotienten werden die den Intervallen (b— a), (c—b), (c—a) ... usw. entsprechenden dividierten Dif- ferenzen erster Ordnung („ersten Differenzen“) genannt. Sind z. B. folgende Volkszählungsergebnisse (in Tausenden) a = 1890 A = 2172 b = 1901 B =— 2450 ce = 1906 C = 2589 d = 1916 D = 2921, gegeben, dann beträgt die absolute Größe des Bevölkerungszuwachses 1) 1890—1901. .... 2) 1901—1906 . . 3) 1906 - 1916 . 4) 1890—1906 5) 1890—1916 6) 1901—1916 278 LE = USW. : Newton’s interpolation formulas (reprinted from the Journ. of the Institute of Actuaries, vol. 51, 1919 und vol. 58, 1927), worin auch der im Jahre 1870 von L. Oppermann gegebene Kommentar (Assurance magazine vol. 15, 1870) er- wähnt ist. ') J. L. Lagrange, Sur l’usage des courbes dans la solution des problemes, vgl. z. B. Oeuvres, 7, S. 271—287, Paris 1877. 337 = und die diesen Intervallen entsprechenden dividierten Differenzen, welche hier den durchschnittlichen jährlichen Zuwachs angeben müssen, sind dann jeweils JM (90,01) = - = 25,27, 0 (01,06) = m. = 27,80, 332 417 In 16 = 26,06, 8@ (90.16) = —- 2881, 80 (01.16) = Tr — 31,40. Es sei gleich bemerkt, daß, wenn die betrachteten Funktions- werte alle auf derselben Geraden liegen, was sie jedenfalls immer jun, wenn man weiß, daß die betrachtete Funktion linear ist, die lividierten Differenzen immer denselben Wert haben (konstant sein) werden, einerlei, welches Intervall betrachtet wird; denn ist die Gleichung für die betreffende Gerade durch y = «+ fx ausgedrückt, dann wird für A y= A= «a + ßa "= B @ + Pb so daß A b— 80 (ab) = PA — 7 C > — R und demnach ganz unabhängig vom Werte von a und b (d. h. von dem betrachteten Intervall) ist. Mittels Betrachtung einer Figur ‘äßt sich diese Eigenschaft ebenfalls leicht einleuchtend nachweisen; amgekehrt führt eine solche Betrachtung zu der Erkenntnis, daß man, wenn man in ein Koordinatensystem eine Reihe von Funktions- werten einsetzt, deren entsprechende dividierte Differenzen erster Ordnung alle gleich groß sind, eine Reihe von Punkten erhalten wird, welche auf derselben Geraden liegen. 224. Werden nun ferner die dividierten Differenzen für zwei Intervalle mit gemeinsamem Endpunkt, also z. B. © (ab) = 72 und 00 (b0) = N betrachtet, dann kann man aus diesen das, was die dividierte Differenz zweiter Ordnung (zweite Differenz) für das Intervall x=a bis x=c genannt wird, berechnen, worunter der Quotient 0 (b,c) — 0 (a,b). 4) (abc) = — „(b,c) — 9% (a,b). cC— 3 Westergaard und Nybolle. Theorie der Statistik, 2. Autl. 338 —_— verstanden wird. Der Zähler ist der Unterschied zwischen den zwei dividierten Differenzen erster Ordnung, der Nenner das ge- samte Intervall (c—b) + (b—a) =c—a. In dem oben betrachteten Falle hat man also z. B. 5% (1890, 1901, 1906) = SEO — 0,158 d@ (1901, 1906, 1916) = BA — 0,360. Die zwei Intervalle, welche bei der Berechnung einer zweiten Jividierten Differenz in Betracht kommen, brauchen nicht in der zegenseitigen Verlängerung zu liegen; so wird z. B. @ (1890, 1916, 1906) = ABS — 0,276. Hinsichtlich der „zweiten Differenzen“ gilt so ungefähr das Gleiche wie für die „ersten Differenzen“. Sind nämlich die betrachteten Funktionswerte alle auf einer Parabel zweiter Ordnung gelegen, was sie jedenfalls immer sind, wenn die betrachtete Funktion ein Polynomium zweiten Grades ist, dann werden sämtliche „zweiten Differenzen“, welche sich dann berechnen lassen, denselben Wert erhalten; ist die Gleichung für die betreffende Parabel durch das Polynomium y=&Q + 4X + 0, x? ausgedrückt, dann wird für X= 23 A= 0 + 04a + a? x= b B= 4 + 0b + x,b? X= 6 C= 0 + 46 + 02, woraus hervorgeht, daß d0) (a,b) = &, + «x(b + a) d@) (b,c) = &, + &%(C + b). Hieraus folgt indes wiederum, daß 0@ (a,b.c) — &(6 + b) — (ba) _ d%, C— 28 welche Größe unverändert den gleichen Wert hat, einerlei, welche Werte von a, b und c betrachtet werden. Genau so, wie eine zweite Differenz aus zwei ersten Differenzen berechnet wird, kann man aus zwei zweiten Differenzen eine divi- dierte Differenz 3. Ordnung (eine dritte Differenz) und aus dieser wieder dividierte Differenzen 4. Ordnung (vierte Differenzen) usw. 339 wie in der Tabelle 44 gezeigt, berechnen. Wenn man eine Reihe von Punkten (Funktionswerten) hat, welche sämtlich auf einer und derselben Parabel 3., 4. usw. Ordnung liegen, dann werden alle die- jenigen dividierten Differenzen von jeweils 3., 4. ... Ordnung, die sich dann aus den entsprechenden Funktionswerten berechnen lassen, den gleichen Wert bekommen; dies ließe sich genau so wie oben für Differenzen 1. und 2. Ordnung nachweisen. Wir ziehen jedoch vor, an Hand eines Beispiels den Nachweis zu führen, wobei auch hervorgehen wird, in welcher Weise man in der Praxis am besten lie Berechnung der dividierten Differenzen anfaßt. 829. Zu diesem Zweck kann man irgend ein Polynomium 4. Grades benutzen, z. B. das folgende: y = 1578 — 1792x + 624x? — 64x} + 2x%, welches für die in der Tabelle 44 angeführten Werte von x die entsprechenden für y angeführten Werte annimmt. Tabelle 44, ® Ks 9. 7460 490 2 10 Erste dividierte Differenz d®© (0,2) für das Intervall 0 bis ? wird hier En = —784; zur Kennzeichnung, daß sie zum genannten [ntervall gehört, ist sie in der Tabelle 44 (Kolonne d®) im Zwischen- raum zwischen den Linien angeführt, in welchen sich die x=0 und x==2 entsprechenden Funktionswerte finden. Genau so ist 30) (25) = 919 = 486 im nächsten Zwischenraum angeführt, and so fort für sämtliche gegebenen Funktionswerte. Es geht aus dieser Reihe erster Differenzen hervor, daß die den gewählten Funktionswerten entsprechenden Punkte nicht alle auf einer 90* 340 geraden Linie liegen können; denn dann hätten alle ersten Differenzen denselben Wert. Behandelt man nun die gefundene Reihe erster Differenzen dementsprechend, dann läßt sich die in Kolonne d® in den Zwischen- räumen zwischen diesen ersten Differenzen aufgeführte Reihe von „zweiten Differenzen“ finden. So wird z. B. I (0, 2, 5) = BZ En 784) _. 954, da das gesamte Intervall, welches von dieser Differenz überspannt wird, von 0 bis 5 ausgeht; analog wird 500 — 486 5@ ANZ (2, 5, 6) 6—2 Da alle so gefundenen „zweiten Differenzen“ verschiedener Größe sind, so folgt, daß die gewählten Funktionswerte ebenfalls nicht sämtlich auf derselben Parabel 2. Ordnung liegen können. Aus den zweiten Differenzen können die dividierten Differenzen 3. Ordnung in entsprechender Weise berechnet (und ‚aufgeschrieben) werden, indem man die aufeinander folgenden zweiten Differenzen subtrahiert und den Unterschied durch die Größe des Intervalles dividiert, welches die zwei betrachteten zweiten Differenzen Zzu- sammen umspannen. Man findet z. B. 26—254 08) (0, 2, 5, 6) =— 6—0 = —38 ö® (2, 5, 6, 8) = 1062 = —22 usw., aus welchen dritten Differenzen man Schließlich die dividierten Differenzen 4. Ordnung findet, indem dieselbe Methode bei den Iritten Differenzen angewandt wird; es ergibt sich hier A (0, 2, 5, 6, 8) = A =2 Für d® (2, 5, 6, 8, 11) und d® (5, 6, 8, 11, 15) usw. stellt man denselben Wert fest; dies ist eine Folge davon, daß die 9 Tabellen- werte, von denen man ausging, alle auf der durch das gewählte Poly- nomium 4. Grades bestimmten Parabel 4. Ordnung liegen. Nun lassen sich, wie im $ 213 erwähnt, durch diese 9 Punkte (Tabellen- werte) unendlich viele Interpolationskurven legen. Wenn daher nicht wie hier der betrachtete Zusammenhang (Funktion), sondern nur die 9 Tabellenwerte gegeben sind, dann kann man aus dem Um- stand, daß alle 3 dividierten Differenzen 4. Ordnung denselben Wert 341 erhalten, nicht ohne weiteres schließen, daß die betreffende Funktion ein Polynomium 4. Grades ist. Dagegen folgt aus der Konstanz der vierten Differenzen, daß diejenige Parabel 4. Ordnung, welche stets durch eine willkürliche Auswahl von 5 unter den gegebenen 9 Tabellenwerten gelegt werden kann, von selbst durch die den 4 übrigen Tabellenwerten entsprechenden Punkte gehen wird. 226. Oben ist dargelegt, wie man durch Lösung einiger (hier 5) Gleichungen mit ebenso vielen Unbekannten die Koef- fizienten in dem Polynomium, das durch 5 der gegebenen 9 Tabellenwerte geht, bestimmen kann. Eine Betrachtung des „Differenzschemas“ der Tabelle 44 lehrt indes, in welcher Weise man die Aufstellung und Lösung der betreffenden Gleichungen ver- meidet; wäre man z. B. von den 5 ersten Tabellenwerten ausgegangen, so hätte man ein Differenzschema mit nur einer vierten Differenz erhalten. Fügt man hinzu, daß einem x = 11 der Funktionswert y=1468 entspricht, dann läßt sich eine neue Reihe von Differenzen berechnen, die mit einer vierten Differenz = 2 enden muß. Doch läßt sich auch der umgekehrte Weg beschreiten und der x= 11 entsprechende Funktionswert berechnen, wenn man davon ausgeht, daß dieser — richtig berechnet — zu einer vierten Differenz =? auf dem betreffenden Platze führen muß. Aus 3© (2, 5, 6, 8, 11) = 9" 6, 6, 8. MS ‚2, 5, 6, 80 _ 9 {olgt nämlich, daß d® (5, 6, 8, 11) = 0® (2, 5, 6, 8) + 9-2 = —22 + 18 = und man findet dann weiter aus der Gleichung 3® (5, 6, 8, 1) = 68, 1009 6,689 _ _, daß j@ (6, 8, 11) = 0% (5, 6, 8) — 4-6 = —106 — 24 = —130, welches wiederum 30 (8, 11) = 00 (6, 8) — 130-(11 — 6) = 272 — 650 = —378, ergibt, woraus schließlich y(11) = y(8) — 378(11 — 8) = 2602 — 1134 = 1468 folgt. Analog kann man die nächste Reihe von Differenzen berechnen, indem man entweder davon ausgeht, daß x=15 den Wert y = 348 ergibt (was, wie oben gezeigt, dazu führt, daß auch die nächste vierte Differenz gleich 2 wird). oder davon ausgeht, daß diese vierte 342 Differenz gleich 2 werden soll und dann nach und nach folgende Gleichungen findet: 0 (6, 8, 11, 15 =— 4+ 2(15— 5)= 16 J@ (8, 11, 15) 130 + 16(15 — 6)= 14 3@ (11, 15) 378 + 14(15 — 8) = —280 y(15) =. 1468 — 28015 — 11) = 348. Genau so läßt sich nun der Wert berechnen, den die betrachtete Interpolationskurve (das betrachtete Polynomium 4. Grades) für jeden beliebigen andern Wert von x ergibt. Wird z. B. x=7 gesetzt, so findet man y (7), indem man in der Kolonne d® eine neue vierte Differenz =2 hinzufügt. Durch die Berechnungen 0® (8, 11, 15, )= 16+ 27— = 18 3 (11, 15, 7) = 14+ 1807 © 4 j@ (15, 7) = —280 - . 264 y(7) = 348 — 2640 2460 findet man dann y (7) = 2460. Um die Richtigkeit der Berechnung zu kontrollieren, kann man die Berechnung von Funktionswerten einschieben, welche im voraus bekannt sind. Nachdem y(7)=— 2460 gefunden ist, ist in der Tabelle die Berechnung von y (2) eingeschoben, die 10 ergeben soll. Wenn man, um diese Berechnung durchzuführen, aufs neue in der Kolonne di hinzufügt: d® (8, 11, 15, 7, 2) = 2, dann ergibt sich auch 0 (11, 15, 7, 22= 18+ 22— 8)= 6 3@ (15, 7, 2) = —4+ 6(02— 11) = —58 5 (7, 2) = —264 — 58(2 — 15) = 490 y(2) == 2460 + 490(2 — 7)= 10. 227. Wenn die gestellte Interpolationsaufgabe — wie es im all- gemeinen der Fall ist — darauf ausgeht, die einigen gegebenen Werten von x entsprechenden Funktionswerte zu finden, bietet die hier dar- gestellte Methode, mittels deren man mit dividierten Differenzen rechnen kann, den großen Vorteil, daß man die Aufstellung und Lösung der Gleichungen mit mehreren Unbekannten vermeidet, welche die Bestimmung der Konstanten (Koeffizienten) der Inter- polationskurve (des Polynomiums) sonst fordert, und die nachfolgende Berechnung vermeidet, die mit dem Einsatz derjenigen Werte für x folgt, für die der Wert des Polynomiums berechnet werden soll. Man wird ‚also mit Hilfe des Differenzschemas direkt von den ge- gebenen Funktionswerten zu den gesuchten geführt, ohne anscheinend 343 mit den Funktionen selbst etwas zu tun zu bekommen. Berech- nungen von Konstanten und das Aufschreiben des benutzten Poly- nomiums können also unterbleiben, wenn die Lösung der Inter- polationsaufgabe nichts anderes verlangt. Man kann indes mit derselben Methode den Wert der Funktion für einen willkürlichen Wert von x finden, d. h. das Polynomium, mittels dessen die Interpolation in Wirklichkeit vor sich geht; will man beispielsweise, nachdem man zu x=2 interpoliert hat, zum Werte x im allgemeinen interpolieren, so findet man (vgl. den folgenden Auszug aus der Tabelle 44), wenn man wieder setzt 0611, 15, 7, 2, x)=2, daß 0©® (15, 7, 2, x) = 6 + 2(x — 11) 30 (7,2,x) =-— 58 + (6 +2 (x — 11)) (x — 15) 30) (2, x) = +490 +[—58 + (6 +2 (x-— 11)) (x —15)1(x — 7), woraus folgt, daß y (x) = 10 +{+ 490 +[—58 +(6 +2(x — 11)) (x —15)](x— 7)} (x—). Wenn man hier die durch Klammern gekennzeichneten Multi- plikationen ausführt, wird man gerade den oben angeführten Aus- druck für das hier behandelte Polynomium vierten Grades bekommen. Diese Berechnung wird sich oft erheblich leichter gestalten, wenn man, bevor zum willkürlichen Wert von x interpoliert wird, so- viele Male nach der Reihe zu x= 0 interpoliert, daß die Reihe der dabei erhaltenen dividierten Differenzen stets dieselbe bleibt. Aufgabe 65. Schreibe eine Tabelle auf, welche für x=0, 1, 5, 7 und 10 den Wert des Polynomiums y= x! — 3x angibt. Finde durch Interpolation in der Tabelle den Wert des Polynomiums für x=2, 3, 4, 6, 8 und 9 und zeige, wie man aus der Tabelle das benutzte Polynomium wiederfinden kann. — 344 228. Im $ 213 wurde beispielsweise das ganze algebraische Polynomium besprochen, das für x==3, 4,5 und 6 gerade die Werte für log 3, log 4, log 5 und log 6 annahm. In untenstehender Tabelle 45 ist dieses Polynomium durch Berechnung der dividierten Differenzen bestimmt. Um mit lauter ganzen Zahlen rechnen zu können, sind die Tabellenwerte, von denen man ausgeht (log 3, log 4, log 5 und log 6), mit 60000 multipliziert ; durch Interpolation wird dann nicht das eigentliche Polynomium y(x) bestimmt, sondern das Polynomium 60 000-y(x), woraus man danach y(x) durch Division durch 60000 findet. Tabelle 45. ÖM = 86 60 000y 28 626 36 126 41 490 46 692 28 626 —10 230 —10230 —10 230 104 104 104 104 104 104 PRO RZ 3.0292 ‘2.952 19.99 ‘ © J d D p* 18289 --1467 9487 46 692 Zuerst werden aus den 4 gegebenen Tabellenwerten die 3 ersten Differenzen, die 2 zweiten Differenzen und die eine dritte Differenz bestimmt. Zur Kontrolle der Richtigkeit dieser Berechnungen ist danach zu x==3 interpoliert, was y= 28626 ergeben soll. Danach wird dreimal zu x==0 interpoliert; die bei diesen Interpolationen zuletzt gefundene Reihe dividierter Differenzen ergibt dann ebenso wie im vorigen Beispiel sofort 60 000y = —10230 + 18 289x — 2091x? + 104x®, wie oben im $ 213 angegeben. Zur Kontrolle der Berechnung ist zuletzt zu x = 6 interpoliert, was 46692 ergeben soll. Es geht mit aller Deutlichkeit hervor, daß das Polynomium auf diesem Wege durch viel weniger Berechnungen als auf dem im $ 221 besprochenen Wege gefunden wird. In der Regel erfordert die Interpolationsaufgabe indes gar nicht, daß der Ausdruck für das Polynomium (die Interpolationskurve), auf dem in Wirklichkeit interpoliert wird, berechnet und auf- 345 geschrieben wird. Namentlich ist dies nicht notwendig, um einzelne oder ganze Reihen yon interpolierten Werten zu finden. Wenn die Aufgabe, wie sie zuerst im $ 210 gestellt wurde, darauf ausgeht, mit Hilfe der Kenntnis von log 3, log 4, log 5 und log 6 den Wert von log 4,5 zu berechnen, so findet man diesen Wert wie in der folgenden Tabelle 46 angegeben, in der man, anstatt die Funktion 60000-y(x) zu betrachten, auf y(x) selbst interpoliert hat; nicht alle zur Berechnung der dividierten Differenzen notwendigen Divisionen „gehen auf“, weshalb diese Differenzen mit einigen extra Dezimalen berechnet sind, um die Wirkung der durch Abrundungen entstandenen ınwesentlicheren Fehler zu vermeiden. Wenn man nicht in der oben beschriebenen Weise diese Fehler- quelle vermeiden will, hat man überhaupt, bevor man interpoliert, die Wirkung der Rechnung mit abgerundeten Zahlen zu beurteilen ınd festzustellen zu suchen, wieviele Dezimalen notwendigerweise zu berücksichtigen sind. Tabelle 46 ORAL 4) ' - a7 0,6534 1175 . 9118 15152 M733 733 1733 1733 8. 0,6990 Zuerst sind die Differenzen berechnet, welche unmittelbar aus den 4 gegebenen Funktionswerten hervorgehen. Die Resultate sind dann durch Interpolation zu x = 3 geprüft, was y= 0,4771 geben soll. Danach wird zu x = 4,5 interpoliert, wobei man zu dem in der Tabelle 43 auf Seite 324 angeführten interpolierten Wert für log 4,5 — 0,6534 gelangt; zur Kontrolle, daß auch hier kein Rechen- fehler begangen ist, kann man schließlich zu x = 5 interpolieren, was y = 0,6990 ergeben muß. Wie man sieht, beruht die ganze Methode Jarauf, daß man unter der fortgesetzten Interpolation zu neuen Werten von x ständig die letzte dividierte Differenz konstant er- hält. Dies ist nur ein anderer Ausdruck dafür, daß die Gleichung [für die hierbei benutzte Interpolationskurve durch ein ganzes algebra- isches Polynomium ausgedrückt werden kann. — 346 A 829. In welchem Grade ein solches Polynomium imstande ist, an die Stelle des wirklichen Verlaufes der betrachteten Funktion zu treten, ist indes, wie oben erwähnt, eine Frage, die besonders zu untersuchen ist. Es folgt aus dem Vorhergehenden, daß man, um die Newtonsche Interpolationsformel auf beobachtete Zahlen anwenden zu können, voraussetzen muß, daß der betrachtete Zusammenhang so beschaffen ist, daß man bei fortgesetzter Berechnung dividierter Differenzen 1., 2., 3. usw. Ordnung auf irgend einem Punkte Differenzen erhalten wird, die jedenfalls mit einer gewissen Annäherung konstant sind. Für die auf mathematischem Wege de- finierten Funktionen (beispielsweise Vx, log x, das Exponential- gesetz usw.) erzielt man dies in der Regel um so besser, je kleiner die Intervalle sind, über die sich die Interpolation erstreckt, und man gelangt zu einem ganz ähnlichen Resultat hinsichtlich der Interpolation an beobachteten Zahlen, wenn man den zwischen diesen bestehenden Zusammenhang als eine Abhängigkeit mit ähnlichen Eigenschaften wie denen einer wohldefinierten Funktion betrachtet. Bloß ist zu erinnern, daß man im allgemeinen nicht, wenn es sich um beobachtete Zahlen. handelt, in demselben Grade wie bei rein mathematischen Problemen darüber Herr ist, wie kleine Intervalle man benutzen will. Weiter unten gehen wir auf diejenigen Interpolationsmethoden ein, die man sich angewandt denken kann, wenn es sich um Inter- polation über weitere Strecken handelt. An dieser Stelle seien einige Beispiele über die Anwendung der Newtonschen Formel auf beob- achtete Zahlen gegeben. Wir entnehmen der deutschen Sterbetafel für die Jahre 1891 bis 19001 folgenden Auszug über die mittlere Lebensdauer für Frauen verschiedener Altersklassen: Alter Mittlere Lebensdauer X 45 Jahre 24,87 Jahre 50 20,58 55 16°) 60 . RE LUD 5 90 * VAR Yz Wenn man mit den hier angeführten Werten von y für x = 60, 70 und 75 Jahre als Ausgangspunkt durch Interpolation die mittlere Lebensdauer für 65-jährige bestimmen will, so erhält man 1) Deutsche Sterbetafeln für das Jahrzehnt 1891—1900, St. d. d. R. Bd. 200, Berlin 1910, S. 6. 347 zwei „erste dividierte Differenzen“ und „eine zweite dividierte Differenz“. Wird diese konstant gehalten, dann findet man als die einem x = 65 Jahre entsprechende mittlere Lebensdauer 10,61 Jahre, also sehr annähernd dasselbe wie das nach der Sterbetafel angeführte Ergebnis. Wenn von denselben Werten aus zu 55 oder zu 80 Jahren extrapoliert wird, ergibt sich eine mittlere Lebensdauer von 17,07 und 4,52 Jahren, während die Tafel faktisch 16,96 und 4,48 Jahre hat: also recht gute Annäherungswerte. Diese Übereinstim- mung hört indes schnell auf, wenn man durch Extrapolation die dem Alter unter 55 oder über 80 Jahren entsprechende Lebensdauer bestimmen will. Selbst bei Anwendung größerer Intervalle kann man oft brauch- bare Resultate erzielen. Geht man z. B. von der für x = 50, 70 und 90 Jahre angeführten mittleren Lebensdauer aus, so findet man, indem man die daraus resultierende zweite dividierte Differenz konstant sein läßt, folgende mittlere Lebensdauer: 1A 5 BU AS Jahre 24 78 Jahre Vv 1 10.57 tr 30 05 Tahre y 6,06 Jahre 445 3,27 290 Die berechneten Zahlen stimmen also relativ gut mit den Faktischen überein, insbesondere gilt dies hinsichtlich der Mitte ler Altersperiode; außerhalb dieser hat man erwartungsgemäß keine so gute Übereinstimmung. 230. Es tritt jedoch namentlich bei der Interpolation über kleinere Intervalle ein, daß sich die Newtonsche Formel mit Vorteil anwenden läßt; Versuche, sie über längere Intervalle aus- zudehnen, werden nur ausnahmsweise glücken. Besonders hat man sich vor der Annahme zu hüten, daß sich ganz besonders gute Re- sultate erzielen lassen, wenn man seinen Ausgangspunkt in vielen über das Intervall verstreuten Funktionswerten und den aus sämt- lichen solchen Werten abgeleiteten Differenzen höherer Ordnung nimmt. Ginge man beispielsweise von sämtlichen angeführten Werten für die mittlere Lebensdauer für x = 45, 50, 55, ..... 90 Jahre aus, um sich zur mittleren Lebensdauer z. B. für Altersstufen von einem Jahre (46, 47, 48, 49 ... usw. Jahre) zu interpolieren, indem diejenige Differenz neunter Ordnung, welche sich aus den 10 vregebenen Funktionswerten berechnen ließe. konstant erhalten wird — 348 (was sich als Methode sehr wohl durchführen ließe), dann könnte man keine so gute Übereinstimmung wie die oben gefundene er- warten. Das Polynomium, welches man bei einer solchen Inter- polation verwenden müßte, würde nämlich hoher Ordnung (im ge- dachten Beispiel 9. Ordnung) sein, und solche Polynomien werden in der Regel einen der durch die punktierte Kurve der Figur 8!) angegebenen analogen Verlauf nehmen; und selbst wenn die Be- nutzung dividierter Differenzen höherer Ordnung nicht geradezu absurde Resultate ergibt, so empfiehlt es sich doch in der Regel ganz besonders bei der Interpolation an beobachteten Zahlen — nicht bloß aus arbeitsparenden Gründen —, sich lediglich an dividierte Differenzen niederer Ordnung zu halten. Es ist hier, wie oben be- tont, zu erinnern, daß die Interpolation darauf beruht, daß man den wirklichen Verlauf des betrachteten Zusammenhangs gegen eine zweckmäßig gewählte Interpolationskurve umtiauscht, von der nur verlangt wird, daß sie mit ausreichender Annäherung mit den tat- sächlichen Funktionswerten übereinstimmt. Sehr oft wird dann die erhöhte Genauigkeit, welche man vielleicht erzielen könnte, wenn man z. B. vierte Differenzen anstatt dritter Differenzen konstant erhielte, ohne Bedeutung sein; in einigen Fällen, namentlich bei Interpolation zwischen beobachteten Zahlen, wird das Resultat bei Berücksichtigung von Differenzen höherer Ordnung nur noch schlechter ausfallen. Alles hängt hier natürlich von der Genauigkeit ab, welche sich überhaupt mittels einer Interpolation erzielen 1äßt und von der Genauigheit, die man innerhalb dieser Grenzen zu er- zielen wünscht. Aufgabe 66. Finde mittels Interpolation am Logarithmus der in der Tabelle 17, Seite 161, angeführten Wahrscheinlichkeiten die Wahrscheinlichkeiten für diejenigen Ergebnisse, über welche die Tabelle keinen Aufschluß gibt. Aufgabe 67. Nach der dänischen Sterbetafel für 1916—20 ist die mittlere Lebensdauer für Männer von 10 Jahren . . 54,6 Jahre 50 Jahren . . 23,1 Jahre 20 .. 461 | 60 .‚. 158 30 .. 38E | 70 . 7” » 10» . 2. BL 80 . ” Finde hieraus durch Interpolation die mittlere Lebensdauer für Männer eines Alters von 15, 25, 35 ... und 75 Jahren und vergleiche die Resultate mit den von der Tafel angegebenen, nämlich jeweils 50,2 — 42,5 — 35,0 — 27,1 — 19,4 — 12,6 und 7,2 Jahre. !) 8. auch J. F. Steffensen, a. a. O0. 8. 34f. 349 Aufgabe 68. Die Gesamtbevölkerung der dänischen Städte betrug: LOFT 1607 482099 509 200 550327 604 205. Bestimme durch Interpolation teils an den angeführten Volkszahlen, teils an den Logarithmen der Volkszahlen den Bevölkerungszuwachs in jedem der Jahre 1906, 1907, 1908, 1909 und 1910 und vergleiche die Resultate beider Inter- polationsmethoden. 231. Im $ 216 wurde erwähnt, daß man nicht immer direkt gerade die erfragte Größe, sondern andere Größen, aus der sich die gesuchte finden läßt, suchen muß. Sucht man z. B., seinen Ausgangs- punkt in den Volkszahlen für Dänemark vom 1. II. 1911 und 1. II. L916 (jeweils 2757076 und 2921362) nehmend, die Größe der Be- völkerung am 1. Februar eines jeden der dazwischenliegenden Jahre, dann kann man natürlich eine gewisse annähernde Be- stimmung dieser Volkszahl dadurch erzielen, daß man den Zuwachs 2921 362—2 757076 = 164286) gleichmäßig mit 32857 auf jedes ler 5 Jahre verteilt; von der Betrachtung aus, daß die Kurve, welche das Anwachsen der Bevölkerung von 1911 bis 1916 dar- stellt, annähernd durch eine Gerade wiedergegeben werden kann, handelt es sich hier um nichts anderes als um eine einfache lineare Interpolation. Will man berücksichtigen, daß der jährliche Zuwachs nicht konstant ist, dann kann dies z. B. mittels einer Interpolation üdritten Grades von den Volkszahlen der Jahre 1906 (2588 919), 1911, 1916 und 1921 (3104209) aus geschehen; in der weiter unten folgenden Tabelle 47 ist in Kolonne 1 und 2 nach Kalenderjahren lie Verteilung des Zuwachses*des ganzen Jahrfünfts angeführt, zu der man mittels dieser zwei Interpolationsmethoden gelangt. Da man indes auf dem Wege direkter Beobachtung von der jähr- lichen Anzahl der Geburten und Sterbefälle Kenntnis hat, so kann man bei der Berechnung berücksichtigen, daß diese gewöhnlich keinen von Jahr zu Jahr konstanten Geburtenüberschuß ergibt. Sieht man von diesem Fehler ab, der dadurch begangen wird, daß man die Zahl der Geburten und Sterbefälle eines Kalenderjahres derjenigen des Volkszählungsjahres (1. Febr. bis 31. Jan.) gleichstellt, so ergibt sich, daß vom 1. Febr. 1911 bis 1. Febr. 1916 ins- gesamt 364553 geboren wurden, während 182181 starben; der Ge- burtenüberschuß des Jahrfünfts ist also 182372; wird diese Zahl zu der Volkszahl addiert, dann erhält man 2939448, während bei der Er- hebung im Jahre 1916 nur 2921362 gezählt wurden: im betreffenden i— 350 Jahrfünft übersteigt die Zahl der Auswanderer also die der Ein- gewanderten mit 18086; wenn man nun nicht annimmt, daß die Volkszahl selbst von 1911 bis 1916 linear gewachsen ist, sondern statt dessen ansetzt, daß das gefundene, durch die Wanderungen bestimmte Defizit linear von 1911 bis 1916 wächst, und also rechnet, daß die Wanderungen jährlich einen Nettoverlust von 3617 Personen verursacht haben, dann erhält man durch Verteilung des Geburtenüberschusses auf die einzelnen Jahre des Jahrfünfts die in Kolonne 3 der Tabelle 47 mitgeteilte Verteilung der Volksver- mehrung von 1911 bis 1916. Tabelle 47. (1) (2) (3) (4) (5) 1911 32 800 32 500 33 100 31 800 30 900 1912 32 800 32 500 34 600 33 000 32 100 1913 32 900 32 700 33 500 31 700 30 900 1914 32 900 33 000 38 700 24.61 34. 900 1915 32 900 33 60U 29 400 ; 33 20u 35 500 Zusammen: 164300 164 300 164 300 164 300 164 300 Da indes auch die Größe der jährlichen überseeischen Aus- wanderung bekannt ist, kann man noch einen Schritt weitergehen und die von Jahr zu Jahr wechselnde Größe dieses Teils der Wanderungen berücksichtigen; 35290 Menschen gingen im betreffen- den Jahrfünft über See; von diesen abgesehen haben die Wanderungen also dem Lande 35290 — 18 086 = 17 204 Personen mehr zugeführt, als in. anderer Weise auswanderten. Wenn mittels linearer Inter- polation dieses Mehr mit 3441 auf die einzelnen Jahre des Jahr- fünfts verteilt wird, erhält man die in Kolonne 4 der Tabelle 47 angeführte Verteilung des Zuwachses, Schließlich ist in Kolonne 5 diejenige Verteilung ersichtlich, welche aus der amtlichen dänischen Statistik!) hervorgeht; hier ist der sich auf 17204 belaufende Einwanderungsüberschuß mittels einer Interpolation verteilt, die auf besonderen Erhebungen fußt und bei der gleichzeitig die männliche und die weibliche Bevölkerung gesondert betrachtet sind. 232. Nach obiger Entwicklung kann man nur, wenn der be- trachtete Zusammenhang ganz besondere Bedingungen erfüllt, er- warten, daß die Interpolation über größere Intervalle mit vielen gegebenen Punkten bei Anwendung eines und desselben algebraischen Polynomiums mit Erfolg gekrönt sein wird. Es ist indes gerade ') Vgl. z. B. Statistisk Tabelverk, 5. Rekke, Litra A, Nr. 15: Agteskaber, Fodte og Dode i Aarene 1916—20, Kobenhavn 1924, S. 72*, 351 eine in der Statistik häufig vorkommende Aufgabe, eine solche Inter- polation vorzunehmen. Man kenne beispielsweise das Wachstum einer Bevölkerung oder Bevölkerungsgruppe während eines halben oder eines ganzen Jahrhunderts, so daß die Größe der Bevölkerung nach fünf- oder zehnjährigen Zwischenräumen bekannt ist; die Größe nach nur ein- oder halbjährigen Zwischenräumen ist jedoch gesucht. Eine andere häufig vorliegende Aufgabe ist die Interpolation in einer numerisch gegebenen Verteilung (vgl. Abschnitt C). Es ist z. B. bekannt, auf welche Weise sich eine Bevölkerungsgruppe auf zehnjährige Altersklassen verteilt; man wünscht jedoch, die Ver- teilung auf beliebig kleine Altersklassen zu kennen. Oder man kennt die Verteilung der Bevölkerung nach größeren Einkommen- intervallen, deren Länge in der Regel variiert, braucht jedoch die Verteilung nach kleineren und gleichgroßen Einkommenklassen usw, Bei Aufgaben dieser Art ist es, praktisch gesprochen, nie möglich, ain und dasselbe durch sämtliche gegebenen Werte bestimmtes Poly- nomium, das im allgemeinen höherer Ordnung (vgl. $ 230) sein wird, zu benutzen. Man wird bei Aufgaben dieser Art in der Regel bessere Resultate erzielen, wenn für jedes Intervall ein neues Polynomium aiederer Ordnung, das durch die Funktionswerte in den End- yunkten des betrachteten Intervalles bestimmt ist, und wenn möglich »inige der am nächsten liegenden gegebenen Funktionswerte ange- wandt werden. Wenn lediglich die Werte in den Endpunkten der ainzelnen Intervalle zur Interpolation im Intervall benutzt werden, lann muß diese Interpolation linear sein, und die Methode entspricht Jlann ganz der im $ 212 genannten, wo die Logarithmenkurve ab- ;eilungsweise durch Gerade (vgl. Fig. 8) ersetzt wurde. Aber selbst wenn man abteilungsweise z. B. eine Parabel benutzt, die teils lurch die Funktionswerte in den Endpunkten des Intervalles, teils lurch solche in den am nächsten gelegenen gegebenen Punkten be- stimmt ist, dann wird diese Methode oft Schwierigkeiten oder geradezu Absurditäten mit sich führen (vgl. besonders das Beispiel im $ 243), und diejenige Interpolationskurve, durch die man so im zroßen und ganzen den tatsächlichen Zusammenhang ersetzt, wird labei in allen Fällen eine Kurve, welche stückweise aus verschie- lenen Polynomien in jedem neuen Intervall zusammengesezt ist. In solchem Falle wird man oft — namentlich bei vorbereitenden Unter- suchungen — mit Vorteil die graphische Interpolation an- wenden können; bei einer solchen werden in gewöhnlicher Weise lie gegebenen Punkte (Wertepaare) in ein Koordinatensystem ein- za 352 getragen, worauf eine Kurve (die Interpolationskurve) gezogen wird, die in möglichst einfacher Weise durch die abgesetzten Punkte geht. Wenn die Kurve gezeichnet ist, findet man die gesuchten Interpolationsresultate direkt durch Größenmessung der erfragten Ordinaten. Zeichnet man die Kurve auf Millimeterpapier, so lassen sich die Beobachtungen leicht eintragen und die interpolierten Werte direkt aus der Figur ablesen. 233. Die graphische Interpolation zeichnet sich durch ungemein ‚eichte Durchführbarkeit aus. Durch die Begrenzung der Genauigkeit, mit der sich eine Kurve zeichnen läßt und die Ordinaten gemessen werden können, wird man unmittelbar der Begrenzung der Genauig- keit gegenübergestellt, mit der man interpolieren kann; und die Anwendbarkeit der Methode wird nicht dadurch verringert, daß man in höherem Grade als bei anderen Methoden des Momentes der Willkür gewahr wird, das mit Notwendigkeit mit jeder Inter- polation zwischen beobachteten Zahlen folgt. Wie bereits oben be- tont, lassen sich durch eine Reihe gegebener Punkte unendlich viele Kurven legen. In einigen Fällen wird man — namentlich mit ainiger Übung — hinsichtlich der Wahl zwischen diesen vielen Möglichkeiten nicht im Zweifel sein, in der Regel um so weniger, je kleiner die Intervalle zwischen den bekannten Punkten sind; und in Fällen, wo ein solcher Zweifel auftritt, ergibt die Betrachtung des Unterschieds zwischen den Kurven, unter denen zu wählen die Rede sein kann, einen direkt veranschaulichenden Ausdruck für die Genauigkeit, mit der man zwischen diesen Beobachtungen interpolieren kann; einen Ausdruck, der bei Anwendung einer beliebigen Formel leicht dem Gesichtskreise entschwindet. Wie gesagt, beruht der Bereich der Anwendung graphischer Interpolation bis zu einem gewissen Grade auf der Festigkeit in der Kurvenzeichnung, die sich hier durch Übung erzielen läßt; bei Übungen dieser Art beginnt man am zweckmäßigsten mit der Zeich- nung von Kurven durch Punkte, welche relativ dicht aneinander liegen, und von denen man allmählich immer mehr ausläßt; man er- zielt hierbei eine Vertrautheit mit der Form, in der die am häufigsten vorkommenden Beobachtungsreihen gewöhnlich verlaufen, und die Kenntnis hiervon bildet zuguterletzt die eigentliche Grundlage für die Interpolation über größere Intervalle. Aufgabe 69. Nach den dänischen Sterblichkeitserfahrungen für die Jahre 1916—1920 war die mittlere Lebensdauer für 353 aeugeborene Mädchen ... 58,06 Jahre 1 Monat alte PP ...5968 3 Monate ,, „ ...6120 ul ” ” ” ... 62,04 ” L6 ” ” ” ... 62,24 ” Finde mittels graphischer Interpolation die mittlere Lebensdauer für Mädchen im Alter von 3, 9, 12 und 15 Monaten und vergleiche die gefundenen Werte mit den faktischen, welche jeweils 60,48—61,77—62,13 und 62,23 Jahre betragen. 234. Wenn Fälle, in denen der Zusammenhang zwischen den betrachteten Größen bekannt ist, dort als Vorbild genommen werden können, wo dieser Zusammenhang nur teilweise bekannt ist, dann kann man nicht nur bei graphischer Interpolation, sondern auch bei ler Berechnung aus einem Vorbilde Nutzen ziehen, welches speziell weder als eine in ihrer Vollständigkeit gezeichnete Kurve vorzuliegen noch durch einen mathematischen Ausdruck gegeben, sondern nur numerisch durch eine dem Zweck entsprechend genaue Beobachtung bekannt zu sein braucht. Beispielsweise waren im Jahre 1911 in Kopenhagen 392°%g der männlichen Bevölkerung unter 20 Jahren; soll diese Zahl auf die Altersklassen 0 bis 10 und 10 bis 20 Jahre verteilt werden, so kann man als Vorbild die Altersgliederung für zanz Dänemark benutzen, wenn diese durch Beobachtung bekannt ist und man voraussetzt, daß die Bevölkerung Kopenhagens sich innerhalb eines solchen kleineren Altersintervalles nach dem Alter in ähnlicher Weise verteilt: es ergeben sich hierbei folgende Zahlen: Dänemark Kopenhagen nach der nach der | nach der jeobachtung! Berechnung Beobachtung 0—10 Jahre! 92409 212 0 L0—20 ” 2 »”„ 180 ” 7} Zusammen | 444 %0o | 392%o | 392 "so Diese und ähnliche Methoden werden im folgenden Abschnitt behandelt. C. Flächenberechnungen, 235. Wie man sich praktisch den vorliegenden Zusammenhang in der oben beschriebenen Weise in einem Koordinatensystem als eine Kurve abgebildet denken kann, so hat man es in der Statistik mit einer Menge von Größen zu tun, die sich in besonders anschau- licher Weise als eine zwischen zwei näher bezeichneten Ordinaten, der Abszissenachse und einer in das Koordinatensystem eingezeich- neten Kurve gelegene Fläche abbilden lassen. Westergaard und Nyboelle. Theorie der Statistik. 2. Aufl. 354 Als Beispiel sei die ausgedehnte Anwendung dieser Betrachtungs- weise beim Exponentialgesetz erwähnt (vgl. $ 112f. und Fig. 4). Indem unter Anwendung dieses Gesetzes die Wahrscheinlichkeit dafür, daß ein Resultat zwischen gegebene Grenzen (x, und x,) fiel, be- rechnet wurde, erzielten wir eine außerordentliche Einfachheit und Leichtigkeit der Behandlung, die gesuchte Wahrscheinlichkeit als diejenige Fläche veranschaulichend, welche durch die x, und x, ent- sprechenden Ordinaten, die Abszissenachse und die Exponentialkurve begrenzt wurde. Ganz analog kann man sich jede Verteilungskurve mit größerer oder kleinerer Annäherung durch eine Kurve (eine Verteilungs- oder Frequenzkurve) wiedergegeben denken, auch wenn die Verteilung nicht exponentiell ist. Bedingung hierfür ist allerdings, daß das Kennzeichen, nach welchem die Einheiten verteilt gedacht sind, durch Zahlen ausgedrückt werden kann, die alle möglichen Werte ent- weder innerhalb eines endlichen Intervalles oder eines Intervalles von unbegrenzter Größe annehmen können, also Kennzeichen der oben ($ 55) als kontinuierlich bezeichneten Art (Alter, Körpergröße, Ein- kommen usw.). Wie gesagt, ist die Grenze zwischen Kennzeichen mit dieser Eigenschaft und anderen Kennzeichen jedoch bei weitem nicht scharf, und gerade die Anwendung des Exponentialgesetzes auf die Glückspielerfahrungen bietet ein Beispiel dafür, wie die Ver- teilungen, welche Ergebnisse (Kennzeichen) betreffen, die in Wirklich- keit nur durch ganze Zahlen beschrieben werden, durch geeignete Umschreibung (Umtausch der Ordinaten gegen Flächen; vgl. Fig. 4) als Verteilungen nach kontinuierlichen Kennzeichen behandelt werden können. Weiter unten wird gezeigt, wie sich eine Kurve von dieser Eigenschaft konstruieren (zeichnen) läßt. Dagegen können Verteilungen nach Kennzeichen wie Geschlecht, Zivilstand, Beruf usw., denen kein zahlenmäßiger Ausdruck verliehen werden kann, auch nicht mittels einer Verteilungskurve wiedergegeben werden. 236, Diese Betrachtungsweise findet auch in anderen Ver- bindungen Anwendung. Denkt man sich z. B. eine Kurve, welche die Art und Weise, in der sich die Größe einer Bevölkerung (Be- völkerungsgruppe) von einem Zeitpunkt (t,) zum andern (t,) ver- ändert (wächst oder abnimmt), so wird die durch die Abszissen- achse, die Kurve und die den beiden Zeiten t, und t, entsprechenden Ordinaten begrenzte Fläche die Summe der von den einzelnen In- dividuen der Bevölkerung von t, bis t, durchlebten Zeiten darstellen, eine Zahl, deren man oft in der Statistik bedarf. Wenn in der Zeit 355 von t, bis t, weder Abgang noch Zugang stattfindet, wenn also die Größe der Bevölkerung vollkommen konstant ist, dann ist dieser Zusammenhang unmittelbar einleuchtend. Ist nämlich die konstante Volkszahl der Bevölkerung gleich N, dann wird die Kurve in diesem Falle eine gerade Linie werden, die parallel mit der Abszissenachse in der Höhe N verläuft, und die gesuchte Fläche wird dann die Form eines Rechtecks von der Grundlinie (t, — t,) und der Fläche N (t, — tı) annehmen, welche Zahl, wenn jedes der N Individuen der Bevölkerung (t, — tı) Jahre durchlebt hat, die Summe der durch- lebten Zeiten ergeben muß. Etwas ganz Ähnliches findet faktisch statt, wenn die Volkszahl varliert (wächst oder abnimmt). Sie ist nämlich jedenfalls in den — allerdings in der Regel sehr kleinen — Zeiträumen konstant, welche von dem Augenblick des Eintreffens eines Ereignisses (Geburt, Sterbefall, Ein- oder Auswanderung) bis zum Eintreten der nächsten analogen Begebenheit verstreichen, und die Totale der durchlebten Zeiten ist dann die Summe der jedem der genannten Zeiträume entsprechenden rechteckigen Flächen. Ge- wöhnlich denkt man sich indes, wie oben ($ 215) gesagt, die wirk- liche, unregelmäßige Kurve durch eine kontinuierte Kurve ersetzt; mit ähnlicher Annäherung, wie sich dieser Umtausch vornehmen läßt, kann man dann auch die von einer varilerenden Bevölkerung von t, bis t, durchlebte Zeit durch die Fläche ausdrücken, welche von der kontinuierten Kurve, der Abszissenachse und den zwei t, und t, entprechenden Ordinaten eingeschlossen wird. Eine ganz entsprechende Betrachtung führt auch, wenn eine Dekrementtafel gegeben ist, zur Feststellung der mittleren Lebens- lauer für Personen eines gegebenen Alters x; die Tafel gibt an, wie viele der von einer gegebenen Anzahl von gleichzeitig Geborenen den 1., 2., 3., usw. Geburtstag erleben werden, wenn die zu jeder Zeit Zurückgebliebenen ständig als einer für die betreffende Altersgruppe yegebenen Sterblichkeit unterworfen gedacht werden und die mittlere Lebensdauer für x-jährige den Durchschnitt aus sämtlichen Lebens- zeiten angibt, welche jede der Personen, die das Alter x erreicht, aoch zu leben übrig hat, wenn diese x-jährigen so anssterben. wie die Tafel angibt. Wird das Alter x als Abszisse und die Anzahl l(x) der Über- ‚ebenden als Ordinate abgetragen, dann läßt sich die Summe der (x) Lebenszeiten als die durch die Dekrementkurve, die Ordinate 1(x) und die Abszissenachse begrenzte Fläche finden (dies erhellt analog lem vorigen Beispiel): und die mittlere Lebensdauer ergibt sich dann 99» 356 mittels Division dieser Summe (Fläche) durch 1(x). — Weitere Bei- spiele folgen. 237. Daß eine Größe als eine durch eine gewisse Kurve be- yrenzte Fläche dargestellt gedacht werden kann, gibt Veranlassung zu folgenden zwei Fragen: 1. Wie wird die Größe einer durch eine gegebene Kurve und yegebene Ordinaten begrenzten Fläche berechnet? 2. Wie konstruiert man eine Kurve, die zwischen gegebenen Ordinaten gegebene Flächen abgrenzt? Mit Hilfe der Interpolation lassen sich diese Aufgaben appro- ximativ. analog den im Vorhergehenden behandelten Interpolations- aufgaben lösen. 2338. Hinsichtlich der ersten dieser beiden Aufgaben sei gleich bemerkt, daß die Voraussetzung für die Bestimmung der Größe einer der beispielsweise in Figur 4 zwischen den Ordinaten EF und ND gelegenen entsprechenden Fläche die sein muß, daß man sich ent- weder mittels direkter Beobachtung oder durch Interpolation Kenntnis von der Größe der Kurvenordinate für eine beliebige Abszisse im Intervall von E bis N verschaffen kann. Man kann sich dann bei einer Reihe von Ordinaten, deren Größen sich sämtlich finden lassen, die gesuchte Fläche in eine Reihe von Streifen geteilt vorstellen; diese Streifen macht man aus praktischen Gründen in der Regel gleich breit, sie brauchen jedoch nicht mit Notwendigkeit diese Forderung zu erfüllen. Dagegen wollen wir uns, wenn die Kurve durch das ganze hier betrachtete Intervall nicht entweder ständig steigend oder ständig fallend ist, die Teilung in jedem Fall so durch- geführt denken, daß einer dieser Forderungen in jedem der betrach- teten Teilintervalle genügt ist. Bezeichnet man nun die Breite eines solchen Teilintervalles mit h und die Höhe der es be- grenzenden zwei Ordinaten mit y, und y, (von denen z. B. y, die kleinste sei), dann ist es klar, daß die Fläche x des betrachteten Streifens in jedem Fall zwischen den Grenzen hyı <«“ <hy, liegt und daß man mit Annäherung &= OL nl DM erhält, welche Formel (Trapez-Formel), falls die Kurve in dem be- trachteten Intervall eine gerade Linie wäre, genau die Fläche des Streifens ergeben würde. Durch Addition der Flächen sämtlicher 357 Streifen kann man ferner teils Grenzen, zwischen denen die ganze Fläche gelegen ist, teils einen annähernden Ausdruck für die Fläche finden. Es ist einleuchtend, daß diese Art der Berechnung um so bessere Resultate ergibt, je mehr sich die Kurve einer Geraden nähert, d. h. je schwächer sie sich im Intervall krümmt!), und daß man daher im allgemeinen um so genauere Werte für die Fläche ermitteln muß, in je zahlreichere Streifen man die betrachtete Fläche teilt. Hierfür sei folgendes Beispiel gegeben: 239. Aus der oben im $ 229 erwähnten deutschen Sterbetafel äßt sich hinsichtlich der Zahl der überlebenden Kinder bei Vollen- lung des 20., 25., 30. .... Jahres folgender Auszug machen: Überlebende Überlebende = CN se 38 Q01 36 467 SE 47 167 "92 768 EC ) ‘ x 3f 20 30 40 50 60 | AU 80 90 100 Jahre Fig. 9 1) Auf Grund der verschiedenen Voraussetzungen über die Krümmung der Kurve im Intervall läßt sich eine Reihe verschiedener anderer Quadraturformeln ableiten; da die Ableitung sämtlicher Formeln die Kenntnis von der Infinite- simalrechnung voraussetzt, wird hier nur die Trapez-Formel behandelt; vgl. im äbrigen L. v. Bortkiewicz, Über die Quadratur empirischer Kurven, Skan- dinavisk Aktuarietidskrift, Aarg. IX, Uppsala 1926, S. 4, wo u. a. eine umfang- reiche Sammlung von Quadraturformeln mitgeteilt ist. 358 In der vorstehenden Figur ist das Alter der Abszisse und die Zahl der Überlebenden als Ordinate angesetzt; um die mittlere Lebensdauer für 20-jährige zu berechnen, gilt es, die von der Über- iebenskurve begrenzte Fläche zu ermitteln. Denkt man sich zunächst, daß nur für 20, 60 und 100 Jahre die Zahl der Überlebenden gegeben ist und daß man in den zwei Inter- vallen von 20—60 Jahren und von 60—100 Jahren die Überlebens- kurve durch die mittels der Anzahl von Überlebenden in diesem Alter bestimmte Gerade (welche in der Figur punktiert angegeben wird) ersetzt, dann ist die Fläche (die von den 68201 Personen seit dem 20. Jahre durchlebte Zeit) gemäß der oben angeführten Formel für die Fläche des Trapezes !) A, = 40 (1.68201 + 1-:44814) + 40 (1.44814 + 18), A, = 3156700 Jahre, wonach die gesuchte mittlere Lebensdauer € — =— 46,29 Jahre ist. Teilt man das Intervall von 20 bis 100 Jahren in 4 gleich große Teile und nutzt man die Kenntnis von der Anzahl von Über- lebenden im Alter von 20, 40, 60, 80 und 100 Jahren aus, so ergibt sich analog, daß Az = 20 (1 68201 + 59467 + 44814 + 9773 + 1 8) A, = 2963170 Jahre, A, . ; ® = 68901 — 43,45 Jahre. Wenn man allmählich das ganze Intervall von 20 bis 100 Jahren in stets mehr und kleinere Intervalle zerlegt, erhält man u. a. folgende Resultate: Intervall Mittlere Lebensdauer 40 Jahre 46,29 Jahre 20) 43,45 Tom 43,41 ,, J 43,38 1 Jahr 43,37 Es geht hieraus hervor, daß die Verbesserung der Genauigkeit, die man durch Benutzung von Intervallen von abnehmender Größe erzielt, allmählich kleiner und kleiner wird. Betrachtet man die Werte der mittleren Lebensdauer, die durch Benutzung von Intervallen von verschiedener Größe (h) erzielt werden, als eine 1) Es wird hier die von den 8 Personen, welche das 100. Jahr erreichen, durchlebte Zeit außer Betracht gelassen, da sie ohne jegliche Bedeutung ist, 359 Funktion von h, dann kann man durch Extrapolation zu h = 0 z. B. aus folgendem tabellarischen Auszug aus den oben angeführten Zahlen ersehen, daß die mittlere Lebensdauer auf jeden Fall an- nähernd ebenfalls 43,37 Jahre sein würde, falls man ferner noch die Intervalle so stark begrenzen könnte, daß sie zuletzt die Größe Null hätten: Intervall h . Jahr 5 Jahre ı Jahr 7) 23 10 Jahre Mittlere Lebensdauer für 20-jährige 4337 1,57 43.41 0,0055 1.0060 x 0° 0.0040 3,C00389 72389 0.000389 0.000389 Wünscht man jedoch die mittlere Lebensdauer nicht mit mehr als einer Dezimale zu berechnen, so macht es, wie ersichtlich, keinen Unterschied, ob eine Zerlegung in 10-jährige oder kleinere Intervalle erfolgt und in diesen die Überlebenskurven durch gerade Linien- stücke ersetzt werden. Dies ist ein Resultat, das analog den weiter oben gefundenen Interpolationsresultaten für den Zweck der Interpolation überhaupt charakteristisch ist. 240. Man kann indes nicht erwarten, immer solch gute Re- sultate mit so wenigen Mitteln zu erzielen. Wenn sich die Kurve in dem ganzen betrachteten Intervall nach derselben Seite krümmt, 30 werden die Fehler, die dadurch begangen werden, daß man abteilungsweise die Kurve durch gerade Linienstücke ersetzt, sämt- lich gleiche Vorzeichen haben und nicht, wie im soeben betrachteten Beispiel, auf einer Strecke positiv, auf einer anderen negativ (vgl. Figur 9) sein; es läßt sich dann erst mittels stärkerer Teilung des [ntervalles eine ähnliche gute Übereinstimmung erzielen. Als Beispiel hierfür sei die Bestimmung der von einer variablen Volkszahl in einem gegebenen Zeitraum durchlebten Zeit erwähnt. Oft wird angenommen, daß die Volkszahl in der Mitte der Periode auch als Ausdruck für die durchschnittliche Volkszahl betrachtet werden kann, welche Zahl mit der Periode als Zeiteinheit die von der Bevölkerung in der Periode durchlebte Zeit angibt. Diese An- nahme würde dem entsprechen, daß man für die ganze Periode die 360 Kurve, welche die Variation der Volkszahl wiedergibt, gegen ein gerades Linienstück vertauscht. Wenn diese Annahme Stich hält, dann kann man ebenfalls die durchschnittliche Volkszahl und damit die durchlebte Zeit berechnen, indem ganz einfach die mittlere Zahl aus der Volkszahl zu Beginn und am Schluß der Periode gebildet wird; da jedoch die Rechenmethode voraussetzt, daß die Volkszahl jeden- falls sich annähernd linear verändert, so wird sie in der Regel nur dann verwendbar sein, wenn die Perioden (Intervalle) so klein sind, daß von der Krümmung abgesehen werden kann. Die mit der Zeit erfolgende Variation der Volkszahl wird indes oft durch eine Kurve wiedergegeben werden, die sich im ganzen betrachteten Intervall nach derselben Seite krümmt, und eine Teilung des Inter- valles wird dann oft bei der Berechnung der durchlebten Zeit resp. der mittleren Volkszahl von Bedeutung sein. Aufgabe 70. Auf Grund der in der Tabelle 47 (Seite 350) angeführten Zahlen für den Bevölkerungszuwachs in jedem der Jahre 1911 bis 1915 ist die in diesem Jahrfünft von der Bevölkerung durchlebte Zeit und die mittlere Volks- zahl zu berechnen. Aufgabe 71. Unter Benutzung der in der Aufgabe 66 erwähnten Inter- polationskurve sind die Flächen der zwischen den Ordinaten der Abweichungen +4, +, 423....... usw. gelegenen Streifen zu berechnen und mit den entsprechenden Streifen nach dem Exponentialgesetz (Tabelle 22) zu vergleichen. 241. Wie man zur Berechnung der Größe einer durch zwei Ordinaten begrenzten Fläche notwendigerweise die Möglichkeit voraussetzen muß, durch Beobachtung oder Interpolation beliebig viele Punkte (Ordinaten) der Kurve bestimmen zu können, so hat man, um umgekehrt eine Kurve (Verteilungskurve) finden zu können, welche zwischen gegebenen Ordinaten Flächen von gegebener Größe abgrenzt, vorauszusetzen, daß man sich durch Beobachtung oder Interpolation Kenntnis von der Größe der Fläche zwischen beliebigen Ordinaten, speziell zwischen Ordinaten, welche willkürlich dicht aneinander liegen, verschaffen kann. Unter anderem muß man auch mittels Beobachtung oder Interpolation den Verlauf der Funktion (Kurve) feststellen können, welche die Größe der Fläche zwischen einer festen unteren (oder oberen) Ordinate und die Ordinate angibt, die einer willkürlichen (variierenden) Abszisse entspricht, eine Funktion, die wir kurz die Flächen- funktion (Flächenkurve) nennen können. Beispielsweise ist be- reits in der Tabelle 40 (Kolonne 3) eine solche Flächenfunktion dar- gestellt worden. 361 Wenn man sich durch Beobachtung oder Interpolation unbe- grenzt viele Werte der Flächenfunktion (Punkte der Flächenkurve) verschaffen kann, dann kann man auch leicht die einem beliebigen [ntervall entsprechende Fläche bestimmen. Sind A Personen zwischen 25 und a Jahren, und B Personen zwischen 25 und b Jahren (a < b), dann ist die Anzahl von Personen zwischen a und b Jahren ganz zinfach B—A, Man kann hierbei von der Kenntnis von den Flächen giner Verteilungskurve in gewissen gegebenen Intervallen aus die Größe der Flächen in anderen Intervallen, die sich nicht un- mittelbar aus den gegebenen zusammensetzen lassen, berechnen. Aufgabe 72. Ein Verteilungsgesetz (eine Frequenzkurve) wird in einem Intervall durch eine wagerechte Linie dargestellt. Zeichne die Flächenkurve der Verteilung in dem betrachteten Intervall! Aufgabe 73. Zeichne auf Grund der Tabelle 22 die dem Exponential- gesetz entsprechende Flächenkurve, welche die Größe der Fläche angibt, die links von einer willkürlichen Ordinate der Exponentialkurve liegt; vergleiche ferner diese Kurve mit derjenigen, welche sich ganz analog nach den Zahlen der Ta- elle 1 (S. 109) konstruieren läßt. 242. Als Beispiel geben wir die folgenden der englischen Volks- zählung des Jahres 1901 entnommenen Zahlen bezüglich der Alters- zliederung der Eisenbahnbeamten (railwav officials, clerks): 15— 97 Tob- 25— 35 15— 535— 1. N Zu8. 1000 og Nehmen wir nun an, daß nur bekannt ist, daß sich zwischen 15 und 35 Jahren . . . 602% 35 „ 55 » 2... 309% und über 55 ” .„.. 896, finden, und daß man mittels Interpolation die zwei ersten Alters- klassen in Gruppen von 10 Jahren zu teilen wünscht. Aus den ge- zebenen Zahlen läßt sich dann folgende Tabelle über die der Ver- teilung entsprechende Flächenfunktion bilden: 1 39 55 100 Mittels der Newtonschen Interpolationsformel lassen sich hier- aus drei dividierte Differenzen erster, zwei zweiter und eine dritter Ordnung bilden; läßt man letztere konstant. dann entspricht einem A 362 x — 25 der Wert y = 343, und einem x = 45 der Wert y = 788. Die gesuchte Altersgliederung ist dann: 15—25 Jahre . ... . . 343 %o 25—35 » ..0....259, 35—45 2» 2.0... .18% , 45—55 „123 Die Übereinstimmung mit den faktischen Zahlen ist allerdings nicht vollkommen, aber die Methode gibt auf jeden Fall ein Mittel in die Hand, bei manchen Untersuchungen die Fehler um ein Er- hebliches zu verkleinern. Beispielsweise steigt die Sterblichkeit, wie bekannt, in gewissen Altersperioden stark; wie wir im folgenden Kapitel sehen werden, kann man daher Gefahr laufen, ein weniger richtiges Bild von der Größe der Sterblichkeit als das durch Teilung bei einer Interpolation erzielte zu erhalten, wenn man zu den beobach- teten Zahlen für größere Altersklassen seine Zuflucht nimmt, obgleich die anläßlich der Interpolation erfolgte Teilung natürlich nie wirk- liche Beobachtungen ersetzen kann. Aufgabe 74. Nach der englischen Bevölkerungsstatistik (Supplement to the 75th annual report of the Registrar General) gliederten sich die bei der im Jahre 1911 in England und Wales abgehaltenen Volkszählung gezählten Rechts- anwälte (barristers and solicitors) nach Alter, wie unten angeführt. Ebenfalls ist die Verteilung nach dem Todesalter für die in derselben Bevölkerungsgruppe in den Jahren 1910 bis 1912 eingetretenen Sterbefälle ersichtlich. Anzahl von Volkszahl Sierbefällen 1911 1910 —12 15063 48 16284 93 7430 209 1310 993 4965 258 92016 2302 25—35 Jahre 35—45 45—55 55—65 65—75 über 75 Untersuche, zu welchem Resultat man gelangt, wenn man sich diese Ver- ‚eilung durch Interpolation verschafft, und zwar von der Verteilung auf die Alters- -Jassen 25 bis 45, 45 bis 65 und 65 bis 100 Jahre aus, welche Gliederung aus len angeführten Zahlen erhellt. Wie viele waren im Jahre 1911 am Leben und wie viele starben von 1910 5is 1912 in jeder 5-jährigen Altersklasse von 25 bis 75 Jahren? Aufgabe 75. Finde durch Interpolation in der Tabelle 34 (S. 284), wie- riele %,, der Gemessenen ein Körpergewicht zwischen 51 und 53 kg hatten. 243. Wenn man bei der Interpolation in einer numerisch ge- gebenen Verteilung nicht die eigentliche Verteilungskurve betrachtet, sondern die Interpolation an der dem Verteilungsgesetz entsprechenden Flächenkurve vornimmt, dann wird die Genauigkeit, mit der sich eine Flächenkurve mit einer Parabel irgendeiner Ordnung Vver- » 363 tauschen läßt, dafür entscheidend, in welchem Umfange man auch bei Interpolationen in Verteilungsgesetzen die Newtonsche Formel benutzen kann. In dieser Beziehung nun bieten die Flächenkurven anderen Abhängigkeiten gegenüber keine Besonderheiten, solange es sich um Interpolation über kleinere Intervalle handelt. Hat man es jedoch mit längeren Intervallen und speziell mit längeren Strecken der betrachteten „äußersten“ Intervalle der Verteilung zu tun, in denen gerade oft für die Interpolation Verwendung sein wird, dann bieten die allermeisten Flächenkurven der Verteilungen solche besonderen KEigentümlichkeiten, daß sich die Newtonsche Formel in praxi hier nie anwenden läßt; ein Beispiel möge dieses Verhältnis näher beleuchten. Betrachtet man z. B. die Flächenkurve, welche auf Grund der dänischen Volkszählung im Jahre 1921 angibt, wie viele °/g sämtlicher Männer unter gegebenem Alter x (jünger als gegebenes Alter) waren vgl. Fig. 10), so liegt es auf der Hand, daß die Kurve ständig mit 9 a0 50 60 %U Fig. 10. 80 790 700 wachsendem x steigen muß; andererseits können ihre Ordinaten nicht über 1000 hinaus wachsen. Da die Zulagen, mittels deren die Kurvenordinaten von einer Altersstufe zur nächsten anwachsen, in jedem Fall für die höheren Alter stets kleiner und kleiner werden. — 364 so muß die Alterskurve mit größer werdendem x langsamer und langsamer wachsen und muß um 100 Jahre herum (welches Alter nur äußerst wenige überschreiten) schließlich so gut wie wagerecht sein, d. h. die wagerechte Linie in der Höhe 1000 berühren. Etwas ganz Analoges muß natürlich gelten, wenn man die derselben Alters- gliederung entsprechende Flächenkurve betrachtet hätte, deren Ordi- naten angeben, wie viele %, über (älter als) x Jahre sind, da diese Flächenkurve mit der zuerst betrachteten Kurve hinsichtlich einer wagerechten Linie in der Höhe 500 %, symmetrisch sein muß, Die Kurve muß stets absteigen und schließlich die Abszissenachse in einem Punkte in der Nähe des durch x = 100 Jahre bestimmten Punktes berühren. Überhaupt wird die Flächenkurve, welche einer Verteilung entspricht, in der die extremen Fälle, beispielsweise auch las Exponentialgesetz, selten sind, den hier für die Altersverteilung erwähnten charakteristischen Verlauf aufweisen; und wo es sich um Verteilungen, z. B. um Altersverteilungen handelt, deren Form mit yeringen Ausnahmen durch gleiche Ursachen bestimmt wird, da werden die entsprechenden Flächenkurven oft eine auffallende Gleichheit aufweisen. Wenn man indes mittels Interpolation nach der Newtonschen Formel versuchen will, für die männliche Bevölkerung in Dänemark nach der Volkszählung 1921 den Verlauf der Flächenkurve zu be- stimmen, z. B. von folgenden Daten aus: unter 40 Jahren waren 715% 0 „60 ” 903 , ” 100 2? 2 1000 ” dann findet‘ man mittels der hier möglichen Interpolation zweiten Grades folgende Resultate: unter 80 Jahren waren 998 %/o „ &% „1008 , »„ 90 „1011 , „ 9 » „ 1008 , welche augenscheinlich absurd sind. Und das Ergebnis wird nicht besser, selbst wenn man die Ordinate der Flächenkurve (0,992 °/0o) für x = 80 Jahre kennen und benutzen und an einer Parabel dritten Grades interpolieren würde. Eine einfache lineare Interpolation in jedem der betreffenden Intervalle würde hier Resultate ergeben, welche, ohne gerade befriedigend zu sein, insofern als besser anzusprechen wären, als sie auf jeden Fall nicht die betonte Absurdität aufweisen würden. Eins der bequemsten Mittel zur Überwindung dieser Art Schwierigkeiten ist (wie im $ 232 erwähnt) die Anwendung der gra- 365 phischen Interpolation, wenigstens zur Bestimmung von so vielen Punkten, daß man dadurch auf Intervalle hinunter gelangt, deren Größe nicht die Anwendung der Newtonschen Formel hindert. Ein anderes zu Zeiten verwendbares Hilfsmittel wird weiter unten im S 246 besprochen. Aufgabe 76. Zeichne die den Verteilungen in der Tabelle 28 (Seite 268) und in der Tabelle 40 (Seite 311) entsprechenden Flächenkurven. 244. Wenn man bei direkter Beobachtung oder durch Inter- polation beliebig viele Punkte der Flächenkurve finden kann, dann kann man auch die Flächen zwischen willkürlich dicht aneinander liegenden Aal J 1 90 & } 30 40 50 60 70 Fig. 11. Ordinaten (beliebig schmale Streifen) finden. Zeichnet man hiernach über jedem Teil-Intervall als Grundlinie ein Rechteck von solcher Höhe ?), daß es gerade die dem Teil-Intervall gehörende Fläche enthält, ‘) Hat die Flächenfunktion für x und x + a die Werte A(x) und A(x + a), dann ist die Größe der im Intervall von x bis x+a durch die Verteilungskurve begrenzten Fläche A(x+ a)— A(x):; die Höhe muß demnach ze A sein, d. h. gleich der ersten dividierten Differenz der Funktion A(x) im be- trachteten Intervall. 366 dann wird man aus der dabei erzielten „Treppenkurve“, welche bruch- stückweise aus kurzen, der Abszissenachse parallelen Linienstücken zusammengesetzt ist, ein annäherndes Blid von der Form derjenigen Kurve (Frequenzkurve) erhalten, die zwischen gegebenen Ordi- naten gegebene Flächen abgrenzt; je mehr und je kleinerer Intervalle man sich hierbei bedienen kann, desto leichter fällt es dann dem Zeichner, die Treppenkurve durch eine mehr oder weniger regel- mäßig verlaufende kontinuierte Kurve zu ersetzen. Dies läßt sich unmittelbar bewerkstelligen, wenn die Flächen der Teil-Intervalle durch eine zweckmäßig gewählte Interpolationsformel bestimmt werden können. Werden die Beobachtungen jedoch so sehr in Einzelheiten durchgeführt, daß die Flächen der Teil-Intervalle selbst bei einer weit- gehenden Teilung durch direkte Beobachtung bekannt sind, dann wird man oft Unregelmäßigkeiten der im $ 219 erwähnten Art be- merken, welche die gleichzeitige Vornahme einer (graphischen) Aus- gleichung begründen können; zur Beleuchtung dessen sei auf die vorstehende Fig. 11 hingewiesen, welche die Altersgliederung der bei der dänischen Volkszählung 1921 erhobenen männlichen Be- rölkerung wiedergibt. Da die Altersgliederung direkt für 1-jährige Altersgruppen bearbeitet vorliegt, kann man bei der graphischen Darstellung 1-jährige Intervalle benutzen und erzielt bereits hierdurch ein recht gutes Bild von der Form der Altersgliederung. Aufgabe 77. Eine Flächenkurve ist in einem Intervall durch eine nicht wagerechte Gerade dargestellt; zeichne die der Flächenkurve entsprechende Frequenzkurve. Aufgabe 78. An Margarine wird in Dänemark durchschnittlich jährlich produziert : im Jahrfünft 1901 — € . . 21,13 Mill. kg „ » 1906 — 10 .....228 „ x» . = = r1911—15. .., .42,73 - Finde hieraus mittels Interpolation einen Ausdruck für die Größe der Produktion in den Jahren 1907 und 1916, wo die faktische Produktion jeweils 27110 und 56480 Tons betrug. Zeichne eine Kurve, die das Anwachsen der Margarineproduktion in den Jahren 1901—15 zeigt, und berechne die Margarineproduktion für die Jahre 1904—13 (inel.). Aufgabe 79. Zeichne eine Kurve, deren durchschnittliche Höhe im Intervall 0 bis 1. . . .204 beträgt 1 2....209 2 .,3....24 Wenn der amtliche dänische Lebenshaltungsindex im Juli 1923 (204) als Ausdruck für die durchschnittliche Höhe der Preise in der Zeit vom 15./2. 1923 bis 15./8. 1923 genommen wird und analog die Indices im Januar 1924 (209) 367 und Juli 1924 (214) als Ausdruck für die Preislage in der Zeit vom 15.,8. 1923 bis 15./2. 1924 und vom 15./2. 1924 bis 15./8. 1924 gelten, welches war dann ver- mutlich der Lebenshaltungsindex jeweils am 1./8. 1923, 1./2. 1924 und 1./8. 1924? 245. Wie eine Betrachtung der Figur lehrt, liegt es nahe, die Treppenkurve durch Zeichnung einer kontinuiert verlaufenden Kurve auszugleichen, die sich so nahe wie möglich dem Verlauf der Treppenkurve anschmiegt. In welcher Weise sich eine solche Aus- gleichung vornehmen läßt, das wird im folgenden erörtert werden und natürlich vom Grade der Verwendung der Verteilungskurve ab- hängig sein. Namentlich zum Vergleich zwischen der Form der Ver- teilung in verschiedenen vorliegenden Gruppen wird man in der Regel keiner größeren Genauigkeit bedürfen als derjenigen, die sich mittels dieser Methode erzielen läßt, um bereits dadurch auf Ver- schiedenheiten aufmerksam zu werden, deren Bedeutung sich sonst leicht der Aufmerksamkeit entzöge. Beispielsweise sei folgende Figur 12 angeführt, die nach dieser Methode gezeichnet ist 1 10 220. 30. 40 50 60 70 Fig. 12. and sehr anschaulich ‚die Verschiedenheiten hervortreten läßt, die sich nach der Volkszählung 1921 zwischen der Altersgliederung in ler Hauptstadt (s. die kräftige Kurve), in den Provinzstädten (s, lie punktierte Kurve) und in den Landgemeinden (s. die schwache Kurve) fanden und hinter denen sich Ursachen von so durchgreifendem Charakter verbergen müssen. daß eine nähere Untersuchung ver- 'ohnend erscheint. 368 246. Infolge der oben im $ 243 erwähnten Gleichheit, die sich oft zwischen Flächenkurven findet, welche die Verteilung verschiedener Gruppen nach gleichen Kennzeichen beschreiben, wird die weiter »ben im $ 234 genannte Methode der Interpolation durch zahlen- mäßig gegebene Muster oft auf Resultate Aussicht haben, die sich besser begründen lassen als die mittels graphischer Interpolation erzielten !). Hierfür sei ein Beispiel gegeben: ; Nach der dänischen Volkszählung 1911 war die Zahl der Männer äber 60 Jahre (von einigen über 100 Jahre alten Personen abgesehen) für das ganze Land 122646; hiervon entfielen 14543 auf Kopen- hagen. Die Verteilung nach fünfjährigen Altersklassen war folgende: Dänemark Kopenhagen ‚ 40935 5838 57 387 3890 BF 2478 26 60— 65 Jahre 656— 70. 70— 75 75— 80 30— 8: 835— 90— ' 05— 5 7 Zusammen 122640 „4 543 Hieraus lassen sich die diesen Verteilungen entsprechenden Flächenkurven bestimmen, indem z. B. berechnet wird, wie viele von 1000 Männern im Alter von 60 bis 100 Jahren über x Jahre alt waren; hierdurch gewinnt man die in der Tabelle 48 angeführten Zahlen: über 37 »” ” » ” 15 99 X 60 Jahre 6 9, 95 29 RG Tabelle 48. Dänemark Kopenhagen 599 331 161 In welchem Grade sich die hierbei bestimmten Flächenkurven ähneln, das erhellt aus der Figur 13, in der die Kurven für Däne- mark und Kopenhagen jeweils mit D und K bezeichnet sind. Nehmen wir nun an, daß die vollständige Altersgliederung für das ganze Land bekannt ist, daß man jedoch hinsichtlich der Alters- gliederung der „Alten“ in Kopenhagen nur weiß, daß 14543, d. h. ı H. Westergaard, Die Anwendung der Interpolation in der Statistik, Jahrb. f. N. u. St., III. Folge, Bd. 9, Jena 1895, 8. 183 ff. 369 ca. 70°%0 sämtlicher Männer in Kopenhagen, älter als 60 Jahre sind. Werden diese 70%, anstatt nach der Kurve K nach der Kurve D verteilt, dann findet man als Ausdruck dafür, wieviele % 9 der ge- samten männlichen Bevölkerung Kopenhagens über x Jahre alt waren, 60 bh 95 100 | —. die folgenden in der Tabelle 49 berechneten Zahlen, wo zugleich die faktischen, die sich beim Gebrauch der Kurve K ergeben, zum Ver- yleich angeführt sind. 50 Jahre an Tabelle 49. Berechnet Beobachtet N 35 90 20 Diese Zahlen machen ganz einfach 70°%,g der in der Tabelle 48 jeweils für Dänemark und Kopenhagen angeführten aus. Betrachtet man beispielsweise die Verteilung nach 10-jährigen Altersklassen, so ergibt sich unmittelbar aus der Tabelle 49 folgende Verteilung: 00— 70 Lahr 70— 8 30— 9° 90—100 B über 60 Jahre... . . 70% Westergaard und Nvbolle. Theorie der Statistik. 2. Aufl Berechnet "% Beobachtet 47° 19 4 »” 0, 701 3710 — 247. Diese Interpolation entspricht genau der oben im $ 234 für das Intervall 0 bis 20 Jahre vorgenommenen. Bezeichnet man die Ordinate der bekannten Kurve Dim Punkte (Alter) x mit D(x) und lie Ordinate der Kurve K in demselben Punkte mit K (x), dann beruht die Berechnung wie gesagt darauf, daß man damit gerechnet hat, daß K(x) = D(x). Kennt man indes nicht nur die Anzahl von Männern über 60 Jahre (14543), sondern weiß gleichzeitig, wieviele dieser z. B. unter und über 80 Jahren liegen, d. h. man kennt die Ordinate der Kurve K im Punkte‘ x = 80 Jahre [K (x) = 59%, vgl. Tabelle 48], dann läßt sich ein noch besseres Resultat erzielen, indem K(x) durch D(x) ausgedrückt wird, so daß eine Übereinstimmung nicht nur in dem x = 60, sondern auch in dem x = 80 Jahre entsprechenden Punkte erzielt wird. Beispielsweise setze man K(x) = D(x)-(a + bx) und bestimme die Konstanten a und b in der Weise, daß dieser Ausdruck sowohl für x =— 60 wie für x = 80 mit den beobachteten Zahlen übereinstimmt. Nimmt man der Einfachheit halber das Alter von 60 Jahren ab mit Jahrfünften als Einheit (d. h. x = 0, 1, 2, 3 und 4 — jeweils für das Alter von 60, 65, 70, 80 Jahren usw.), dann ergibt sich nach Tabelle 49 ; Alter x D (x) K (x) 60 Jahre 0 70 70 80 4 6 4 Man bekommt also 70(a + b-0) = 70 6(a+b-4) = 4 ınd hieraus wiederum a = 1undb = — 7 so daß also K(x) = D@+(1— 15% welche Formel dann für x = 0, 1, 2, 3...... folgende Werte für K (x) ergibt Alter 30 65 70 75 80 Bi 85 5 30 6 194. 2. L 7 6 | . “ Kix K (x) 70 43 28 371 Hieraus ergibt sich unmittelbar die in der folgenden Übersicht angeführte berechnete Verteilung; die beobachtete geht aus der Ta- belle 49 hervor. Beobachtet 50— 65 Jahre RO B5— 70 a 70— 75 @ 75— 8 30— » 35—100 — n Zus. über 60 Jahre Wo 70 0 248. Solange die Interpolation von K(x) nicht weiter geführt werden soll als zu Intervallen von der Größe, in der D (x) mittels Beobachtung graphisch dargestellt ist, dann verlangt also die Me- thode, wie oben im $ 234 erwähnt, nicht, daß die Kurve D (x) durch ein algebraisches Polynomium oder durch eine andere Formel aus- gedrückt wird. Bemerken wir ferner, daß die Methode darauf beruht, daß man nicht (wie zuerst getan) durch das ganze Intervall von 60 bis LO0O Jahren das Verhältnis De konstant hält, sondern es linear mit lem Alter variieren läßt, dann ist es ein Leichtes, die Anwen- lung der Methode auch auf solche Fälle auszudehnen, in denen Jurch Beobachtung noch mehr Punkte der gesuchten Interpolations- kurve K(x) bekannt sind. Kennt man z. B. das Verhältnis zwischen K(x) und D(x) in 3 Punkten (z. B. 60, 70 und 80 Jahren entsprechend), dann kann man Den = a + bx + cx? setzen und die Konstanten a, b und c so bestimmen, daß dieses Poly- nomium zweiten Grades mit Den in den 3 Punkten übereinstimmt wonach es zur Berechnung des Wertes des Verhältnisses in neuen Punkten angewandt werden kann. Da es sich hierbei um ein ganzes algebraisches Polynomium handelt, lassen sich diese Be- rechnungen, wie im $ 222 gesagt, am leichtesten mittels eines Diffe- renzschemas durchführen, und die ganze Methode läuft dann auf nichts anderes hinaus als daß man, anstatt die Newtonsche Formel lirekt auf K(x) anzuwenden, diese für das Verhältnis De (vgl. S 216) benutzt. Da wir uns K{(x) natürlich ganz anders durch D(x) ausgedrückt denken können als durch den Quotienten m — 372 dieser Größen, so liegt hier, wie man sieht, eine Mannigfaltigkeit von Möglichkeiten vor. Auf Grund der eigentümlichen Form, in der die Flächenkurven der meisten Verteilungen in den extremen Intervallen verlaufen, wird es sich — speziell durch Inter- polation in diesen — oft verlohnen, den Logarithmus zu DO zu betrachten und zu versuchen, mittels der Newtonschen Formel die Differenz log K—log D durch ein Polynomium irgend einer nicht zu hohen Ordnung auszudrücken. Eine Bedingung dafür, diese und ähnliche Methoden benutzen zu können, ist indes die, daß man durch Beobachtung hinlänglich detaillierte Kenntnis zu Verteilungen ähnlicher Art hat. Benutzt man solche als Vorbild, dann kann man oft nicht nur gute An- näherungswerte finden, sondern wird namentlich Widersinnigkeiten der Art vermeiden, welche die direkte Anwendung der Newtonschen Formel über längere Intervalle mit sich führen kann (vgl. $ 243). Hätte man so in dem im $ 247 behandelten Beispiel, mit den 60, 80 und 100 Jahren entsprechenden Punkten der Flächenkurve für die Altersgliederung in Kopenhagen als Ausgangspunkt, diese Kurve direkt mittels der Newtonschen Formel bestimmt, dann hätte man z. B. für die Ordinate der Flächenkurve im Punkte x = 90 Jahre len Wert 1006 °%,g erhalten, welcher natürlich absurd ist. Aufgabe 80. Nach der dänischen Volkszählung 1921 war die Zahl der Hofbesitzer u. ähnl. (Männer) in den Landgemeinden über 50 Jahre ... .. 24848 60 » 20404. 10041 » 70 2% 204000. 2205 während für die gesamte männliche Landbevölkerung die Zahlen betragen: über 50 Jahre . „ . 168 604 BA 129 678 96 557 65 618 10) 614 21.783 188 an 41€ Y ” au ” ” * - Benutze diese Zahlen für eine Verteilung der 24848 Hofbesitzer nach Jahr- fünften. Aufgabe 81. Nach der Volkszählung 1921 betrug die Zahl der Hofbesitzer x. ähnl. mit einem Jahreseinkommen im Jahre 1920 von mehr als 20000 Kr. .... 302 „ » 50000 ++. 15 „ 100000 373 Nach der Steuerstatistik war in den Landgemeinden die Zahl der Steuer- zahler mit einem Jahreseinkommen im Jahre 1920 von mehr als 20000 Kr A) 2 334 "095 693 J01 275 L65 63 I WW Verteile mittels dieser Zahlen die 302 Hofbesitzer auf dieselben Einkommen- gruppen. 249. Hat man durch Beobachtung oder mittels Interpolation ausreichend detaillierte Kenntnis z. B. von der Verteilung des Ein- kommens nach der Größe, dann muß man auch die Totale (Ein- kommenmasse) finden können, teils der Einkünfte, die auf will- kürlich gegebene Einkommenintervalle entfallen, teils sämtlicher Einkünfte, welche die Verteilung überhaupt umfaßt; wie wir uns eine Kurve vorstellen können, welche die Größengliederung der Einkünfte darstellt, sodaß die zwischen den den Einkünften x, und x, (X; < X) entsprechenden Ordinaten liegende Fläche die Zahl der zwischen x, und x, liegenden Einkünfte angibt, so kann man sich auch eine Kurve C gezogen denken, welche die Verteilung der Einkommenmasse darstellt, sodaß die zwischen der Kurve C und den den beiden willkürlichen Abszissen x, und x, entsprechenden Or- dinaten liegende Fläche die Summe der Einkünfte angibt, welche größer als x,, aber kleiner als x, sind; etwas ganz Entsprechendes gilt natürlich jeder beliebigen Verteilung (Verteilungskurve). Nun läßt sich, wie im $ 124 gesagt, der „Nullpunkt“ für das Kennzeichen (Alter, Einkommen, Körpergröße, usw.), wonach man sich die Einheiten verteilt vorstellt, ganz willkürlich wählen, speziell im Durchschnitt für sämtliche verteilten Einheiten, wenn dieser Durchschnitt erst bestimmt ist; da das Verteilungsgesetz also eben- sowohl ein Ausdruck für die Verteilung nach der Größe des eigent- lichen Kennzeichens wie für die Verteilung der Abweichungen ist, so ist es einleuchtend, daß sich bei hinlänglich genauer Kenntnis der Verteilungskurve nicht nur die Gesamtsumme aller Abweichungen in einem willkürlich gegebenen Intervall, speziell die Summe sämtlicher Abweichungen, finden lassen muß, sondern auch die Totale der Po- btenzen der Abweichungen, d. h. (vgl. $ 125) die Momente der be- trachteten Verteilung um eine beliebige Zahl (Nullpunkt) oder die Summe von Größen, welche in anderer Weise von der Größe der Einheiten abhängen. 374 Hiervon haben wir bereits oben bei der Berechnung der Momente für Verteilungsgesetze häufig Gebrauch gemacht, bei denen das Kennzeichen durch kontinuierliche Größen (Alter, Einkommen USW.) ausgedrückt wurde; bei diesen Berechnungen war die Voraussetzung gerade die, daß das Verteilungsgesetz hinlänglich detailliert vorlag, sodaß man ohne größere Fehler rechnen konnte, als ob z. B. (vgl. $ 178) diejenigen, welche zwischen 161,5 und 162,5 cm maßen, sämtlich 162 cm hoch waren und so auch in anderen Fällen; eine solche Rechenmethode entspricht gerade dem, daß man sich die eigentliche Verteilungskurve, wie im $ 244 erwähnt, gegen eine Reihe hinlänglich schmaler, rechteckiger Streifen vertauscht vor- stellen kann. 350. Wenn man sich indes überhaupt diesen Umtausch vor- genommen denken kann, wird es auch klar, wie man z. B. die Summe (Einkommenmasse) der Einkünfte berechnen kann, welche auf ein gegebenes — hinlänglich kleines — Einkommenintervall entfallen, und deren Anzahl durch die Fläche der über dem Intervall gelegenen rechteckigen Streifen dargestellt wird. Bezeichnet man nämlich die Höhe des Streifens mit y und die Breite mit a, dann ist die Zahl der Einkünfte im Intervall gleich a-y: und bei einer durchschnitt- lichen Größe dieser Einkünfte x ist ihre Totale gleich a-y-x. Zeichnet man nun über dem Teil-Intervall als Grundlinie ein neues Rechteck von solcher Höhe, daß es gerade den Inhalt a-y-x (also die Höhe y-x) erhält, und wiederholt man dies für jedes Teil- Intervall, dann wird die so ermittelte Treppenkurve ein annäherndes Bild der Kurve C ergeben, die zwischen gegebenen willkürlichen Ordinaten eine Fläche abgrenzt, welche die Gesamtsumme der in dem durch die Ordinaten abgegrenzten Intervall liegenden Einkünfte darstellt. Man kann dann auch auf dem Wege fortgesetzter Summie- rung der Flächen aufeinanderfolgender Streifen die der Kurve C entsprechende Flächenkurve bestimmen, deren Ordinaten die Größe der zwischen den Ordinaten einer festen unteren (oberen) und einer variablen oberen (unteren) Abszisse gelegenen Fläche angeben. Bei- spielsweise geben die Zahlen der Kolonne 2 in Tabelle 40 die Flächen der der Einkommenverteilung in Kolonne 1 entsprechenden Ver- teilungskurve C und die Zahlen der Kolonne 4 die dieser Kurve ent- sprechende Flächenfunktion an. Da die Kurve C in dem der Abszisse x entsprechenden Punkte die Ordinate (Höhe) y-x hat, wenn die eigentliche Verteilungskurve von der Höhe y ist, dann kann man auch die Kurve C bestimmen, indem für alle Werte von x, für welche y bekannt ist, y:x berechnet 375 wird, und danach, wie im allgemeinen die Fläche einer Kurve be- stimmt wird (vgl. 8 238), die Flächen und die Flächenkurve der Kurve C feststellen. Aufgabe 82. Zeichne auf Grund der Tabelle 40 die der Verteilung der Einkommenmasse entsprechende Flächenkurve. 251. Wir führen als Beispiel das folgende, zu dem wir im VII. Kapitel zurückkehren, an. x möge die Abweichung in einem Exponentialgesetz mit dem mittleren Fehler == 1 bezeichnen. Für y ergibt sich dann (vgl. $ 108) 1 — 1x? V2x“ Wie groß ist beispielsweise die Gesamtsumme und der Durch- schnitt der Abweichungen, welche größer als 1,13, aber kleiner als 1,91 sind? Teilt man das Intervall von 1,20 bis 1,90 in Stücke von der Größe 0,1, so erhält man insgesamt (die Intervalle 1,13 bis 1,20 und 1,90 bis 1,91 mitgerechnet) 9 Teil-Intervalle. Die Abszissen der Endpunkte dieser Intervalle sind in der folgenden Tabelle 50 (Ko- jonne x) angeführt. Zugleich ist die Höhe der Exponentialkurve ‘Kolonne y) in den Teilungspunkten angegeben, und in Kolonne C finden sich die hieraus berechneten Werte von xy (die Ordinaten ler Kurve C). In Kolonne B sind ferner die nach der Trapez- Formel ($ 238) berechneten Flächen der betrachteten Intervalle an- geführt, und in Kolonne A (die Flächenfunktion) findet man die Summen (von oben) der Teilflächen. Die Gesamtfläche der Kurve C in dem betrachteten Intervall ist also = 0,146. Tabelle 50, C 3,236 1233 Ä 113 1,20 L,30 L40 1,50 1,60 1,70 1,80 1,90 31 lu ),023 SP 0929 10393 a pr J,0610 0,0812 0,0998 0,1165 0,1317 0,1451 0.1463 JG ),.C20 —_ 0,019 0,017 0,015 0,013 9.091 % 0,100 0,117 0,132 0,145 3.146 ef m Ü} 65. 9,079 0,066 D.064 0,142 0.125 . 719292 - 376 — Da hier die Kurve C durch die Formel yy= A Ui Z==X°‘)Y = Van ® bestimmt ist, so lassen sich ihre Flächen natürlich mit beliebiger Genauigkeit finden, und zum Vergleich mit der bei obiger an- nähernden Bestimmung erzielten Genauigkeit ist in Kolonne A’ mit 4 richtigen Dezimalen die Größe der gleichen Flächen wie in der Kolonne A angegeben; wenn man nicht die Fläche mit mehr als 3 Dezimalen zu bestimmen wünscht, dann ist es also — wie hier getan — ausreichend, Intervalle von der Größe 0,1 zu betrachten. 252. Da die zwischen den Abweichungen 1,13 und 1,91 durch das Exponentialgesetz begrenzte Fläche nach der Tabelle 22 gleich 0,101 wird, so ist also der Durchschnitt der zwischen 1,13 und 1,91 liegenden Abweichungen, wenn sich diese exponentiell verteilen, g = No = 1,45, während man, wenn die Abweichungen gleich- mäßig im Intervall verteilt gewesen wären (die Verteilungskurve also eine Wagerechte wäre), für g ganz einfach die Mitte des Inter- valls, d. h. 1,52 bekommen hätte. In einem Intervall von der hier betrachteten Größe darf man also kaum damit rechnen, daß der Durchschnitt der Abweichungen des Intervalls dem Mittelpunkt des Intervalls zustrebt. Wird dagegen z. B. das kleinere Intervall von 1,40 bis 1,50 betrachtet, dann findet man für die Abszissen in diesem Intervall einen Durchschnittswert, welcher mit 3 richtigen Dezi- malen 1,449, also sehr annähernd die Mitte 1,45 ergibt. Ganz entsprechenden Verhältnissen begegnet man natürlich immer, wenn die Einheiten, deren Verteilung betrachtet wird, nicht gleichmäßig verteilt sind; so weist z. B. die Altersgliederung für eine Bevölkerung (Bevölkerungsgruppe) in der Regel — namentlich wenn sie im Anwachsen ist — eine Gravitation gegen die niedrigere Altersgrenze eines Altersintervalls aus. Ansell‘) z. B. hat durch direkte Beobachtung gefunden, daß die durchschnittlich seit dem letzten Geburtstage verflossene Zeit ein halbes Jahr weniger 6 Tage, also anstatt 0,500 Jahr 0,484 Jahr ausmache; und für die Einkommen- verteilung, die, wie im $ 204 gesagt, sehr asymmetrisch ist, geht aus der Tabelle 40, deren Zahlen ebenfalls auf direkter Beobachtung beruhen, hervor, daß der Durchschnitt der auf die benutzten Ein- ?) Statistics of Families, London 1874, 8. 12. 307 kommenintervalle verteilten Einkünfte von den Mitten der Inter- valle erheblich abweicht; es ergeben sich nämlich folgende Zahlen: Intervall Mitte Durchschnitt L000— 1500 Kr. 1250 Kr 1194 Kr. i 500— 2000 ., 175° 1672 , 2000— 3000 , 2 2375 , 3 .000— 4000 |, 35V 3381 4 000— 5.000 ,, 4RC 4366 „ 5C00—10000 ., 7500), 6451 10 000—20 000 ,, 15000 13200 „ Daß nun dieser Unterschied bei fortgesetzter Teilung der Inter- valle beliebig reduziert werden kann, ist ebenso klar wie daß der Fehler, den man dadurch begeht, daß man in einem gegebenen Inter- vall die Verteilungskurve als wagerecht betrachtet, beliebig begrenzt werden kann, indem mit hinlänglich kleinen Intervallen gerechnet wird. Auf dieser Tatsache fußt man in der Regel bei der Berech- nung der Momente für eine gegebene numerische Verteilung (vgl. 5 178) und bedient sich ihrer ebenfalls, wenn die graphische Dar- stellung der Verteilungskurve beabsichtigt ist (vgl. $ 244). 253. Was hier bezüglich der Berechnung der Gesamtsumme und des Durchschnitts g der Abweichungen, Einkünfte, Alter, Körpergrößen usw. in einem gegebenen Intervall entwickelt ist, wo die Verteilung dieser Einheiten über das Intervall bekannt ist, das gilt nun nicht bloß von der Summe SZy-x der Einheiten, sondern auch von der Summe Sy: u(x) der Werte, welche eine Größe u(x), die in irgend einer Weise von g abhängt, für alle Werte von x in dem betrachteten Intervall an- nimmt. Diese Summe wird sich in ähnlicher Weise mittels der Fläche einer Kurve darstellen lassen, deren Ordinaten in dem durch die Abszisse x bestimmten Punkte die Höhe y-u(x) haben; wenn diese Fläche berechnet ist, dann läßt sich die zum Intervall gehörende durchschnittliche Größe g(u) von u(x) in der Weise feststellen, daß man die gefundene Summe durch die „Anzahl“ von Addenden di- vidiert, welche durch die entsprechende Fläche der Verteilungskurve largestellt wird. Ist z. B. die Quadratsumme Sy - x? aller Abweichungen zwischen 1,13 und 1,91 in einem Exponentialgesetz mit einem mittleren Fehler zleich 1 gesucht [d. h. u(x) = x?], dann muß diese Aufgabe im all- zemeinen so gelöst werden, daß man (wie oben mit der Berechnung von y-x begonnen wurde) hier mit der Berechnung des Wertes von — 378 y-x? für eine Reihe Werte von x im Intervall anfängt und danach die Fläche der Kurve berechnet, deren Ordinaten gleich y-.x? sind: für diese Fläche (Quadratsumme) ergibt sich 0,216 und für den Durchschnitt g(u) = g(x?) aller Werte von x? in diesem Intervall also g(u) = De = 2,14. Wie bei der oben vorgenommenen Be- 3 rechnung der Summe der Abweichungen und von g(x), so gilt auch hier, daß, mit je zahlreicheren kleineren Intervallen man rechnen kann, ein desto genaueres Resultat sich ergibt; es ist daher oft von Bedeutung, daß man — entweder mittels direkter Beobachtung oder Jlurch Interpolation — der Form der Verteilungskurve auch dann Ausdruck verleihen kann, wenn das Intervall in viele Teile zer- ‚egt wird. Aufgabe 83. Eine Warenmenge, die sich so wie die bei der Berechnung des amtlichen dänischen Lebenshaltungsindex zugrundeliegende Menge zusammen- setzt, kostete bei sich gleichmäßig über das Winterhalbjahr 1./10. 1924 bis 1./4. 1925 erstreckenden Einkäufen insgesamt 2000 Kr. Finde durch Interpolation an der Preiskurve und anschließende Flächenberechnung, was die gleiche Warenmenge im Winterhalbjahre 1./10. 1925 bis 1./4. 1926 kosten würde, teils bei gleichmäßig ver- teilten Einkäufen, teils bei einem mit Rücksicht auf den Preisfall in passender Weise durch das Halbjahr hindurch möglichst hinausgeschobenen Einkauf der gleichen Warenmenge. Es wird angenommen, daß (vgl. Aufgabe 79) die folgenden Indices: Juli 1924... ... 214 Januar 1925. . .. . . .221 Juli 1925. -. . 219 Januar 1926 . . 1°4 Juli 19926 . „184 als Ausdruck für die Höhe des Preisniveaus am 1./6. 24, 1./12. 24, 1./6. 25, 1./12. 25 und 1./6. 26 angesprochen werden können. Aufgabe 84. Berechne durch Interpolation in der Tabelle 40 die Ein- kommengrenze, über der 10%, der Einkünfte liegen, und den Durchschnitt der über dieser Grenze liegenden Einkünfte. Dieselbe Frage in bezug auf 5 Prozent der Einkünfte.. 254. Es geht aus dem Obigen hervor, daß z. B. die Verteilung der Einkommenmasse mit der Verteilung der Einkünfte gegeben sein muß. Die Abhängigkeit besteht, wie im $ 250 gesagt, darin, daß, wenn die Ordinate der die Verteilung der Einkünfte dar- stellenden Kurve gleich y, die Ordinate der die Verteilung der Ein- kommenmasse darstellenden Verteilungskurve (Kurve C) gleich y-x ist. Da indes die Einkommengliederung mit einer tabellarischen Übersicht über. die Verteilung der Einkünfte auf eine in der 379 Regel kleine Anzahl Intervalle endlicher Größe nicht endgültig yegeben ist, und weil man daher nur kraft einer Hypothese mittels Interpolation zur Verteilung auf andere als die gegebenen Intervalle gelangen kann, läßt sich oft daraus Nutzen ziehen, daß man außerdem lie Verteilung der betreffenden Einkommenmasse auf dieselben Inter- valle (vgl. z. B. Tabelle 40) kennt; die Verbindung, die zwischen der Verteilung der Einkünfte und der Einkommenmasse besteht, kommt in dieser Tabelle dadurch zum Ausdruck, daß die auf ein gegebenes Intervall entfallenden Einkünfte, wie im $& 252 bewiesen, zwischen den Grenzen des Intervalls liegen. Wenn diese Bedingung erfüllt ist, kann man die zur Benutzung beabsichtigte Interpolationskurve wählen, so daß sie in einem ge- zebenen Intervall nicht nur die richtige Anzahl von Einkünften, sondern auch die richtige Einkommenmasse abgrenzt, und damit Interpolationsergebnisse erzielen, die sich in höherem Grade auf lie vorliegenden Beobachtungen stützen (oder mit ihnen überein- stimmen). Eine ganz ähnliche Aufgabe liegt bei der Interpolation in einer Tabelle vor, die z. B. die Verteilung der feuerversicherten Gebäude nach Versicherungssummen und die gesamte Versicherungs- summe der auf jedes der benutzten Intervalle entfallenden Objekte angibt. Beispiele für die Behandlung dieser Art von Aufgaben sind ım Anhang gegeben. D. Ausgleichungsmethoden. 250. Bereits im $ 245 wurde gesagt, daß es nahe liege, eine zraphische Ausgleichung der in der Figur 11 wiedergegebenen Treppenkurve in der Absicht vorzunehmen, eine die betreffende Altersgliederung darstellende Frequenzkurve zuwegezubringen; selbst wenn es auf rein mathematischem Wege möglich wäre, eine Ver- k‚eilungskurve von der Eigenschaft zu bestimmen, daß sie in jedem der betrachteten einjährigen Intervalle gerade die von der Figur an- yedeuteten Flächen (die Anzahl) abgrenzte, dann müßte die hiermit verbundene — übrigens recht erhebliche — Arbeit auf Grund der Fehler, welche den Beobachtungen selbst, ja der Beobachtung eines 30 relativ einfachen Kennzeichens wie des Alters anhaften, als ganz umsonst betrachtet werden, Schon eine Betrachtung der der Figur zugrundeliegenden Zahlen deutet darauf hin, daß solche Fehler tatsächlich vorhanden sind; diese können jedoch übrigens in verschiedener Weise festgestellt werden. Wie im S 58 gesagt. wird u. a. das Alter oft für einen — 380 — gewissen kleineren Teil der Bevölkerung nicht angegeben sein, wie sich auch oft eine Tendenz zur Anhäufung um die runden Alters- jahre findet. Bei gewissen Beobachtungsreihen kann es die Vermutung des Vorliegens von Fehlern natürlich mit sich führen, daß man vorzieht, yanz neue Beobachtungen anzustellen, um dabei die Fehler zu ver- meiden. Im allgemeinen läßt sich eine solche direkte Methode indes keineswegs anwenden, entweder weil die betreffenden Beobachtungen gar nicht mehr gemacht werden können oder weil man keine be- gründete Hoffnung darauf haben kann, die Beobachtungen zu ver- bessern, oder — was die Regel ist — weil die mit der Erhebung verbundene Arbeit zum erzielten Resultat in grobem Mißverhältnis steht. Beispielsweise würden die Verbesserungen, die sich erzielen ließen, wenn man eine völlig fehlerfreie Bearbeitung der Alters- gliederung einer Bevölkerung vornehmen könnte, bei den allermeisten der Verwendungen, die man von dieser Verteilung machen könnte, aine durchaus untergeordnete Rolle spielen. Zur „Verbesserung“ einer vorliegenden Beobachtungsreihe steht hiernach in den meisten Fällen kein anderer Ausweg offen als der mit Ausgleichung bezeichnete. Solche Ausgleichung läßt sich in der Regel auf mannigfaltige Weise vornehmen, und von dem Gebrauch, den man von den ausgeglichenen Zahlen zu machen wünscht, wird es dann abhängen, welche Methode anzuwenden ist. 256. Bei manchen Aufgaben und namentlich bei solchen, die keinen besonderen Grad der Genauigkeit erfordern (vgl. z. B. Fig. 12), liegt es nahe, die Ausgleichung graphisch vorzunehmen; wie bei der graphischen Interpolation, so werden die Beobachtungen als eine Reihe von Punkten in ein Koordinatensystem angesetzt, wonach man eine Kurve zu zeichnen sucht, von der anzunehmen ist, daß sie den Sachverhalt wiedergibt; jetzt zeichnet man jedoch so, daß die Kurve nicht gebunden ist, gerade durch die angesetzten Punkte zu gehen. Betrachtet man beispielsweise die in Figur 11 abgebildete Treppenkurve, so läßt sich diese graphisch in der Weise ausgleichen, daß man eine Kurve möglichst durch die Mitten der über jedem Intervall gezeichneten wagerechten Linienstücke zu ziehen sucht. Was die mit dieser Methode verbundene Willkür anbetrifft, so gilt dasselbe, was oben in Verbindung mit der graphischen Inter- polation gesagt wurde. Da die Möglichkeit der Willkür nur ein anderer Ausdruck ist dafür, wie mangelhaft die Kenntnis der Form 381 der fehlerfreien Kurve ist, im übrigen aber dieser mangelhaften Kenntnis genau entspricht, so ist die Ausgleichung im allgemeinen nicht ganz willkürlich. In dem betrachteten Beispiel muß man jedenfalls die Kurve so zu zeichnen suchen, daß die Summe der ausgeglichenen Werte so nahe wie möglich gleich der Summe der gegebenen wird, und auch in anderer Weise werden die Möglichkeiten der Willkür in der Regel begrenzt sein. Selbst wenn mehrere unabhängig von- einander vorgenommene graphische Ausgleichungen der Figur 11 etwas verschiedene Resultate zeitigen werden, so verbleibt anderer- seits ein gewisser, sämtlichen Resultaten gemeinsamer Teil des In- haltes der Beobachtungen als Gemeinausdruck für den wesentlichen Inhalt des Beobachtungsmaterials, während andererseits eine Be- trachtung der Verschiedenheiten einen anschaulichen Ausdruck für lie Genauigkeit ergeben wird, die sich auf dem Wege einer solchen Ausgleichung erzielen läßt. Man kann daher auch oft — wie oben yesagt — bei graphischer Ausgleichung Resultate erreichen, bei denen man in vielen Fällen stehen bleiben kann. 257. Sehr oft wird es ebenso wie bei der Interpolation (vgl. S 216) nützlich oder gar notwendig sein, die Ausgleichung nicht an den beobachteten Zahlen selbst vorzunehmen, sondern dagegen an einer passend gewählten Funktion von dieser. Beispielsweise läßt sich ein Teil der Unregelmäßigkeiten, denen die Treppenkurve in der Fig. 11 Ausdruck verleiht, auf die recht verschiedene Größe der Geburtenmengen, von denen die am Stichtag einer Altersgruppe zugerechneten Personen herrühren, zurückführen. So wurden z. B. im Jahre 1866 in Dänemark 57353 Kinder, 1867 nur 54763 Kinder geboren, und insofern ist zu erwarten, daß es z. B. bei der Zäh- lung im Jahre 1911 mehr 44-jährige (28 965) als 43-jährige (28018) Personen gab. In untenstehender Tabelle 51 ist für eine Reihe L-jähriger Altersklassen ein Vergleich zwischen der Größe der Ge- burtsjahrgänge und der Anzahl der bei der Volkszählung 1911 für jeden dieser Jahrgänge gezählten Personen vorgenommen. Bei dieser Berechnung ist davon abgesehen, daß die Volkszählung nicht am l. Januar, sondern erst am 1. Februar des Jahres 1911 stattfand, daß also die 36 225, welche am Stichtag 35 Jahre alt (d. h. zwischen 35 und 36 Jahren) waren, in der Zeit vom 1. Februar 1875 bis 31. Januar 1876 geboren sind; diese Zahl entspricht also nicht ganz der Anzahl der im Kalenderjahre 1875 Geborenen. Von diesem Fehler abgesehen, würden die Zahlen «(x) = > angeben, ein wie 382 Tabelle 51. Geburtsjahr „(U 1874 1873 1872 871 1870 869 ‚868 867 866 865 864 863 ‚862 861 860 ‚859 ‚858 1857 L856 Der Jahrgänge ld nn MAMAS rn | Volkszahl Alter 1./2. 1911 1./2. 1911 | b x 61 791 59 324 58 616 57 274 56 407 56 472 54 056 56 546 54 763 57 353 55 434 52 884 53 939 Ä2J17 CL 747 54.797 "92 AG 36 225 33 443 32 621 33 820 29 846 31 502 29 587 29 367 28018 28 965 27 284 26473 26 216 "89€ U S8E 26 516 93° 2 u” 25. 5 Jahre | »” ” 6 ? 2»? 2” 7 5 x Ks BL O4 Der Quotient b a == a(x) 0,5862 0,5637 0,5565 0,5905 0,5291 0,5578 0,5473 0,5193 0,5116 0,5050 0,4922 0,5006 0,4860 0,4696 0,4593 0,4857 0,4632 0,4636 0,4479 0.4534 großer Bruchteil der in den verschiedenen Kalenderjahren Geborenen am 1./2. 1911 am Leben waren, falls keine Wanderungen statt- gefunden hätten. Da die Wanderungen wahrscheinlich nicht nur einen einzelnen Jahrgang treffen, sondern sich über eine Reihe von Lebensjahren verteilen, so kann man rechnen, daß die letzte Kolonne einen regelmäßigeren Verlauf als Kolonne b haben wird, wenn die Unregelmäßigkeiten in dieser allein von. den Schwingungen in den Geburtszahlen!) herrührten, und daß daher die von unrichtigen Altersangaben stammenden Unregelmäßigkeiten durch die Quotienten x(x) klarer zum Ausdruck kommen als in der Kolonne b. Analog dem im $ 58 Gesagten deuten die Zahlen in. der Ko- lonne b darauf hin, daß man sich bei Angaben über Alter oder Ge- burtsjahr mit Vorliebe runder Lebensjahre bedient (vgl. z. B. die relativ große Anzahl von Personen, welche 1870 und 1860 als Ge- burtsjahr angeben und also bei der Zählung 1911 jeweils 40 und 50 Jahre alt waren). Daß sich diese verhältnismäßig große Anzahl nicht allein durch die relativ große Geburtenzahl erklärt, geht aus der ') Da auch die recht schwankende Größe der Kindersterblichkeit (vgl. 8 199) auf die Zahlen a(x) einwirken kann, so würde man bei Berücksichtigung eines solchen Einflusses einen noch regelmäßigeren Verlauf erwarten können. 383 Tabelle hervor, und die entsprechenden Quotienten a(x) sind denn auch relativ groß. Genau so, wie oben mit den absoluten Zahlen für jeden Geburten- jahrgang (jede Altersklasse) getan ward, kann man eine graphische Ausgleichung der mit e(x) bezeichneten Zahlen vornehmen, und werden danach die so gefundenen, ausgeglichenen Werte von «(x) mit den Zahlen der Kolonne a multipliziert, dann findet man eine neue Reihe ausgeglichener Werte für die Volkszahl der einzelnen Geburtenjahrgänge. Während bei der direkt an der absoluten Zahl der Personen jeder Altersklasse vorgenommenen Ausgleichung nicht zwischen den Unregelmäßigkeiten, die von den Schwankungen in der jährlichen Geburtenzahl, und denen, welche von fehlerhaften Altersangaben herrühren, unterschieden wird, geht die der Ausgleichung der relativen Zahl (x) zugrunde liegende Theorie darauf hinaus, daß die sich in diesen relativen Zahlen spiegelnden Unregelmäßigkeiten im wesentlichen von fehlerhaften Altersangaben verursacht sein müssen, and daß diese Zahlen daher einen gewissen regelmäßigen Verlauf aufweisen müssen, wenn der Fehler beseitigt ist. 258. Die graphische Ausgleichung erfordert also wie jede andere Ausgleichung eine Theorie (vgl. $ 218); diese Theorie geht bei graphi- scher Ausgleichung im allgemeinen nur darauf aus, daß eine Zahlen- reihe einen gewissen regelmäßigen Verlauf aufweisen soll, ohne daß etwas Näheres darüber gesagt ist, worin diese Regelmäßigkeit bestehen zoll; es ist dabei gleichgiltig, ob man die Ausgleichung direkt an den beobachteten Zahlen oder an von diesen abgeleiteten Zahlen vornimmt. Hinter der Forderung der Regelmäßigkeit liegt jedoch oft eine Vorstellung davon, daß die ausgeglichene Zahlenreihe als irgendeine Funktion (Abhängigkeit) betrachtet werden könne. Man kann daher mitunter die verlangte Regelmäßigkeit mit Hilfe irgendeiner Inter- polationskurve zuwege bringen. Werden z. B. die im Vorher- gehenden behandelten Beispiele betrachtet, dann bestehen die Fehler, welche die Ausgleichung beseitigen sollte, darin, daß ein Teil der- jenigen Personen, welche runden Lebensjahren zugerechnet worden sind, richtiger den benachbarten Jahren zuzurechnen wären. Man zann dann damit rechnen, daß der wesentlichste Teil der Fehler verschwindet, wenn man die Zahlen zu fünfjährigen Altersklassen: 38 is 43, 43 bis 48, 48 bis 53 Jahre usw. zusammenfaßt, und es bleibt lann nur noch eine erneute Fünfteilung dieser Intervalle. so daß die 384 dabei erzielte Verteilung auf einjährige Altersklassen nicht die be- obachtete Anhäufung, sondern einen passenden regelmäßigen Verlauf aufweist; und dies läßt sich dadurch erreichen, daß man die Fünf- teilung mittels einer einfachen Interpolationskurve vornimmt. Wie bei der graphischen Ausgleichung kann diese Ausgleichung entweder direkt an den beobachteten Zahlen oder an hiervon abgeleiteten Zahlen vorgenommen werden. Betrachtet man beispielsweise die durch die Zahlen «(x) in der Tabelle 51 bestimmte Verteilung auf einjährige Altersklassen, dann zrhält die dieser Verteilung entsprechende Flächenfunktion, welche angibt, wie] viele Personen: zwischen 35 und x Jahre alt waren, für x = 35, 43, 48 und 55 folgende Werte, die man unmittelbar durch fortgesetzte Aufsummierung von oben her erhält und welche als einigermaßen fehlerfrei angenommen werden können: 3A 43 48 55 y 0 4,4504 6,9458 10.1885 Durch Interpolation in dieser Tabelle kann man dann den Wert der Flächenfunktion y für x = 36, 37, 38 ..... 54 Jahre und da- bei eine ausgeglichene. Verteilung auf einjährige Altersklassen be- stimmen. Bei Benutzung der Newtonschen Formel, und mit der dritten dividierten Differenz, die aus der Tabelle erhellt, als Kon- stante, erhält man für die beobachteten Zahlen «a(x) folgende aus- geglichene Zahlen: Alter 35 Jahr Ar > rl 9x 34 Beobachtete Ausgeglichene Zahlen Zahlen 5862 5931 56 7 53817 5 5707 5603 5502 5406 5313 5225 5141 5062 Alter 15 Jahre © 54 I 2” x Beobachtete Ausgeglichene Zahlen Zahlen 4922 4987 5006 4915 4860 4849 4696 4786 4593 4.728 4857 4674 4632 4624 4636 4578 4479 4537 4534 4500 Es ist noch zu untersuchen, ob die in dieser Weise ausge- glichenen Quotienten «(x), wenn sie mit den Geburtenzahlen der Kolonne a in der Tabelle 51 multipliziert werden, Volkszahlen er- geben, deren Summe mit den beobachteten Volkszahlen übereinstimmt. Eine solche Untersuchung ergibt folgendes Resultat: 385 Alte Beobachtete Ausgeglichene T Zahlen Zahlen 35—43 Jahre 256411 256532 43—48 136 056 136 975 18—55 174 687 174 657 Zusammen 568 054 568 164 Der Gesamtfehler beträgt also nur 2 von 10000, eine Ab- weichung, die in der Praxis keine Rolle spielt. Wo sich die Newtonsche Formel anwenden läßt, hat man also eine bequeme und gleichzeitig elementare Ausgleichungsmethode, die recht gute Resultate zeitigen kann. Bedingung der Anwendbarkeit ist augenscheinlich die, daß man die Summe einer Reihe beobachteter Zahlen für richtig annehmen kann, selbst wenn die einzelnen Zahlen mit Fehlern behaftet sind. Aufgabe 85. Nach der Volkszählung in Irland im Jahre 1851 war die Verteilung auf die unten angeführten einjährigen Altersklassen folgende: 37 ‚Jahre BR Par 27 100 3° 500 5 ; 400 ‘ - 100 300 700 500 500 Je 5 700 ” .- 56 „41800 Verteile mittels einer Ausgleichung die Anhäufung um die runden Altersjahre. 2359. Bei einer ganz anderen Art von Ausgleichungsmethoden der sogenannten mechanischen Ausgleichung — nimmt die Theorie eine womöglich noch unbestimmtere Form an. Nur die ainfachste dieser Methoden, von denen sich eine Menge Varianten !) aufstellen lassen, sei daher an dieser Stelle besprochen. Allen ge- meinsam ist, daß man sich eine ausgeglichene Zahl u(x) als Ersatz für eine beobachtete « (x) sucht, indem u(x) linear durch eine Reihe ler aufeinander folgenden beobachteten Werte ausgedrückt wird. Betrachtet man beispielsweise aufs neue das Verhältnis «(x) in der Tabelle 51, so läßt sich diese Reihe von Zahlen in der Weise ausgleichen ?), daß jede der Zahlen «(x) durch den Durchschnitt aus ?) Siehe z. B. E. Blaschke, Vorlesungen über mathematische Statistik, Leipzig 1906, S. 229f., wo spezielle Formeln von Woolhouse, Karup, Sprague, Higham u. a, behandelt sind. Zu den mechanischen Ausgleichungsformeln läßt sich auch eine von Blaschke (Die Methoden der Ausgleichung von Massen- erscheinungen, Wien 1893) — obgleich mit einer besonderen Begründung — an- zegebene Ausgleichungsmethode rechnen; vgl. ferner E. Czuber, Wahrschein- lichkeitsrechnung, Band II, Leipzig 1910, S. 185 f. ‘\ Vgl. z. B. Wittstein, Mathematische Statistik, Hannover 1867, S, 30. Westergyaard und Nyboelle, Theorie der Statistik. 2. Aufl. 3 — 386. — den beiden vorhergehenden, &«(x) selbst und die zwei nachfolgenden, ersetzt wird, so daß also der ausgeglichene Wert von «(x) a(x—2) + a(x— 1) + «(z) + «(x +1) + «(x +2) (8) ergibt. Beispielsweise wird das dem Geburtsjahre 1873 entsprechende Verhältnis 0,5565 (s. Tabelle 51) dabei durch 0,5862 + 0,5637 + 0,5565 -+ 0,5905 + 0,5291 2,8260 AU Of — - TS 3 = 0,5652, ersetzt, und so fort für sämtliche übrigen Zahlen der betrachteten Kolonne. Man ist auf diese Methoden gekommen, indem man be- merkte, daß die Reihe der bei solchen Bildungen von Durchschnitts- zahlen erzielten Zahlen einen gleichmäßigeren Verlauf als die |be- obachteten aufweisen. Führt die Methode dann nicht gleich zu einem befriedigenden Ergebnis, kann man aufs neue die Operation an der gefundenen Reihe vornehmen. Es ergibt sich, daß man mittels dieser Methode für die beiden ersten und letzten Zahlen in der Reihe ausgeglichene Werte nicht bekommen kann; für diese Zahlen müssen daher besondere Ausgleichungen verwandt werden, wenn man nicht die beobachteten Zahlen selbst beibehalten will. Es ist klar, daß man auch bei Durchschnittsbildungen von 3 oder 7 oder von einer anderen ungeraden Anzahl von aufeinander folgenden Werten sich analoge Methoden beschaffen kann. Bildet man dagegen Durchschnittszahlen aus einer geraden Anzahl von auf- einander folgenden Werten, so ist einem die Anzahl von Malen, in der die Wiederholung der Operation beabsichtigt ist, nicht freige- stellt, da die Operation dann eine gerade Anzahl Male und wenigstens zweimal zu wiederholen ist. Wenn beispielsweise das Mittel aus zwei aufeinander folgenden Zahlen der Werte «(x) in der Tabelle 51 genommen und diese Ope- ration sechsmal wiederholt wird, dann gelangt man zu’ folgenden Resultaten: Beobachtete Ausgeglich Alter Zahlen Zahlen 6 35 Jahre 5862 5862 5637 5743 5565 5673 5905 5619 53291 5549 3578 5473 5473 5382 5193 5261 5116 5140 5050 5049 % 7. 2” ” LE 22 9 +" 387 Daß eine Ausgleichung stattgefunden hat, sieht man sofort; sie ist jedoch anscheinend recht unvollkommen, was u. a. aus einer Be- rechnung der Differenzen zwischen den ausgeglichenen Werten hervorgehen wird. 260. Man hat in verschiedener Weise die verschiedenen mecha- nischen Ausgleichungsmethoden zu begründen versucht; zugunsten der oben betrachteten Methode, die auf einfacher Durchschnitts- bildung aus einer kürzeren oder längeren Reihe von aufeinander folgenden beobachteten Werten fußt, kann man z. B. bemerken, daß das Mittel aus einer ungeraden Zahl von äquidistanten und gerad- linig verlaufenden Funktionswerten gerade den mittelsten der be- nutzten Werte ergeben wird. Wenn man daher den regelmäßigen Verlauf einer Reihe von Werten als eine Funktion betrachtet, die man sich in einem hinlänglich kleinen Intervall annähernd durch ein gerades Linienstück dargestellt denken kann, dann wird die Bildung von Durchschnitten keine Veränderungen verursachen, So- fern die benutzten Werte tatsächlich linear verlaufen: weisen die Werte dagegen Abweichungen von diesem Verlauf auf, dann er- zeben sich bei der Bildung von Durchschnittszahlen Werte, die in lem Maße, wie die Abweichungen als zufällig bezeichnet, als ver- besserte (ausgeglichene) Werte der beobachteten betrachtet werden können. Es geht hieraus hervor, daß das Gelingen einer mechanischen Ausgleichung teils davon, daß man mit ausreichend kleinen Inter- vallen rechnet, teils davon, daß die Fehler, mit denen die beobach- ;jeten Werte behaftet sind, durch und durch ein zufälliges Gepräge aaben, abhängt. Die erste Bedingung wird oft nicht mit hinlänglich guter An- aäherung erfüllt sein; wenn man nämlich bei der Bildung von Durch- schnitten von vielen Nachbarwerten Gebrauch macht, kann es leicht vorkommen, daß das diese Werte umfassende Intervall so groß ist, daß die Funktion (Kurve) hier eine deutliche Krümmung (Kon- zavität oder Konvexität) aufweist; die dann erhaltenen Durchschnitts- werte werden folglich jeweils zu klein oder zu groß ausfallen, und im allgemeinen ist man bei dieser Art von Aufgaben gerade nicht Herr über die Größe der Intervalle, mit denen man rechnet. Auch die zweite Bedingung wird in vielen Aufgaben Schwierig- keiten bereiten; in dem oben behandelten Beispiel, wo die Unregel- mäßigkeiten vermutlich einer vorherrschenden Ursache, nämlich den ınrichtigen (abgerundeten) Altersangaben, zuzuschreiben sind, ist die DR 388 Bedingung so weit von ihrer Erfüllung entfernt, daß man hierin die Erklärung dafür suchen kann, daß selbst eine sechsmal wiederholte mechanische Ausgleichung nur mäßige Resultate ergibt. Und in ähnlicher Weise wird die Ausgleichung der in der Praxis vor- kommenden Aufgaben verlaufen. Es ist überhaupt ein wesentlicher Mangel bei allen mechanischen Ausgleichungsmethoden, daß sie die eine Zahl genau wie die andere ohne Berücksichtigung der speziellen Verhältnisse behandeln; rein zufällige Fehler werden in derselben Weise ausgeglichen wie nicht zufällige, und größere Unregelmäßig- keiten wird man daher in der Regel nicht ganz durch solche Me- thoden beseitigen können. Solche Einwände hindern natürlich nicht, daß die mechanische Ausgleichung gute Resultate wird zeitigen können, wenn die oben angeführten Bedingungen mit hinlänglicher Annäherung als erfüllt angenommen werden können. 261. Wenn der Ausdruck, den man der der Ausgleichung zu- grunde liegenden „Theorie“ verleihen kann, sich nicht näher prä- zisieren läßt, als es in den oben behandelten Beispielen geschehen ist, dann wird man, wenn es überhaupt wünschenswert oder not- wendig ist, eine Ausgleichung vorzunehmen, auf Methoden dieser Art angewiesen sein. Anders liegen dagegen die Dinge, wenn sich, wie im $ 218 gesagt, die Theorie so ausdrücken läßt, daß die be- abachteten Größen gewisse Relationen befriedigen sollen. Der einfachste dieser Fälle liegt dann vor, wenn die Theorie darauf hinausgeht, daß die beobachteten Zahlen sämtlich dieselbe Größe haben sollen, was u. a. bei wiederholter Messung eines Körper- gewichts, der Entfernung zwischen zwei Punkten (z. B. einer Weg- strecke) usw. der Fall ist. Selbst wenn man sich in solchen Fällen wenigstens das Gewicht, die Entfernung usw. konstant denkt, werden die Messungen im allgemeinen nicht dasselbe Resultat ergeben, wenn sie zu dem Zweck wiederholt werden, möglichst große Genauigkeit zu erzielen. Der Grund hierzu ist der, daß nicht nur die Größe des zu messenden Gegenstandes, sondern viele verschiedene mehr oder weniger bedeutende Nebenumstände bei der Vornahme der Messung für das bei jeder einzelnen Messung erzielte Resultat entscheidend sein werden. Das einzelne Meßresultat ist somit. analog dem KEr- gebnis beim Glücksspiel von einer Reihe von Umständen abhängig, deren Gesamtwirkung teils auf Grund ihrer Anzahl, teils auf Grund mangelnder Kenntnis der Art und Weise ihres Einwirkens unbe-