Skip to content

Usenet-Statistik

In einem Posting in de.admin.news.groups hatte Simon Paquet in einem Nebensatz angesprochen, daß Cornell Binders wunderbare graphische Usenet-Statistiken seit über einem halben Jahr nicht mehr aktualisiert worden sind, wozu letzterer dann erklärte, daß ihm seine bisherige Datenquelle seit September 2009 abhanden gekommen war. Nach einem kurzen Mailwechsel habe ich mich dann abends noch hingesetzt und auf die Schnelle ein Script zusammengepfuscht, das zumindest von jetzt an die notwendigen Rohdaten - wie viele Postings in welche de.*-Newsgroups gepostet werden - live aus dem Feed von news.szaf.org in einer Datenbank erfaßt, so daß spätestens ab Mai wieder entsprechende Statistiken zur Verfügung stehen sollten.


Um die Lücken der vergangenen Monate nach Möglichkeit zu füllen habe ich dann über Nacht - zweimal - ein weiteres Script über den gesamten vorhandenen Newsspool laufen lassen, das für jedes Posting die Header (Kopfzeilen) prüft und, wenn das Posting (auch) in eine de.*-Newsgroup gerichtet war, Newsgroups- und Message-ID-Header und den Timestamp aus der History des Newsservers in eine Logdatei schreibt. Der betreffenden Maschine wurde dabei einigermaßen warm unter der Wolle, wie man auch noch in der nivellierten Wochendarstellung sieht (die Drehzahl des CPU-Lüfters war in der "Live"-Darstellung weit über den Gehäuselüfter hinausgeschossen), aber nach einigen Stunden Laufzeit (genau genommen: am nächsten Morgen) stand mir dann eine Textdatei mit pro Zeile allen notwendigen Angaben über jeweils ein Posting zur Verfügung, die ich dann auf dieselbe Art und Weise wie bei der Live-Statistik in eine Datenbank extrahiert habe. Die daraus generierten Statistiken geben - bei allen Abweichungen, die insbesondere bei solchen rückwärtigen Auswertungen nicht zu vermeiden sind - die tatsächlichen Verhältnisse einigermaßen brauchbar wieder, wie einige einfache Plausibilitätstests ergeben haben Leider waren die Daten für den 1. und 2. September 2009 unvollständig (der erste Tag fehlte praktisch ganz, der zweite teilweise), so daß ich erst ab Oktober 2009 Daten nachliefern konnte und im September einstweilen eine Lücke bleibt. Die nachgelieferten Daten wurden aber mittlerweile immerhin schon eingespielt, so daß die Usenet-Statistiken jetzt wieder auf dem aktuellen Stand sind.

Der Livebetrieb führt mal zu etwas Leben auf der Datenbank.

Die erzeugten Daten aus dem April habe ich unter Löschen von Duplikaten in die Live-Datenbank eingespielt, so daß diese jetzt die vollständigen Daten ab dem 01.04.2010 enthält und zukünftig jeweils zeitnah zum Monatsende die notwendigen Daten geliefert werden können. Dabei werden alle Postings erfaßt, die auch in mindestens eine de.*-Newsgroup gehen und keine Steuernachrichtnen sind (so daß Cancel ignoriert, Supersedes aber erfaßt werden, was dem entspricht, was man tatsächlich in der Newsgroup auch "sieht"); bei Crossposts wird das betreffende Posting in jeder Newsgroup gezählt, in der es erscheint. Das führt zwar bei den summierten Zahlen für de.ALL und die entsprechenden Teilhierarchien ggf. zu falsch hohen Zahlen, gibt aber den Zustand der jeweils einzelnen Newsgroups am besten wieder.

Sicherlich sind insoweit noch Verbesserungen möglich - und geplant -, aber das wird bis zu einem anderen Mal warten müssen.

Trackbacks

Keine Trackbacks

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

christian am :

christian

Respekt, dass du dir die Arbeit machst, ist aber sehr interessant die Verteilung des Traffics mal zu vergleichen.

nitroflare am :

nitroflare

krasse Datenansammlung! Echt Interessante Zahlen nur leider sehen die Graphen nicht besonders schön aus :p

beste Grüße

Kommentar schreiben

HTML-Tags werden in ihre Entities umgewandelt.
Markdown-Formatierung erlaubt
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
BBCode-Formatierung erlaubt
Gravatar, Identicon/Ycon Autoren-Bilder werden unterstützt.
Formular-Optionen
tweetbackcheck