Seite 6 von 11

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Di 1. Nov 2016, 20:40
von Patrik
9. In der vorläufigen Auswertung tauchen ja oben viele Spiele schon auf – die sind definitiv schon erfasst. Ansonsten ist die schreibweisen.tsv die einzige Liste über die die (Erst-) Identifikation der Nennungen erfolgt. (Die Info mit dem Python-Skript kannst du ignorieren, wenn du dich da nicht kompetent fühlst. Ich lasse es einfach von Zeit zu Zeit laufen, um die neu erfassten Schreibweisen anzuwenden und eine aktualisierte Liste der erkannten und nicht erkannten Nennungen zu bekommen.) Ich hätte heute Abend noch etwas Zeit und fange unten ("0 A.D.") an. Wenn du oben ("Zombie Army Triology") anfängst, machen wir nichts doppelt. Du kannst dabei erst einmal alles überspringen, wozu du dir nicht sicher bist, ob es oben schon eine erfasste Entsprechung gibt.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Di 1. Nov 2016, 20:49
von Rey Alp
Heute sollten wir uns nicht in die quere kommen, ich habe heute noch etwas vor und werde mich vielleicht morgen ab 10 Uhr versuchen da reinzuarbeiten.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Mi 2. Nov 2016, 14:52
von Rey Alp
Patrik hat geschrieben: 9. Anhand der vorläufigen Liste kann man gut erkennen, was noch fehlt: Hat etwas eine Jahreszahl in Klammern, wurde es erkannt und zugeordnet. Einträge ohne Jahreszahl (mit leeren Klammern am Ende) zu denen es aber oben ein zugeordnetes Spiel gibt, lassen sich dem anderen Spiel zuordnen. Syntax ist wie bisher, zum Beispiel:

Code: Alles auswählen

"Age of Empires3"	"Age of Empires III"
Die Jahreszahl in Klammern ist in der Regel nicht Namensbestandteil, bei Remakes taucht die Klammer wie bei "Doom (2016)" doppelt auf. Wichtig sind die ASCII-Anführungszeichen. Die sind in den Namen verboten und werden von mir als Feldtrenner verwendet. Ob in der Mitte ein Tabulator, ein Leerzeichen, ein Semikolon oder ein Komma steht, ist weniger entscheidend.
Also man muss:
1. Schritt: Bei der vorläufigen Liste alle Einträge sichten, bei denen weder eine leere Klammer noch eine Klammer mit Jahreszahl steht.

2. Schritt: Für diese übrig gebliebenen Nennungen bei den Schreibweisen:
a) Prüfen, ob es eine brauchbare/eindeutige Bezeichnung ist - ansonsten unsere Schreibweise unter Voranstellung von "(???)" anlegen.
b) Wenn wir den Titel bereits mit einer (anderen) Schreibweise erfasst haben, die neue Nennung dieser zuordnen.
c) Wenn wir den Titel noch nicht haben, eine offizielle Schreibweise anlegen?
- Und das Problem, dass die Liste zum 1. Schritt nicht unterscheidet, ob ein Eintrag nicht vorhanden ist oder bloß keine weiteren Daten hinterlegt sind, muss nicht geprüft werden?

- Und auch Groß- und Kleinschreibung wird - wenn für den Titel keine weiteren Daten hinterlegt sind - nicht automatisch erfasst? Was soll ich in den Fällen tun?

- Ausgehend von welcher Datei lege ich für 2. Schritt a), b) und c) neue Daten an? Das käme ja im Endeffekt in die Schreibweisen? Führe ich da einfach eine *.txt-Datei und poste died ann hier?

edit:

1. Jeder Eintrag der Liste mit den vorläufigen Ergebnissen hat bereits eine Klammer - mit oder ohne Jahreszahl: Ich versteh nicht, was ich machen soll: Nach deiner Erklärung sind die dann doch schon alle Einträgen zugeordnet und es gibt keine unbekannten Einträge mehr (Oder hast du das alles seit gestern erledigt?)? Oder befinden sich darunter noch falsche oder doppelte Einträge?

2. Woran erkenne ich, dass es bei einem Eintrag "Handlungsbedarf" gibt. Z. B. bei
Zombie Army Trilogie ()
Zombie Army Trilogy (2015)
Zombie Army Triology ()
würde ich davon ausgehen, dass ich nichts mehr tun muss, da der 1. und der 3. Eintrag bereits einem "Obereintrag" (erkennbar an den leeren Klammern) zugeordnet sind, wahrscheinlich dem 2.
Um sicherzugehen müsste ich aber in der Schreibweisen-Datei nachsehen, ob der 1. und 3. Titel nicht vielelicht unterschiedlichen Titeln zugeordnet sind? Wenn ich das tue, finde ich die aber gar nicht. Bedeutet die leere am Klammer jetzt doch nicht, dass es schon die Zuoprdnung zu einem Obereimntrag gibt?

Und eigentlich müsste im Fall von "Zombie Army Triology" das sowieso als (???) zugeordnet werden, da kein bestimmtes Spiel, sondern eine Spielesammlung bezeichnet wurde.

In kurz:

Ohne eine Dokumentation oder ergänzende Erklärung bekomme ich hier noch nicht heraus, bei welchen Einträgen noch handlungsbedarf besteht und was ich tun soll.

Ein Anfang wäre eine Liste nur mit den Nennungen, bei denen - weil sie weder als "Hauptspiel" erfasst sind noch einem solchen über eine Schreibweise zugeordnet sind - noch handlungsbedarf besteht.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Mi 2. Nov 2016, 16:56
von Patrik
Rey Alp hat geschrieben:1. Jeder Eintrag der Liste mit den vorläufigen Ergebnissen hat bereits eine Klammer - mit oder ohne Jahreszahl: Ich versteh nicht, was ich machen soll: Nach deiner Erklärung sind die dann doch schon alle Einträgen zugeordnet und es gibt keine unbekannten Einträge mehr (Oder hast du das alles seit gestern erledigt?)? Oder befinden sich darunter noch falsche oder doppelte Einträge?
Das ist korrekt, jeder Eintrag hat eine Klammer. Darin steht entweder eine Jahreszahl (kein Handlungsbedarf) oder eben nicht (Handlungsbedarf). Dass es Titel ohne Klammer gäbe habe ich nie gesagt. Handlungsbedarf bedeutet immer, dass noch eine Zuordnung zum Erscheinungsjahr erfolgen muss. Ich hielt das Vorgehen über die vorläufige Auswertung für am einfachsten, weil in der gleichen Datei auch die Titel stehen, für die es schon eine korrekte Zuordnung gibt. In solchen Fällen ist das Vorgehen dann eigentlich trivial. Das Beispiel hast du selbst genannt:
Rey Alp hat geschrieben:2. Woran erkenne ich, dass es bei einem Eintrag "Handlungsbedarf" gibt. Z. B. bei
Zombie Army Trilogie ()
Zombie Army Trilogy (2015)
Zombie Army Triology ()
würde ich davon ausgehen, dass ich nichts mehr tun muss, da der 1. und der 3. Eintrag bereits einem "Obereintrag" (erkennbar an den leeren Klammern) zugeordnet sind, wahrscheinlich dem 2.
Um sicherzugehen müsste ich aber in der Schreibweisen-Datei nachsehen, ob der 1. und 3. Titel nicht vielelicht unterschiedlichen Titeln zugeordnet sind? Wenn ich das tue, finde ich die aber gar nicht. Bedeutet die leere am Klammer jetzt doch nicht, dass es schon die Zuoprdnung zu einem Obereimntrag gibt?
Genau das.
Rey Alp hat geschrieben:Und eigentlich müsste im Fall von "Zombie Army Triology" das sowieso als (???) zugeordnet werden, da kein bestimmtes Spiel, sondern eine Spielesammlung bezeichnet wurde.
Für "Zombie Army Triology" (als Spielesammlung) gibt es ein Releasedatum.
Rey Alp hat geschrieben:Ein Anfang wäre eine Liste nur mit den Nennungen, bei denen - weil sie weder als "Hauptspiel" erfasst sind noch einem solchen über eine Schreibweise zugeordnet sind - noch handlungsbedarf besteht.
Das existiert als unbekannte-titel.tsv.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Mi 2. Nov 2016, 17:25
von Rey Alp
1.
Für "Zombie Army Triology" (als Spielesammlung) gibt es ein Releasedatum.
Wir hatten es ursprünglich so gehandhabt, dass wir nur nach der Nennung einzelner Spiele fragen, die genutzt wurde. Dinge wie "Alle Fallout Teile" oder "Battlefield Reihe" sind daher keine "gültigen" Angaben gewesen. Genauso habe ich es bei Spielesammlungen gehandhabt, da wir nicht wissen, welcher Teil der Spielesammlung gespielt wurde und allein der Umstand, dass das Spiel auch innerhalb einer Spielesammlung veröffentlicht wurde, macht es nicht zu einem neuen Spiel, der eine seperate Zählung rechtfertigen dürfte. Da ist es egal, ob es für die Sammelbox ein Releasedatum gibt, weil wir nicht wissen, welcher Teil genutzt wurde.

2.
Dass es Titel ohne Klammer gäbe habe ich nie gesagt.
Da habe ich dich dann bisher falsch verstanden: Ist es denn eindeutig? Also sind die Nennungen mit leerer Klammer immer ein Zeichen für Handlungsbedarf bzgl. der Zuordnung, oder ist es auch immer noch so dass solche Nennungen hier auch gelistet werden, die zwar einem Eintrag zugeordnet sind, für den aber keine weiteren Daten wie Erscheinungsjahr etc. erwähnt sind?

3.

Ich habe deine Arbeitsanleitung immer noch nicht verstanden.

Speziell da du zu meiner beschriebenen Vorgehensweise geschrieben hast:
Genau das.
Obwohl ich mich hier auf die "vorläufige Liste" bezogen habe, du aber nun mitteilst, dass die schon gefilterte Liste die der unbekannten Titel ist.

Als was muss ich jetzt machen?
  • Schritt 1:

    Ich schaue (nicht in der "vorläufigen Titel"-Liste) in der "unbekannte Titel"-Liste nach, ob da Titel vorhanden sind - sind sie (Ist es denn mittlerweile nicht mehr immer noch so, dass hier nicht mehr auch solche Nennungen auftauchen, die nur in Groß- und Kleinschreibung von einer zugeordneten/erfassten Nennung abweichen?)

    Schritt 2:

    Was mache ich dann?
Entschuldigung, wenn ich mittlerweile etwas genervt bin, aber ich versuche dich seit beinahe einer Woche dazu zu bringen mir zu erklären, was ich hier tun soll. Bisher hast du mit jeder Antwort mehr Fragen aufgeworfen als beantwortet und die rotmarkierten auch schon seit Tagen ignoriert. Ich bin normalerweise nicht schwer von Begriff, weshalb ich glaube, dass ich die Arbeitsweise prinzipiell verstehen kann. Von daher wäre eine verständliche Erklärung wirklich hilfreich, vorallem, weil sich mein Urlaub zum Ende neigt und ich dann dieses Jahr wohl kaum noch etwas Zeit hierein investieren werde können.

Ich weiß auch nicht, warum du hier so ein komplexe Auswertung auffährst (zumindest ist offenbar zu komplex, als dass du sie mir in weniger als 7 Tagen erklären könntest). Nach der alten Vorgehensweise hätte ich in einem Drittel der Zeit die du erfolgslos gebraucht hast, um mir die neue zu erklären, bereits alle Daten zusammengesucht.

Ich verstehe deine Skripte nicht und habe auch keine Zeit mich da einzuarbeiten, dafür bräuchte ich weitaus mehr Urlaub, als ich zur Zeit habe.

Erklärungen von dir wie "geht auch aus den Skripten hervor", helfen mir daher ausdrücklich NICHT weiter.

Falls du es für mich nicht verständlich erklären kannst, kannst du vielleicht einer anderen Person erklären, wie es gehen soll, und die andere Person schreibt dann die Anleitung hier rein.

Wenn du eine für mich verständliche Erklärung auch weiterhin nicht zustande bekommen solltest (oder der Nutzen in keiner Relation zum Aufwand steht) würde ich dich bitten, die Daten bis Freitag selbst zusammenzukriegen, damit ich dann das Wochenende für die grafische Aufbereitung habe.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Mi 2. Nov 2016, 20:17
von Patrik
Entschuldige bitte das "Genau das." – so etwas passiert, wenn ich schnell neben der Arbeit was beantworten will. Ansonsten verstehe ich, dass du dich aufregst, allerdings hast du mich auch sehr oft falsch verstanden — das kann ich nicht vollständig auf meine Kappe nehmen. Die rot hervorgehobenen Fragen hatte ich aber in der Tat (fälschlicherweise) als beantwortet angesehen. Jetzt nochmals mit etwas mehr Zeit:

1. Titel, die direkt einen Treffer in der OGDB erzielen, bekommen auch ohne Nennung in der schreibweisen.tsv eine Jahreszahl zugeordnet. Da "Zombie Army Triology" dort (alle Spielesammlung mit eigener Freigabe und Releasedatum) auftaucht, wurde es nie als unbekannt gelistet.

2. Alle Titel bekommen eine Klammer, dazwischen steht — sofern bekannt — das Releasedatum. Woran es liegt, dass keines bekannt ist, lässt sich nicht sagen: Es gibt leider schlicht Spiele, zu denen sich das nicht herausfinden lässt.

3. Ohne Python- oder Bash-Kenntnisse ist folgendes sinnvoll machbar: Du suchst in der vorläufigen Titel-Liste oder in der "unbekannte Titel"-Liste nach Titeln, die (jeweils in anderer Schreibweise) in der vorläufigen Titel-Liste bereits ein Erscheinungsjahr haben oder in der schreibweisen.tsv überhaupt auftauchen und nimmst diese Zuordnung in der schreibweisen.tsv vor.


Ich werde das Vorgehen noch einmal komplett zusammenfassen, bis auf Punkt "e" entspricht alles dem vom Vorjahr:
  1. Eine Nennung wird eingelesen.
  2. Existiert in der zweiten Spalte der schreibweisen.tsv (unter Vernachlässigung von Groß- und Kleinschreibung) ein gleich lautender Eintrag, wird der Titel aus der ersten Spalte statt der Nennung als "Titel" verwendet. Existiert kein Eintrag, ist die Nennung der "Titel".
  3. Existiert in der OGDB (unter Vernachlässigung von Groß- und Kleinschreibung) ein Eintrag unter dem "Titel", werden USK-Einstufung und Releasejahr aus der OGDB genommen, der Prozess ist abgeschlossen.
  4. Existiert in der no-ogdb.tsv (unter Vernachlässigung von Groß- und Kleinschreibung) ein Eintrag, werden USK-Einstufung und Releasejahr hieraus übernommen, der Prozess ist abgeschlossen.
  5. Zuvor war es so, dass ein Titel in der "unbekannte Titel"-Liste landete, wenn zum Schluss keine Übereinstimmung gefunden wurde. Aufgrund deines Feedbacks habe ich es nun so geändert, dass bereits in der schreibweisen.tsv aufgeführte nicht mehr dort auftauchen.
Die einzige weitere Änderung gegenüber dem Vorjahr ist, dass ich im letzten Jahr die Schreibweisen aus dem OGDB-Export an unsere Schreibweisen angepasst habe. Jetzt fasse ich den Export nicht mehr an – um jederzeit ein Update machen zu können. Stattdessen verwende ich eine zusätzliche zuordnung.tsv. Darin geht es aber vor allem um Anmerkungen/ Versionsunterscheidungen in der OGDB, die wir bei uns nicht haben: So heißt der OGDB-Eintrag zum Titel "Stranded Deep" beispielsweise "Stranded Deep (Early Access, Steam)".

Die gewünschte "Liste nur mit den Nennungen, (…) [die] weder als "Hauptspiel" erfasst sind noch einem solchen über eine Schreibweise zugeordnet sind" würde bedeuten, dass in Schritt 2 gemeldet würde, wenn kein Eintrag in der schreibweisen.tsv existiert. Das ist möglich, würde aber auch verlangen, dass wir bereits korrekt eingegebene Nennungen erfassen müssen. Soll ich diese Liste erstellen?

Zum Abschluss:
Ist es auch immer noch so dass solche Nennungen hier auch gelistet werden, die zwar einem Eintrag zugeordnet sind, für den aber keine weiteren Daten wie Erscheinungsjahr etc. erwähnt sind?
In der vorläufigen Titel-Liste ist nicht zu unterscheiden, ob es eine Zuordnung gibt oder ob nur das Erscheinungsjahr fehlt. In der "unbekannte Titel"-Liste stehen nur Titel, die weder Zuordnung noch Erscheinungsjahr haben.
Ist es denn mittlerweile nicht mehr immer noch so, dass hier nicht mehr auch solche Nennungen auftauchen, die nur in Groß- und Kleinschreibung von einer zugeordneten/erfassten Nennung abweichen?
In beiden, der vorläufigen Titel-Liste und der "unbekannte Titel"-Liste, können Nennungen mit unterschiedlicher Groß- und Kleinschreibung auftauchen. Das Matching ignoriert Groß- und Kleinschreibung jedoch. Folglich gibt es nur zu nicht zugeordneten Titeln verschiedene Schreibweisen, was Groß- und Kleinschreibung angeht.

PS: Wir haben beide viel Arbeit hier rein gesteckt, und ich bin bereit, das auch weiterhin zu tun. Da ich am Wochenende leider nicht fertig geworden bin, werde ich die nächsten Tage auch weiter an den Listen arbeiten, bis Samstag dürfte machbar sein. Vor der nächsten Ausgabe müssen wir jedoch dringend darüber reden, wie wir die Auswertung besser koordinieren. Wie wir das aktuell machen, ist offensichtlich nicht optimal.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Mi 2. Nov 2016, 22:59
von Rey Alp
Kein Ding - vielen Dank.

Ich habe das so, wie ich es verstanden habe, aufgezeichnet (wie gesagt, ich versteh' vieles erst aufgemalt) - habe ich das so richtig verstanden?

Bzw. in der der titel.tsv tauchen ja auch Titel mit leerer Klammer auf - sind das jetzt die Titel, die (weil keine Daten gefunden wurden) zuvor noch in der unbekannte-titel.tsv auftauchten (was du wegen meines Feedbacks geändert hast) und/oder/auch Titel, die einen Treffer in der OGDB oder no-ogdb.tsv hatten, dort aber andere Daten - jedoch nicht das Erscheinungsjahr hinterlegt waren?

(Wegen der "False Positiv" bei Spielesammlungen würde ich dann die fertige Liste noch einmal durchsehen).
Woran es liegt, dass keines bekannt ist, lässt sich nicht sagen: Es gibt leider schlicht Spiele, zu denen sich das nicht herausfinden lässt.

Ohne Python- oder Bash-Kenntnisse ist folgendes sinnvoll machbar: Du suchst in der vorläufigen Titel-Liste oder in der "unbekannte Titel"-Liste nach Titeln, die (jeweils in anderer Schreibweise) in der vorläufigen Titel-Liste bereits ein Erscheinungsjahr haben oder in der schreibweisen.tsv überhaupt auftauchen und nimmst diese Zuordnung in der schreibweisen.tsv vor.

[...]

Aufgrund deines Feedbacks habe ich es nun so geändert, dass bereits in der schreibweisen.tsv aufgeführte nicht mehr dort auftauchen.

[...]

Die gewünschte "Liste nur mit den Nennungen, (…) [die] weder als "Hauptspiel" erfasst sind noch einem solchen über eine Schreibweise zugeordnet sind" würde bedeuten, dass in Schritt 2 gemeldet würde, wenn kein Eintrag in der schreibweisen.tsv existiert. Das ist möglich, würde aber auch verlangen, dass wir bereits korrekt eingegebene Nennungen erfassen müssen. Soll ich diese Liste erstellen?

[...]

In beiden, der vorläufigen Titel-Liste und der "unbekannte Titel"-Liste, können Nennungen mit unterschiedlicher Groß- und Kleinschreibung auftauchen. Das Matching ignoriert Groß- und Kleinschreibung jedoch. Folglich gibt es nur zu nicht zugeordneten Titeln verschiedene Schreibweisen, was Groß- und Kleinschreibung angeht.
Also:

1. In der "vorläufigen Titel"-Liste (titel.tsv) tauchen auch noch Titel ohne Jahreszahl auf, wobei ich mir wegen der Ursache hierfür noch nicht sicher bin (siehe oben).

1.1. Ich soll jetzt schauen, ob in der Titelliste (titel.tsv) - ggf. in anderer Schreibweise - der Titel bereits mit Jahr vorhanden ist. Wenn dem so sein sollte, schreibe ich eine entsprechende Ergänzung für die schreibweisen.tsv.
1.2. Oder ich schaue in der Schreibweisen.tsv nach, ob dort bereits ein Eintrag vorhanden ist - wenn einer besteht, nehme ich die Ergänzung vor,
anderenfalls lege ich einen an?
  • (Wenn ich das richtig verstehe, kann ein Titel in der titel.tsv nur angezeigt werden, wenn bereits ein Eintrag in der schreibweisen.tsv vorhanden ist (oder ist das nach der Änderung nach meinem Titel nicht mehr der Fall?). Wenn dem so wäre, bräuchte ich in die Schreibweisen.tsv zum Abgleich nicht hineinschauen (weil er ja bereits vorhanden sein muss). Ich müsste dann nur schauen, ob es in der Schreibweisen.tsv eine "doppelte Listung" gibt und diese dann irgendwie zusammenführen? Das Probklem ist einfach dass wenn ich nicht weiß, warum ein in einer Liste (nicht) auftaucht ich nicht weiß, welche Möglichkeiten für eine fehlende Zuordnung in Betracht kommen und welchen Abgleiche und Ergänzungen ich dann vornehmen muss.).
2. Bei der "unbekannte-titel.tsv" empfinde ich es als ziemliche Schikane, dass Titel auftauchen, bei denen keine Zuordnung erforderlich ist, weil sie bei vorhandensein eines Eintrags in der Schreibweisen.tsv automatisch zugeordnet werden würden. In meinem Beispiel würde doch für die Einträge "Battlefield 1" und "battlefield 1" die Zuordnung einer Schreibweise in der Schreibweisen.tsv genügen, da dann der andere - wegen Groß- und Kleinschreibung - automatisch zugeordnet werden würde. Die weitere Zuordnung der anderen Schreibweise wäre also vollkommen überflüssig, wobei das nicht immer so einfach erkennbar ist, wie in diesem Beispiel. Ich müsste mir also manuell Listen mit Titelnennungen anlegen, die nur in der Groß- und Kleinschreibung von einander abweichen, damit ich abgleichen kann, ob ich wegen einer der Nennung bereits eine Ergänzung in der Schreibweisen.tsv vorgenommen habe.

In Kurz - und zu deiner Frage mit der Liste :

Wenn ich sinnvoll arbeiten können soll, brauche ich Listen bei denen ich möglichst weiß, warum die Titel dort auftauchen und was ich dann vornehmen muss. Das wären nach meinem aktuellen Verständnis:
  • 1. Liste nicht erfasster Titel(-schreibweisen):

    Liste von Titelnennungen, die keinem Eintrag in der schreibweisen.tsv haben bzw. keinem Eintrag zugeordnet sind.
    -> Meine Aufgabe wäre dann abzugleichen, ob die Titelnennungen in anderer Schreibweise bereits vorhanden ist. Wenn sie es nicht wären, müsste ich einen neuen Eintrag anlegen, wenn es der Fall wäre, müsste ich bei dem bestehenden Eintrag eine neue Schreibweise ergänzen. Das ist von der Schreibarbeit nach deiner neuen Formatierung zwar dasselbe, weil für jede Schreibweise eine neue Zeile angelegt wird, doch ich muss es trotzdem prüfen, damit ich nicht irrtümlich einen Paralleleintrag mit anderer "unserer" Schreibweise anlege.

    Hierbei wäre ich dir auch sehr verbunden, wenn du bei Nennungen, die allein in Groß- und Kleinschreibung voneinander abweichen, allein eine Schreibweise in diese Liste aufnimmst, da die anderen Schreibweisen nach Ergänzung des Titel in die Schreibweisen.tsv ja automatisch zugeordnet werden müssten.

    2. Liste von erfassten aber nicht zugeordneten Titeln (Erst im Anschluss)

    Ich würde es für sinnvoll halten, wenn du Spiele, die zwar bei den Schreibweisen erfasst sind, aber für die es weder bei der OGDB noch bei der no-ogdb.tsv eine Zuordnung gab, seperat auflistet, damit man diese Spiele dann mit entsprechenden daten in der no-ogdb.tsv ergänzen kann. Ich hoffe wie gesagt, dass du die jetzt nicht auf mein Feedback hin der titel.tsv-Liste zugeschlagen hast und das dort (auch) die Einträge mit leerer Klammer sein können.

    3. Liste von erfassten und zugeordneten Titeln mit unvollständigen Daten (Weiter im Anschluss)

    Sofern es - ich habe wie gesagt noch nicht ganz verstanden, aus welchen Gründen in der titel.tsv auch Titel mit leerer Klammer auftauchen können - so sein sollte, dass in der titel.tsv auch Titel auftauchen, die in der ogdb oder der no-ogdb.tsv zugeordnet sein sollten, da aber keinen Titel haben sollten, wäre es meines Erachtens sinnvoll auch dies seperat zu listen, damit dann in der no-ogdb.tsv die jahreszahlen ergänzt werden können (falls ermittelbar).

    Falls das Release nicht ermittelt werden kann, sollte man dort vielleicht "unbekannt" reinschreiben und diese Titel dann zukünftig auch mit unbekannt in der Klammer als "fertig" zugeordnet in der titel.tsv anzeigen. Für Titel, die einem OGDB-Eintrag zugeordnet werden können, aber dort ohne Release hinterlegt sind, sollte ggf. automatisch der Text" unbekannt" eingefügt werden. Vielleicht auch "unbekannt OGDB", damit wir wissen, wo es unbekannt ist. In diesem Fall wäre es vielleicht noch sinnvoll eine "limited-ogdb.tsv" anzulegen, in der man ergänzende Daten - wie das Erscheinungsjahr - hinterlegt, die in der OGDB nicht stehen, aber recherchiert werden können.

    Also wenn du die 1. Liste so erstellen könntest, ich dann - wie dargestellt - damit arbeiten könnte und das nicht zu viel Aufwand ist, würde ich dich um die Erstellung dieser ersten Liste bitten.
edit:
PS: Wir haben beide viel Arbeit hier rein gesteckt, und ich bin bereit, das auch weiterhin zu tun. Da ich am Wochenende leider nicht fertig geworden bin, werde ich die nächsten Tage auch weiter an den Listen arbeiten, bis Samstag dürfte machbar sein. Vor der nächsten Ausgabe müssen wir jedoch dringend darüber reden, wie wir die Auswertung besser koordinieren. Wie wir das aktuell machen, ist offensichtlich nicht optimal.
Danke, dass du dazu bereit bist - mir geht es genauso. Wegen der Koordinierung stimme ich dir ebenfalls zu. Samstagabend bin ich im Kabarett und werde wohl nur ab Sonntagmittag danach wieder Zeit haben - bin aber verhalten optimistisch, dass das reichen könnte.

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Do 3. Nov 2016, 08:09
von Patrik
(Auf dem Weg zur Arbeit mit dem Smartphone, daher wenig ausführlich.)

Ich denke, deinen Denkfehler erkannt zu haben: Wenn es einen Titel in der schreibweisen.tsv nicht gibt, wird das bisher nicht per se als Problem gesehen. Stattdessen greift die Arbeitshypothese, dass die Nennung korrekt geschrieben wäre. Damit wollte ich vermeiden, dass zwangsweise auch alles direkt korrekt Geschriebene nochmals erfasst werden muss.

Bezüglich der verschiedenen Groß- und Kleinschreibungen: Würde in der unbekannte-titel.tsv beispielsweise alles klein geschrieben, um Doppelungen zu vermeiden, würde das die Erkennung z.T. schwieriger machen. "DAoC" ist für mich leichter als "Dark Age of Camelot" zu erkennen als "daok". Zudem tauchen wie gesagt auch korrekte Schreibweisen auf. Die würdem bei einer automatischen Vereinheitlichung ebenfalls verändert. Sobald aber eine Fassung aufgenommen wurde, reicht es, die ./scripts/datenaufbereitung2015.py auszuführen. Die updated dann auch alles mit anderen Großbuchstaben.

(Mehr dann später mit richtigem Bildschirm und Tastatur.)

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Do 3. Nov 2016, 10:12
von Rey Alp
Ok, dann habe ich jetzt einen Weg verstanden, wie die falschen titel.tsv-Einträge mit leeren Klammern erzeugt werden bzw. wie es mit der der Zombie Trilogie auch ohne Eintrag in der Schreibweise.tsv zu einem richtigen Eintrag mit Jahreszahl in der Klammer in der titel.tsv kommen kann.
  • 1. Was wird denn dann aber in der unbekannte-titel.tsv geführt, wenn unbekannte Titel als korrekt unterstellt werden und in der titel-tsv auftauchen? Das wäre möglicherweise ein weiteres Missverständnis das aufgeklärt werden könnte: Sind die titel.tsv und unbekannte-titel.tsv gar nicht "ausschließliche" Listen, sondern gibt es auch Überschneidungen, dass Titel sowohl in der einen als auch in der anderen auftauchen können?

    2. Und gibt es auch andere Wege, auf die in der Titel.tsv falsche Einträge mit leeren Klammern erzeugt werden? Also z. B. wenn weder in der OGDB noch in der no-ogdb.tsv das Erscheinungsjahr hinterlegt ist? In diesem Fall würde ich es für sinnvoll erachten, es unterscheidbar zu machen, ob eine leere Klammer deswegen zustandegekommen ist, weil weder ein Eintrag in der OGDB noch der no-ogdb.tsv vorhanden ist, oder weil in der OGDB bzw. no-ogdb.tsv zwar der Titel vorhanden ist, aber bloß keine Jahreszahl hinterlegt ist. Da mein Beispiel, bei einem unvollständigen Abgleich in die Klammer "unbekannt" zu schreiben.

    3. Das mit der Schreibweise bei DAoC ist nen Punkt.

    4. Dann könnte ich mir die Liste zur Bearbeitung einfach dadurch erzeugen, dass ich die titel.tsv in zwei Listen Aufspalte: Liste A mit Jahreszahl und Liste B ohne: Liste B sind dann die Titel, bei denen ich abgleiche, ob sie in Liste A vorhanden sind.
    • - Wenn sie vorhanden sind lege ich einen Eintrag für die Schreibweisen.tsv an, in dem sie der bestehenden Schreibweise zugeordnet werden (edit: Wäre es hier nicht ein Problem wenn nicht unterschieden werden könnte, ob eine leere Klammer daher resultiert, dass der Titel keinen OGDB/no-ogdb.tsv-Eintrag zugeordnet werden könnte, oder die Zuordnung geklappt hat, aber keine Jahreszahl hinterlegt ist? - im letzteren Fall wäre das Anlegen einer Schreibweise in der Schreibweisen.tsv ja nicht nur überflüssig, sondern vielleicht sogar kontraproduktiv - Wenn also mit leeren Klammern auch solche Einträge in der titel.tsv angezeigt werden, die mit korrekt unterstellter Schreibweise ohne Eintrag in der schreibweisen.tsv einem (unvollständigen) Datensatz zugeordnert werden konnten, wäre eine Arbeit hier erst dann sinvoll, wenn diese Einträge mit leeren Klammern von den Einträgen, die keinen Eintrag in der OGDB/no-ogdb.tsv zugeordnet werden können, unterschieden werden können. z. B. mit dem Wort "unbekannt" in den Klammern.)

      - Wenn sie nicht vorhanden sein sollten, müsste ich technisch keinen Eintrag anlegen (da der ja als korrekt unterstellt wird). Ich könnte, wenn mir lustig ist, aber trotzdem einen neuen Eintrag anlegen - insbesondere, wenn der Titel falsch geschrieben worden sein sollte. Vorallem bestünde dann die Möglichkeit, dass bei einem neuen "Durchlauf" des Programms der Titel - jetzt mit korrekter Schreibweise - doch einem Eintrag der OGDB oder der no-ogdb.tsv zugeordnet werden könnte.
Die Ergänzung muss dann also wirklich 2-Phasig laufen:
  • 1. Anlegen/Ergänzen von Schreibweisen, wenn die nicht zugeordneten Nennungen die falsche Schreibweise eines erfassten Titels sind oder die falsche Schreibweise eines nicht erfassten Titel sind.

    (Voraussetzung hierfür ist, dass diese Einträge von anderen Einträgen mit leeren Klammern unterschieden werden können. Andere wären z. B. solche, die mit wahr unterstellter Schreibweise einem Eintrag in der OGDB/no-ogdb.tsv zugeordnet werden können, ein Jahr aber deswegen nicht ausgeben, weil das im datensatz nicht vorhanden ist. Unterscheidung könnte dadurch bewerkstelligt werden, dass in der Klammer bei unvollständigen Datensätzen in der OGDB/no-ogdb.tsv "unbekannt" steht.)

    2. Nach nochmaligen Durchlauf in der no-ogdb.tsv Einträge für die Titel anlegen, die immer noch eine leere Klammer haben?

Re: VDVC-Umfrage 2015-Auswertung (Teil 2)

Verfasst: Do 3. Nov 2016, 16:26
von Patrik
Hatte direkt nach meiner Ankunft hier erst mal Meetings. Jetzt erste Pause:

1. Ja, die Listen sind nicht ausschließlich. (Anfangs gab es nur die "unbekannte-titel.tsv" – und die musste alle Informationen enthalten, woran noch etwas zu tun ist. Die "titel.tsv" kam erst vor einigen Tagen hinzu – sie wird erzeugt, als wäre sie die fertige Auswertung.)

2. Da hast du Recht: Zugeordnete Releases mit unbekanntem Releasedatum (aber einer USK-Einstufung) waren von nicht zugeordneten Nennungen in der "titel.tsv" nicht zu unterscheiden. Möglich ist das aber in der "unbekannte-titel.tsv": Dort tauchen bereits zugeordnete Titel nicht auf. Um die Unterscheidung auch in der "titel.tsv" möglich machen soll, habe ich nun dort ein unsinniges Release-Jahr ("0") gesetzt.

4. Am effizientesten wäre es, nach Einträgen in der "unbekannte-titel.tsv" zu suchen, für die in der "titel.tsv" eine Jahreszahl gegeben ist. Dann fügst du eine entsprechende Zeile in der "schreibweisen.tsv" hinzu. Wenn keine gegeben ist

Ich habe im Bus mal deinen ersten Flowchart überarbeitet. Zum Verständnis: Die "schreibweisen.tsv" dient für ein simples Suchen-und-Ersetzten: Suche Ausdruck in Spalte 2 und ersetze ihn durch Ausdruck in Spalte 1. Mir ist da aber auch noch ein Bug aufgefallen: Aktuell werden Titel, die ohne Eintrag in der schreibweisen.tsv erkannt werden, in jeder Groß-/ Kleinschreibung separat gezählt. Das fixe ich aber im Skript.