Woher bekommt RECAPTCHA diese Wörter?

1433
Timwi

Ich frage nur aus Neugier.

Heute bin ich auf mehrere wirklich merkwürdige Wörter gestoßen, als ich von RECAPTCHA gefangengenommen wurde:

  • Indelms
  • Sumbetat
  • Polietrie
  • Grevolfa

Wenn dies vernünftige Wörter in einer beliebigen Sprache waren, sollte eine Google-Suche zu sinnvollen Seiten führen, die diese Wörter in einem Satz verwenden. Die Anzahl der Google-Ergebnisse für die obigen Wörter ist jedoch 3, 0, 27 und 0. Die Treffer sind eindeutig unwahrscheinliche Tippfehler für andere vernünftige Wörter.

Woher bekommt RECAPTCHA diese Wörter? (Anmerkung: "Bücher." Ist keine ausreichende Antwort :) Ich suche nach einer Erklärung für die hohe Häufigkeit scheinbar nicht vorhandener Wörter ...)

3
Wenn diese Frage hier nicht Thema ist, welche StackExchange-Site wäre geeigneter? Timwi vor 13 Jahren 1

1 Antwort auf die Frage

8
William Hilsum

Nun, die Antwort sind Bücher.

Sie könnten falsch gescannt werden, von anderen Sprachen, oder sogar ein Autor hat sie falsch geschrieben.

Ich schlage vor, Sie lesen die Recaptcha-Info- Seite .

Excert

Um menschliches Wissen zu archivieren und Informationen weltweit zugänglicher zu machen, digitalisieren derzeit mehrere Projekte physische Bücher, die vor dem Computerzeitalter geschrieben wurden. Die Buchseiten werden fotografisch gescannt und dann mit "Optical Character Recognition" (OCR) in Text umgewandelt. Die Umwandlung in Text ist hilfreich, da beim Scannen eines Buches Bilder erzeugt werden, die auf kleinen Geräten schwer zu speichern, teuer herunterzuladen sind und nicht durchsucht werden können. Das Problem ist, dass OCR nicht perfekt ist.

Alt-Text

reCAPTCHA verbessert die Digitalisierung von Büchern, indem Wörter, die von Computern nicht gelesen werden können, in Form von CAPTCHAs an das Web gesendet werden, damit der Mensch sie entschlüsseln kann. Insbesondere wird jedes Wort, das von OCR nicht richtig gelesen werden kann, auf einem Bild platziert und als CAPTCHA verwendet. Dies ist möglich, da die meisten OCR-Programme Sie darauf hinweisen, wenn ein Wort nicht richtig gelesen werden kann.

Bearbeiten

Wie gesagt, Fehler in OCR -

Ich glaube, dass Indelms Indianer sein soll - gelegen aus den Statuten der Vereinigten Staaten bei großem Volumen 40 Teil 2

Polietrie - höchstwahrscheinlich falsch von Popliteal gescannt - ein medizinischer Begriff.

Das beantwortet meine Frage nicht. Es wiederholt nur die Seite von ReCAPTCHA. In meiner Frage habe ich mich auch schon mit der Option "Andere Sprachen" befasst, daher bin ich mir nicht sicher, ob Sie meine Frage überhaupt vollständig gelesen haben. Timwi vor 13 Jahren 0
@Timwi - meine Antwort wurde aktualisiert. Ich bin sicher, dass es sich nur um OCR-Fehler handelt. Wenn Sie ein Dokument scannen, erhalten Sie immer solche Dinge. Es könnte sich auch um Fehler in OCR aus verschiedenen Sprachen handeln, ich habe nie ausschliesslich eine davon gesagt ... Warum würde Recaptcha über ihre Quellen lügen !? William Hilsum vor 13 Jahren 2
@ Will: Das macht keinen Sinn. Sie scheinen zu implizieren, dass die Wörter, die ich sehe, das * Ergebnis * einer OCR sind. Das ist natürlich nicht der Fall. Sie sind Scans aus einem Buch. Sie sind Scans * der Wörter, bei denen die OCR fehlgeschlagen ist. * Timwi vor 13 Jahren 3
@ Timwi - Warum die Einstellung? Der Mann versucht nur zu helfen (und sein Bestes zu geben, soweit man sehen kann). Ja, sie sind das Ergebnis einer OCR ... niemand hat gesagt, dass OCR perfekt ist und das Ergebnis korrekt ist. Scannen Sie das Buch, führen Sie eine OCR-Prüfung durch, überprüfen Sie das Ergebnis. Wenn Zweifel bestehen, setzen Sie den Originalscan als Captcha ein. Und ja, sie verwenden auch andere Sprachen - neulich bin ich auf ein paar Wörter meiner eigenen Sprache (sehr kleine europäische Sprache) gestoßen. Rook vor 13 Jahren 2
@Rook: Erstens gibt es keine "Haltung" in meinem Kommentar. Ich weise nur auf die Fehler mit seiner Antwort hin. Zweitens: genau! Sie * setzen den Originalscan als Captcha *, nicht das Ergebnis einer OCR (das macht keinen Sinn). Daher ist „Fehler in der OCR“ keine Antwort auf meine Frage. Aber diese * Originalscans *, die ich sehe, sind unsinnige Wörter aus keiner Sprache. Wenn es sich um Wörter aus einer vernünftigen Sprache handelt, sogar aus einer seltenen Sprache wie Baskisch oder Maltesisch oder was auch immer, würde Google vernünftige Seiten anzeigen, die das Wort tatsächlich in einem vernünftigen Kontext verwenden. Aber es tut nicht Timwi vor 13 Jahren 1
@ Timwi - Nein, nicht unbedingt. Google zeigt nur Teile der meisten Sprachen aus den letzten 30 Jahren. Sprachen ändern sich. Ich habe jetzt Bücher in meinem Regal mit Wörtern, die heute weder im Schreiben noch in der Sprache mehr verwendet werden und bei Google / Internet überhaupt nur sehr selten vorkommen werden. Wenn Englisch heute nicht lingua franca wäre, wäre dies sicherlich ein ähnlicher Fall (Vergleichen Sie Shakespeares Englisch und Amerikanisches Englisch ...) Rook vor 13 Jahren 2
@Rook danke - @Timwi Ich sagte Fehler in OCR, nicht Fehler beim Eingeben und Hochladen von Leuten - Die Leute machen ihren besten Job, ABER, es könnte Flecken auf dem Scanner geben, oder es könnte einfach eine schlechte Qualität sein - ich habe die Quelle gefunden von den Indelms eine durch Bing Suche (gehen Sie zu meinem Link oben und Sie können für sich selbst überprüfen), warum ist es so schwer vorzustellen, dass etwas Ähnliches bei anderen Ergebnissen passiert? William Hilsum vor 13 Jahren 0