Woher weiß Recaptcha, dass Sie keine falschen Übersetzungen der Bilder eingeben?

1626
Zigu

Soweit ich verstehe, sind Captchas Text, der durch die Anwendung von Filtern, Rauschen und anderen zufälligen Algorithmen verzerrt wurde. Um also herauszufinden, ob die Lesefähigkeit einer Person die einer Person ist, vergleichen Sie die Antwort darauf mit der bekannten Antwort.

Wenn Sie sich nun über ReCaptcha informieren, heißt es, dass die angezeigten Wörter diejenigen sind, die von OCR nicht übersetzt werden können. Außerdem wird Recaptcha verwendet, um diese Bilder zu übersetzen. Wie kann es erkennen, ob Sie tatsächlich richtig lesen oder sich nur etwas einfallen lassen?

Wenn es wüsste, was es sagte, würde es nicht in Recaptcha als Übersetzungsmaterial verwendet werden. Wenn es nicht weiß, was der Text sagt, wie validiert es Ihre Antwort?

Ich vermute, dies ist wahrscheinlich eine Wahrscheinlichkeitsanalyse mit riesigen Stichprobengrößen, bevor etwas als übersetzt markiert wird.

Weiß jemand, wo die Antwort darauf ist?

22
Interessant ist der 4chan / anonyme Streich bei der Time-Umfrage. "Marmorkuchen, auch das Spiel", das Mängel bei der Crowdsourcing-Überprüfung des zweiten Wortes ausnutzte. DanBeale vor 12 Jahren 3
Der Hack @Dan mentioend: http://musicmachinery.com/2009/04/27/moot-wins-time-inc-loses/ BlueRaja - Danny Pflughoeft vor 12 Jahren 2

2 Antworten auf die Frage

33
Paul

Buchseiten werden im Grunde fotografisch gescannt und dann mit "Optical Character Recognition" (OCR) in Text umgewandelt und in Form eines Bildes mit einem Wort, das dem Computerprogramm hinter reCAPTCHA bekannt ist, und einem Wort, das dies nicht ist, in das Web eingespeist noch bekannt

Der Benutzer tippt dann beide Wörter aus, und wenn sie dasjenige lösen, für das die Antwort bekannt ist, geht das System davon aus, dass ihre Antwort für das neue richtig ist. Das System gibt dann das neue Bild an eine Reihe anderer Personen weiter, um mit größerer Sicherheit festzustellen, ob die ursprüngliche Antwort richtig war. Daher ist das System ein sich selbst verbessernder Dienst, der mit der Zeit besser wird.

http://www.google.com/recaptcha/learnmore

22
Joel Coehoorn

Aus diesem Grund müssen Sie bei reCaptcha zwei Wörter eingeben . Eines der Wörter ist bereits bekannt und eines der Wörter ist nicht bekannt. Ob Sie das Captcha bestehen oder nicht, hängt nur davon ab, wie Sie auf das bekannte Wort antworten. Ihre Antwort auf das andere (unbekannte) Wort wird zusammen mit anderen Antworten auf dasselbe Wort verwendet, um es ebenfalls in ein bekanntes Wort umzuwandeln.

... und deshalb wird es im Laufe der Zeit immer frustrierender, und Sie werden davon überzeugt, dass Sie ein Idiot / Roboter sind, wenn Sie es zum fünften Mal in Folge versagen. :-( Sirex vor 12 Jahren 4
Seltsam ... Ich habe nie einen versagt, an den ich mich erinnern kann, vielleicht nur Glück von meiner Seite. Paul vor 12 Jahren 0
@Sirex Ich dachte immer daran, aber dann wurde mir klar, dass dies nur der Fall ist, wenn der Korpustext konstant ist oder relativ zu den Captcha-Einträgen der Anzahl schrumpft. Die Wahrheit ist, dass der Korpus-Text wächst. Die Frage ist, ob dieses Wachstum mit dem Wachstum von Overal Captcha Schritt hält. Joel Coehoorn vor 11 Jahren 0
ja ich glaube. Ich habe viele ReCaptchas gesehen, die einfach unglaublich hart sind. Wobei auch das bekannte Wort mehrdeutig ist. Sirex vor 11 Jahren 0