четверг, сентября 17, 2009

Google Books станут четче

(А в начале я написал об этом тут: http://ping.fm/SOb2G)
[caption id="attachment_5553" align="alignright" width="314" caption="Пример ReCAPTCHA"]Пример ReCAPTCHA[/caption]

Для тех их нас, кто уже смог оценить по достоинству новый (старый) сервис Google Books (я рассказывал о нем тут, тут и здесь), могу радоваться вдвойне: Google объявил о приобретении ReCAPTCHA.

Условия сделки не разглашаются, однако очевидно, что Google будет использовать эту технологию не только для того, чтобы защитить себя от спама, но и для улучшении качества сканирования книг, сканы которых поступили (или поступят в самое ближайшее время) в его, Гугла, распоряжение.

Наверняка вы видели эти странные каптчи – когда угадать предлагают сразу два слова. Логика технологии борьбы со спам-ботами и прочими искусственными жителями киберпространства примерно такова: предлагается два слова, начертания шрифта которых отличается от стандартных. Одно из этих слов известно ReCAPTCHA, второе – нет и если вы правильно написали первое – то и второе с большой долей вероятности также распознаете. Затем распознанные «вторые» слова сравниваются и находится наиболее вероятное значение – и слово включается в общую базу распознанных слов.

Таким образом ReCAPTHA не только борется с указанными выше негуманоидными формами жизни (если считать спам-ботов таковыми), но и делает доброе дело, помогая распознавать книги, шрифты в которых сильно отличаются от современных.

Именно эта способность привлекать к распознаванию людей (crowd-sourcing), полагаю, и обеспечила интерес Google в первую очередь. И если таким нехитрым способом можно улучшить распознавание книг в библиотеке Google Books – тем лучше для нас всех!

Комментариев нет: