Яндекс (yandex) wrote,
Яндекс
yandex

Category:

Поиск по картинкам и болезни роста

В последние дни в блогах обсуждается якобы имеющая место цензура в поиске по картинкам Яндекса. На самом деле у нас случился технический форс-мажор, болезнь роста.

Увы, технический сбой в сервисах Яндекса интерпретируется как акт цензуры не в первый раз – сторонниками самых разных партий и точек зрения. Мы понимаем, что подозрения рождаются легко, а рассеиваются долго, поэтому считаем нужным подробно рассказать, что именно случилось.

Мы запустили поиск по картинкам летом 2002 года, и тогда в нашей базе было примерно 12 миллионов изображений. К декабрю 2010 года их количество увеличилось до 1,8 миллиардов. При этом мы преимущественно индексировали картинки, размещенные на русскоязычных ресурсах, а в зарубежном интернете отбирали самые популярные картинки с самых интересных сайтов. Но для качественного ответа нашему пользователю нужно хорошо находить и индексировать картинки со всего мирового интернета.

Поэтому в декабре прошлого года команда Яндекс.Картинок приступила к масштабной индексации картинок в мировом интернете. Она поставила перед собой цель увеличить количество зарубежных картинок в 5 раз, при этом не забывая о повышении качества сервиса. Это большая и интересная задача, которая требует архитектурных изменений в поиске по картинкам.

Раньше в поиске по картинкам новая поисковая база выкладывалась раз в неделю. Чтобы выложить новую поисковую базу, недостаточно просто скачать картинки со всего интернета. Для них ещё нужно построить уменьшенные копии, найти и связать между собой дубликаты, удалить спам и т.д. Достаточно сказать, что размер нашего картиночного индекса сейчас - 3 терабайта, а уменьшенных копий картинок, которые тоже хранятся у нас на серверах, - 25 терабайт.

К сожалению, при таком резком расширении индекса случилась болезнь роста. Создание уменьшенных копий, склейка дубликатов и прочие процессы формирования базы стали занимать существенно больше времени.

Мы надеялись, что вот-вот справимся и выложим новую базу картинок, но недооценили масштаб происходящего. Мы слишком резко надавили на педаль газа, но забыли пристегнуть ремни. В результате накопился большой разрыв между датой, когда наш робот скачал картинку, и датой её появления в поиске.

Сегодня этот разрыв составляет непростительные 6 недель. Самая свежая картинка в базе датируется 13 февраля, а сама база была выложена в поиск 10 марта. Соответственно, сейчас наши пользователи не могут найти изображения, которые появились в интернете позже 13 февраля. Например, изображения последствий землетрясения в Японии, которое произошло 11 марта, конкурс плакатов в блоге Алексея Навального или фото с гражданской войны в Ливии.

Во вторник произойдет крупнейшее обновление зарубежной части базы в истории нашего картиночного сервиса. Её общий объем составит 3,9 млрд изображений, что более чем в 2 раза больше декабрьских показателей. В этой базе будут изображения, которые появились в интернете до 27 февраля, например, конкурс плакатов и начало войны в Ливии, а события в Японии – нет, потому что они случились в марте.



Таким образом, отставание сократится с 6 недель до 4, что всё равно неприемлемо. Но уже через неделю, когда произойдет следующее увеличение базы, мы сократим этот разрыв до 2 недель.

А скоро на Яндексе появится поиск по изображениям со всего интернета с полностью актуальной базой.

Дмитрий Беляев,
Руководитель мультимедийных поисков Яндекса


P.S. Приношу извинения нашим пользователям за временные проблемы с качеством сервиса.
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 102 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →