?
← Предыдущая запись Share Следующая запись →

Поиск по картинкам и болезни роста

В последние дни в блогах обсуждается якобы имеющая место цензура в поиске по картинкам Яндекса. На самом деле у нас случился технический форс-мажор, болезнь роста.

Увы, технический сбой в сервисах Яндекса интерпретируется как акт цензуры не в первый раз – сторонниками самых разных партий и точек зрения. Мы понимаем, что подозрения рождаются легко, а рассеиваются долго, поэтому считаем нужным подробно рассказать, что именно случилось.

Мы запустили поиск по картинкам летом 2002 года, и тогда в нашей базе было примерно 12 миллионов изображений. К декабрю 2010 года их количество увеличилось до 1,8 миллиардов. При этом мы преимущественно индексировали картинки, размещенные на русскоязычных ресурсах, а в зарубежном интернете отбирали самые популярные картинки с самых интересных сайтов. Но для качественного ответа нашему пользователю нужно хорошо находить и индексировать картинки со всего мирового интернета.

Поэтому в декабре прошлого года команда Яндекс.Картинок приступила к масштабной индексации картинок в мировом интернете. Она поставила перед собой цель увеличить количество зарубежных картинок в 5 раз, при этом не забывая о повышении качества сервиса. Это большая и интересная задача, которая требует архитектурных изменений в поиске по картинкам.

Раньше в поиске по картинкам новая поисковая база выкладывалась раз в неделю. Чтобы выложить новую поисковую базу, недостаточно просто скачать картинки со всего интернета. Для них ещё нужно построить уменьшенные копии, найти и связать между собой дубликаты, удалить спам и т.д. Достаточно сказать, что размер нашего картиночного индекса сейчас - 3 терабайта, а уменьшенных копий картинок, которые тоже хранятся у нас на серверах, - 25 терабайт.

К сожалению, при таком резком расширении индекса случилась болезнь роста. Создание уменьшенных копий, склейка дубликатов и прочие процессы формирования базы стали занимать существенно больше времени.

Мы надеялись, что вот-вот справимся и выложим новую базу картинок, но недооценили масштаб происходящего. Мы слишком резко надавили на педаль газа, но забыли пристегнуть ремни. В результате накопился большой разрыв между датой, когда наш робот скачал картинку, и датой её появления в поиске.

Сегодня этот разрыв составляет непростительные 6 недель. Самая свежая картинка в базе датируется 13 февраля, а сама база была выложена в поиск 10 марта. Соответственно, сейчас наши пользователи не могут найти изображения, которые появились в интернете позже 13 февраля. Например, изображения последствий землетрясения в Японии, которое произошло 11 марта, конкурс плакатов в блоге Алексея Навального или фото с гражданской войны в Ливии.

Во вторник произойдет крупнейшее обновление зарубежной части базы в истории нашего картиночного сервиса. Её общий объем составит 3,9 млрд изображений, что более чем в 2 раза больше декабрьских показателей. В этой базе будут изображения, которые появились в интернете до 27 февраля, например, конкурс плакатов и начало войны в Ливии, а события в Японии – нет, потому что они случились в марте.



Таким образом, отставание сократится с 6 недель до 4, что всё равно неприемлемо. Но уже через неделю, когда произойдет следующее увеличение базы, мы сократим этот разрыв до 2 недель.

А скоро на Яндексе появится поиск по изображениям со всего интернета с полностью актуальной базой.

Дмитрий Беляев,
Руководитель мультимедийных поисков Яндекса


P.S. Приношу извинения нашим пользователям за временные проблемы с качеством сервиса.
Page 1 of 2
<<[1] [2] >>
А расскажите, пожалуйста, что не так по этому запросу? И в Гугле, и в Яндексе есть отрицательные картинки, есть нейтральные или положительные.
(Deleted comment)
(Deleted comment)
(Deleted comment)
Зеркало рунета
Рад услышать что все это всего лишь "болезнь роста", а не цензура :)
(Deleted comment)
спасибо, не буду тратить время на данный сервис
вообще то я об вашей цензуре ещё в феврале написал, до Бигдана это видимо докатилось через сарофанное радио

я тогда написал что выдача результатов в яндекс-блоги по запросу Ливия очень сильно различалась с аналогичным запросом в гугл-блоги, причем выдача яндекса отличалась исключительно отсутствием постов противоречащим официальным СМИ
Сортировка в Яндекс.Поиске по блогам производится по времени. Если вы делали вывод по первой странице выдачи, то вы просто смотрели на то, что написано в последние минуты или часы.
ну так неинтересно, мы тут теории заговора пытаемся придумать, а вы..:)

хотя, конечно, я не думал, что вы цензурируете, сразу же подумал о тех. проблемах. молодцы, что не стали зарываться в песок и прятаться, а открыто объяснили
Да бог бы с ними с картинками. Переклейка зеркал занимает месяцы, в течение которых нормальный сайт может быть вообще весь вне индекса.
Вы писали к нам в службу поддержки? Что они ответили?

--
Топка Александра, Яндекс
Зачем вы меня забанили, кстати?
sivka_krd
Разбанили. Извините, наверно, случайно вас задели, когда спам в комментариях удаляли.

--
Александра Топка, Яндекс
у вас с ТИЦ фигня какая то взяли и резко уменьшили жж блогам , а ведь там много оппозицинеров, все это очень подозрительно
Не всем блогам уменьшили тИЦ, некоторым даже увеличили. И это ещё подозрительнее.

Предложение и Я и Г

igorromanenko

2011-03-28 01:02 am (UTC)

Предлагаю сделать опцию поиска: ранжировать по упоминанию в интернете. Иногда мне нужны самые популярные картинки, и тогда часто выпадает одно и то же. Иногда мне нужно разнообразие. И тогда будет правильно сделать выбор случайным образом, не ранжируя по популярности. Такую опцию можно сделать, полагаю, в "Расширенном поиске".

Re: А что с текстовым поиском?

yandex

2011-03-28 09:06 am (UTC)

Я ответила на эту запись многоуважаемого Игоря еще утром, просто он не вынес мой ответ с примерами-скриншотами в пост, а многие до разъяснений не долистывают: http://ibigdan.livejournal.com/8291659.html?thread=153651531#t153651531

--
Александра Топка, Яндекс

Яндекс никому ничего не должен

jeka_d

2011-03-28 01:03 pm (UTC)

И это факт. Это записано в лицензии Яндекса. И, право, глупо и не правильно предъявлять претензии данному поисковику к чему либо. Либо пользуйтесь- либо нет.
С другой стороны тоже абсолютно глупая позиция девушки-семикласницы, которую сняли на мобильный телефон с бутылкой пива в машине сороколетнего дяди у него на коленях, и которая возмущенно краснеет и пытается праведно возмущаться- это не я, это вы все выдумали и вообще вы все подделали. Если имеешь смелость что то делать, так делай, и не оглядывайся на других, а эти оправдания -"технический сбой";)) Как то очень точечно (и точно;))) сбоит все;))

Как мне кажется в дилеме "верить или не верить людям" нужно всегда верить фактам. А от фактов никуда не денешься. Для меня все очевидно - и по истории с блогами, и по поиску по "неудобным" темам, и по той клоунаде недавней, что наши ДА и ВВ устраивали несколько дней назад (Яндекс, в отличие от других СМИ освещал данный события на сутки!!!! позже, и в строго необходимой последовательности, хотя с другими новостными поводами работает с точностью до секунды).
Повторюсь - никто никому не долже ничего.
Просто коробит от людей (и компаний) которые сначала заявляют - "я вот такой, и это принципиально!", а делают по другому. Просто молчите, это честнее будет.
Вы имели дело с высоконагруженными проектами?

а что с поиском?

mi_spb

2011-03-28 07:25 pm (UTC)

А зачем Вы под видом АГС заблокировали для индексации сайт Против Путина? Обвалили нам посещаемость? И пришлось это как раз на середину февраля.
Яндекс, зачем Вы выкручиваетесь? Скажите честно, что цензура и все вопросы отпадут сами собой. Письма на админскую почту Вашего сервиса в дни акций приходят с опозданием в несколько часов. А однажды мне пришло письмо с опозданием в неделю. Подписка на Ходорковского почтой Яндекса иногда идет как спам. Вы еще будете придумывать всякие отговорки?
Замечено 28.11.2010. после событий в ст.Зеленокумской Ставрополья, когда чеченцы постреляли казаков.

Топ запросов на острые темы на Яндексе -ПОДЧИЩАЮТ (наблюдение)

Только запрос "ГУВД по Ставропольскому краю" был на 7-м месте, а минут через десять вообще исчез, а запрос "Никита Михалков", как висел 2 дня на 39-м месте, так там и остался.

Походу контролируют БЛОГОСФЕРУ, "Выпускают пар". Вам очень интересна "Баба Параска" на 1-м месте
Простите, вы слышали выражение о том, насколько анонимный комментатор "не лучше" альтернативно настроенного человека?
Задумайтесь, ведь к вам это применимо в полной мере.
Page 1 of 2
<<[1] [2] >>