Home > Blog > Технические подробности продвижения сайтов > Почему в Яндекс.Поиске находится даже то, что должно быть запрещено

Почему в Яндекс.Поиске находится даже то, что должно быть запрещено

Опубликовано 26.07.2011 От

яндекс нежелательная инфПосле инцидента с появлением в открытом доступе частных SМS-сообщений и других конфиденциальных данных, в своем блоге  Яндекс решил несколько разъяснить ситуацию.

Как пишет специалист корпорации Яндекс, блогер Владимир Иванов, во-первых, во избежание попадания в открытый доступ личной информации, владельцы и администраторы сайтов должны защитить все данные, например, закрыть их паролем. Любая незащищенная информация может стать достоянием общественности очень легко – для этого достаточно оставить где-нибудь в интернете ссылку на страницу пользователя, и неважно, что это будет – страница заказа, или же страница регистрации.

Во-вторых, нужно заблокировать возможность поисковых роботов индексировать страницы сайтов с информацией частного характера. Для этого создан файл robots.txt.Администрация web-ресурса может легко исключить из доступа роботов запрещенные страницы. А с помощью службы  Яндекс.Вебмастер можно легко проверить, какие страницы индексируются, а какие нет.

Владимир Иванов рассказал также и о том, каким образом данные на сайте становятся публичными. В момент добавления информации на сайт происходит индексация страницы –вебмастер отправляет запрос на индексирование системам-поисковикам, или просто отправляет ссылку в широкий доступ – в блоги или соцсети. Выходит так, что тысячи программ во всей мировой сети могут иметь доступ  к этой информации, даже если на нее еще никто не успел зайти. Добавим и то, что в случае наличия на этой странице каких либо-картинок или flash-объектов с других ресурсов, об этой информации будут знать все эти ресурсы. То же самое происходит с iframe: вся информация о них будет доступна системе показа рекламы или сервисам других систем, загруженных через iframe.

Все сервисы и их провайдеры будут знать о новой страничке, если ее администратор в процессе создания использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики.

Блогер также подчеркнул, что системы поиска получают из разных источников большое количество ссылок, но не контент страниц. А вот поисковый робот перед обращением к конкретной странице сайта обязательно мониторит файл robots.txt. Администратор легко может заблокировать возможность поискового робота индексировать эту страницу в поиске. Как оказалось, на многих ресурсах такие действия не производятся.

Когда робот получает содержимое ресурса, он отсекает мусор и спам. И уже после фильтрации страницы происходит ее ранжирование. Именно таким образом пользователям доступны все страницы в поиске, которые не закрыты вебмастером.