Отсутствие robots.txt может повлечь индексацию секретных данных . Новости

Отсутствие robots.txt может повлечь индексацию секретных данных

Отсутствие robots.txt может повлечь индексацию секретных данных
28 Июля 2011

На первых парах своего развития интернет уже стал самым востребованным изобретением человечества. С каждым годом число различных сайтов растет в геометрической прогрессии. Чтобы легко найти необходимую информацию были изобретены поисковые сервисы, с которых пользователи и попадают в сеть. Поначалу поисковики были похожи на иерархический каталог, который классифицировал ресурсы. Далее появились современные поисковики, работающие по принципу вычленения ключевых фраз из базы данных. В отличие от пользователей поисковые системы проходят по всем возможным ссылкам интернета.

Таким образом, поисковики разделились на «видимые» и «скрытые». «Видимые» открываются для пользователей через определенный поисковый сервис. «Скрытых», однако, намного больше. К ним относятся государственные сети с доменами smil.mil и sgov.gov, сайты для зарегистрированных пользователей с логином и паролем (почтовые ящики), домены верхнего уровня со специальным программным обеспечением, страницы с запрещенными индексациями, которые указаны мегатегами в html-коде или в файле robots.txt.

Обратим внимание на последний пункт. Для управления активностью поисковиков был создан Robots Exclusion Standard. При его помощи сайт может запретить индексацию определенным поисковым системам. При помощи html-кода в шапке сетевой страницы прописываются значения noindex (запрет индексации) или nofollow (запрет перехода на определенную страницу).

Именно незапрещенные страницы и способствовали за последние недели утечке информации. Первой историей была публикация личных СМС абонентов «Мегафона», отправленных с его официального сайта. Затем выяснились личные данные покупателей интернет-магазинов. Далее пользователи «Гугла», «Яндекса» и Bing нашли в сети документы, предназначенные для служебного пользования. Ночью 24 июля отвечающий за информационную безопасность в «Яндексе» Владимир Иванов на «Радио-Т» заявил, что на сайте «Мегафона» действительно отсутствовал robots.txt, либо просто был пустым. Поисковый робот самостоятельно на динамически случайные ссылки перейти не может, но если его натолкнуть до момента, когда страница уже исчезнет, он ее успешно проиндексирует.

В связи с последними событиями специалисты советуют не оставлять свои личные данные на сторонних сервисах, пользоваться расширением NoScript и не надеяться на сознательность веб-мастеров посещаемых страниц.



Похожие новости:

Каталог сайта MegaIndex.ru проиндексирован ПС
В поисковиках появились личные данные пассажиров Российских железных дорог
"Яндекс" предлагает способы защиты личной информации пользователей
В «Яндекс» попало большое количество конфиденциальной информации
В Google попали секретные документы российских государственных ведомств
Вышла в свет новая версия VamShop 1.76
АртВеб на первых позициях
Отсутствие robots.txt может повлечь индексацию секретных данных
Rambler's Top100