Thursday, July 28, 2011

О robots.txt и утечках

В свете последних событий вокруг поиска. Не читайте советских газет надейтесь на robots.txt

Возникшие проблемы у магазинов со страницами заказов появились потому, что они использовали специально созданные для каждого клиента страницы. Удобно с точки зрения юзабилити - прислали ссылку в почту и перейти на нее можно без пароля. Ссылок на такую страницу вроде бы нет и никто кроме адресата о ней не узнает. Но, сказавши А, нужно тогда уж было и продолжить.

- ставить счетчики или вообще любые сторонние виджеты на такие страницы не есть разумное решение
- клиентский браузер может оказаться нашпигованным шпионским софтом от того же Яндекса (в просторечии - баром). И этот троян и передаст информацию об открытой странице в Яндекс. Вроде бы она и не должна была попасть в поиск, но результаты все видят.

Просто редактирование robots.txt или добавление тега noindex будет явно недостаточно. Сообщить другим о существующей странице может, например, еще и прокси, через который честный пользователь пришел посмотреть статус заказа. У них бывают открытые веб-интерфейсы. После чего придут другие боты, многие из которых robots.txt просто игнорируют. Сокращатели URL, например. На нашей практике бот от bit.ly, например, с презрением игнорировал все "запреты".

Закройте доступ к таким страницам всем запросам с "нечеловеческим" user-agent, например. Для Java серверов это можно сделать с помощью фильтра (сервлета) или непосредственно на странице - Referer taglib. PHP - аналогично.

Запретите кэширование таких страниц. И сделайте для них ограниченное время жизни. Последнее - это пожалуй первое, что нужно сделать.

P.S. а вот Facebook судил разработчиков за запуск поискового бота без письменного согласия владельца страниц. Радикальный способ ;-))

No comments: