Август 2003
Возможно, мы сможем повысить точность байесовских спам-фильтров, если заставим их переходить по ссылкам, чтобы посмотреть, что ждет на другом конце. Ричард Джоуси из death2spam сейчас делает это в пограничных случаях и сообщает, что это хорошо работает.
Зачем делать это только в пограничных случаях? И почему только один раз?
Как я уже упоминал в статье "Убьют ли фильтры спам?", следование всем ссылкам в спаме имело бы забавный побочный эффект. Если бы популярные почтовые клиенты делали это для фильтрации спама, серверы спамеров серьезно пострадали бы. Чем больше я думаю об этом, тем лучше кажется эта идея. Это не просто забавно; трудно представить себе более идеально направленную контратаку на спамеров.
Поэтому я хотел бы предложить дополнительную функцию для тех, кто работает над спам-фильтрами: режим "наказания", при включении которого каждый url в подозреваемом спаме будет проверен пауком n раз, где n может быть задано пользователем. [1]
Как отмечали многие, одна из проблем нынешней системы электронной почты заключается в том, что она слишком пассивна. Она делает все, что вы ей скажете. Пока что все предложения по устранению этой проблемы связаны с новыми протоколами. Это не так.
Если бы спам-фильтры с автоматическим извлечением спама получили широкое распространение, то система электронной почты отстроилась бы. Огромный объем спама, который до сих пор работал в пользу спамера, теперь будет работать против него, как ветка, отщелкивающаяся от его лица. Автоматически извлекающие спам фильтры приведут к росту расходов спамера и снижению его продаж: использование полосы пропускания будет зашкаливать, а его серверы остановятся под нагрузкой, что сделает их недоступными для людей, которые должны были ответить на спам.
Рассылайте миллион писем в час, получайте миллион обращений в час на свои серверы.
Мы хотели бы убедиться, что это делается только в отношении подозрительного спама. Как правило, любой url, отправленный миллионам людей, скорее всего, будет спамом, поэтому отправка каждого http-запроса в каждом письме будет работать нормально почти всегда. Но есть несколько случаев, когда это не так: например, урлы в нижней части писем, отправленных с бесплатных почтовых служб, таких как Yahoo Mail и Hotmail.
Чтобы защитить такие сайты и предотвратить злоупотребления, автопоиск должен сочетаться с черными списками сайтов, рекламируемых спамом. Только сайты из черного списка будут просматриваться, а сайты будут попадать в черный список только после проверки человеком. Время жизни спама должно составлять не менее нескольких часов, поэтому такой список должно быть легко обновлять вовремя, чтобы помешать спаму, продвигающему новый сайт". [2]
Автопоиск большого объема будет практичен только для пользователей с высокой пропускной способностью, но таких пользователей достаточно, чтобы доставить спамерам серьезные проблемы. Действительно, это решение точно отражает проблему. Проблема спама заключается в том, что для того, чтобы достучаться до нескольких доверчивых людей, спамер рассылает почту всем подряд. Не доверчивые получатели являются лишь сопутствующим ущербом. Но не доверчивое большинство не перестанет получать спам, пока не сможет остановить (или пригрозить остановить) доверчивых от ответа на него. Автоматически извлекающие спам-фильтры предлагают им способ сделать это.
Уничтожит ли это спам? Не совсем. Самые крупные спамеры, вероятно, смогут защитить свои серверы от автопоисковых фильтров. Однако самым простым и дешевым способом для них будет включение в письма рабочих ссылок на отписку. И это было бы необходимо для мелких мальков, а также для "законных" сайтов, которые нанимают спамеров для их продвижения. Таким образом, если бы фильтры с автополучением получили широкое распространение, они стали бы фильтрами с автоотпиской.
При таком сценарии спам, как и сбои ОС, вирусы и всплывающие окна, станет одним из тех бедствий, от которых страдают только те, кто не удосужился использовать правильное программное обеспечение.
Примечания
[1] Автоматически извлекающие фильтры должны будут следовать перенаправлениям, и в некоторых случаях (например, на странице, где просто написано "нажмите здесь") должны следовать более чем одному уровню ссылок. Убедитесь также, что http-запросы неотличимы от запросов популярных веб-браузеров, включая порядок и реферер.
Если ответ не приходит в течение x времени, установите по умолчанию некоторую достаточно высокую вероятность спама.
Вместо того чтобы делать n постоянным, было бы неплохо сделать его функцией от количества спамов, которые были замечены при упоминании сайта. Это добавит дополнительный уровень защиты от злоупотреблений и случайностей.
[2] В первоначальной версии этой статьи использовался термин "белый список" вместо "черного списка". Хотя они должны были работать как черные списки, я предпочел назвать их белыми списками, потому что это могло сделать их менее уязвимыми для юридических атак. Однако, похоже, это только запутало читателей.
Вероятно, должно быть несколько черных списков. Единая точка отказа была бы уязвима как для атак, так и для злоупотреблений.