shaman007

Из наблюдений за интернетом

Примерно полтора года, пока была жива подписка на Google я почти не пользовался этим сервером. Он существовал как-то сам по себе своей жизнью, спамеры нагадили в комментариях ссылками на дорвеи, иногда пропадал файл rome-club.pdf, на который в сети очень много ссылок (лол, никогда бы не подумал, что им кто-то будет интересоваться). При этом Yandex считал ТИЦ сайта равным 10 (нет, я знаю, что это стэнд-элон никто не читает и скорее всего читать не будет) и у Гугла тоже что-то водилось >0.

Однако теперь я обновил движок, потер спамеров, скопировал сюда более-менее длинные тексты, чтобы были все в одном месте, в этом вашем Fecebook’е хрен чего найдешь, например. Все, Гугл и Яндекс обнулили его “ценность” и “авторитетность”. Интересно, почему так и правильно ли это?

Растаможка автомобиля из России в Чехии

Наверное стоит рассказать (да чтоб и самому не забыть) про то, как растаможить машину из РФ в Чехии. tl&dr: приходишь к брокеру (спасибо Pavel Zhukov), платишь денежку (мне вышло около 14 000 крон), получаешь номера. Длинно:

(-1) Зачем это надо, ведь в Чехии полно дешевых машин? Да, конечно! Тут есть совсем бесплатные машины, прямо в салонах! То есть стоимость сравнима со стоимостью расходников за год или вообще со стоимостью полного бака + техосмотра. Я знаю место, где стоит Кайен 2007 года, не бит не крашен, с 2мя комплектами колес и всеми документами за десятку тысяч евро. Пятерка е39 может стоить 2000 евро и еще за 2000 ее можно покрасить-поправить и заменить ей фары-резинки, но это не на каждый день машины. Внятные-понятные-свежие все-таки чего-то стоят, из-за курсовой разницы конкретно мой случай был примерно на 3-5000 евро не выгоден по цене + я использовал свою машину как транспорт для переезда + я сразу мог ездить в Икею, в тот же день как приехал, а не решать вопрос с колесами сначала. Машину старше 7 лет везти смысла нет, до 2012 везти машину тоже не было смысла.
UPD: старше 6 лет ее растоможат, но не поставят на учет! То есть старше 6 лет НЕЛЬЗЯ СОВСЕМ НИКАК, ЗАБУДЬ И ОТПУСТИ.

Continue reading →

Sieve: фильтрация почты на стороне сервера

После того, как Google закрыл Reader, я утратил веру в большую компанию, которая делает для меня инструмент, решающий важные мне задачи. Я решился строить свой собственный Луна-парк с читалками, агрегаторами, болжеком и т.п. Почта на своем домене — первое, что приходит в голову. Не вопрос прописать MX запись, поставить Postfix на локальную доставку, установить IMAP-сервер Dovecot и почтовый веб-клиент Roundcube, вопрос повторить функциональность «большой» системы, в первую очередь, сортировку. Я не буду дублировать существующие инструкции, опишу только неочевидные моменты.

Continue reading →

Доклад по вопросам сравнения антиспамов и построения спам-фильтров

Ссылка на конференицию UNИX;

Презентации: ODP, PDF;

Спам

Сколько вам приходит спама в день? Мне около 1000-1500 сообщений на abondarenko@gmail.comи корпоративный ящик. Это много, друзья, моя жена, спам-аналитик, не даст мне соврать, но эти адреса принадлежат живому человеку и им больше 5 лет.

Нормальные люди решают задачи минимизации потока мусора в свои ящики, а мне как-то довелось решать обратную задачу, мне нужно было сделать спам-ловушки, то есть адреса, на которые будет приходить 100% спам дабы можно было обучать фильтры и смотреть статистику их работы. Казалось бы, чего проще! Ну зарегистрируем мы немного ящиков на разных сервисах платных и не очень, заведем какой-нибудь неприметный домен с ничего не говорящим именем digitalhardcore.us, будем эти адреса оставлять в регистрационных карточках заказа рекламы Pfizer’a и еще какой-нибудь дряни (естественно, отписавшись сразу же от легитимной рекламы) и дело в шляпе. И так, что было сделано:

Несколько адресов на mail.com, yahoo.com и еще где-то с форвардом на приемник потока у нас.
digitalhardcore.us, вся почта с которого форвардится на тот же приемник.
Регистрируемся на множестве сайтов разной направленности от торрент-трекеров и обзоров железа до секс-шопов оставляя там эти адреса.
Постим на форумах разные нейтральные комментарии указывая в подписях адреса.

Результат выполнения пунктов 3 и 4 ночными дежурными за 1 год – около 100 писем в день на адрес (плюс-минус), хотя ожидался на порядок больше.

Второй интересный момент: на 1 адрес мы собирали “не спам”, то есть рекламу уважаемых контор вроде cocacola или hp чтобы тестировать себя на ложные срабатывания. Результат через год – 10-20 спамовых писем в день в потоке честной рекламы, хотя адрес живым людям кроме меня был не известен.

Третий интересный момент относится уже к наблюдению за личным потоком: стоит написать какому-нибудь недалекому человеку и характер спама меняется. Появляется реклама продуктов, которых раньше не было, его становится заметно больше. Происходит это потому, что у недалеких людей есть трояны, которые извлекают полезные сведения из их переписки.

Отсюда лично я делаю выводы:

крупные неуважаемые места торгуют базами пользователей (удав, фишки).
крупные уважаемые места ими не торгуют (LOR, Lepra), но некоторые все-таки торгуют. основной метод сбора адресов для набития баз – это не прочесывание стайтов и перебор имен, а потрошение записных книжек почтовиков троянами.

По этому можете смело писать свои адреса без дурацких _at_ или _здесь_была_собака_, форумы – капля в море.

Антиспам – отстой

Антиспамами принято меряться, давать им разные крутые награды и хвалить на форумах. Я хочу рассказать о том, как ими меряться правильно и что следует из измерений.

Сначала надо определиться, что есть спам. Вопрос не так прост, как кажется. Вот так определяет спам Лаборатория Касперского: “Массовая не запрошенная анонимная рассылка”. Массовая – потому, что единичный blackmail не есть результат работы спамера, а есть просто частный конфликт двух-трех людей. Незапрошенная – потому, что запрошенная реклама – не спам, ведь пользователь сам хотел ее у себя видеть и спамфильтр ее резать не должен. Анонимная (технически), потому, что с непрошенными письмами людей, которые себя никак не скрывают вопрос решают административно. Яркий пример таких писем – разные повестки или оповещения. Важность этого определения в том, что например, Яндекс спам определяет иначе, у него это “вся нежелательная почта и все рассылки”. Можно дискутировать на тему правы они или нет, но это однозначно надо учитывать при сравнении результатов их работы. Вообще на сколько мне известно, на сегодняшний момент консорциум по борьбе со спамом определение термина так и не утвердил, но рабочий вариант максимально приближен к определению ЛК.

Второе – в каких условиях сравнивать? Сравнивать надо только на живом потоке почты, а не на старой коллекции спама, потому, что то, что попало в “коллекцию” уже никогда не встретится в реальной жизни и ее фильтрация нам ни о чем реальном не скажет. Все тестируемые антиспамы должны быть поставлены в равные условия, то есть не последовательно, а параллельно. И тестировать надо неделю или две на хорошем потоке, а не на десятке сообщений и не один день.

Третье – что сравнивать кроме скорости. Сравнивать надо 2 величины – уровень детектирования (Detection Rate) и уровень ложных срабатываний (False Positive Rate). Первое число – это число верно распознанных как спам писем поделенное на общее число спама. Это число НИКАК нельзя посчитать при помощи робота потому, что робот не видит собственных ошибок. Уровень ложных срабатываний – это число распознанных как спам нормальных писем поделенное на общее число нормальных писем. Если первый параметр указывают, то второй либо замалчивают либо пишут откровенные небылицы. Нужно помнить, что FPR резко растет с увеличением агрессивности фильтра и, например, при замене антиспама на тупой скрипт “помечать как спам вообще все” и DR и FPR будут равны 100%: 100% спама мы распознаем уверенно, но и все чистые письма тоже зарубим.. Пример реальных цифр – Spam SLA Message Labs гарантирует деньгами 95%DR, 0.0004%FPR.

А теперь, почему антиспам – отстой. Потому, что хороший антиспам при низком FPR (одно на 10000) имеет в реальности DR около 93-96%. То есть например я при хорошем эгрегоре и чистой карме получу 40-70 спамовых писем в день (что собственно и происходит). По опыту, спам начинает бесить пользователя где-то на 14-16 письмах в день, так что меня ярость должна разорвать на куски :-).

Персональный спам

Для того, чтобы понять как нам сделать жизнь удобнее, надо разобраться, как вообще работают антиспамы. Есть 3 больших класса методов борьбы со спамом (классификация моя, можете поправить):
Разграничение прав доступа. То есть блокировка письма по признаку отправителя, не важно как мы его ограничиваем: авторизацией или урезанием пулов IP по DNSBL, greylist’у или как-то еще.

Анализ контента. Когда какой-то нормализованый кусочек письма рассматривается как образец спама, характеристический термин, URI из блек-листа чего угодно (IP, телефоны, URL, whatever).
Статистика. Ведение персональной базы по отдельно взятому потоку спама-неспама любым удобным алгоритмом, например байесом.

Недостаток первого метода в том, что слишком грубая резка порождает ложные срабатывания и RBLы часто обслуживаются полностью невменяемыми людьми. Второго в том, что база сигнатур-признаков-терминов всегда в большей или меньшей степени не поспевает за спамерами и отражают некий усредненный поток, а рассылки нынче уникальные с очень коротким временем жизни. Третьего (кроме традиционной убогости реализации) в вечном мусоре в базе, опасностью перекормить спамом и необходимостью вести статистическую базу для каждого пользователя (если мы хотим хорошего результата), а по сему по моему глубокому убеждению подкрепленному опытом Байесу на серверах делать совершенно нечего. Первый метод используют все, второй – практически все коммерческие вендоры (Message Labs, Yandex, Kasperksy, Symantec), третий – spamassasin и производные, а так же все персональные.

Так как спамассасин все-таки ставят на сервера, а ведением персональных баз никто себя не утруждает, то можно смело заявлять, что ваш серверный антиспам использует анализ некоего усредненного потока, и то, что все-таки проходит к вам в ящик – это либо очень хороший спам, либо “выбросы” из этого среднего потока. Так как хороший спам – это наверняка инновации и его поимку через некоторое время лечит вендор серверного антиспама, то нам следует сосредоточится на “выбросах” – вот тут-то нам и поможет Байес. Он встроен во все персональные антиспамы в том или ином виде с разной степенью убогости (самая убогая реализация – у Microsoft при совершенном отсутствии причин делать плохо очевидные вещи по известным алгоритмам имея в общем полноценный почтовый клиент и не полхой сервер) и так как он наш, то настроить и обучить его мы вполне способны так, чтобы снизить вредное влияние его традиционно большого false positive rate. Мой рецепт счастья: скидывать спам, отфильтрованный им в отдельный ящичек не смешивая со спамом отфильтрованным сервером, чтобы просматривать его перед удалением. Первое время там окажется довольно много нужной почты и потребуется явные корректировки настройки, но месяца через 3 он перестанет фалсить.

Простой личный анонимайзер

В свете последних событий и вероятного будущего, нам всем может понадобиться удобная утилита, которая позволяет смотреть на Web глазами цивилизованного европейца, а лучше голландца. Это может быть нужно для проверки доступности сайта, обхода слишком навязанного геотрекинга, неуместного черного списка или для осуществления любой другой легитимной законной деятельности в интернетах, которую нам не позволяют в данной сети неправильно сконфигурированный шлюз или прокси-сервер.

Конечно, можно воспользоваться публичным анонимайзером, ТОРом или VPN’ом, но это не всегда удобно и не всегда возможно: например, публичный терминал в интернет-кафе или любой компьютер, на котором у нас нет прав, не позволит нам воспользоваться TOR’ом или VPN, а “анонимные прокси” вообще вещь в себе: никогда не знаешь как монетизирован именно этот хост. Личный анонимайзер же будет работать на любом устройстве и с большой вероятностью не будет заблокирован на бордере. Предлагаемый метод не отменяет TOR или VNP, а дополняет их возможностью доступа с чужих хостов. Continue reading →

Зонд Atlas RIPE

Локальная копия статьи на Хабре.

На конференции ENOG-4 мое внимание привлек стол, на котором лежали коробочки с наклейкой RIPE NCC, портом RJ-45 и хвостом USB. Вот такие:

Я был не в курсе что это и для чего нужно, по этому подошел и cпросил. Оказалось, что это сетевой зонд Atlas RIPE, который можно взять с собой, пройдя регистрацию на https://atlas.ripe.net. “Надо брать!”, подумал я. Ведь нельзя пройти мимо такой милой железочки. Дома я начал использование устройства, воткнув его, согласно инструкции, USB-шнурком в маршрутизатор, чтобы было питание, а в RJ-45 патчкорд до свича:

Зонд почти cразу весело замигал огоньками, показывая, что есть линк и пакеты ходят. Что, собственно, зонд делает:

Пинг первых двух хопов, которые он видит. В моем случае это мой роутер и маршрутизатор провайдера;
Пинг корневых DNS’ов;
Выполняет пинги по заданию во имя Луны на пользу обществу и хозяину;

Сам зонд получает настройки по DHCP, не имеет интерфейса, открытых портов и о нем ничего путного не знает nmap (MAC-адрес я изменил):

[root@storage ~]# ping 192.168.2.236 
PING 192.168.2.236 (192.168.2.236) 56(84) bytes of data. 
64 bytes from 192.168.2.236: icmp_req=1 ttl=64 time=0.992 ms 
64 bytes from 192.168.2.236: icmp_req=2 ttl=64 time=0.742 ms 
64 bytes from 192.168.2.236: icmp_req=3 ttl=64 time=0.736 ms 
^C
 --- 192.168.2.236 ping statistics
 --- 3 packets transmitted, 3 received, 0% packet loss, time 2002ms rtt min/avg/max/mdev = 0.736/0.823/0.992/0.121 ms 

[root@storage ~]# nmap -O 192.168.2.236 
Starting Nmap 6.01 ( http://nmap.org ) at 2012-10-25 20:47 MSK 
Nmap scan report for 192.168.2.236 Host is up (0.0022s latency).
 All 1000 scanned ports on 192.168.2.236 are closed MAC Address: 11:11:11:11:11:11 (Lantronix)
 Too many fingerprints match this host to give specific OS details 
Network Distance: 1 hop OS detection performed. Please report any incorrect results at http://nmap.org/submit/ . 
Nmap done: 1 IP address (1 host up) scanned in 3.40 seconds 
[root@storage ~]#

Интерфейс есть на сайтеhttps://atlas.ripe.net/atlas/myprobes.html. Там можно посмотреть статус своего зонда и графики, которые он нарисовал:

Кроме статистики по собственному подключению, можно создавать запросы к чужим зондам на пинг (и некоторые другие операции) на нужные хосты, отобрав чужие зонды по критерию (например, страна). Это, естественно, не бесплатно, тратятся RIPE credits, которые зарабатываются аптаймом и участием в чужих запросах (подробнее, можно прочитать здесь: https://atlas.ripe.net/doc/udm#the-credit-system). Разбирать зонд я не стал, так как это повредило бы красивые наклеечки, фото разобранных легко можно найти в сети. Вот альбом на фликре по теме: http://www.flickr.com/photos/hellercom/6854396415/in/photostream/. Вот и все!

UPDATE: Хабраэффект в действии

Разрушай @ все с нуля!

В рамках оптимизации бюджета на всякую нежизненноважную IT-хрень и под воздействием лени, я признал, что у меня нет сил и жалко денег не содержание двух виртуалок и дедика и домашнего сервера. Из двух виртуалок оставил одну, от дедика отказался, а сервер в кладовке не просит каши и живет бесплатно. Почта переехала в Google Apps, оказалось удобно и существенно дешевле: даже жаль, что я прошляпил момент, когда она этот сервис был бесплатен до 50 пользователей. Виртуалочка же останется для жизненно необходимого в наши дни exit-point’a и хостинга доков/статей, которые тут всегда валялись, перепосчу их. Блог все равно хоть кто-то читает/комментирует только в ЖЖ/Facebook, пусть уж так и живет. Купленные в “тучные годы” смешные домены тоже не буду продлять.

ЖЖ все?

Хотел выложить фоточки дочки с выставки по Алисе и не смог, ЖЖ пережал их адово. ЖЖ все или я что-то не так делаю?