Из наблюдений вольного каменщика
Чем больше камней брошено в пророка, тем ценнее его останки
Из наблюдений вольного каменщика
Анатолий Быков

«Патриот России» Анатолий Быков разочаровался в Путине: «он живет на другой планете», честные выборы ему было бы выиграть очень тяжело.

Глава Социал-демократической партии Швейцарии Кристиан Левра вновь предложил признать ислам официальным религиозным течением страны, передает Анадолу.

Собянин уволил Ольгу Белягину

Мэр Москвы Сергей Собянин уволил главу управы Гагаринского района Ольгу Белягину, соответствующее распоряжение опубликовано на портале правительства и мэра Москвы.

Трамп расписал санкции

Президент США Дональд Трамп в пятницу подписал меморандум о распределении между госсекретарем, министром финансов и директором национальной разведки полномочий по применению санкций H.R. 3203 Bill.

Catalunya not Spain

До запланированного Женералитатом референдума остается совсем немного времени. Напряжение в Каталонии нарастает уже не по дням, а по часам.

Владимир Соловьев

В интернете опубликовали ролик о недвижимости известного телеведущего Владимира Соловьева. Его жилплощадь блогер Алексей Навальный упаковал в «грандиозное расследование». Соловьев ответил тут же ...

Претендент на пост мэра Ялты идет на выборы с книгой «Я строю зоопарк»

Соцсети знают о вас все

Артур Хачуян – директор SocialDataHub

Артур Хачуян – директор SocialDataHub, эта организация занимается анализом данных социальных сетей и знает о каждом из нас практически все.

Привет Артур, я знаю, что вы анализируете больше количество самых разных соцсетей, какая их них является самой интересной?

Ну, с точки зрения анализа – это ВКонтакте. ВКонтакте – это единственная социальная сеть, у которой в открытом доступе есть API (программный интерфейс приложения англ. application programming interface). Ты можешь по запросу получить информацию о любом пользователе. В Facebook ты так сделать не можешь. Это можно сделать только если пользователь авторизовал твое приложение (многие приложения запрашивают доступ к вашим данным – ред). То же самое в Instagram. При этом с точки зрения рекламного анализа ВК якобы не очень хорошо подходит, так как считается, что более элитная аудитория сидит у нас в FB, но ВК является самым большим порно трекером в России, и каждый восьмой пользователь ВК лайкает порно. Из этого всегда можно очень много интересного почерпнуть.

Это с точки зрения анализа. С точки зрения контента мне больше всего нравится Facebook, я сам в нем сижу. С ВК просто удобно работать. Быстренько написать какой-нибудь парсер и погнали. Чтобы проанализировать Facebook нужно гораздо больше ресурсов.

Самый трешовый проект, который вы делали?

Наверное, это исследование для СМИ, когда перед праймериз «Единой России» мы собрали аккаунты кандидатов в социальных сетях и посмотрели какое порно они лайкают.

А самый сложный проект в техническом исполнении?

У меня был внутренний проект для одного из операторов сотовой связи, когда они предоставляли данные о плотности мобильного трафика. И задача была оценивать, какое количество людей проезжает мимо рекламных щитов. Это делалось для того, чтобы понять, какое количество человек может посмотреть рекламу в том или ином месте.

А по времени сколько он длился?

3-4 месяца. Мы делали для них внутренний сервис. Функционал предполагал, что клиенты могут занести туда точки (свои баннеры) и дальше сервис показывал, сколько человек посмотрит эту рекламу, в какие дни наибольшая загруженность этого участка и так далее.

Вы сохраняете огромные объемы данных, сколько их сейчас примерно? И если не секрет, вы храните их на территории РФ?

Всего около 7 петабайт. В конце 2016 года было 6,7, сейчас мы уже перевалили за 7. Это если считать все-все данные: фото, аудио, видео. Вот 400 миллионов пользователи ВК в структурированном виде, из которых сейчас 230 миллионов удалено, и там только 100 миллионов активных, в текстовом виде занимают 150 гигабайт, ну, может, 200. Более 95% места в нашей базе занимают лайки. Их сейчас уже несколько триллионов хранится. И мы покрываем далеко не весь контент в социальных сетях, а только тот, который нам интересен. Например, самые популярные политические группы, затрагивающие Путина. Мы весь этот контент собрали и с его помощью промаркировали людей, которые любят Владимира Владимировича. Есть в нашей базе 10 тысяч популярных оппозиционных групп. В них собран весь контент, собраны все профили людей, которые его лайкают.

Сколько стоит хранить такой объем данных?

Само хранилище открытых данных, которые являются простой копией того, что лежит в открытом доступе – это арендованные виртуальные сервера, которые расположены в разных странах, в разных городах. Я его называю «еврейский Storage». Эти сервера очень дешевые. Месячная поддержка всего хранилища обходится около миллиона рублей, но точно не более двух. Некоторые сервера отваливаются, появляются новые. У нас есть скрипт, у которого есть некое бабло, и он сам регистрирует, сам быстренько инсталит на этот сервер нужный софт и так далее. Самое дорогое – это три стойки очень мощного оборудования, которые стоят у нас в офисе. Это оборудование обрабатывает данные. То есть, все, что есть в публичном доступе, хранится где-то там на серверах, но нужная информация подсасывается в офис, там она объединяется с персональными данными клиента или с какими-то задачами, обрабатывается и все, за пределы помещения она потом не уходит.

Сталкивались ли вы с проблемой нормативного регулирования, которое предписывает хранить персональные данные граждан РФ на серверах, расположенных на территории России?

Тут есть несколько аспектов. Во-первых, 152-ФЗ – это весьма размытая вещь. По нему достаточно сложно понять, что конкретно является персональными данными. Но это не единственная сложность. Вот, например, у меня есть интернет-магазин, и люди пришли ко мне, купили что-то, у меня остались их персональные данные, и я должен за ними следить. Но если я что-то напарсил из открытых источников, пусть и про граждан РФ, то чисто юридически эта информация не попадает под этот закон. Но это, на самом деле, у кого юристы круче.

Другой вопрос заключается в том, чтобы к нам кто-то пришел, нужно, чтобы кто-то из граждан обратился с жалобой, что я нарушил его права. А у нас такого прецедента быть не может, потому что мы ни у кого не берем разрешение на передачу и обработку персональных данных. Мы просто анализируем то, что есть в открытом доступе.

С крупными банками, которые иногда обращаются к нам за услугами и передают базы данных своих клиентов для анализа, у меня есть следующее решение. Мы заключаем договор на оказание услуг, где я продаю свое экспертное мнение. То есть, доказать, что я работал с персональными данными тоже нельзя.

Где сегодня кроме рекламы используется анализ социальных сетей?

Банки, HR, государство (террористические угрозы и борьба с коррупцией), страховки. Со страховкой я лично не работал, но это очень популярная история на Западе. Когда стоимость медицинской страховки оценивается на основании социальных сетей. Например, увлекаешься ты экстремальными видами спорта – страховка будет дороже. Если ты домосед или работаешь на спокойной работе, то страховка будет дешевле. Если ты проститутка – тебе заложат повышенную ставку на венеролога и так далее.

По коррупционным связям соцсети тоже очень полезны. Смотришь, кто выиграл госконтракт, смотришь, кто был организатором конкурса. Анализируешь их профили в соцсетях и понимаешь, что они, например, одноклассники.

Личные истории. Бывало ли такое, что ты переставал общаться с человеком, после того, как анализировал его соцсети?

Да, было такое и неоднократно. Обычно, если я понимаю, что человек чокнутый верующий, ну, вот такой как Энтео (Дмитрий Энтео – ред), то я перестаю с ним общаться. Ничего не имею против верующих людей, я вот против таких чокнутых, которые призывают всех сжигать и так далее. У меня было несколько таких знакомых, когда я смотрю их лайки, а там «сжигать геев», «женщины, которые не рожали, должны умереть». О чем мне с таким человеком общаться?

И я уже не могу остановиться. Если я с кем-то начинаю общаться, то первое, что я делаю – это беру его профиль в социальной сети и кидаю в профилировщик.

Использовал ли ты свои технические возможности в личных целях? Помню, у тебя была история с отключением света в доме, ты быстро нашел руководителя управляющей компании, телефон его родных и, в общем-то, превратил их жизнь в ад, раздав бабушкам их контактные данные, которые начали названивать им. Бывало ли так, что ты мстил кому-нибудь из-за обиды или личной неприязни?

Конечно бывало! Я человек достаточно злопамятный и бывало, что использовал свои ресурсы. Вот сейчас я работаю в ВШЭ, где есть преподаватели, с которыми мы в плохих отношениях. Они нам всячески пытаются палки в колеса вставлять. Поэтому я пару раз собирал данные с их аккаунтов в соцсетях. Тут она бухает, а потом идет на лекции, здесь она гадости всякие пишет, я все это брал и отправлял. Делал я так раз 5 и с людьми, которые, по моему мнению, этого заслуживали. Вообще, я периодически жалуюсь в МВД, когда сталкиваюсь с жестью. Последний раз это было, когда на «Лентач» настучали какие-то религиозные активисты. Я зашел к ним достаточно случайно, а там призывы к откровенному насилию: геев сжечь, мамаш сжечь, всех к чертовой матери. Там было примерно 1500 человек, я быстренько их проанализировал, на каждого собрал по 5-8 таких вот постов, распечатал и отправил в МВД.

А эффект какой-нибудь был?

Пока ничего не было, но там еще срок ответа не истек. Наверное, на тормоза спустят, но если у них будет задача выполнить какой-нибудь план, то они достанут мою папочку из долгого ящика и работу все же проведут.

Как относишься к идеям Милонова о запрете соцсетей для детей и прочим его историям?

Понятно, что никто этот закон принимать не будет, и все эти обсуждения только набивают упоминаемость самому Милонову. Однако мне на два юридических лица пришли одинаковые запросы от лиц, ангажированных с властью, на поиск геев-учителей в школах. И у меня тут, как принято говорить, бомбануло. Я подготовил им ответ, в котором указал, что если я когда-нибудь узнаю о том, что они подобной ерундой будут заниматься, то я найду всех людей, входящих в их ближайший круг общения, соберу все гей-порно, которое они лайкают, найду всех мальчиков со всех камер видеонаблюдения, с которыми вы встречались, и выложу все это в открытый доступ. Ответа не последовало J

А как относишься к «пакету Яровой»?

В принципе, я поддерживаю эту инициативу. Я считаю, что государство должно иметь простой доступ к данным. Есть много историй, когда это использовалось для спасений жизней. Вопрос в том, кто у нас все это должен контролировать. На мой взгляд, ничего такого уж страшного в «пакете Яровой» нет, СМИ очень сильно раздули эту проблему. Вся эта истерия вокруг того, что «Путин будет нас лишать гражданства»… Во-первых, Владимир Владимирович, никого гражданства просто так лишать не будет. Лишать гражданства будут только тех, кто уличен в терроризме и у кого есть второе гражданство. Почему-то этот момент все СМИ упускают. То есть, я за то, что государство должно иметь доступ к информации, но сам процесс должен быть максимально прозрачным и открытым.

Проблема в том, что сам по себе закон идиотский. Собирать все данные не нужно. Нужно налету анализировать информацию. Сейчас на рынке выигрывает не тот, кто собирает все, а тот, кто при помощи алгоритмов может собирать только нужное. Вот, допустим, открыли мы контент, а там мемасик – к черту его. Открываем второй, а там не просто мемасик, а шутка про условного Навального от члена Общественной палаты – мы это сохраняем.

«Пакет Яровой» я бы переделал, перевел в реальные сроки, но ничего плохого в том, чтобы отнимать у террористов гражданство я не вижу, я бы давно смертную казнь ввел.

А что ты думаешь о слухах, что через соцсети за нами постоянно следит ФСБ?

Государству нашему достаточно сложно получить доступ к личной переписке пользователей. Условный следователь Василий Пупкин не может по своему желанию получить доступ к личным сообщениям любого пользователя. Если это не какое-нибудь следствие, то никто просто так личные сообщения не откроет. Вот сама администрация Mail.Ru Group такой доступ имеет, поэтому не удивляйся, когда ты пишешь жене «Хочу в Таиланд», а потом тебе реклама туров появляется. Это никак не доказуемо, но личку они читают.

Сталкивался ли ты с этическими дилеммами во время работы? Например, ты анализировал страничку друга и наткнулся на противоправные действия в сети с его стороны.

Ну, я не стучу на всех подряд. Как правило, госорганы присылают мне запросы на анализ подозреваемых, тех, кто находится под следствием. И данные, которые я собираю являются дополнением к тому, что уже есть, либо же открывает следователю направление, в котором нужно копать. С моими друзьями никогда такого не было и надеюсь, что никогда не будет. Но всех своих друзей, которые лайкают порно, я предупреждаю. У меня есть специальный скрипт, который постоянно проверяет моих друзей на предмет того, не постят ли они свои фотографии в какие-нибудь анонимные паблики знакомств, не лайкают ли они контент в сомнительных группах типа «Госпожа ищет раба» и так далее. Если я такое нахожу, то пишу, мол, чувак, у всех нас есть разные сексуальные предпочтения, но такими действиями ты рискуешь сделать свою личную жизнь достоянием общественности.

Как ты относишься к идеи тотальной открытости? Идея «Черного зеркала» с социальным рейтингом тебе близка?

То, что есть в «Черном зеркале» я не одобряю. Мне, например, не нравится, что человека могут не пустить в магазин из-за того, что у него низкий социальный рейтинг, там это все очень утрированно. Я надеюсь, что мы до такого не дойдем. Но создавать некий рейтинг честного гражданина, который, например, волонтерством занимается, деревья сажает и так далее, я считаю неплохой идей. Таким людям можно было бы, например, обеспечить проход без очереди в госструктурах. Ну, то есть, такие разумные бонусы за общественно полезные действия.

По резонансным темам ты выкладываешь результаты анализа соцсетей. По митингам, по взрывам в метро, не думал взять к себе пару журналистов, чтобы делать крутые истории?

Да, год назад мы думали над этим. Думали даже целое СМИ сделать с такими исследованиями, но потом это все как-то рассосалось. Вот у моих ребят с магистерской программы «Журналистика данных» в ВШЭ выпуск будет, может быть, мы кого-нибудь из них привлечем под этот проект. Сам я тексты писать не умею, но мне очень хочется делать такие интересные продукты на основе данных. Я наши СМИ не читаю вообще, ибо все Х. У Медузы и Дождя каждый второй пост о том, какое говно в России. Понятно, что все плохо, но постоянно писать о том, что вокруг одно говно – тоже не выход, делать что-то нужно.

Ты преподаешь в ВШЭ, какой курс ведешь?

В Вышке я занимаюсь проектной деятельностью. Занимаюсь с ними визуализацией и сетевым анализом. Каждую неделю мы готовим исследования, собираем данные, визуализируем их и так далее.

Вопрос по поводу хакатонов, как тебе последние из них?

Мне кажется, что хакатонов сейчас слишком много. Их нужно проводить чуть реже, а вообще я люблю хакатоны. За короткий промежуток времени люди делают классные вещи. Но за счет того, что хакатонов сейчас много, их качество сильно упало. Ну, ты сам видел проект про шаурму (победитель хакатона на дне открытых данных в Москва – ред.), но все остальное было еще хуже. Вот если их будет меньше, то, думаю, качество проектов бы выросло.

Вопрос, который я тебе не задал?

Не знаю, наверное, как бы сложилась моя личная жизнь, если бы я не начал заниматься анализом таких данных.

Я думаю, что у меня сейчас была бы какая-нибудь семья непонятная. Сейчас у меня никого нет, нет времени, во-вторых, у меня из-за работы колоссальное недоверие к людям, я никому не верю. Я не могу себя заставить не смотреть их профили, поэтому сейчас один.

Общался Михаил Карягин