IMG.jpg

Артур Хачуян — специалист по обработке больших данных (Big Data), генеральный директор компании Tazeros Global Systems, занимающейся сбором и анализом информации из открытых источников, например, социальных сетей, блогов и форумов.

Собранные и обработанные данные (лайки, сторис, статусы) становятся новым знанием и многое о нас рассказывают — о наших увлечениях, вкусах, желаниях. Посредством методов обработки больших данных можно узнать, сколько туристов в год приезжают в Армению, какие достопримечательности у них пользуются популярностью и даже «нарисовать» портрет армянина в Сети — что армяне смотрят, что лайкают, какую музыку слушают.

Всё, что имеет отношение к большим данным, может показаться шагом к антиутопии, но это вовсе не так, считает Артур. На помощь человеку всегда приходили машины и новые технологии, которые освобождали его время. То же самое происходит и с большими данными, а освободившееся время, скажем, можно посвятить изучению армянского языка.

Армянскому музею Москвы Артур рассказал о своей первой поездке в Армению, для чего анализируется информация из соцсетей, о связанных с большими данными вопросах этики, следит ли кто-то за нами по ту сторону камеры ноутбука и подслушивает ли нас телефон.

 


«Мне в Армении очень понравилось. Сейчас ищу повод приехать туда ещё раз»


 

В прошлом году я впервые побывал в Армении. Меня туда пригласила провести лекцию одна компания. Я был потрясающе удивлён, насколько сильно Ереван мне напомнил Париж.

В Ереване всё так чисто, так убрано, так красиво. Я всё думал: «Ого, ничего себе. Вот почему все сюда приезжают». Увидел, как много всего для Армении делают люди, которые уехали оттуда и потом вернулись либо не вернулись, но как-то всё равно помогают стране.

Про еду, конечно, говорить бессмысленно — и так понятно. Когда появится технология телепортации или какого-нибудь мгновенного перемещения продуктов, первым делом в армянских ресторанах поставят окошки, через которые можно было бы в любую точку мира отправлять еду.

Я ведь ехал в Ереван ещё и с определённой целью. Так случилось, что мои родные были рассеяны по разным странам. У моего папы две сестры — одна в Армении, другая в Канаде: они все встретились спустя долгое время. И вот в мой приезд в Ереван так совпало, что обе сестры тоже были там. Оказалось, что одна из них преподаёт в университете прикладную математику и анализ больших данных. Она меня отвела к себе на кафедру в Ереванский госуниверситет. Я пообщался со студентами — это было интересно. Успел я, кажется, много чего сделать. Мне в Армении очень понравилось. Сейчас ищу повод приехать туда ещё раз.

— Артур, расскажите, что такое Big Data.

Это набор современных подходов по анализу сверхбольших массивов данных. Раньше мы могли, условно говоря, загрузить в Excel какие-то данные и проанализировать их, а сейчас существуют целые системы, которые анализируют именно огромные массивы и позволяют извлекать из них дополнительную информацию. Это история про то, как из нескольких сверхбольших источников данных можно извлечь новые знания и получить новую эффективность, например, построить систему противодействия коррупции или преступности в стране.

— Что служит источниками данных?

Ими могут быть соцсети, данные мобильных операторов, фискальные данные, банковские транзакции, данные всевозможных приложений. Источников данных великое множество. Что касается соцсетей, то, регистрируясь в них, мы платим, по сути дела, своими персональными данными — в том числе и самой социальной сети, чтобы она жила, могла показывать рекламу и процветать. Так что, соцсети бесплатны условно.

— Как и для чего используется собранная информация?

Направлений много. Основное — реклама, проведение всевозможных рекламных исследований для глубинного и детального понимания аудитории. Это история, связанная с таргетингом и микротаргетингом, когда благодаря получению новых очень узких параметров и сегментов можно точно взаимодействовать с аудиторией.

Ещё есть разные геоинформационные исследования, когда мы понимаем, как люди перемещались внутри города и где лучше открыть магазин или кафе, где лучше поставить какую-то стелу наружной рекламы.

И, конечно же, система глобальной безопасности для городов и стран. Распознавание лиц, которым нас пугают, и социальные рейтинги — это тоже всё про анализ больших данных.

— Стоит бояться?

Нет, распознавание лиц не такая страшная реальность. Что касается социальных рейтингов, как в Китае, то в России они вряд ли появятся, а в Армении, думаю, точно нет.

— А собранная информация персонифицирована, или всё складывается в общую картину?

Конечно, данные персонифицированы, как бы многим этого ни хотелось. Они всегда привязаны к каким-то определённым пользователям. Не всегда это именно имя и фамилия конкретного человека. Это может быть какой-то обезличенный идентификатор, но всегда данные хранятся в привязке к какому-то пользователю. Вопрос в том, что компании вроде нашей никогда не продают первичные персональные данные. Всегда продаётся только аналитика, агрегированные данные о не менее чем 1000 субъектах.

— Вы можете узнать всё о любом человеке, чьё присутствие есть в интернете?

Мы можем узнать много чего о людях, которые достаточно онлайн активны.

—  А те, кого нет в интернете?

Например, мы приезжаем в Армению к нашей бабушке и там с ней фотографируемся, а затем выкладываем фотографию в соцсеть — так информация появится в онлайн-источниках. Но это очень редкая история. Сейчас люди особо не концентрируются на доступе к данным о людях, которых нет в онлайне. Просто ждут. Через 10–15 лет все будут оцифрованы.

 

Артур Хачуян на 8-м Московском международном форуме «Открытые инновации». Фото @arturkhachuyan, instagram.com

 

— Использование личных данных всегда связано с вопросами этики. В своей работе вы сталкивались с ними?

Тема этики больших данных и этики искусственного интеллекта одна из самых жарких для множества дискуссий. Её обсуждают многие. И мы, конечно, тоже сталкивались здесь много с чем, включая всевозможные политические истории, которые я очень не люблю. Наша компания сейчас делает приложение для знакомств, оно выйдет уже в ноябре — и здесь тоже возникает огромное количество этических вопросов.

Бывает, что заказчик порой неверно формулирует задачу, он хочет сделать что-то, что на самом деле с помощью алгоритмов больших данных решить совершенно не получится, и это может сделать только хуже. Если объективно смотреть, то большинство текущих проектов всё-таки крутятся вокруг того, что люди неверно объединяют решения, принятые электронными какими-то системами, и решения, принятые, условно, государством. Тот же социальный рейтинг в Китае. Это же Китай решил не выпускать людей по каким-то параметрам. Сами по себе технологии в этом не виноваты. Но не все могут чётко разделить технологии и всякие государственные истории. Вопрос в том, что заказчик вносит своё видение в модель, как бы того хотелось или не хотелось. И это не всегда правильно.

— Какое самое интересное исследование вам приходилось делать?

Всё, что связано с системами прогнозирования преступности, всегда очень интересно. Никогда не знаешь, какая метрика повлияет на то, что туда или в другое место нужно отправить патрульно-постовую службу — где-то фанаты скопились, а где-то ещё что-то произошло.

— То, что за нами кто-то следит по ту сторону камеры ноутбука, это неправда?

На самом деле, всегда есть кто-то, кто за кем-то следит. Как правило, есть три категории таких людей. Первые — это корпорации, которые владеют тем или иным ресурсом. Естественно, Facebook или какой-нибудь мессенджер имеет доступ к личным сообщениям пользователей. Вторая категория — это условные хакеры, которые могут взломать систему, проникнуть и подключиться к чужой веб-камере. Третья категория — это государство, которое так или иначе хочет получить доступ к каким-то данным. Кого из них бояться — сложный вопрос. Это как плохие или хорошие технологии. Я лично в этой истории придерживаюсь того, что они, во-первых, неплохие и нехорошие. А во-вторых, бессмысленно обсуждать этот вопрос, потому что они есть и никто от них не откажется. Как технология распознавания лиц — никто от неё не откажется. Просто нет ни единого шанса и ни единого процента, что завтра все забудут про её существование. Вопрос тут, как с ней правильно жить.

Что касается веб-камеры, я её не заклеиваю. Не верю в это. Ведь нельзя включить веб-камеру таким образом, чтобы светодиод на ней не загорелся. Да и большинство людей просто никому не нужны. Вот кому я нужен, чтобы включать мою веб-камеру. Тем более, сейчас есть Instagram, есть огромное количество данных, выкладываемых просто в открытый доступ. Думаю, что это всё больше, наверное, про истерию. Здесь же и истории про телефон, который лежит рядышком и всё записывает. На самом деле — нет.

— А мне однажды стала попадаться реклама курсов арабского языка. И произошло это после того, как в беседе с кем-то речь пошла про арабский.

Это вряд ли сделал телефон. Скорее всего, вы либо попали в статистическую выборку, либо кто-то просто настроил таргетинг в какой-то географической области. Тут ответ очень простой, я его повторяю пять лет, и пять лет мне никто не верит — компаниям просто экономически невыгодно в реальном времени распознавать аудио только ради того, чтобы вам потом показать рекламу. Правда, тут есть свои тонкости. Если мы общаемся с голосовым помощником, то, конечно же, он записывает всё и потом отправляет на сервер, и компания может использовать эти записи для того, чтобы навешивать на нас определённые теги — арабский язык и так далее.

Беседовала Рипсиме Галстян