Большие данные или Big Data
Big Data – без сомнения, одна из самых актуальных на сегодняшний день тем для разговора у маркетологов. Ни одна конференция, журнал о рекламе или встреча не обходится без того, чтобы кто-то не упомянул с восторгом о «Big Data». Однако «популярно» не значит «правильно» или «лучше». Если честно, ажиотаж вокруг big data напоминает знаменитую фразу Артура Кларка, что «любая достаточно развитая технология неотличима от магии».
Для наглядности, попробуйте заменить «волшебные» на «большие»: «Как только мы овладеем волшебными данными – мы станем всемогущими!»; «меч волшебных данных изгонит все силы зла» (например, низкие конверсии и неэффективное распределение бюджета); «Волшебные данные рассеют все сомнения» (например, что на самом деле хотят потребители и когда им лучше это предложить). Больше никаких ненадёжных управленческих решений и человеческого фактора! «Немедленно отправляемся на поиски волшебной лампы больших данных!».
Перед тем, как мы продолжим, хотелось бы уточнить: мы любим данные. Мы не из тех, кто реагирует на «лавину данных», прячась за стеной инстинктов, интуиции, догадок, кофейной гущи и гадальных карт. Наоборот: мы активно поддерживаем мыслительный процесс, основанный на фактах, а не на догадках и домыслах; мы насыщаем свою работу всеми доступными данными (и тратим время на поиски данных, к которым у других нет доступа); нам не всё равно – во всех смыслах этого выражения. Но при всём при этом нам кажется, что массовая истерия вокруг Big Data приводит к ряду погрешностей – как статистических, так и практических. А те, кто её поддерживают – будь они крупные поставщики софта, именитые консультационные фирмы, владельцы цифровых медиа или футурологи, – пользуются нашей склонностью наделять непонятное магическими свойствами. Мы надеемся, что эта статья прольёт немного света на три мифа Big Data, чтобы дать вам возможность заглянуть за волшебную маску и принять более взвешенную точку зрения.
Больше – значит лучше
Вроде логично. Немного данных – лучше, чем никаких данных вообще, много данных – лучше, чем немного данных. Значит Big Data должно быть лучше всего – но так ли это на самом деле? Нассим Талеб, автор книги «Черный Лебедь», отмечает, что больше данных часто означает больше шума и меньше сути. Аналитик Нэйт Сильвер говорил то же самое о своих прогнозах результатов выборов президента США в 2008 и 2012.
Объектом вожделения было и остаётся осмысление огромного массива данных. Это возможно, если делать прогнозы на том же уровне, на котором находятся исследуемые данные. Сегодня большие данные применяются в алгоритме системы рекомендаций в интернет-магазинах – но это только верхушка айсберга. В будущем большие данные можно будет применять для прогнозирования финансовой и коммерческой активности, экономических трендов, эпидемиологии и даже преступности.
Несколько европейских учёных проявили интересную инициативу: они собрали данные из открытых источников (Google и др.) и выявили закономерности между массовым поведением и геолокационными данными, собранными с мобильных устройств, например: температура, уровень шума и энергопотребление.
Но всё это находится на уровне поведения толпы, а не отдельного человека. Подобно телескопу, в котором видны миллиарды галактик, прогнозы, основанные на полученных данных, верны ровно постольку, поскольку сами прогнозы соответствуют масштабу данных. Например, на основе поисковых запросов Google можно спрогнозировать финансовый тренд или продажи новых фильмов, игр и песен на уровне населения – но не на уровне поведения отдельно взятого человека.
Больше данных = более точные прогнозы
Такой масштаб часто означает, что прогноз будет донельзя банальным: например, на основе анализа миллиардов твитов прийти к выводу, что «в выходные люди просыпаются позже». Если вы уже заметили, что люди просыпаются позже в выходные – можете смело называть себя ходячим твитометром. Это не так тривиально, как может показаться на первый взгляд: буквально каждый день своей жизни вы общались с людьми, слушали их замечания, наблюдали за их поведением. Все эти данные собирались и обрабатывались в мощнейшем компьютере (вашем мозгу), созданном природой в процессе миллионов лет эволюции, чтобы сегодня у вас была возможность понимать поведение других людей (или человекоподобных). Безусловно, в данных, собранных за вашу жизнь, будет определённая субъективность – но это тем не менее модель вероятности, основанная на постоянно обновляемых данных о человеческом поведении.
Хотя Big Data аналитики и могут предсказать рост продаж зонтиков после дождя, или кассовые сборы нового фильма, который все активно гуглят, человеческий мозг способен на большее: например, мы находим типичные романтические комедии забавными именно за счёт глубокого и тонкого понимания сексуальной психологии. Джона Бергер из Школы Вартон и Гэл ЛеМэн из Стратфорда считают, что подсознательное понимание трендов человеком может быть вездесущим и долгоиграющим.
У вас, бывало, такое, что ваша новая идея быстро набирала популярность? Вот именно это и имеют в виду Дергер и ЛеМэн. Вот почему следующее поколение Big Data-логии позволяет поисковикам передавать самые сложные задачи (например, распознавание лиц) обратно людям.
Big data-логия показывает лучшие результаты не волшебством, но подкреплением нашего здравого смысла обострённым восприятием реальности. Иными словами, Big Data-логия отлично предсказывает поведение группы в ближайшем будущем, основываясь на её поведении в недавнем прошлом. Некоторые могли бы поспорить, что Нэйт Сильвер обновлял свою сложную и богатую данными модель выборов до вечера перед самими выборами. Его мастерство было в понимании данных и сложного выборного процесса. Чем больше наш образец прошлых решений и чем ближе будущее, на которое их надо экстраполировать – тем точнее будет прогноз. Копирование недавнего успеха – одна из старейших человеческих стратегий успеха. Закономерности в поисковых запросах Google показывают, что даже в развитых странах пользователи интересуются будущим больше, чем прошлым.
Другое многообещающее исследование с использованием Big Data стремится спрогнозировать падения и обрушения, выявляя основательный набор факторов, являющимися показателями приближающегося обвала.
Тем не менее, это далеко не прогноз хоть с какой-то долей вероятности того, как себя поведут отдельные личности. Исследованиям, о которых говорилось выше, не требуется сложных поведенческих моделей – они могут просто использовать тот факт, что люди, как правило, опираются на прошлые наблюдения, принимая то или иное решение. «О, если бы только у нас было больше нужных данных – мы бы могли быть уверены в том, что каждый потребитель собирается сделать, и предложить ему актуальное сообщение и продукт», – вздыхаем мы. Любое обсуждение Big Data рано или поздно сводится к образу рекламного будущего из фильма «Особое мнение» – прямой маркетинг на силиконовых стероидах.
Но хоть это-то правда? Не совсем. Хотя Data Mining помогло ритейлерам вроде Tesco разработать алгоритм тестирования и обучения на общем уровне (благодаря огромным объёмам данным, которые они собирают с каждой покупки), даже лучшие алгоритмы часто ошибаются на уровне отдельно взятых покупателей (пожалуй, мы все сталкивались с этим, получив какую-то несуразицу в разделе «Рекомендовано для вас» на Озоне). И снова оптимальным решением кажется передача сложных решений людям – как это делает Facebook при обработке информации в сети пользователя.
По факту, лучший способ понять большинство из того, чего мы зовём массовым поведением – это не сбор всех данных об отдельных пользователях (сколько бы их ни было), а понимание того, как эти пользователи взаимодействуют между собой. Это не сложное, но комплексное явление – и довольно непредсказуемое (как пишет Талеб в «Черном Лебеде», на кривой могут появиться экстремумы, способные поменять всю картину быстро и полностью). Смотреть при этом на поведение одного человека – значит не заметить лес из-за деревьев, сколько бы их ни было.
Более того, как мы неоднократно говорили в наших публикациях в Admap и других изданиях, какой бы притягательной эта микротаргетинговая утопия ни была – основная цель маркетинговых коммуникаций всегда была влияние на группу людей, нежели на отдельного человека.
Реальное время = лучшее время
Иными словами, чем сильнее раздроблен изучаемый временной отрезок – тем больше точек для изучения есть в нашем наборе данных, и тем ценнее эти данные становятся. Для некоторых категорий это действительно так – но далеко не для всех. Это вопрос, в том числе и масштаба: для категорий, в которых пунктуальность играет большую роль (авиалинии?), – это может иметь значение; в то время как знать с точностью до минуты, во сколько покупают ваш шампунь – уже не очень актуально и довольно бесполезно; а вот наблюдение, что его покупают чаще в пятницу и субботу, нежели в понедельник и вторник, может действительно помочь при разработке промо-календаря. Разные категории требуют разные уровни детализации.
Найти подходящий масштаб – одна из первостепенных задач человека, изучающего данные. Больше деталей – не значит лучше. Покойный Эндрю Эренберг, пожалуй, наиболее известен среди современных маркетологов за его работу над Распределением Дирихле – основополагающим статистическим взаимоотношением между долей, размером и лояльностью на FMCG-рынках. В других кругах он известен своими работами по представлению данных. В частности оставило след его утверждение, что не имеет смысла измерять долю рынка с точностью до нескольких знаков после запятой, так как они только отвлекают от общей картины, так как эти микроколебания могут отвлечь нас от более важных основных колебаний, которые можно заметить, используя округлённые целые числа.
Это также имеет отношение к более масштабной проблеме: не состыковке в уровне детализации данных и масштабе конечной цели. Именно поэтому нам всем нравятся простые и понятные цифры, как их представляют, например, Millward Brown’s AI или Bain’s NPS. Хотя некоторые считают, что инфографики оставляют за кулисами детали, которые так любят многие исследователи, мы считаем, что именно это и делает инфографики настолько любимыми и полезными. Спросите себя: не злоупотребляю ли я детализацией? Не уходит ли то, что действительно важно для нашего бизнеса, на задний план из-за кучи ни на что не влияющих дробей?
Какой урок из этого могут вынести маркетологи
Восторг вокруг Big Data абсолютно неуместен: чтобы действительно положительно повлиять на маркетинговую деятельность, необходимо лучше использовать имеющиеся в нашем распоряжении данные – а будущим маркетологам в свою очередь будет доступно ещё больше данных, а не меньше (как бы ни развивалась ситуация с персональными данными).
Вот три простых вещи, которые вы можете делать уже сегодня:
1. Используйте имеющиеся у вас данные лучше, выявляя закономерности
Часто бывает, что компания уже располагает большим количеством данных, но не использует их. Для начала можно посмотреть, прослеживаются ли в них какие-либо очевидные закономерности. Несколько примеров базовых закономерностей описаны в нашей книге «Мне то же, что и ей» (I’ll Have What She’s Having). Например, так называемый «длинный хвост» в графике продаж характерен для рынков, где потребители делают выбор, подражая группе авторитетных лиц, нежели взвешивая все варианты самостоятельно. Анализируйте свои данные – и, возможно, вы обнаружите, что стратегию и коммуникацию пора кардинально менять.
Будьте проще: вам не нужно полотно графиков на всю стену – достаточно желания провести небольшой анализ.
2. Задавайте себе больше вопросов из разряда «А что это?»
Ценность данных находится не столько в самих данных, сколько в вопросах, которые вы перед ними ставите и в том, что вы с ними делаете. Поэтому если вам нужно быстро и с пользой осмыслить большой массив данных – начинайте копать: задавайте как можно больше разных вопросов.
Сразу спросите, «что это?», чтобы связать свой анализ самих данных с уже имеющимися у компании знаниями и опытом. «Что нам уже известно о подобных ситуациях?», «Как на такое лучше реагировать?». Используйте это, чтобы спровоцировать больше полезных обсуждений и решений внутри организации – обсуждений соответствующего уровня, конечно же.
К примеру, мы разработали очень простую карту того, как люди принимают решения, основываясь на вышеописанных закономерностях. Это помогает нам направлять наших клиентов из различных категорий (The Gates Foundation, Unilever и Sony Corporation) в принятии решений по стратегии, сообщениям и планировании коммуникаций. Если большие данные наложить на подобную карту – это поможет выявить инсайты, на основе которых маркетологи могут планировать свои действия.
Мы часто сталкиваемся с тем, что наши собеседники (как в маркетинговых, так и в академических кругах) хотят сделать эту схему более детальной – но это происходит именно потому, что она такая простая, чёткая и сильная. Она легко объясняет многое из того, что требуется объяснить, оставляя для пересказа и обсуждения лишь небольшую долю информации.
3. Научитесь пользоваться данными из открытых источников
В данных, находящихся в свободном доступе, закономерности можно выявить быстро и просто: например, с использованием таких инструментов как Google trends и Google Correlate. В качестве примера приведём случай, произошедший с нашим коллегой во время тендера на редизайн и ребрендинг некого VIP-лаунжа. Когда он обратился к сервису Google Ngram, который ведёт статистику частоты использования слов во всех оцифрованных Google книгах, стало видно, что пик популярности слова VIP уже прошёл – и это в корне изменило подход команды к поставленной задаче. Если вы понимаете закономерности поисковых запросов – вы сможете понимать, когда идея набирает популярность за счёт своей самобытности, а когда – за счёт простой моды. Это позволит намного эффективнее (и дешевле) задать вектор вашей стратегической мысли, чем масштабный соцопрос. Научитесь задавать правильные вопросы – и данные не преминут превратиться в инсайт.
В конце хотелось бы подытожить: Big Data – не колдовство и не ценнее других данных. Не поддавайтесь на восторги тех, кто в это верит. Это не святой грааль.
Больше – не значит лучше. Простота часто лучше точности. Задавайте правильные вопросы, учитывающие специфику своих данных, и ищите закономерности, которые приведут вас к настоящему инсайту.