Томас Фишерман (Thomas Fischermann), Гетс Хаман (Goetz Hamann) Производители моторов, супермаркеты, торговцы подержанными автомобилями… Как предпринимателям удается извлекать огромную прибыль из потоков информации в сети? Все это похоже на новую золотую лихорадку, только сегодня речь идет о базах данных.
Джордж Ю (George Yu) недавно расширил функционал своего iPhone. Этот 30-летний инженер из города Чаттануга, штат Теннеси, всегда был страстным любителем мастерить, и пару месяцев назад он изобрел новый аппарат под названием Node. Node по весу и по форме напоминает батарейку, он находится в пластиковом корпусе, напичканном светодиодными лампочками, маленькими переключателями и сенсорами. По радиоканалу он постоянно находится в контакте с iPhone.
С помощью этого устройства можно установить, соответствует ли норме влажность в террариуме, находится ли в норме скорость и высота полета воздушного шара, не имеет ли термоизоляция дома дефектов, нет ли утечек газа на кухне, не находятся ли где-нибудь поблизости ядерные топливные элементы и другие подобного рода вещи. "Я хотел создать прибор с неограниченным количеством применений", - говорит Ю, который уже смог продать пару сотен своих приборов Node и теперь хочет обратиться к крупным производителям.
Сбор данных как бизнес-модель: не только биржевой новичок Facebook делает деньги на сведениях о своих пользователях. Рекламщики и торговцы хотят знать все о клиентах - и извлекать из этого капитал.
Изобретатель Ю находится на вершине движения, которое начинает изменять нашу жизнь. Никогда раньше не собиралось столько данных о человеке и о мире - таких различных по своему содержанию и виду и из самых разных источников. И никогда еще их так усердно не архивировали, не размещали на носителях и не делали их доступными с помощью сетей.
Такие обычные устройства, как смартфоны, камеры, счетчики электричества и автомобили, сегодня уже точно знают, что происходит вокруг них. Такие индустриальные установки, как сборочные конвейеры на фабриках, полностью автоматизированные склады, городские сети камер наблюдения и даже моторы самолетов, с помощью датчиков, чипов и информационных каналов помогают измерять мир - без участия человека, складывая один за другим отдельные элементы пазла.
И, кроме этого, уже существует растущий поток данных, создаваемый самим человеком и размещаемый им в интернете: сообщения о настроении в Facebook’е или Twitter’е, поиски работы на соответствующих порталах, предложения в ходе онлайновых акций, ввод данных в такие поисковые машины, как Google, объявления о поиске партнера.
Новая золотая лихорадка
"По нашей оценке, ежегодных объем производимых, размножаемых и потребляемых данных до 2020 года будет удваиваться каждые два года", - отмечают специалисты из консалтинговой компании IDC. Эта фирма также подчеркивает: из всех этих данных только пара процентов может оказаться полезной. Остальная часть будет представлять собой информационный мусор в архивах, или будет стерта.
Если сегодня послушать представителей ИТ-предприятий, консалтинговых фирм и некоторых наэлектризованных глав концернов, то может сложиться следующее впечатление: времена меняются, началась новая золотая лихорадка. Сегодняшние искатели не занимаются раскопками в руслах рек, как это происходило сто лет назад на берегах реки Клондайк – они занимаются разработкой накопившихся гор цифровой информации. Свои копи они называют Big Data, то есть "Большие данные".
"Большие данные меняет саму хозяйственную деятельность, и эффект от этого огромный", - мечтательно рассуждает Джеймс Мэнийка (James Manyika), глава действующей по всему миру консалтинговой компании McKinsey Global Institute. "Большие данные больше, чем самое крупное предприятие", - подчеркнул Фил Эванс (Phil Evans), главный советник Бостонской консалтинговой группы (Boston Consulting Group), занимающейся компьютерами, интернетом и медиа-индустрией. Он также сделал прогноз: "Большие данные создают преимущество для многих западных фирм, по сравнению с поднимающимися конкурентами из стран с развивающейся экономикой, так как западные концерны дольше собирали данные и лучше их теперь анализируют". Ожидания на этот счет огромны. Сегодняшние потоки данных на самом деле имеют одно свойство, которое является новым, но оно, тем не менее, не облегчает саму добычу цифрового золота: информационные потоки имеют множество источников, и они возникают с такой скоростью, что данные поступают в совершенно неупорядоченном виде.
Раньше в некоторых областях также существовали гигантские информационные массивы, однако они были хорошо отсортированы: страхование компании, занимающиеся нефтедобычей концерны или торговые сети собирали огромное количество информации о транзакциях, о бурении и о наличие товаров на полках – и эти данные тщательно учитывались, размещались на соответствующих местах в базах данных предприятий и затем оценивались на основании установленных критериев.
Теперь ситуация иная: самые большие прорывы в области "больших данных" следует ожидать там, где с помощью компьютера комбинируются различные источники информации, в том числе новости в Twitter, данные о погоде, сообщения о задержках в городской транспортной системе или данные о продажах в супермаркетах, - и все это делается для того, чтобы извлечь из имеющихся данных прогнозы, услуги или даже новые продукты.
Запланировано также скрещение информационной техники и математики, с помощью которого сначала можно будет овладеть огромными массивами данных, а затем превратить их в новый вид сырья для экономики. "Многие фирмы в настоящий момент располагают огромными базами данных, но они не имеют возможности добраться до их содержания", - отмечает Вольф Лихтенштайн (Wolf Lichtenstein), исполнительный директор компании SAS Institute GmbH в Гейдельберге, и он обещает изменить существующую ситуацию для своих клиентов.
Широко цитируемый калифорнийский экономист и консультант компании Google Хэл Вэриан (Hal Varian) год назад сделал следующее предсказание: "Самой привлекательной работой в ближайшее десятилетие станет статистика".
Чистой фантазией это уже давно не является. В течение нескольких лет вокруг "больших данных" создается растущая индустрия. Многочисленные крупные концерны сообщают сегодня о самых разных проектах в области "больших данных". В Германии, например, эти работы проводят страховая компания Allianz, аптечная сеть Dm и автопроизводитель BMW. По-прежнему "большие данные" представляются рискованными инвестициями – "44% всех проектов в области "больших данных" вообще не доводятся до конца", - сообщает консалтинговая фирма Infochimps из города Остин, штат Техас, но, тем не менее, все больше поступает сообщений об успехах.
Существует, например, фирма Vestas Wind Systems из города Орхуса. Эта датская компания является лидером мирового рынка по производству ветряных установок, и сегодня она может в течение нескольких часов рассчитать показатели практически для любого нового места – на какое количество ветра при оптимальных условиях можно там рассчитывать в следующее десятилетие, и таким образом компания Vestas имеет возможность оптимизировать место новой установки, что является сильном аргументом при продаже.
Для того чтобы прогнозы оказались верными, компания Vestas занимается созданием многолетних баз данных о температуре, влажности, осадках и направлении ветра; она учитывает лесные карты, календари приливов и отливов, а также изображения, получаемые со спутников. К этому добавляются данные о турбинах, их работе, ремонте и фактическом состоянии 50 тысяч ветряков, которые уже были установлены компанией Vestas. В общей сложности при анализе учитываются 160 факторов.
Авиационные моторы компании Rolls-Royce сегодня не только перевозят по небу пассажиров – они еще постоянно по радиоканалам связаны с базами данных. Независимо от того, в какой конкретно точке земного шара работает двигатель, он постоянно посылает потоки данных в центральный офис, расположенный в английском городе Дерби.
Одновременно моторы по радиосвязи сообщают, в каких условиях они в настоящий момент работают, установлены ли они на самолете Airbus A380 или на Boeing 747, и, как только возникает какая-то проблема, техники в Дерби решают вопрос о том, что следует предпринять сразу после запланированного приземления самолета. Подобная работа производится на основе огромной базы данных, которая продолжает увеличиваться по мере ее использования, а оценка ситуации происходит еще в тот момент, когда машина находится в воздухе. Это существенный аргумент при продаже двигателей, так как авиакомпании могут теперь сократить время ремонтных работ на земле. В некоторых случаях запасная деталь уже находится на пути в соответствующий аэропорт, хотя проблемный двигатель еще работает в воздухе. 300 миллионов записей данных в неделю
Аптечная сеть Dm некоторое время назад проанализировала потоки продаж за несколько лет, и теперь руководство точно знает, сколько персонала в определенное время необходимо соответствующему филиалу. Времена года, праздничные дни и тому подобные факторы также учитываются в системе. Сотрудники, со своей стороны, могут надежно планировать свою работу на четыре-пять недель вперед, и им приходится теперь намного реже, чем раньше, сталкиваться с объявляемыми накануне дополнительными сменами.
Занимающаяся посылочной торговлей компания Otto с помощью специальной программы смогла улучшить свое планирование спроса по всему ассортименту. Как говорят сами сотрудники фирмы, в эту программу еженедельно вводится 300 миллионов новых данных, а в год система выдает миллиард прогнозов относительно того, как будут проходить продажи определенных товаров в ближайшие дни и недели. Как говорят специалисты, сегодня фирма Otto заказывает в среднем на 30% меньше продукции, и поэтому на складах в настоящее время находится значительно меньше избыточных товаров. Речь идет об экономии, исчисляемой двузначными числами в миллионах.
Банки, а также фирмы, работающие с кредитными картами, с помощью специально нанятых экспертов проверяют большие массы данных для того, чтобы выйти на след мошенников. Некоторые фирмы проверяют сотни миллионов веб-сайтов с целью не допустить того, чтобы преступники могли выдавать свои сайты за веб-ресурсы самих банков для обмана клиентов. Другие пытаются сами обнаружить случаи мошенничества в финансовых транзакциях, и при этом приходится учитывать различные критерии, в том числе величину оборота, места осуществления сделок, валюту, время и так далее.
Кроме того, существуют также недавно ставшие лидерами рынка концерны из сферы интернета, которые почти исключительно сидят на сырье под названием "массы данных": Google, Facebook и Amazon наблюдают за клиентами и посетителями своих веб-сайтов, они отслеживают каждый шаг, каждый клик, и заносят полученные сведения в свои базы данных, а затем на их основе разрабатывают новые услуги, дают рекомендации производителями товаров и организаторам рекламных акций.
Решение любых проблем с помощью "Больших данных"
Многие считают, что будущее подобных концернов связано со сбором еще большего количества информации из еще большего количества источников. Так, например, некоторые компании уже усердно работают над распознаванием лиц в потоках людей, проходящих по улицам или по торговым центрам. Другие делают ставку на то, что компьютеры будут способны на основании нашей мимики и жестов установить, как мы себя чувствуем в данный конкретный момент. Американский концерн Verizon, работающий в области мобильной связи и интернета, недавно даже объявил о регистрации патента на техническое устройство, которое наилучшим образом подходит миру, описанному Оруэллом в книге "1984": "Если система устанавливает, что у пары возникает спор, то она направляет рекламу семейной терапии на расположенные в том же помещении телевизор или мобильный телефон. Если фиксируются явные проявления нежности, то на приемные устройства передается реклама романтических выходных или противозачаточных средств".
Для многих инсайдеров отрасли "больших данных" все это - только начало. Энтони Голдблум (Anthony Goldbloom) принадлежит к их числу. Этот 30-летний австралиец, имеющий диплом экономиста и статистика, вот уже несколько лет живет в Сан-Франциско и стал там предпринимателем. В 2010 году он создал старт-ап под названием Kaggle. Это платформа для решения самых разных проблем с помощью "больших данных".
Различные фирмы и предприятия могут организовать на своих веб-сайтах своего рода тендеры: они сообщают о том, в чем состоит проблема. Они также информируют о собранных ими данных. Тот, кто лучшим образом решит эту задачу, получает вознаграждение.
Недавно работающий в области здравоохранения концерн Heritage захотел узнать с помощью Kaggle о том, кто из находящихся в их базе данных пациентов, вероятнее всего, вынужден будет лечь в больницу (вознаграждение - 3 миллиона долларов). Музыкальный концерн EMI хотел установить, каким будет следующий хит (10 тысяч долларов). Организаторы просветительской кампании об опасностях интернета интересовались тем, кто из пользователей информационного портала Twitter, скорее всего, является психопатом (1 тысяча долларов). Иногда все это похоже на игру, иногда - на академические исследования, но Голдблум утверждает: "Вы можете прикинуть, насколько ценным является для банка или для страховой компании информация о том, что вы в следующем году собираетесь разбить свой автомобиль". С помощью Kaggle можно заметить, насколько оценка "больших данных" все еще является смешением науки и кропотливого труда. Около 45 тысяч работающих в области охраны данных детективов зарегистрировались на сейте Kaggle для того, чтобы решить там свои проблемы – "и опыт показывает, что физики и инженеры-электрики демонстрируют лучшие результаты, в первую очередь те, кто обладает определенной долей здравого смысла. О, есть еще исследователь ледников, который регулярно выдает хорошие результаты".
Почему? Голдблум пожимает плечами: все дело, как он считает, не только в продвинутой математике и чистой науке – необходимы еще интуиция и практические навыки. "Одной из моих любимых игр был тендер в интернете, устроенный очень крупным торговцем подержанными автомобилями в Соединенных Штатах, - рассказывает Голдблум. - Эти люди показали нам данные за десять предыдущих лет, и они хотели узнать: какие из подержанных автомобилей оказались в долгосрочной перспективе самыми надежными. И выяснилось, что важно в данном случае не количество километров на спидометре и не величина мотора - самыми долговечными оказались автомобили необычных цветов". Можно только спекулировать по поводу причин полученных выводов. Однако, с точки зрения статистики, этот результат подтверждается, и для торговца он имеет исключительно важное значение.
Так, с помощью Kaggle любители в области обработки данных, научные организации, а также все большее количество предприятий хай-тек проверяют одну за одной отдельные проблемы, пытаясь выяснить, какие вопросы можно задавать в мире, заполненном "большими данными".
"Большие данные" для полиции
Эксперты расположенного в Санкт-Августине и входящего в состав Общества имени Фраунгофера Института интеллектуального анализа и информационных систем (IAIS) работают над весьма амбициозным проектом, который в свое время сможет оказать помощь полиции и чрезвычайным службам: план состоит в том, чтобы, проанализировав все данные мобильной связи и информацию в интернете, в том числе в Twitter, автоматически сообщать в соответствующие подразделения о том, где в настоящей момент люди нуждаются в помощи – например, в том случае, если проведение какого-то крупного мероприятия пошло не по плану.
Кроме того, должны также изучаться скопления людей, и нужно будет установить, чем они отличаются от прежних скоплений, то есть необходимы базы данных за определенный период времени. Сообщения в Twitter, например, также должны быть изучены на предмет выяснения того, выражают ли они радость или панику. Системы "больших данных" будущего - и в этом сотрудники организации имени Фраунгофера убеждены - будут обладать способностью хорошо понимать человеческую речь.
После чего возникает еще одна нерешенная проблема: как обстоят дела с защитой данных? Обработка персональных данных может затронуть несколько основных прав, подчеркивает депутат Европарламента Ян Альбрехт (Jan Philipp Albrecht). Многие эксперты также осознали наличие этой проблемы. Говорит Штефан Вробель (Stefan Wrobel) из Института имена Фраунгофера: "Совершенно недостаточно отделить в массиве информации фамилии, имена, возраст и адрес для того, чтобы сделать его анонимным. Даже в том случае, если будут отделены данные о перемещении человека, достаточно будет посмотреть, откуда исходит сигнал ночью, и тогда можно будет установить, где живет пользователь сотового телефона, и после этого вы легко сможете определить адрес большинства людей".
Для этой проблемы сотрудники Института имени Фраунгофера нашли техническое решение: "Грубо говоря, существующий массив информации разбивается на части и затем вновь перемешивается". Однако на разработку этого решения было потрачено несколько лет. Другими словами, работа с "большими данными" в Европе, где очень серьезно относятся к защите информации, может быть процессом длительным и дорогим.
Но есть еще одна фундаментальная проблема, осложняющая рентабельное использование "больших данных": она имеет отношение к структурам в концернах, отвечающим за принятие решений. Новый вид поиска решений
В главном офисе института SAS в Гейдельберге, где работают специалисты по "большим данным", можно познакомиться с будущим вариантом современного управления концернами. В помещении для переговоров проектор демонстрирует на стене данные о работе международно ориентированного концерна по производству игрушек - продажа мишек, игрушечных автомобилей и тому подобных товаров. Вся информация разделена по регионам, по прибыли, по срокам поставок; учитываются сезонные различия, места с высокой и низкой конкуренцией, и возможности системы представляются безграничными.
Всю имеющуюся информацию с помощью пары кликов мышки можно рассортировать и даже в произвольном порядке ввести ее в базы данных концерна: компьютер затем автоматически выдаст пару наглядных графиков, с помощью которых можно узнать больше о бизнесе, о существующих вызовах и шансах предприятия по производству игрушек.
Это демо-версия. Однако примерно таким образом - по крайней мере, эксперты обещают это в отношении фирм, работающих с "большими данными" - управление концерном может осуществляться уже сегодня. Кабинет главы концерна превращается таким образом в своего рода капитанский мостик, на который компьютер выводит данные о ситуации на концерне-корабле и анализирует, по мере необходимости, совокупные данные предприятия и его окружения. В режиме игры можно проверить различные сценарии: что произойдет, если мишки будут предлагаться в Китае по более низкой цене? Что будет, если поставщики в Восточной Европе устроят забастовку?
"Большие данные предоставляют возможность совершенно нового способа принятия решений, - подчеркнули недавно три исследователя из института McKinsey Global Institute. - С помощью контролируемых экспериментов предприятия получают возможность проверить гипотезы, а также ориентировать на результаты свои решения в области бизнеса и инвестиций".
Речь идет о дальнейшем движении в области внедрения научных методов в работу центральных офисов концернов. Проблема в том, что реальная и последовательная ориентация на базы данных явно противоречит установившимся структурам управления.
Базы данных до последнего времени оказывали помощь при принятии решений, однако сами решения принимались руководителем предприятия, - отмечают Эндрю Маккафи (Andrew McAfee) и Эрик Бриньольфссон (Erik Brynjolfsson), эксперты Массачусетского технологического института в области ведения бизнеса в цифровом веке. Вместе с тем они предлагают меры, чтобы ситуация изменилась во времена "больших данных": будет лучше, если главы предприятий прямо сейчас займутся переобучением своих людей.
И сами они должны подать пример, требуют эти эксперты: "Им следует сделать так, чтобы при принятии важных решений у них стало привычным делом сначала задать вопрос: а что говорят данные?" Оригинал публикации: Wer hebt das Datengold? |