Мастер анализа данных

Published by https://www.iemag.ru/ on July 21, 2005

Yahoo официально признала данные своим самым ценным ресурсом, одной из первых в мире введя должность СDO (Сhief Data Officer). Мы беседуем с Усамой Файядом (Usama Fayyad), СDO Yahoo, который анализирует огромные массивы Web-данных.

Intelligent Enterprise: Зачем Yahoo нужна должность CDO?

Мне кажется, все компании придут к пониманию значения должности CDO через потребителей. Сегодня цикл принятия решения потребителем происходит, как правило, в режиме онлайн. Этот режим действительно дает вам удивительную возможность заглянуть вперед и посмотреть, как будут выглядеть продажи. Так, некоторые из компаний, в которых я ранее работал, пытаясь предугадать продажи на 30 дней вперед на основе исторических данных о продажах, делали ошибку около 30%. Сейчас же в Yahoo мы прогнозируем за три месяца с использованием онлайновых данных, которые показывают, о чем думают потребители и что их интересует. Нам удалось свести ошибку до уровня менее 5%. Это как раз и является одной из моих ролей как CDO.

Какие проблемы анализа данных стоят перед вами?

Одна из больших проблем связана со скоростью поступления данных и очень коротким интервалом времени, в котором вы должны эти данные обработать и отреагировать на них. Поэтому мы занимаемся тем, что я называю “сортировкой” данных. Поступающий широкий поток данных, и мы разбиваем его на разные подпотоки в зависимости от того, как их необходимо трактовать. Другая проблема заключается в отображении структурированных и неструктурированных данных. Многие исследователи сейчас работают над тем, как отображать эти разные типы данных в общем пространстве, чтобы можно было анализировать их вместе. Станет ли когда-либо возможным совместный анализ смешанных типов данных в реальном масштабе времени? Несомненно. И доказательством служит то, что мы, я имею в виду людей в целом, делаем это постоянно.

Другая очень важная область – то, что я называю методами анализа данных с сохранением конфиденциальности. Сейчас исследователи работают над способами преобразования данных в такую форму, чтобы они, с одной стороны, сохраняли свое статистическое значение, а с другой, на их основе никогда нельзя было сделать заключение о каком-то конкретном человеке. Чтобы можно было предугадать будущее только на групповом уровне.

Насколько совершенно ПО для анализа данных?

На сегодня это ПО слабо во многих областях. Например, при анализе web-данных, эти средства сами чрезмерно зависят от маршрута перемещения по web-узлу. Они не основаны на постоянных бизнес-метриках. Во-вторых, почти все эти инструментальные средства были разработаны на самом деле не для пользователей, работающих в бизнесе, а для специалистов-техников. Они дают слишком много данных. Прекрасно, когда у вас есть столько данных, что вы можете одновременно измерить 700 переменных. Но если вы в конце дня не представите их в виде пяти (плюс-минус две) переменных, которые имеют главное значение для бизнеса, то эта информация никогда не будет использована для принятия решения.

View online

Leave a Reply