Анализ запросов в excel

Время на прочтение
3 мин

Количество просмотров 4.7K

Всем привет! Меня зовут Сергей Коньков — я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.

Задача

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть — выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel? Они в каком-то смысле, остались за бортом новых изменений. Это менеджеры по продажам, владельцы малого бизнеса, руководители небольших отделов. Освоить PowerBI у них нет времени. Все что им остается это экспортировать данные из отчетов в свой любимый Excel и продолжить работу там, но это не очень удобно, занимает время и есть ограничения по объему данных.

Мы часто наблюдаем, как наши клиенты использующих Google BigQuery загружают данные в Excel с помощью различных коннекторов, натыкаясь на ограничения. И родилась идея: если Excel не теряет популярности, а данные уходят в облака, то давайте придумаем способ как помочь пользователю работать из Excel с облаком.

Вспоминаем OLAP

Да, сегодня Excel по-прежнему самый популярный инструмент для работы с информацией в мире. А Сводная таблица, это то что используют миллионы пользователей каждый день. А раньше было еще больше. Если вы работали с данными в крупной компании десять лет назад вы наверняка слышали про технологию OLAP кубов от Microsoft и других вендоров, которые создаются поверх реляционных SQL баз, и позволяют получать результаты обработки миллионов строк данных за секунды. Самым популярным способом работы с OLAP кубами была и есть сводная таблица Excel. К слову OLAP по прежнему очень распространен в корпоративном мире, это все так же часть Microsoft SQL Server, однако имеет ряд ограничений по объемам и скорости обработки и все больше уступает рынок облачным аналитическим хранилищам.

Так вот в решении этой задачи нам поможет OLAP. Как я уже писал выше в Excel есть готовый клиент для работы с OLAP, мы будем использовать его.

Kогда Microsoft выводил на рынок данную технологию был опубликован открытый протокол для работы с OLAP базами — XMLA (XML для аналитики). Именно этот протокол и использует Excel когда подключается к OLAP серверу. Все работает примерно так:

Решение

Идея проста — вместо OLAP сервера мы сделаем Python приложение , которое будет делать следующее:

  • принимать XMLA запросы от Excel

  • конвертировать логику XMLA запроса в SQL код

  • отправлять SQL запрос в BigQiery

  • полученный от BigQuery ответ конвертировать в XMLA и отправлять обратно в Excel

Данное приложение (App) можем опубликовать в облаке, так как Excel имеет возможность отправлять запросы XMLA запросы по протоколу HTTPS. Все будет работать примерно так:

Использование

После того как мы разработали и опубликовали приложение, администратору BigQuery для начала использования достаточно просто создать таблицу и определить для соответсnвующих полей типы агрегации (сумма, минимум, максимум и т.д.). Далее пользователь в Excel используя подключение к службам аналитики (OLAP) соединяется с нашим сервисом:

После этого мы получаем доступ к таблице BigQuery непосредственно из сводной таблицы. И можем легко «играть» с данными.

Кроме того, мы реализовали в данном сервисе слой кэширования данных для ускорения запросов и экономии затрат на BigQuery.

Что дальше

Сейчас мы активно тестируем сервис на своих клиентах и думаем над добавлением нового функционала.

Например, SQL запросы наряду с BigQuery поддерживают и другие облачные хранилища данных. Добавив один класс в наше приложение мы реализовали аналогичный механизм для ClickHouse. Скоро будет готова версия для Snowflake и Amazon Redshift.

Будем рады услышать вопросы и мнение коллег в комментариях.

ВАЖНО! Идеи в Excel теперь называются Анализ данных

Чтобы лучше представить, как функция «Идеи» упрощает, быстрее и интуитивнее анализ данных, функция была переименована в Анализ данных. Возможности и функциональные возможности одинаковы и по-прежнему соответствуют тем же нормативным актам о конфиденциальности и лицензировании. Если вы работаете в Полугодовом канале (корпоративный), вы можете по-прежнему видеть «Идеи», пока Excel не будет обновлен.

Ваш браузер не поддерживает видео. Установите Microsoft Silverlight, Adobe Flash Player или Internet Explorer 9.

Анализ данных в Excel помогает вам изучить ваши данные с помощью запросов на естественном языке, которые позволяют задавать вопросы о данных без написания сложных формул. Кроме того, Анализ данных создает наглядные визуальные представления сводных данных, тенденций и закономерностей.

Есть вопрос? Мы ответим!

Просто выделите ячейку в диапазоне данных и нажмите кнопку Анализ данных на вкладке Главная. Анализ данных в Excel обработает данные и отобразит их информативные наглядные представления в области задач.

Если вы хотите получить более конкретные сведения, введите свой вопрос в поле запроса в верхней части панели и нажмите ВВОД. Анализ данных выдаст ответы с использованием графических элементов, например таблиц, диаграмм и сводных таблиц, которые можно будет вставить в книгу. 

Если вы хотите проанализировать свои данные или просто хотите узнать об имеющихся возможностях, по щелчку в поле запроса функция Анализ данных предложит персонализированные вопросы. 

Попробуйте воспользоваться предлагаемыми вопросами

Просто задайте вопрос

Выберите текстовое поле в верхней части панели «Анализ данных», и вы увидите список предложений, составленный на основе ваших данных.

Анализ данных в Excel предложит вам вопросы на основе анализа ваших данных.

Кроме того, вы можете ввести конкретный вопрос о своих данных.

Анализ данных в Excel с ответом на вопрос, сколько замков или шлемов было продано.

Примечания: 

  • Анализ данных доступно подписчикам Microsoft 365 на английском, испанском, немецком, упрощенном китайском и японском языках, французском и японском. Если вы являетесь подписчиком Microsoft 365, убедитесь, что у вас установлена последняя версия Office. Дополнительные сведения о различных каналах обновления для Office см. в статье Обзор каналов обновления для приложений Microsoft 365.

  • Функция запросов на естественном языке в компоненте Анализ данных предоставляется клиентам поэтапно. В данный момент она может быть доступна не во всех странах или регионах.

Получение конкретных сведений с помощью Анализ данных

Если у вас нет конкретного вопроса, Анализ данных не только отвечает на вопросы на естественном языке, но и анализирует данные, а также создает наглядные визуальные представления сводных данных, тенденций и закономерностей.

Вы можете сэкономить время и получить более конкретный анализ, выбрав только нужные вам поля. Когда вы выбираете поля и способ их обобщения, Анализ данных исключает другие доступные данные, что ускоряет процесс и обеспечивает предоставление предложений, меньших по количеству, но точнее сформулированных. Например, вам может потребоваться только общая сумма продаж за год. Или же можно попросить Анализ данных показать средний уровень продаж по годам. 

Выберите Какие поля интересуют вас больше всего?

Область "Анализ данных" со ссылкой для указания необходимых для использования полей.

Выберите поля и способ обобщения содержащихся в них данных.

Выберите поля, которые нужно включить и обновить, чтобы получить новые рекомендации.

Анализ данных предоставляет меньшие по количеству, но точнее сформулированные предложения.

Область "Анализ данных", в которой отображаются настраиваемые предложения.

Примечание: Параметр Не является значением в списке полей относится к полям, для которых обычно не выполняется суммирование или вычисление средних значений. Например, вы не можете вычислить сумму отображаемых лет, но вы можете вычислить сумму значений отображаемых лет. Параметр Не является значением, используемый с другим полем, в котором производится суммирование или вычисление среднего значения, работает как метка строки, однако при самостоятельном использовании Не является значением подсчитывает уникальные значения выбранного поля.

Анализ данных лучше всего работает с очищенными табличными данными.

Пример таблицы Excel

Вот некоторые советы по эффективному использованию функции Анализ данных.

  1. Анализ данных лучше всего работает с данными, отформатированными в виде таблицы Excel. Чтобы создать таблицу Excel, щелкните в любом месте диапазона данных и нажмите клавиши CTRL+T.

  2. Убедитесь, что у вас правильно отформатированы заголовки столбцов. Заголовки должны быть представлены в виде одной строки уникальных непустых имен столбцов. Не используйте двойные строки заголовков, объединенные ячейки и т. д.

  3. При наличии сложных или вложенных данных для преобразования перекрестных таблиц или таблиц с несколькими строками заголовков можно использовать надстройку Power Query.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Вот некоторые причины, по которым Анализ данных может не работать с вашими данными:

  • Анализ данных в настоящее время не поддерживает анализ наборов данных размером более 1,5 миллионов ячеек. Временного решения этой проблемы пока нет. Вы можете отфильтровать данные, скопировать в другое место и обработать с помощью функции Анализ данных.

  • Строковое даты, такие как «01-01-2017», анализируются как текстовые строки. В качестве временного решения можно создать для них новый столбец и отформатировать как даты с помощью функции ДАТА или ДАТАЗНАЧ.

  • Анализ данных не будет работать, когда Excel находится в режиме совместимости (то есть когда файл имеет формат XLS). Тем временем сохраните файл как файл .xlsx, XLSM или XLSB-файл.

  • Объединенные ячейки также могут представлять сложность для анализа. Если вы хотите выровнять данные по центру, например в заголовке отчета, то в качестве временного решения удалите все объединенные ячейки, а затем выровняйте ячейки по центру выделения. Нажмите клавиши CTRL+1 и перейдите на Выравнивание > По горизонтали > По центру выделения.

Анализ данных лучше всего работает с очищенными табличными данными.

Пример таблицы Excel

Вот некоторые советы по эффективному использованию функции Анализ данных.

  1. Анализ данных лучше всего работает с данными, отформатированными в виде таблицы Excel. Чтобы создать таблицу Excel, щелкните в любом месте диапазона данных и нажмите клавиши Кнопка.+T.

  2. Убедитесь, что у вас правильно отформатированы заголовки столбцов. Заголовки должны быть представлены в виде одной строки уникальных непустых имен столбцов. Не используйте двойные строки заголовков, объединенные ячейки и т. д.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Вот некоторые причины, по которым Анализ данных может не работать с вашими данными:

  • Анализ данных в настоящее время не поддерживает анализ наборов данных размером более 1,5 миллионов ячеек. Временного решения этой проблемы пока нет. Вы можете отфильтровать данные, скопировать в другое место и обработать с помощью функции Анализ данных.

  • Строковое даты, такие как «01-01-2017», анализируются как текстовые строки. В качестве временного решения можно создать для них новый столбец и отформатировать как даты с помощью функции ДАТА или ДАТАЗНАЧ.

  • Анализ данных не может анализировать данные, когда Excel находится в режиме совместимости (то есть когда файл имеет формат XLS). Сохраните файл в формате XLSX, XLSM или XLSB.

  • Объединенные ячейки также могут представлять сложность для анализа. Если вы хотите выровнять данные по центру, например в заголовке отчета, то в качестве временного решения удалите все объединенные ячейки, а затем выровняйте ячейки по центру выделения. Нажмите клавиши CTRL+1 и перейдите на Выравнивание > По горизонтали > По центру выделения.

Анализ данных лучше всего работает с очищенными табличными данными.

Пример таблицы Excel

Вот некоторые советы по эффективному использованию функции Анализ данных.

  1. Анализ данных лучше всего работает с данными, отформатированными в виде таблицы Excel. Чтобы создать таблицу Excel, щелкните в любом месте диапазона данных и выберите Главная > Таблицы > Форматировать как таблицу.

  2. Убедитесь, что у вас правильно отформатированы заголовки столбцов. Заголовки должны быть представлены в виде одной строки уникальных непустых имен столбцов. Не используйте двойные строки заголовков, объединенные ячейки и т. д.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Вот некоторые причины, по которым Анализ данных может не работать с вашими данными:

  • Анализ данных в настоящее время не поддерживает анализ наборов данных размером более 1,5 миллионов ячеек. Временного решения этой проблемы пока нет. Вы можете отфильтровать данные, скопировать в другое место и обработать с помощью функции Анализ данных.

  • Строковое даты, такие как «01-01-2017», анализируются как текстовые строки. В качестве временного решения можно создать для них новый столбец и отформатировать как даты с помощью функции ДАТА или ДАТАЗНАЧ.

Анализ данных постоянно совершенствуется

Даже если ни одно из указанных выше условий не выполняется, поиск рекомендаций может оказаться безрезультатным. Это объясняется тем, что служба пытается найти определенный набор классов аналитических сведений, и ей не всегда это удается. Мы постоянно работаем над расширением типов анализа, поддерживаемых службой.

Вот текущий список доступных типов анализа:

  • Ранг. Ранжирует элементы и выделяет тот, который существенно больше остальных.

График, показывающий, что расходы отдела заработной платы значительно выше

  • Тренд. Выделяет тенденцию, если она прослеживается на протяжении всего временного ряда данных.

График, показывающий увеличение расходов с течением времени

  • Выброс. Выделяет выбросы во временном ряду.

Точечная диаграмма, показывающая выбросы

  • Большинство. Находит случаи, когда большую часть итогового значения можно связать с одним фактором.

Кольцевая диаграмма, показывающая, что на долю людей приходится большая часть расходов

Если вы не получили результатов, отправьте нам отзыв, выбрав на вкладке Файл пункт Отзывы и предложения.

Дополнительные сведения

Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.

Эта статья о том, как распределить по группам
20–30 тысяч
ключевых слов. Поможет сэкономить время маркетологам, которые регулярно создают
рекламные
кампании.

Вручную группировать запросы не всегда эффективно: перебрать 200–300 запросов можно
за час,
на 20–30 тысяч уйдет неделя. Автоматическим сервисам группировку я не доверю,
так как она определяет
структуру и управляемость кампании.

Поэтому придумал свой метод, который ускоряет кластеризацию и даёт осознанный
результат.
Облегчает жизнь при работе с СЯ от 2–3 тысяч ключевых слов. Пробовал
работать с 45 000 —
Excel начинал умирать. Список из 200–300 запросов быстрее перебрать руками.

Далее расскажу про свой метод кластеризации в теории, а затем — как реализую
его в Excel. Дам ссылку на готовый Excel-кластеризатор. Но чтобы им пользоваться,
нужно хорошо понимать метод.

Метод

Кластеризация — распределение запросов по кластерам. Кластер — это группа
запросов,
схожих по смыслу и набору слов. Чтобы выделить такие запросы и объединить
их в кластер, нужен признак.

Используем для этого нормализованную форму запроса — уберём окончания и выстроим
слова в порядке важности:

Пример готовых кластеров

Удаление окончаний позволит охватить все возможные словоформы для конкретного слова,
а сортировка «по важности» —
игнорировать порядок слов.

Слово без окончания — это признак, который объединяет разные словоформы:

Объединение словоформ

Чтобы убирать окончания я использую mystem. Это лемматизатор
от Яндекса. Он обрабатывает список слов и возвращает нормализованные значения — леммы.

Если система не уверена, какая лемма правильная, то покажет 2–3 варианта.
Например,
для слова «банку» mystem вернёт две леммы: «банк» и «банка».
При проверке результатов мы выберем нужную.

Сортировка «по важности» позволит игнорировать порядок слов. При сортировке
нормализованных значений фраз по алфавиту мы получим готовые кластеры — группы
запросов, схожих по смыслу и набору слов.

Важность слова — вычисляемый параметр для конкретного списка ключевых слов. Он не определяет
важность слова в общей картине мира.

Важность слова рассчитывается из частотности и количества упоминаний слов в списке.
Рассмотрим на примере.

Берём список запросов с частотностью

  1. Купить бумеранг — 1000
  2. Бумеранги цена — 700
  3. Бумеранги в москве — 750
  4. Купить классический бумеранг — 450
  5. Цены на бумеранги в москве — 350
  6. Купить классический бумеранг в москве — 100

В списке запросов встречаются слова: купить, бумеранг, классический, москва, цена, в, на. Вес
слова равен сумме долей частотностей помноженных на количество упоминаний слова.

Считаем доли частотностей

  1. Купить бумеранг — 1000 = 1000/2 = 500
  2. Бумеранги цена — 700 = 700/2 = 350
  3. Бумеранги в москве — 750 = 750/3 = 250
  4. Купить классический бумеранг — 450 = 450/3 = 150
  5. Цены на бумеранги в москве — 350 = 350/5 = 70
  6. Купить классический бумеранг в москве — 100 = 100/5 = 20

Считаем вес слов

  1. Купить — (500+150+20)*3 = 2010
  2. Бумеранг — (500+350+250+150+70+20)*6 = 8040
  3. Классический — (150+20)*2 = 340
  4. Москва — (250+70)*2 = 640
  5. Цена — (350+70)*2 = 840
  6. В — 20
  7. На — 70

Сортируем по важности

  1. 8040 — бумеранг
  2. 2010 — купить
  3. 840 — цена
  4. 640 — москва
  5. 340 — классический
  6. 70 — на
  7. 20 — в

Располагаем запросы по важности

  1. Купить бумеранг — бумеранг | купить
  2. Бумеранги цена — бумеранг | цена
  3. Бумеранги в москве — бумеранг | москва
  4. Купить классический бумеранг — бумеранг | купить | классический
  5. Цены на бумеранги в москве — бумеранг | цена | москва | на | в
  6. Купить классический бумеранг в москве — бумеранг | купить | москва | классический
    | в

Упорядочиваем и чистим

  1. Бумеранг | купить: купить бумеранг — 1000
  2. Бумеранг | купить | классический: купить классический бумеранг — 450
  3. Бумеранг | купить | москва | классический: купить классический бумеранг в москве — 100
  4. Бумеранг | москва: бумеранги в москве — 750
  5. Бумеранг | цена: бумеранги цена — 700
  6. Бумеранг | цена | москва: цены на бумеранги в москве — 350

В итоге получили первые группы объявлений, с которыми можно работать дальше: укрупнять,
объединять, кросс-минусовать. Для этого используем Excel.

Реализация в Excel

Выполняем последовательность действий в таблице
(XLS, 537 КБ) с формулами. Кластеризация 1000 запросов займет 30 минут.

Собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем
доли весов → формируем таблицу-справочник с весами слов → выделяем леммы для слов
→ вычисляем
«вес» леммы → формируем таблицу-справочник с леммами → делаем первичную кластеризацию
→ укрупняем
полученные группы.

Лист «Кластеризация», таблица «Main»

Чтобы избежать правки формул называйте все листы и таблицы аналогично таблице-примеру

  1. Вычисляем доли весов:

    1. Доли весов = Частотность / Кол-во слов.
    2. Кол-во слов =LEN ([@Ключ])-LEN (SUBSTITUTE ([@Ключ],» «,»»))+1.

    Расчёт

    кол-ва слов

    и доли веса слова

  2. Разбиваем слова по фразам функцией «Text to columns»:

    Результаты работы функции «Text to columns»

Лист «Слова — Леммы», таблица «Word»

  1. Копируем столбцы W1—W7 на новый лист.
  2. Преобразуем таблицу из формата
    [W1] [W2] [W3] [W4] [W5] [W6] [W7] [Доли весов] в формат:
    [W1] → [Доли весов]
    [W2] → [Доли весов]
    [W3] → [Доли весов]
    [W4] → [Доли весов]
    [W5] → [Доли весов]
    [W6] → [Доли весов]
    [W7] → [Доли весов]:

    Формирование справочника со словами

  3. Удаляем пустые ячейки и считаем кол-во упоминаний каждого слова.

Лист «Слова — Леммы», таблица «Word»

  1. Копируем полученный на прошлом шаге список слов «как есть».
  2. Обрабатываем через mystem
    → получаем леммы для каждого слова.
  3. Считаем кол-во упоминаний каждой леммы.

    Справочник слов

Лист «Леммы», таблица «Lemmas»

  1. Копируем полученный список лемм на новый лист и удаляем дубли.
  2. Из справочника со словами подтягиваем VLOOKUP-ом кол-во упоминаний каждой леммы.
  3. Считаем кол-во символов в лемме.
  4. Вычисляем «вес» леммы:
    Вес Леммы= [Сумма долей весов слов, входящих в Лемму] * [Кол-во упоминаний Леммы].
    Формула:
    =(SUMIF (Words[Lemma],[@Лемма], Words[Доли весов]))*[@[Кол-во упоминаний]].
  5. Сортируем леммы по столбцу «вес» — от большего к меньшему.
  6. Проставляем «Статус» для лемм — минимальный для старшей леммы (лучше начать с 1 000),
    дальше +1 к следующему статусу:

    Справочник лемм

Лист «Кластеризация», таблица «Main»

Для каждого слова в столбцах W1—W7 подтягиваем VLOOKP-ом значения «Статус» → записываем
их столбцы
L1 – L7
:

«Статусы» слов

Итак, что мы сделали. Разбили запросы по словам. Для каждого слова выделили лемму — можем
объединить запросы по общим словам. Для каждой леммы посчитали вес. Остаётся выстроить
слова в запросе
в порядке важности. Тогда при сортировке по алфавиту запросы сами объединятся в группы
объявлений.

Выстраиваем слова в порядке важности функцией SMALL. В диапазоне статусов L1 – L7 ищем
самый маленький статус — это самое важное слово во фразе. Затем, ищем второй
самый маленький
статус — это второе по важности слово во фразе. И так еще пять раз — проверяем
оставшиеся столбцы L3 – L7.

Получаем последовательность статусов. Например, 37 → 100 → 200 → 700. Для каждого
статуса подтягиваем VLOOKP-ом соответствующую Лемму из справочника Лемм. Соединяем Леммы
CONCATENATE-ом и получаем нормализованное значение фразы. Я использую его как название
группы объявлений.

Сортируем по алфавиту:

Результаты работы Кластеризатора

Полная рабочая формула в файле-примере.

Игнорируя окончания и порядок слов, мы объединили запросы с одинаковым набором слов.
Количество групп стремится к количеству слов — это 100 % точность инструмента. Можно
использовать, если вы предпочитаете работать с запросами в точном
соответствии.

Чтобы укрупнить группы, нужно уменьшить точность — снизить количество лемм, которые составляют
«нормализованную форму».

Что можно удалить:

  • одинокие буквы, цифры, предлоги, доменные зоны. Леммы длиной 1–3 символа;
  • редкие леммы — кол-во упоминаний меньше среднего по списку;
  • леммы с малым весом — недостаточно «важные»;
  • в редких случаях — топонимы.

Важно: лемму не удаляем, только её «Статус» — этого достаточно, чтобы лемма
не попала
в «нормализованную форму»:

Процесс укрупнения групп объявлений

В основной таблице ничего править не надо — результат обновится
самостоятельно.

До какой степени укрупнять: я стремлюсь к среднему показателю 2–3 запроса в одной
группе объявлений и слежу за максимальным количеством фраз (помним про ограничения
систем
контекстной рекламы).

Дашборд для укрупнения в справочнике Лемм

Резюме

Полученный список групп удобно кросс-минусовать и двигать между кампаниями. Название группы
поможет писать объявления — вы сами определяете важные слова в названии группы.

Ещё раз алгоритм: собираем СЯ → собираем частотность → разбиваем запросы по словам
и вычисляем доли весов → формируем таблицу-справочник с весами слов → выделяем
леммы
для слов → вычисляем «вес» леммы → формируем таблицу-справочник с леммами → делаем
первичную кластеризацию → укрупняем полученные группы.

Отзывы джедаев о кластеризаторе

Илья Ерошкин, старший джедай:

«Я помогал Роме с созданием инструмента на ранних этапах. Всем рекомендую попробовать кластеризатор для ядра от 2000 ключевых слов → сэкономит время.

Инструмент можно улучшить и превратить в автоматический сервис. Также можно дорабатывать формулы определения веса лемм. Но и в текущем виде он поможет специалистам по контексту, которые работают с большой семантикой.»

Егор Холов, старший джедай:

«С помощью кластеризатора сильно удобнее и быстрее сгруппировать фразы и потом писать объявления для них. Из недостатков — первый раз кажется, что это сложновато. Но когда попробуешь, то всё довольно понятно. Но эту штуку лучше автоматизировать.»

Михаил Стерликов, старший джедай:

«Методику пробовал, но не использую в работе, потому что нечасто собираю контекст в больших объемах.

Хорошо подойдет для работы с большой семантикой, особенно в свете последних нововведений яндекса по низкочастотным запросам. Группировки помогут сэкономить много времени при подготовке ключевых фраз.

Методика на первый взгляд кажется сложной и громоздкой, но если разобраться, то процесс становится понятным и удобным.»

«Кластеризация от Ромы просто находка! Методом пользуюсь каждый раз когда работаю с семантикой — собираю или корректирую кампании.

Больше всего мне нравятся три вещи:

  • я регулирую какие фразы попадут в группу. Если вес фразы небольшой, то объединяю с похожими. Не придерживаюсь принципа «один ключ — одна группа», иначе управлять кампанией сложно;
  • понимаю механику и вижу какие фразы должны быть в заголовке. Конечно, важно делать полное вхождение ключевого слова. Часто оно не вмещается полностью и я строю заголовок из фраз с бо́льшим весом;
  • это Excel, который всем знаком. Не нужно устанавливать дополнительные программы и платить за сервис. Если разобраться в формулах, то уже немного прокачаешься.

Из минусов: все формулы я копирую из готового шаблона и переключаться между окнами одной программы неудобно. Я бы хотела иметь формулы под рукой, а может сделать в будущем какой-нибудь шаблон, чтобы сократить количество копирований. Ещё хотелось бы сократить время группировки, но пока не нашла способ.

В целом, способ мне нравится тем, что механика простая и понятная, её легко внедрить и потом управлять кампаниями.»

Что дальше

Если у вас СЯ от 2–3 тысяч ключевых слов, используйте этот алгоритм.
Прогоните
алгоритм 2–3 раза, чтобы «впитать».

Если у вас список из 200–300 запросов, переберите
руками — так быстрее.

Если хотите готовое решение — попросите программистов написать скрипт.

Я постоянно дорабатываю кластеризатор. В следующих итерациях хочу проработать
кросс-минусовку
групп, добавить справочники минус-слов и максимально автоматизировать кластеризатор на Power
Query. Следите за обновлениями!

Будут вопросы — пишите: igoshinrmn@it-agency.ru или Facebook.

14 февраля 2017

Записал и отредактировал Виталий Семыкин

Подпишитесь, чтобы не пропустить свежие статьи

Новые статьи из Академии и открытые вакансии каждые две недели:

Анализ данных  •  23 ноября  2022  •  5 мин чтения

4 инструмента быстрого и простого анализа данных в Microsoft Excel

Обычно аналитики работают со специфическими программами, но в некоторых случаях эффективнее использовать простой инструмент — Microsoft Excel.

Продакт-менеджер, эксперт бесплатного курса по Excel

  • Настройка анализа данных в Excel
  • Техники анализа данных в Microsoft Excel
    1. 1. Сводные таблицы

      2. Лист прогноза в Excel

      3. Быстрый анализ в Excel

      4. 3D-карты

  • Совет эксперта

Практически все инструменты для анализа данных уже встроены в Excel, и специально настраивать их не нужно. Эти инструменты находятся в главном меню программы в разделе «Данные».

Здесь лежат инструменты для сортировки, фильтрации, прогнозирования и других действий с данными таблицы

В других разделах они тоже встречаются — например, отображение географически привязанных данных на глобусе находится в разделе «Вставка → 3D-карта».

В Excel есть инструменты, которые нужно подключать отдельно. К таким относится анализ корреляций между значениями. Чтобы его использовать, нужно нажать «Файл → Параметры → Надстройки».

Затем в выпадающем списке «Управление» выбрать «Настройки Excel» и нажать «Перейти». Откроется список надстроек.

Нужно поставить галочку на «Пакет анализа» и нажать «ОК». После этого в разделе меню «Данные» появится пункт «Анализ данных» с доступными инструментами для анализа.

Инструменты для анализа данных в Excel простые в освоении, но плохо подходят для сложных задач. Тут аналитикам пригодится специальное ПО, аналитические базы данных и код на Python. Работать с этими инструментами учат на курсе «Аналитик данных».

Повышайте прибыль компании с помощью данных

Научитесь анализировать большие данные, строить гипотезы и соберите 13 проектов в портфолио за 6 месяцев, а не 1,5 года. Сделайте первый шаг к новой профессии в бесплатной вводной части курса «Аналитик данных».

Техники анализа данных в Microsoft Excel

Разберём несколько техник, которые позволят быстро изучить информацию, собранную в таблицу Excel.

Нужны для того, чтобы сводить данные, то есть смотреть, как соотносится информация в разных столбцах и строках исходной таблицы. Например, есть данные по профессиям и зарплатам разных специалистов. Сводная таблица покажет, сколько в среднем зарабатывает представитель каждой профессии или какая из профессий популярнее.

Чтобы создать сводную таблицу для анализа данных в Microsoft Excel, сначала нужно сделать простую. Затем выделить все данные для анализа и нажать «Вставка» → «Сводная таблица». Excel предложит опции.

В этом окне можно задать диапазон, а также указать, куда именно вставить новую сводную таблицу — на новый или на этот же лист.

Затем появится новый лист, пока ещё пустой. В окне справа нужно задать поля сводной таблицы.

Например, зададим поля «Профессия» и «Зарплата».

По умолчанию Excel выбирает для числовых данных «Сумму по полю», то есть показывает сумму всех значений. Это можно скорректировать в графе значения, нажав на строку «Сумма по полю» → «Параметры поля значений».

Здесь можно выбрать новое имя для колонки и задать нужную операцию, например вычисление среднего. Получится следующая таблица.

В таблицу можно добавлять дополнительные значения. Допустим, поставить галочку в графе «Возраст», чтобы узнать средний возраст представителей профессии.

Если перетащить графу «Возраст» из раздела «Значений» в «Строки», получится средняя зарплата по профессиям для каждого возраста.

Чтобы вычислить самую популярную профессию, нужно распределить все по столбцам и посчитать, сколько раз они встречаются в таблице.

Инструмент «Сводные таблицы» позволяет сопоставлять самые разные значения друг с другом и делать простые вычисления. Часто для базового анализа данных большего и не требуется.

С чем работает аналитик данных: 10 популярных инструментов

2. Лист прогноза в Excel

Это средство анализа данных в MS Excel позволяет взять набор изменяющихся данных и спрогнозировать, как они будут изменяться дальше. Для этого понадобится как можно больший набор данных за прошлые периоды, причём равные — неделю, месяц, год.

Для примера возьмём динамику зарплат за два года.

Посчитаем, какой примерно будет зарплата в течение следующего года. Для этого нужно выделить данные для анализа и нажать «Данные» → «Лист прогноза». Появится диалоговое окно.

В нём можно выставить конечную точку и сразу увидеть примерный график. После нажатия кнопки «Создать» Excel создаст отдельный лист с прогнозируемыми данными.

Также на листе будет график, на котором можно визуально отследить примерные изменения.

Чем больше значений для анализа, тем точнее будет прогноз. Разумеется, он построен на простом математическом анализе, а не на моделях машинного обучения, поэтому не может учитывать нюансы и сложные факторы. Однако для простых примерных прогнозов подойдёт.

3. Быстрый анализ в Excel

Этот набор инструментов отвечает на вопрос «Как сделать анализ данных в Excel быстро?». В Microsoft Office 365 он называется экспресс-анализом. Инструмент появляется в нижнем правом углу, если выделить диапазон данных. У быстрого анализа чуть меньший набор опций, однако он позволяет в пару кликов проводить большинство стандартных аналитических операций.

Если нажать на кнопку с иконкой в виде молнии либо сочетание клавиш CTRL+Q, открывается большой набор инструментов для анализа и визуализации.

Например, если выбрать «Форматирование» → «Гистограмма», Excel прямо
внутри ячеек для сравнения наглядно отобразит, насколько одни значения больше других.

При выборе «Диаграмма» Excel отобразит предварительный результат.

Затем создаст отдельный лист с настраиваемой диаграммой, в которой можно задавать свои параметры.

Прямо здесь можно вычислить среднее с автоматическим добавлением строки с результатами.

Инструмент быстрого анализа позволяет составить сводную таблицу без перехода в отдельные пункты меню.

Этот инструмент позволяет с помощью MS Excel провести анализ данных, в которых есть указание города или страны. Работает только в последних версиях Excel старше 2019 года, без интернета недоступен.

Возьмём таблицу с профессиями и зарплатами и добавим в неё новую колонку — город проживания. Далее нужно выделить диапазон данных и нажать «Вставка» → «3D-карта». В отдельном окне откроется карта.

Слева можно выбрать параметры отображения. Например, задать высоту столбцов в зависимости от нужного показателя. Возьмём «Зарплату», выставим среднее значение и посмотрим, как это отобразится на 3D-карте.

Высота столбцов изменится в зависимости от средней зарплаты в регионе — Excel посчитает это самостоятельно. Можно задать категории, например «Профессию».

Excel раскрасит столбики в зависимости от того, сколько представителей каждой профессии живёт в конкретном городе.

При наведении на конкретный элемент столбика можно увидеть город, профессию и среднюю зарплату.

3D-карты пригодятся, когда в таблице очень много данных и их география имеет большое значение. Этот инструмент подойдёт как для анализа, так и для быстрой визуализации. Внутри инструмента можно изменить параметры отображения и быстро создать видео для презентации результатов анализа.

Совет эксперта

Настя Шушурина
Вышеописанные функции и лайфхаки — только часть инструментария Excel. Ими можно воспользоваться, когда нужно быстро провести агрегацию данных, найти ответ на вопрос или просто сравнить ряд данных и добавить пару классных визуализаций в презентацию. В Excel есть и множество других инструментов, которые позволяют делать интересные вещи и проводить быстрые манипуляции с данными без умения писать код.

Как пересечение и объединение множеств используются в анализе данных

С чем работает аналитик данных: 10 популярных инструментов

Часто на решение ряда SEO-задач у начинающего специалиста уходит неоправданно много сил и времени. Зная о возможностях Excel в применении к SEO, вы сможете оптимизировать часть рутинных процессов и продуктивно продвигаться к решению поставленных задач.

Для кого: SEO-специалистам

Уровень подготовки: начальный

В своей работе SEO-специалисту необходимо анализировать большое количество данных из различных систем статистик, поэтому ему важно уметь пользоваться программой Excel.

В этой статье я покажу основные приёмы и функции, которые обязательно пригодятся при выполнении SEO-задач.

Все приёмы и функции будут сопровождаться примерами в аспекте SEO.

1. Работа с таблицами

1.1. Преобразование диапазона в таблицу
1.2. Разделение по столбцам — как выделить раздел из URL
1.3. Фильтры — поиск Title по определённым словам, поиск страниц с 301 редиректом определённого раздела
1.4. Условное форматирование — подсветка запросов с трафиком выше среднего, подсветка значений от минимальных к максимальным, подсветка дублей
1.5. Итоговая строка – примеры подсчёта итогов

2. Основные функции

2.1. Функция ВПР (англ. VLOOKUP) — как получить количество посетителей у позиций, находящихся в ТОП-10
2.2. Функция ЕСЛИ — проверка соответствия продвигаемой страницы и той, что находится в поиске
2.3. Функция СЧЁТ ЕСЛИ — подсчёт количества запросов в ТОП-5, ТОП 5-10 и ТОП-10-50
2.4. Объединение ячеек — как найти данные нужного значения

1. Работа с таблицами

По умолчанию данные в Excel предоставляются в виде простого диапазона. По сути, это просто набор данных, он не является таблицей как таковой.

1

Для удобства мы рекомендуем преобразовать диапазон в таблицу. Это упрощает работу с функциями и формулами и позволяет автоматически подсчитывать итоги, работать с данными таблицы независимо от данных за её пределами, создавать несколько таблиц на одном листе и работать в них отдельно.

 

1.1. Преобразование диапазона в таблицу

В ленте навигации выбрать вкладку «Вставка» и нажать на иконку «Таблица».

2

Поставить галочку «Таблица с заголовками» и выбрать нужный диапазон с данными, затем нажать «Ок».

3

Получим таблицу такого вида:

4

 

1.2. Разделение по столбцам — как выделить раздел из URL

Инструмент «Разделение по столбцам», который находится во вкладке «Данные», позволяет делить данные одной ячейки на несколько столбцов по выбранному признаку: по запятой, пробелу, точке и т. д.

5

Применение в SEO

Если сайт имеет структуру разделов и если она отображается в URL, удобно анализировать каждый раздел отдельно.

К примеру, у нас есть выгрузка всех URL сайта, тогда:

1. Копируем столбец с URL и вставляем данные в новый лист

6

2. Выделяем полученный столбец, нажимаем в навигационной ленте на «Данные» — «Текст по столбцам» — «Далее»

7

3. В появившемся окне ставим галочку напротив «Другой» и в поле ставим слеш (/), нажимаем «Готово»

8

Excel разбил наши адреса на столбцы.

9

Здесь столбцы «С-E» содержат названия разделов. Если мы скопируем эти столбцы в нашу таблицу c URL, то получим группировку по разделам.

10

С применением фильтрации будет удобно анализировать каждый раздел отдельно.

 

1.3. Фильтры — поиск Title по определённым словам, поиск страниц с 301 редиректом определённого раздела

Фильтрация позволяет быстро формировать выборки по необходимому признаку.

Есть три способа отфильтровать данные:

  1. Фильтрация по принципу простого поиска
  2. Выбор значений, по которым необходимо фильтровать данные
  3. Фильтрация по условиям

11

Применение в SEO

Фильтрация по признаку поиска

Допустим, нам необходимо получить все URL, в Title которых встречается слово «ссылки». Для этого нам достаточно написать в поле поиска столбца «Title» слово «ссылки».

12

Выбор значений

В нашем файле есть данные по кодам ответов сервера, и мы решили посмотреть, какие страницы раздела «Blog» имеют 301 редирект.

Для этого нужно нажать на стрелку у столбца «Группа 1» и оставить галочку только у «Blog».

13

В столбце «StatusCode» выбираем «301». В итоге получаем результат:

14

 

1.4. Условное форматирование — подсветка запросов с трафиком выше среднего, подсветка значений от минимальных к максимальным, подсветка дублей

Часто для того, чтобы оценить данные, в них необходимо визуально выделить важные сведения. Для этого в Excel есть так называемое условное форматирование, которое позволяет задать данным определённое форматирование по выбранному условию.

15

Применение в SEO

Подсветка запросов, у которых посещение выше среднего

Например, у нас есть данные трафика по запросам, и мы хотим выделить запросы, у которых посещение выше среднего.

«Условное форматирование» — «Правила отбора первых и последних значений» — «Выше среднего»

16

Подсветка значений от минимального к максимальному

Также при анализе удобно использовать «Цветовые шкалы», которые подсвечивают минимальные и максимальные значения в виде своеобразной тепловой карты.

«Условное форматирование» — «Цветовые шкалы»

17

Чем ниже значение, тем более красным становится цвет.

Выделение дублей

У нас есть список URL с Title из Screaming Frog, и мы хотим подсветить одинаковые Title.

«Условное форматирование» — «Правила выделения ячеек» — «Повторяющиеся значения»

18

Теперь при желании можно отфильтровать данные по цвету.

19

Результат сортировки:

20

 

1.5. Итоговая строка – примеры подсчёта итогов

Итоговая строка позволяет быстро вычислять значения данных в таблице. Чтобы добавить итоговую строку, необходимо кликнуть по таблице, а на навигационной ленте выбрать «Работа с таблицами», после поставить галочку «Итоговая строка».

21

Внизу таблицы автоматически появится строка «Итог» с возможностью выбора.

Применение в SEO

Например, вам нужно узнать общий трафик по всем запросам или среднюю позицию по разделу. Итоговая строка позволяет сделать это очень быстро.

2. Основные функции

 

2.1. Функция ВПР (англ. VLOOKUP) — как получить количество посетителей у позиций, находящихся в ТОП-10

У нас есть список запросов с позициями и данные по трафику из Яндекс.Метрики. Мы хотим знать, какие из запросов, находящихся в ТОПе, приносят нам трафик.

22

В этом нам может помочь специальная функция ВПР, которая ищет указанное значение в крайнем левом столбце таблицы и возвращает значение ячейки указанного столбца той же строки.

Синтаксис функции: ВПР (значение_которое_ищем; таблица_в_которой_ищем; номер_столбца_нужного_значения; [интервальный просмотр])

Применение в SEO

1. Кликаем по ячейке, в которую должны подтягиваться данные по трафику (в нашем примере это ячейка D3). Вставляем формулу = ВПР(B3;$F$2:$G$12559;2;0).

23

Разберём формулу:

B3 – ключевое слово, которое необходимо найти в таблице «Трафик»;
;$F$2:$G$12559 – диапазон таблицы «Трафик». Знак «$» вставлен для закрепления диапазона, чтобы при протягивании формулы он не сдвигался;
2 – второй столбец таблицы «Трафик». Именно в этом столбце находятся данные по трафику;
0 – интервальный просмотр, может принимать значение «0» (поиск точного совпадения) или «1» (поиск приблизительного);

2. Нам нужен трафик запросов из ТОП-10. Отфильтруем данные столбца «Позиции» по условию меньше или равно 10.

24

В итоге получаем:

25

#Н/Д показывает, что нужное ключевое слово в таблице «Трафик» не было найдено — т. е. по нему нет трафика. #Н/Д можно заменить на «0». Для этого добавим в нашу функцию ещё одну: ЕСЛИОШИБКА (на англ. IFERROR).

Синтаксис функции: ЕСЛИОШИБКА (проверяемое_значение; значение_если_ошибка).

В нашем случае функция будет выглядеть следующим образом: ЕСЛИОШИБКА(ВПР(B3;$F$2:$G$12559;2;0);0)

 

2.2. Функция ЕСЛИ — проверка соответствия продвигаемой страницы и той, что находится в поиске

Функция «ЕСЛИ» проверяет выполнение условия. При его выполнении функция возвращает одно значение и другое, если условие не выполняется.

Синтаксис функции: ЕСЛИ (Условие (логическое_выражение); Значение_если_истина; Значение_если_ложь)

Применение в SEO

С помощью функции «ЕСЛИ» мы можем посмотреть, соответствует ли продвигаемая страница той, что ранжируется в поиске.

У нас есть список URL, которые ранжируются в поиске и URL и которые мы реально хотим продвигать.

26

В ячейке «C2» добавляем функцию =ЕСЛИ(A1=B1;1;0)

Разберём формулу:

A1=B1 – проверяем, равен ли целевой URL релевантному;
1 – выводим «1», если равен;
0 – выводим «0», если не равен.

27

 

2.3. Функция СЧЁТ ЕСЛИ — подсчёт количества запросов в ТОП-5, ТОП 5-10 и ТОП-10-50

Считает количество ячеек, удовлетворяющих условию.

Синтаксис функции: СЧЕТЕСЛИ (диапазон_значений; условие)

Применение в SEO

Эта функция поможет посчитать количество запросов из ТОП-5, ТОП-5-10 и ТОП-10-50.

У нас есть таблица с запросами и позициями. Подготовим заголовки для новой таблицы, в которой у нас будет производиться подсчёт.

28

Для ТОП-5 функция будет выглядеть так: = СЧЁТЕСЛИ($C$3:$C$423;»<=5″),

где $C$3:$C$423; — закреплённый диапазон с позициями, «<=5» — считать, если меньше или равно «5».

Для ТОП-5-10, чтобы вычислить, сколько запросов находится в диапазоне между «5» и «10» позицией, нужно подсчитать количество запросов ниже «10» и вычесть количество позиций ниже «5». Функция выглядит так: =СЧЁТЕСЛИ($C$3:$C$423;»<=10″) — СЧЁТЕСЛИ ($C$3:$C$423;»<5″)

Для ТОП-10-50 аналогично: =СЧЁТЕСЛИ($C$3:$C$423;»<=50″)-СЧЁТЕСЛИ($C$3:$C$423;»<10″

29

 

2.4. Объединение ячеек — как найти данные нужного значения

В работе достаточно часто требуется объединить несколько ячеек в одну. Это может понадобиться при формировании файла на отклонение ссылок в Disavow Tools или при формировании шаблонов для Title.

Есть несколько способов объединить ячейки:

Вариант 1:
Функция «СЦЕПИТЬ» (англ.CONCATENATE)
Синтаксис: СЦЕПИТЬ (текст1; текст2; …)

Вариант 2:
Использование &
Синтаксис: A1&B1, здесь &сцепить ячейки A1 и B1

Пример 1:

30

Пример 2:

Необходимо сцепить ячейки и добавить в конце предложения «: цены в СПб»

31

В этом выпуске мы рассмотрели наиболее удобные и полезные способы решения ряда SEO-задач с помощью многочисленных возможностей Excel. Осваивайте, применяйте, делитесь своим опытом.

А мы в свою очередь продолжим писать о возможностях Excel в применении к SEO, дабы избавить вас от рутины и ускорить решение некоторых важных задач.

Полезные ссылки:
Официальная справка excel
Портал по изучению excel

Наверх

Еще по теме:

  • Как индексировать 200 URL в Google каждый день через Indexing API
  • Настройка Indexing API: создание сервисного аккаунта и JSON-ключа Настройка сканирующего скрипта Связь скрипта с Google Search Console Запуск скрипта В условиях, когда Google закрыл инструмент…

  • Подключение и отслеживание кликов Яндекс.Метрики через Google Tag Manager
  • Подготовительные работы Отслеживание клика в Яндекс.Метрике Настройка переменных Создание триггера Создание и настройка нового тега Нередкой является ситуация, когда для анализа эффективности работы веб-ресурса требуется…

  • Как провести аудит ссылочной массы сайта с помощью Ahrefs
  • Преимущества и недостатки Ahrefs, доступные инструменты, детальный разбор возможностей и советы по анализу ссылочной массы вашего сайта и сайтов конкурентов. Читайте в статье, как проанализировать…

  • Парсим сайт при помощи XPath
  • Что такое XPath Терминология XPath и отношение узлов Синтаксис Предикаты Как парсить данные с помощью Google Spreadsheets Синтаксис XPath-запроса для Google Spreadsheets Распространённые выражения Разметка…

  • Как пользоваться операторами Яндекс Wordstat
  • В предыдущей статье «Как узнать частоту ключевого запроса в Яндекс и Google» я разобрал способы, с помощью которых можно узнать частоту запроса, а также рассмотрел…


SEO-аналитик SiteClinic.ru

Продвигаю сайты с 2009 года.

Выступал на конференциях AllInTop, Optimization

Публикую полезные статьи на различных блогах: siteclinic.ru, optimizatorsha.ru, searchengines.ru и веду Telegram-канал.

Сейчас руковожу SEO-отделом в компании SiteClinic: строю и координирую команду, обучаю специалистов.

Девиз: вперёд!

Есть вопросы?

Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.

Понравилась статья? Поделить с друзьями:
  • Анализ запасов в excel
  • Анализ дублей в excel
  • Анализ дтп в excel
  • Анализ документов ms word
  • Анализ динамического ряда excel