Открытый отбор 2020
Как не потеряться в массиве данных и сделать справедливый рейтинг участников? В шестой статье об Открытом отборе рассказываем, как тестировали гипотезы, чертили графики и делали выводы.
Часть 6. Как считать рейтинги
4 апреля прошел второй этап Открытого отбора. Полторы недели мы подводили итоги и наконец 15 апреля представили публике командные и индивидуальные рейтинги участников, которые называем лидербордами. Пока поддержка стойко отвечала на претензии о потерянной социальной справедливости, мы открыли капот и начали исследование.
Как подбирали критерии командного лидерборда
Во втором этапе конкурса 104 команды должны были за 24 часа вместе выполнить 4 задания под присмотром бота и с развернутой обратной связью от экспертов. Им предстояло познакомиться, совместно выбрать один из рынков НТИ, сделать презентацию проекта НТИ для государственного финансирования и сверстать лендинг проекта. О том, как это происходило, мы рассказывали в предыдущей статье — «Как сделать командный этап конкурса за 18 дней».
По завершении второго этапа конкурса в нашем распоряжении оказался очень большой массив данных о командах. Нам нужно было выбрать те критерии, которые лягут в основу рейтинга. Делать рейтинг излишне сложным мы не хотели, да и было незачем. Поэтому сформировали 2 группы критериев: первая оценивала результативность команды, вторая — ее сплоченность.
В первую группу попали критерии про число голосов, отданных за лендинг в публичном голосовании, и время, которое потребовалось команде для решения задания с презентацией.
Среди метрик результативности могли быть также:
- количество попыток, которые делали команды, пытаясь справиться с заданиями про презентацию и лендинг, — как показатель экспертной оценки результативности команды, ведь презентацию и лендинги акцептовали эксперты,
- время, за которое команды справились с лендингом,
- количество попыток, которое потребовалось команде, чтобы справиться с заданием на знакомство.
Иными словами, в нашем распоряжении были метрики:
- про время (как быстро команды справлялись с заданием),
- попытки (как их оценивали эксперты),
- общественное признание (количество голосов, отданных на этапе голосования),
- итоги дополнительной задачи на знакомство.
Интересный эффект получили команды, вложившиеся в первое задание — знакомство. Даже там, где они решали задачу за такое же количество циклов, что и остальные, это занимало у них меньше времени. Они экономили силы и направляли их на новые задачи.
Как работали с критериями командного лидерборда
Перебрав все возможности, мы оставили в каждой группе по два критерия, остальные оставили для аналитики.
Критерии результативности
- Число голосов, отданных за лендинг в публичном голосовании.
- Время, которое потребовалось команде, чтобы сделать и сдать презентацию.
Коэффициенты в рейтинге выбирали так, чтобы при проверке не было логических противоречий. Например, когда мы поняли, что команда, состоящая из действующих сотрудников Платформы и Университета (мы назвали ее тестовой командой, или «отстойником»), оказалась в рейтинге не на последнем месте, мы скорректировали веса у критериев, и рейтинг стал более стройным.
Критерии сплоченности
- Продолжили ли участники общаться после завершения этапа.
- Количество участников, вовлеченных в решение заданий второго этапа.
Число вовлеченных участников мы рассчитывали, вычитая из состава команд на начало игры тех, кто покинул чат, и тех, кто за весь этап написал в командный чат меньше 25 сообщений.
Косвенными показателями сплоченности дополнительно также могли выступить (но не выступили):
- Количество сообщений в командный чат — как показатель силы коммуникации. Или флуда. Эту характеристику мы, подумав, включили в индивидуальный рейтинг участников.
- Познакомились ли команды заранее. Пока мы крутили этот критерий, выяснили, что 26 команд — каждая четвертая — общались и до, и после игры, а 38 не общались ни до, ни после. Всего после игры продолжили взаимодействовать 48 команд.
Мы считали, что команды не общались, если они писали меньше определенного числа сообщений — для разных задач мы устанавливали свой проходной уровень по числу сообщений: 25, 50 или 100.
Чтобы проверить корректность показателей сплоченности, мы посмотрели, какие отзывы давали на свои проекты участники после завершения этапа. Гипотеза была такая: сплотившиеся команды будут меньше критиковать свои проекты. После игры мы признали сплоченными 48 команд, из них 15 команд (31%) единогласно поддержали свои проекты, 14 (29%) — единогласно же раскритиковали их, а 19 не определились.
Одним из самых спорных показателей стало число участников, которые оставались в чате и работали. Мы развернули его в сторону занижения баллов за каждого неработающего участника.
Мы взяли этот критерий, так как способность удерживать команду — одна из важных компетенций для людей, претендующих на лидерские позиции. Нам возразили: но ведь важнее, что мы показали более высокую результативность меньшим числом участников! Чтобы увидеть, так ли это, мы построили 2 диаграммы: в первой посмотрели на время, которое потребовалось участникам для решения заданий с презентацией и лендингом, во второй — на число попыток.
За время второго этапа в поддержку поступило больше 100 обращений. Нам стало интересно, помогало это командам или отвлекало их. Наша гипотеза состояла в том, что команды, у которых нет возможности уточнять, что хотят организаторы, найдут ответы сами. Поэтому мы оговорили свое право отвечать только на технические вопросы. Конечно, поступало их гораздо больше. В среднем команды, которые обращались в поддержку, показали худшие результаты, чем те, которые работали самостоятельно:
Конечно, кроме поиска сотрудников мы решали в отборе и свои задачи, которые помогут нам дальше создавать удобные сервисы для лидеров, команд и сообществ. Поэтому мы влезали в отбор — в том числе своим алгоритмом разбиения на команды. Например, кому-то повезло больше и он оказался в команде игроков с сильной мотивацией — и тем самым в итоговом рейтинге оказался выше.
Пример сознательного управления командообразованием с нашей стороны — делать заведомо сильные и слабые команды. Об этом мы рассказывали в статье о механике второго этапа. На основе состава команд наш алгоритм сделал прогноз: какое место они займут на втором этапе.
А вот часовые пояса при формировании команд мы не учитывали. В итоге у нас были команды, где были игроки из одной временной зоны и из разных. У нас даже не было внятной гипотезы, преимущество это, недостаток или вообще не имеет значения. Пребывание в разных часовых зонах можно использовать, чтобы спать по очереди и креативить круглосуточно, не надрываясь. С другой стороны, когда в чате все время полкоманды и кого-то надо постоянно вводить в курс дела, кто-то вообще не сможет креативить. Поэтому мы не строили предположения, а ждали результатов от аналитиков.
И уже перед тем как подвести итоги, мы посмотрели, есть ли зависимость между результативностью команд и сплоченностью. Взяли три критерия, которые учитывали в рейтинге:
- число голосов, отданных за лендинг в публичном голосовании;
- время, за которое команда выполнила задание с презентацией;
- сплоченность команды: ее мы измеряли по количеству сообщений после завершения этапа.
Мы произвели оценку и построили 3D-модель, которая показывает, каких команд было больше: результативных и сплоченных, результативных, но не сплоченных, нерезультативных, но сплоченных или нерезультативных и не сплоченных.
Если хочется покрутить 3D-модель самостоятельно, а не разглядывать на скриншоте, это легко сделать: надо скачать ее, а потом открыть в браузере.
Как работали с критериями индивидуального лидерборда
При подсчете индивидуального рейтинга мы использовали данные и первого, и второго этапов.
В частности:
- Взяли количество баллов, которое человек получил на первом этапе. Во второй проходили 30% лучших по каждому треку, но внутри трека по числу баллов был разброс.
- Взяли место, которое заняла команда участника в командном рейтинге.
- Посчитали эффективность вклада каждого участника в результат команды. Например, если команды из трех и из пяти человек показали близкие результаты, то участники команды из трех человек получили больше баллов, так как их удельный вклад был выше.
- Собрали достижения участников при работе в команде и за каждый полученный тег давали баллы, причем за теги «результативный» и «общительный» баллы были с большим весом.
Посчитав результаты этапа, обнаружили, что конкурс оказался гендерно справедливым — мужчины и женщины с одинаковой вероятностью получали теги от ИИ. Чего нельзя сказать о командах — они чаще доверяли отправку сообщений боту игры мужчинам, чем женщинам. В ответ мужчины стали более дотошными и искали информацию на сторонних ресурсах пристальнее и чаще, а вот в вопросах заботы и владения удаленными инструментами все равно лидировали женщины, хоть и с небольшим перевесом:
Теги получили 634 участника, самый популярный тег был тайм-менеджмент: 581 участник (92%) напоминали друг другу про время. Самыми редкими помимо сообразительных, которыми стали всего 7 человек, оказались 71 заботливый (11,2% участников), 74 общительных (11,7%) и 81 проактивный (12,8%).
Для любителей социальной антропологии — мы выяснили, что если человек работает много часов (работоспособный), он в 70% случаев проявит себя как дотошный и будет искать дополнительную информацию на сторонних ресурсах. Наоборот тоже верно — 80% дотошных игроков показали высокую работоспособность. Общительные участники в 97% случаев работали на всех этапах. Наконец, 100% заботливых участников обнаружили компетенции в тайм-менеджменте: они следили за временем и напоминали команде о дедлайнах.
Голосование за самого сильного участника показало следующее. Чаще всего в голосовании побеждали продакты, операционные директора и руководители образовательных программ. Если сделать поправку на число участников по трекам — то эффективнее всех были корпоративные директора (каждый пятый), продакты (каждый седьмой) и директора по коммерциализации (каждый восьмой).
Нам не удалось установить твердую зависимость при выборе самого сильного игрока в команде. У нас было несколько гипотез:
- Команды выберут тех, кто был самым активным и написал больше всего сообщений, — но таких команд было всего 49, а 55 выбрали самого результативного по другому критерию.
- Команды выберут самого трудоспособного — того, кто работал больше всего часов. Но всего 42 человека, которых назовут самыми сильными, будут работать больше остальных, а 62 — столько же или меньше.
- Команды выберут носителей уникальных компетенций — например, представителей уникальных треков. Но всего 8 лидеров подтвердили эту гипотезу.
- Команды выберут тех, кто на первом этапе был самым сильным, — действительно, у лидеров результаты первого этапа были на 15% выше, чем у остальных участников.
- Команды выберут сообразительных — в целом это подтвердилось: 4 из 7 людей, угадавших критерий разбиения на подгруппы, станут лидерами в своей команде.
Наши выводы, которые могут быть полезны другим
Мы провели социальный эксперимент, охвативший 952 человека. Наши выводы могут принести пользу организаторам хакатонов, проектных школ и тем, кто работает с формами групповых интенсивов.
Вот основные моменты, на которые мы хотим обратить внимание:
- Экспериментируйте. Мы написали целую дополнительную статью про отбор с результатами, которые получили благодаря экспериментальным способам разбиения на команды.
- Проверяйте гипотезы о себе как организаторах. Выяснилось, например, что придирчивость наших экспертов зависит от рынка: презентации о новых рынках они принимали в среднем с четвертой попытки, а о старых — с третьей.
- Исследуйте. Мы изучали эффект самообучения. Мы считали, что команды обучались, если следующее задание они выполняли лучше предыдущего, — целых 67 команд справились с лендингом быстрее, чем с презентацией.
- Проверяйте свою механику. Нас интересовал вопрос, можно ли доверять механизму общественного голосования. Первый этап показал, что можно: оценки участников и экспертов почти совпадали — 39,8% да-оценок от конкурсантов и 30,4% от экспертов.
- Помните, что предпочтения победителей отличаются. У нас в конкурсе была возможность сохранить анонимность, и часть игроков игнорировала предложения сменить статус. Те, кто вошел в топ рейтинга, захотели снять анонимность немедленно: в первые 30 минут после публикации служба поддержки получила 10 таких обращений.
- Знайте, что где-то вы точно ошибетесь. Мы тоже ошибались и напишем о своих провалах на следующей неделе — в заключительной статье серии про Открытый отбор 2020.