Открытый отбор 2020

Как не потеряться в массиве данных и сделать справедливый рейтинг участников? В шестой статье об Открытом отборе рассказываем, как тестировали гипотезы, чертили графики и делали выводы.

Часть 6. Как считать рейтинги

4 апреля прошел второй этап Открытого отбора. Полторы недели мы подводили итоги и наконец 15 апреля представили публике командные и индивидуальные рейтинги участников, которые называем лидербордами. Пока поддержка стойко отвечала на претензии о потерянной социальной справедливости, мы открыли капот и начали исследование.

Как подбирали критерии командного лидерборда

Во втором этапе конкурса 104 команды должны были за 24 часа вместе выполнить 4 задания под присмотром бота и с развернутой обратной связью от экспертов. Им предстояло познакомиться, совместно выбрать один из рынков НТИ, сделать презентацию проекта НТИ для государственного финансирования и сверстать лендинг проекта. О том, как это происходило, мы рассказывали в предыдущей статье — «Как сделать командный этап конкурса за 18 дней».

По завершении второго этапа конкурса в нашем распоряжении оказался очень большой массив данных о командах. Нам нужно было выбрать те критерии, которые лягут в основу рейтинга. Делать рейтинг излишне сложным мы не хотели, да и было незачем. Поэтому сформировали 2 группы критериев: первая оценивала результативность команды, вторая — ее сплоченность.

В первую группу попали критерии про число голосов, отданных за лендинг в публичном голосовании, и время, которое потребовалось команде для решения задания с презентацией.

Среди метрик результативности могли быть также:

количество попыток, которые делали команды, пытаясь справиться с заданиями про презентацию и лендинг, — как показатель экспертной оценки результативности команды, ведь презентацию и лендинги акцептовали эксперты,
время, за которое команды справились с лендингом,
количество попыток, которое потребовалось команде, чтобы справиться с заданием на знакомство.

Иными словами, в нашем распоряжении были метрики:

про время (как быстро команды справлялись с заданием),
попытки (как их оценивали эксперты),
общественное признание (количество голосов, отданных на этапе голосования),
итоги дополнительной задачи на знакомство.

Интересный эффект получили команды, вложившиеся в первое задание — знакомство. Даже там, где они решали задачу за такое же количество циклов, что и остальные, это занимало у них меньше времени. Они экономили силы и направляли их на новые задачи.

Команды, которые справились с заданием на знакомство, сделали и сдали презентацию за 10,2 часа — лучше 50% участников

Быстро сработавшиеся команды сохранили преимущество и в четвертом задании. С лендингом такие команды справлялись в среднем за 9,92 часа — и этот результат тоже лучше, чем у половины команд

Чаще всего команды справлялись с заданием про презентации за 3 попытки. Те, кто справился с заданием на знакомство, здесь оказались в большинстве: они тоже справлялись с трех попыток

На то, чтобы сдать лендинг, уходило в среднем 2 попытки

Как работали с критериями командного лидерборда

Перебрав все возможности, мы оставили в каждой группе по два критерия, остальные оставили для аналитики.

Критерии результативности

Число голосов, отданных за лендинг в публичном голосовании.
Время, которое потребовалось команде, чтобы сделать и сдать презентацию.

Коэффициенты в рейтинге выбирали так, чтобы при проверке не было логических противоречий. Например, когда мы поняли, что команда, состоящая из действующих сотрудников Платформы и Университета (мы назвали ее тестовой командой, или «отстойником»), оказалась в рейтинге не на последнем месте, мы скорректировали веса у критериев, и рейтинг стал более стройным.

Критерии сплоченности

Продолжили ли участники общаться после завершения этапа.
Количество участников, вовлеченных в решение заданий второго этапа.

Число вовлеченных участников мы рассчитывали, вычитая из состава команд на начало игры тех, кто покинул чат, и тех, кто за весь этап написал в командный чат меньше 25 сообщений.

Косвенными показателями сплоченности дополнительно также могли выступить (но не выступили):

Количество сообщений в командный чат — как показатель силы коммуникации. Или флуда. Эту характеристику мы, подумав, включили в индивидуальный рейтинг участников.
Познакомились ли команды заранее. Пока мы крутили этот критерий, выяснили, что 26 команд — каждая четвертая — общались и до, и после игры, а 38 не общались ни до, ни после. Всего после игры продолжили взаимодействовать 48 команд.

Мы считали, что команды не общались, если они писали меньше определенного числа сообщений — для разных задач мы устанавливали свой проходной уровень по числу сообщений: 25, 50 или 100.

Чтобы проверить корректность показателей сплоченности, мы посмотрели, какие отзывы давали на свои проекты участники после завершения этапа. Гипотеза была такая: сплотившиеся команды будут меньше критиковать свои проекты. После игры мы признали сплоченными 48 команд, из них 15 команд (31%) единогласно поддержали свои проекты, 14 (29%) — единогласно же раскритиковали их, а 19 не определились.

Одним из самых спорных показателей стало число участников, которые оставались в чате и работали. Мы развернули его в сторону занижения баллов за каждого неработающего участника.

В прошлой статье мы показывали, что команды различаются по числу участников. Всего из чатов вышли 84 человека. Вот как изменилась картина, когда часть конкурсантов покинула команды, и как она изменилась еще раз, когда мы вычли «молчунов»

Мы взяли этот критерий, так как способность удерживать команду — одна из важных компетенций для людей, претендующих на лидерские позиции. Нам возразили: но ведь важнее, что мы показали более высокую результативность меньшим числом участников! Чтобы увидеть, так ли это, мы построили 2 диаграммы: в первой посмотрели на время, которое потребовалось участникам для решения заданий с презентацией и лендингом, во второй — на число попыток.

Зависимости результата от состава команды не видно — но выделились команды, которые показали тот же результат с меньшим числом людей. Они и обращались в поддержку с запросом на корректировку рейтинга

Здесь картина с виду противоположная, а сам график очень похож на фотографию мегаполиса, но зависимости между количеством людей в команде и числом попыток сдать работу все равно нет, несмотря на пиковые значения у отдельных команд

За время второго этапа в поддержку поступило больше 100 обращений. Нам стало интересно, помогало это командам или отвлекало их. Наша гипотеза состояла в том, что команды, у которых нет возможности уточнять, что хотят организаторы, найдут ответы сами. Поэтому мы оговорили свое право отвечать только на технические вопросы. Конечно, поступало их гораздо больше. В среднем команды, которые обращались в поддержку, показали худшие результаты, чем те, которые работали самостоятельно:

Конечно, кроме поиска сотрудников мы решали в отборе и свои задачи, которые помогут нам дальше создавать удобные сервисы для лидеров, команд и сообществ. Поэтому мы влезали в отбор — в том числе своим алгоритмом разбиения на команды. Например, кому-то повезло больше и он оказался в команде игроков с сильной мотивацией — и тем самым в итоговом рейтинге оказался выше.

Пример сознательного управления командообразованием с нашей стороны — делать заведомо сильные и слабые команды. Об этом мы рассказывали в статье о механике второго этапа. На основе состава команд наш алгоритм сделал прогноз: какое место они займут на втором этапе.

Гистограмма похожа на микросхему, но главное — она наглядно показывает, что алгоритм ошибался в обе стороны: прогнозировал победу тем, кто ее не одержал, и поражение тем, кто победил

А вот часовые пояса при формировании команд мы не учитывали. В итоге у нас были команды, где были игроки из одной временной зоны и из разных. У нас даже не было внятной гипотезы, преимущество это, недостаток или вообще не имеет значения. Пребывание в разных часовых зонах можно использовать, чтобы спать по очереди и креативить круглосуточно, не надрываясь. С другой стороны, когда в чате все время полкоманды и кого-то надо постоянно вводить в курс дела, кто-то вообще не сможет креативить. Поэтому мы не строили предположения, а ждали результатов от аналитиков.

Оказалось, что команды из разных часовых поясов защищали свои работы быстрее, чем команды из одного часового пояса. Мы, в принципе, рады — у нас тоже крайне мультирегиональная команда

И уже перед тем как подвести итоги, мы посмотрели, есть ли зависимость между результативностью команд и сплоченностью. Взяли три критерия, которые учитывали в рейтинге:

число голосов, отданных за лендинг в публичном голосовании;
время, за которое команда выполнила задание с презентацией;
сплоченность команды: ее мы измеряли по количеству сообщений после завершения этапа.

Мы произвели оценку и построили 3D-модель, которая показывает, каких команд было больше: результативных и сплоченных, результативных, но не сплоченных, нерезультативных, но сплоченных или нерезультативных и не сплоченных.

Модель демонстрирует, что сплоченность участников зависит от совместно вложенных сил больше, чем от результата: те, кто больше времени потратил на решение задания, активнее общаются после конкурса

Если хочется покрутить 3D-модель самостоятельно, а не разглядывать на скриншоте, это легко сделать: надо скачать ее, а потом открыть в браузере.

Как работали с критериями индивидуального лидерборда

При подсчете индивидуального рейтинга мы использовали данные и первого, и второго этапов.

В частности:

Взяли количество баллов, которое человек получил на первом этапе. Во второй проходили 30% лучших по каждому треку, но внутри трека по числу баллов был разброс.
Взяли место, которое заняла команда участника в командном рейтинге.
Посчитали эффективность вклада каждого участника в результат команды. Например, если команды из трех и из пяти человек показали близкие результаты, то участники команды из трех человек получили больше баллов, так как их удельный вклад был выше.
Собрали достижения участников при работе в команде и за каждый полученный тег давали баллы, причем за теги «результативный» и «общительный» баллы были с большим весом.

Посчитав результаты этапа, обнаружили, что конкурс оказался гендерно справедливым — мужчины и женщины с одинаковой вероятностью получали теги от ИИ. Чего нельзя сказать о командах — они чаще доверяли отправку сообщений боту игры мужчинам, чем женщинам. В ответ мужчины стали более дотошными и искали информацию на сторонних ресурсах пристальнее и чаще, а вот в вопросах заботы и владения удаленными инструментами все равно лидировали женщины, хоть и с небольшим перевесом:

Мы опасались, что не все участники легко адаптируются к среде Телеграма. Но все справились: хотя начинают день с Телеграма всего 32% участников, на них приходится только 37,5% сообщений в чатах

Теги получили 634 участника, самый популярный тег был тайм-менеджмент: 581 участник (92%) напоминали друг другу про время. Самыми редкими помимо сообразительных, которыми стали всего 7 человек, оказались 71 заботливый (11,2% участников), 74 общительных (11,7%) и 81 проактивный (12,8%).

Для любителей социальной антропологии — мы выяснили, что если человек работает много часов (работоспособный), он в 70% случаев проявит себя как дотошный и будет искать дополнительную информацию на сторонних ресурсах. Наоборот тоже верно — 80% дотошных игроков показали высокую работоспособность. Общительные участники в 97% случаев работали на всех этапах. Наконец, 100% заботливых участников обнаружили компетенции в тайм-менеджменте: они следили за временем и напоминали команде о дедлайнах.

Голосование за самого сильного участника показало следующее. Чаще всего в голосовании побеждали продакты, операционные директора и руководители образовательных программ. Если сделать поправку на число участников по трекам — то эффективнее всех были корпоративные директора (каждый пятый), продакты (каждый седьмой) и директора по коммерциализации (каждый восьмой).

В некоторых командах решение было единогласным, а где-то случилось по два победителя

Нам не удалось установить твердую зависимость при выборе самого сильного игрока в команде. У нас было несколько гипотез:

Команды выберут тех, кто был самым активным и написал больше всего сообщений, — но таких команд было всего 49, а 55 выбрали самого результативного по другому критерию.
Команды выберут самого трудоспособного — того, кто работал больше всего часов. Но всего 42 человека, которых назовут самыми сильными, будут работать больше остальных, а 62 — столько же или меньше.
Команды выберут носителей уникальных компетенций — например, представителей уникальных треков. Но всего 8 лидеров подтвердили эту гипотезу.
Команды выберут тех, кто на первом этапе был самым сильным, — действительно, у лидеров результаты первого этапа были на 15% выше, чем у остальных участников.
Команды выберут сообразительных — в целом это подтвердилось: 4 из 7 людей, угадавших критерий разбиения на подгруппы, станут лидерами в своей команде.

Наши выводы, которые могут быть полезны другим

Мы провели социальный эксперимент, охвативший 952 человека. Наши выводы могут принести пользу организаторам хакатонов, проектных школ и тем, кто работает с формами групповых интенсивов.

Вот основные моменты, на которые мы хотим обратить внимание:

Экспериментируйте. Мы написали целую дополнительную статью про отбор с результатами, которые получили благодаря экспериментальным способам разбиения на команды.
Проверяйте гипотезы о себе как организаторах. Выяснилось, например, что придирчивость наших экспертов зависит от рынка: презентации о новых рынках они принимали в среднем с четвертой попытки, а о старых — с третьей.
Исследуйте. Мы изучали эффект самообучения. Мы считали, что команды обучались, если следующее задание они выполняли лучше предыдущего, — целых 67 команд справились с лендингом быстрее, чем с презентацией.
Проверяйте свою механику. Нас интересовал вопрос, можно ли доверять механизму общественного голосования. Первый этап показал, что можно: оценки участников и экспертов почти совпадали — 39,8% да-оценок от конкурсантов и 30,4% от экспертов.
Помните, что предпочтения победителей отличаются. У нас в конкурсе была возможность сохранить анонимность, и часть игроков игнорировала предложения сменить статус. Те, кто вошел в топ рейтинга, захотели снять анонимность немедленно: в первые 30 минут после публикации служба поддержки получила 10 таких обращений.
Знайте, что где-то вы точно ошибетесь. Мы тоже ошибались и напишем о своих провалах на следующей неделе — в заключительной статье серии про Открытый отбор 2020.