Открытый отбор 2020

28 апреля 2020 г.

Часть 6. Как считать рейтинги 

4 апреля прошел второй этап Открытого отбора. Полторы недели мы подводили итоги и наконец 15 апреля представили публике командные и индивидуальные рейтинги участников, которые называем лидербордами. Пока поддержка стойко отвечала на претензии о потерянной социальной справедливости, мы открыли капот и начали исследование. 

Как подбирали критерии командного лидерборда  

Во втором этапе конкурса 104 команды должны были за 24 часа вместе выполнить 4 задания под присмотром бота и с развернутой обратной связью от экспертов. Им предстояло познакомиться, совместно выбрать один из рынков НТИ, сделать презентацию проекта НТИ для государственного финансирования и сверстать лендинг проекта. О том, как это происходило, мы рассказывали в предыдущей статье — «Как сделать командный этап конкурса за 18 дней».
По завершении второго этапа конкурса в нашем распоряжении оказался очень большой массив данных о командах. Нам нужно было выбрать те критерии, которые лягут в основу рейтинга. Делать рейтинг излишне сложным мы не хотели, да и было незачем. Поэтому сформировали 2 группы критериев: первая оценивала результативность команды, вторая — ее сплоченность. 
В первую группу попали критерии про число голосов, отданных за лендинг в публичном голосовании, и время, которое потребовалось команде для решения задания с презентацией
Среди метрик результативности могли быть также: 
  1. количество попыток, которые делали команды, пытаясь справиться с заданиями про презентацию и лендинг, — как показатель экспертной оценки результативности команды, ведь презентацию и лендинги акцептовали эксперты,
  2. время, за которое команды справились с лендингом,
  3. количество попыток, которое потребовалось команде, чтобы справиться с заданием на знакомство. 
Иными словами, в нашем распоряжении были метрики: 
  1. про время (как быстро команды справлялись с заданием),
  2. попытки (как их оценивали эксперты),
  3. общественное признание (количество голосов, отданных на этапе голосования),
  4. итоги дополнительной задачи на знакомство.
Интересный эффект получили команды, вложившиеся в первое задание — знакомство. Даже там, где они решали задачу за такое же количество циклов, что и остальные, это занимало у них меньше времени. Они экономили силы и направляли их на новые задачи.
Команды, которые справились с заданием на знакомство, сделали и сдали презентацию за 10,2 часа — лучше 50% участников
Быстро сработавшиеся команды сохранили преимущество и в четвертом задании. С лендингом такие команды справлялись в среднем за 9,92 часа — и этот результат тоже лучше, чем у половины команд 
Чаще всего команды справлялись с заданием про презентации за 3 попытки. Те, кто справился с заданием на знакомство, здесь оказались в большинстве: они тоже справлялись с трех попыток
На то, чтобы сдать лендинг, уходило в среднем 2 попытки

Как работали с критериями командного лидерборда

Перебрав все возможности, мы оставили в каждой группе по два критерия, остальные оставили для аналитики.  
Критерии результативности
  1. Число голосов, отданных за лендинг в публичном голосовании.
  2. Время, которое потребовалось команде, чтобы сделать и сдать презентацию.
Коэффициенты в рейтинге выбирали так, чтобы при проверке не было логических противоречий. Например, когда мы поняли, что команда, состоящая из действующих сотрудников Платформы и Университета (мы назвали ее тестовой командой, или «отстойником»), оказалась в рейтинге не на последнем месте, мы скорректировали веса у критериев, и рейтинг стал более стройным. 
Критерии сплоченности
  1. Продолжили ли участники общаться после завершения этапа.
  2. Количество участников, вовлеченных в решение заданий второго этапа. 
Число вовлеченных участников мы рассчитывали, вычитая из состава команд на начало игры тех, кто покинул чат, и тех, кто за весь этап написал в командный чат меньше 25 сообщений. 
Косвенными показателями сплоченности дополнительно также могли выступить (но не выступили): 
  1. Количество сообщений в командный чат — как показатель силы коммуникации. Или флуда. Эту характеристику мы, подумав, включили в индивидуальный рейтинг участников.  
  2. Познакомились ли команды заранее. Пока мы крутили этот критерий, выяснили, что 26 команд — каждая четвертая — общались и до, и после игры, а 38 не общались ни до, ни после. Всего после игры продолжили взаимодействовать 48 команд.
Мы считали, что команды не общались, если они писали меньше определенного числа сообщений — для разных задач мы устанавливали свой проходной уровень по числу сообщений: 25, 50 или 100. 
Чтобы проверить корректность показателей сплоченности, мы посмотрели, какие отзывы давали на свои проекты участники после завершения этапа. Гипотеза была такая: сплотившиеся команды будут меньше критиковать свои проекты. После игры мы признали сплоченными 48 команд, из них 15 команд (31%) единогласно поддержали свои проекты, 14 (29%) — единогласно же раскритиковали их, а 19 не определились.
Одним из самых спорных показателей стало число участников, которые оставались в чате и работали. Мы развернули его в сторону занижения баллов за каждого неработающего участника.
В прошлой статье мы показывали, что команды различаются по числу участников. Всего из чатов вышли 84 человека. Вот как изменилась картина, когда часть конкурсантов покинула команды, и как она изменилась еще раз, когда мы вычли «молчунов»
Мы взяли этот критерий, так как способность удерживать команду — одна из важных компетенций для людей, претендующих на лидерские позиции. Нам возразили: но ведь важнее, что мы показали более высокую результативность меньшим числом участников! Чтобы увидеть, так ли это, мы построили 2 диаграммы: в первой посмотрели на время, которое потребовалось участникам для решения заданий с презентацией и лендингом, во второй — на число попыток. 
Зависимости результата от состава команды не видно — но выделились команды, которые показали тот же результат с меньшим числом людей. Они и обращались в поддержку с запросом на корректировку рейтинга
Здесь картина с виду противоположная, а сам график очень похож на фотографию мегаполиса, но зависимости между количеством людей в команде и числом попыток сдать работу все равно нет, несмотря на пиковые значения у отдельных команд
За время второго этапа в поддержку поступило больше 100 обращений. Нам стало интересно, помогало это командам или отвлекало их. Наша гипотеза состояла в том, что команды, у которых нет возможности уточнять, что хотят организаторы, найдут ответы сами. Поэтому мы оговорили свое право отвечать только на технические вопросы. Конечно, поступало их гораздо больше. В среднем команды, которые обращались в поддержку, показали худшие результаты, чем те, которые работали самостоятельно: 
Конечно, кроме поиска сотрудников мы решали в отборе и свои задачи, которые помогут нам дальше создавать удобные сервисы для лидеров, команд и сообществ. Поэтому мы влезали в отбор — в том числе своим алгоритмом разбиения на команды. Например, кому-то повезло больше и он оказался в команде игроков с сильной мотивацией — и тем самым в итоговом рейтинге оказался выше. 
Пример сознательного управления командообразованием с нашей стороны — делать заведомо сильные и слабые команды. Об этом мы рассказывали в статье о механике второго этапа. На основе состава команд наш алгоритм сделал прогноз: какое место они займут на втором этапе. 
Гистограмма похожа на микросхему, но главное — она наглядно показывает, что алгоритм ошибался в обе стороны: прогнозировал победу тем, кто ее не одержал, и поражение тем, кто победил
А вот часовые пояса при формировании команд мы не учитывали. В итоге у нас были команды, где были игроки из одной временной зоны и из разных. У нас даже не было внятной гипотезы, преимущество это, недостаток или вообще не имеет значения. Пребывание в разных часовых зонах можно использовать, чтобы спать по очереди и креативить круглосуточно, не надрываясь. С другой стороны, когда в чате все время полкоманды и кого-то надо постоянно вводить в курс дела, кто-то вообще не сможет креативить. Поэтому мы не строили предположения, а ждали результатов от аналитиков. 
Оказалось, что команды из разных часовых поясов защищали свои работы быстрее, чем команды из одного часового пояса. Мы, в принципе, рады — у нас тоже крайне мультирегиональная команда
И уже перед тем как подвести итоги, мы посмотрели, есть ли зависимость между результативностью команд и сплоченностью. Взяли три критерия, которые учитывали в рейтинге: 
  1. число голосов, отданных за лендинг в публичном голосовании;
  2. время, за которое команда выполнила задание с презентацией;
  3. сплоченность команды: ее мы измеряли по количеству сообщений после завершения этапа.
Мы произвели оценку и построили 3D-модель, которая показывает, каких команд было больше: результативных и сплоченных, результативных, но не сплоченных, нерезультативных, но сплоченных или нерезультативных и не сплоченных. 
Модель демонстрирует, что сплоченность участников зависит от совместно вложенных сил больше, чем от результата: те, кто больше времени потратил на решение задания, активнее общаются после конкурса
Если хочется покрутить 3D-модель самостоятельно, а не разглядывать на скриншоте, это легко сделать: надо скачать ее, а потом открыть в браузере.

Как работали с критериями индивидуального лидерборда  

При подсчете индивидуального рейтинга мы использовали данные и первого, и второго этапов. 
В частности: 
  1. Взяли количество баллов, которое человек получил на первом этапе. Во второй проходили 30% лучших по каждому треку, но внутри трека по числу баллов был разброс. 
  2. Взяли место, которое заняла команда участника в командном рейтинге.  
  3. Посчитали эффективность вклада каждого участника в результат команды. Например, если команды из трех и из пяти человек показали близкие результаты, то участники команды из трех человек получили больше баллов, так как их удельный вклад был выше.
  4. Собрали достижения участников при работе в команде и за каждый полученный тег давали баллы, причем за теги «результативный» и «общительный» баллы были с большим весом. 
Посчитав результаты этапа, обнаружили, что конкурс оказался гендерно справедливым — мужчины и женщины с одинаковой вероятностью получали теги от ИИ. Чего нельзя сказать о командах — они чаще доверяли отправку сообщений боту игры мужчинам, чем женщинам. В ответ мужчины стали более дотошными и искали информацию на сторонних ресурсах пристальнее и чаще, а вот в вопросах заботы и владения удаленными инструментами все равно лидировали женщины, хоть и с небольшим перевесом: 
Мы опасались, что не все участники легко адаптируются к среде Телеграма. Но все справились: хотя начинают день с Телеграма всего 32% участников, на них приходится только 37,5% сообщений в чатах
Теги получили 634 участника, самый популярный тег был тайм-менеджмент: 581 участник (92%) напоминали друг другу про время. Самыми редкими помимо сообразительных, которыми стали всего 7 человек, оказались 71 заботливый (11,2% участников), 74 общительных (11,7%) и 81 проактивный (12,8%). 
Для любителей социальной антропологии — мы выяснили, что если человек работает много часов (работоспособный), он в 70% случаев проявит себя как дотошный и будет искать дополнительную информацию на сторонних ресурсах. Наоборот тоже верно — 80% дотошных игроков показали высокую работоспособность. Общительные участники в 97% случаев работали на всех этапах. Наконец, 100% заботливых участников обнаружили компетенции в тайм-менеджменте: они следили за временем и напоминали команде о дедлайнах. 
Голосование за самого сильного участника показало следующее. Чаще всего в голосовании побеждали продакты, операционные директора и руководители образовательных программ. Если сделать поправку на число участников по трекам — то эффективнее всех были корпоративные директора (каждый пятый), продакты (каждый седьмой) и директора по коммерциализации (каждый восьмой).
В некоторых командах решение было единогласным, а где-то случилось по два победителя
Нам не удалось установить твердую зависимость при выборе самого сильного игрока в команде. У нас было несколько гипотез: 
  1. Команды выберут тех, кто был самым активным и написал больше всего сообщений, — но таких команд было всего 49, а 55 выбрали самого результативного по другому критерию.
  2. Команды выберут самого трудоспособного — того, кто работал больше всего часов. Но всего 42 человека, которых назовут самыми сильными, будут работать больше остальных, а 62 — столько же или меньше. 
  3. Команды выберут носителей уникальных компетенций — например, представителей уникальных треков. Но всего 8 лидеров подтвердили эту гипотезу. 
  4. Команды выберут тех, кто на первом этапе был самым сильным, — действительно, у лидеров результаты первого этапа были на 15% выше, чем у остальных участников. 
  5. Команды выберут сообразительных — в целом это подтвердилось: 4 из 7 людей, угадавших критерий разбиения на подгруппы, станут лидерами в своей команде. 

Наши выводы, которые могут быть полезны другим

Мы провели социальный эксперимент, охвативший 952 человека. Наши выводы могут принести пользу организаторам хакатонов, проектных школ и тем, кто работает с формами групповых интенсивов. 
Вот основные моменты, на которые мы хотим обратить внимание: 
  1. Экспериментируйте. Мы написали целую дополнительную статью про отбор с результатами, которые получили благодаря экспериментальным способам разбиения на команды. 
  2. Проверяйте гипотезы о себе как организаторах. Выяснилось, например, что придирчивость наших экспертов зависит от рынка: презентации о новых рынках они принимали в среднем с четвертой попытки, а о старых — с третьей.   
  3. Исследуйте. Мы изучали эффект самообучения. Мы считали, что команды обучались, если следующее задание они выполняли лучше предыдущего, — целых 67 команд справились с лендингом быстрее, чем с презентацией.
  4. Проверяйте свою механику. Нас интересовал вопрос, можно ли доверять механизму общественного голосования. Первый этап показал, что можно: оценки участников и экспертов почти совпадали — 39,8% да-оценок от конкурсантов и 30,4% от экспертов.
  5. Помните, что предпочтения победителей отличаются. У нас в конкурсе была возможность сохранить анонимность, и часть игроков игнорировала предложения сменить статус. Те, кто вошел в топ рейтинга, захотели снять анонимность немедленно: в первые 30 минут после публикации служба поддержки получила 10 таких обращений.
  6. Знайте, что где-то вы точно ошибетесь. Мы тоже ошибались и напишем о своих провалах на следующей неделе — в заключительной статье серии про Открытый отбор 2020. 

Остались вопросы? Напишите в чат-бот в ВКонтакте, Telegram, Facebook

Ксения Андреева Перезапустила Открытый отбор