my face

Ложись, БОМБА, или Статистика Лучше Экспертов

Статистический способ сведения оценок КРУЧЕ экспертного сведения! Да, да, Вы не ослышались. Любой самы простецкий математический способ объединения отдельных оценок в итоговую (даже банальное среднее) переигрывает консилиум крутых экспертов. Причем переигрывает с точки зрения прогностической валидности (у машины прогноз точнее). И еще это верно и для оценки в бизнесе (ассессмент центры, кадровые комитеты и т.п.), и для образовательной оценки (экзамены).

Это шок, чего уж тут говорить. Меня учили по-другому... Но это серьезнейший научный результат, который нельзя игнорировать. Будем учиться жить в новой картине мира.

human-vs-robot-09
(c) Franz Steiner

ИТАК...

В ведущем психологическом журнале Journal of Applied Psychology вышла статья с результатами масштабного мета-анализа (объединение в один «котел» множества исследований по одной теме). В нём сравнивается валидность двух методов инте-грации (сведения) оценок – статистического и экспертного.
_______________

Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical Versus Clinical Data Combination in Selection and Admissions Decisions: A Meta-Analysis. Jour-nal of Applied Psychology. Advance online publication. doi: 10.1037/a0034156 (ссылка на текст)
_______________

Представляем выжимку из этой крутейшей статьи.

О чем статья?
Как правило, в оценочных проектах на одного кандидата мы имеем множество замеров (параметров). Этими параметрами могут быть факты его биографии, результаты психометрических тестов, оценки отдельных наблюдателей в отдельных упражнениях центра оценки и т.д. Как все это объединить в итоговый балл / решение?

  1. Один способ – статистический. Т.е. используем формулу, например, простое среднее арифметическое или развернутое регрессионное уравнение.

  2. Второй способ – экспертный. Эксперты объединяют отдельные замеры, обсуждая их, используя свои наблюдения и инсайты.

Задача, которую решали авторы статьи – оценить, какой из способов лучше. Для этого они решили сопоставить, насколько хорошо каждый из способов прогнозирует объективный внешний критерий (например, профессиональную успешность).

berckley
(с) Berkeley


Что было известно и раньше?

  • То, с помощью каких именно формул проводилось статистическое объединение оценок, имеет второстепенное значение по сравнению с самим по себе фактором «статистическое – экспертное».

  • Проблема возникает именно в тот момент, когда данные объединяются в сводную оценку, а не тогда, когда они собираются. В целом, люди весьма эффективны при сборе информации, но менее эффективны при объединении информации из разных источников с целью принятия итогового решения.

  • Еще одно поразительное открытие, которое было сделано уже давно, заключается в следующем. Стат.модель экспертных суждений, как правило, дает более точные и последовательные оценки, чем сами суждения экспертов. Например, если изучить историю принятия решений у конкретного эксперта и на этой основе построить взвешенную сумму (определив, каким параметрам он придает большее значение, а каким меньшее), то эта формула будет прогнозировать успех оцениваемого человека точнее, чем сам эксперт, «на материале» которого она была разработана (Goldberg, 1970).

Оставались непонятными только «масштабы бедствия». Именно оценка этих масштабов и была основной целью авторов мета-анализа.

Какие провели новое исследование?
Была проведена грандиозная работа по сбору и кодированию различных исследований из разных сфер (профессиональная успешность, академические результаты). Было собрано 25 выборок из 17 исследований, опубликованных в период с 1943 до 2003 гг. Авторы тщательно выбрали исследования из нескольких полнотекстовых баз данных по ряду довольно строгих критериев. Эти критерии должны были обеспечить максимальную сопоставимость.

Общий вывод про выборку – этим данным можно и нужно доверять (детали в статье). Особенно учитывая то, что ошибки в отдельных исследованиях нивелировались самой процедурой мета-анализа (она для этого и создана).

Какие данные анализировались?

  • По крайней мере один показатель взаимосвязи между статистически объединенными данными и критерием успешности (профессиональной или учебной)

  • По крайней мере один показатель взаимосвязи между экспертно объединенными данными и тем же самым критерием успешности.


Все показатели характеризуют прогностическую валидность, т.е. способность статистически / экспертно объединенных оценок предсказывать критерий успешности с некоторой отсрочкой во времени.
Все показатели переводились в стандартную величину эффекта «r», т.е. привычный коэффициент корреляции.

результаты
К показателям не были применены никакие поправки на надежность, т.е. если представить себе гипотетический сценарий, в котором надежность всех методов измерения абсолютна, то различия стали бы еще более явными (кстати, такие фокусы на рынке оценки мы встречали и не одобряем).

Величина различий оценивается авторами как значительная, особенно по отношению к критерию профессиональной успешности. В предсказании этого критерия применение статистических методов объединения отдельных оценок приводит к повышению точности более чем на 50 %.


Каковы причины?

Их две (основные). Они понятны и прозаичны.

  1. Искажение информации (эксперты переоценивают одно, недооценивают другое, игнорируют третье)

  2. Низкая согласованность оценок (между экспертами и «внутри» одного эксперта в разные моменты времени)

Подчеркнем - речь идет не о получении первичных оценок (в упражнениях центра оценки, на экзамене), а именно об интеграции данных. На этом этапе и вылезают все проблемы субъективности, предустановочности и несогласованности.


Что делать?

Это, конечно, самый главный вопрос. Отдадим должное авторам, они понимают, что полное изменение практики оценки довольно утопично из-за устоявшегося в нашем сознании доверия к экспертному мнению :). Поэтому они предлагают несколько переходных шагов, которые могут быть полезными и вместе с тем безболезненными.

  1. Если в оценочном проекте участвует много кандидатов, статистические методы агрегации данных могут быть использованы на всех этапах отсева кроме финального.

  2. Эксперты могут использовать результаты статистически агрегированных данных в качестве отправной точки в обсуждении. И при достижении консенсуса эксперты могут вносить в эти оценки изменения (в тех или иных пределах).

  3. Документирование причин отступления от статистически полученных данных делает такого рода решения публичными и будет способствовать исследованиям и получению экспертом богатой обратной связи.

  4. Лицам, принимающим решения, могут быть предоставлены оба результата. Разумеется, с обоснованием причин расхождения в случае, если оно имеется.

  5. Поскольку наиболее вероятная причина более низкой прогностической валидности экспертных оценок заключается в их более низкой надежности (эти оценки менее последовательны и в большей степени подвержены влиянию несистематической ошибки), имеет смысл выставлять среднее с учетом мнения всех экспертов, даже второстепенных, которые были в меньшей степени вовлечены в процесс оценки.



При этом авторы НЕ сбрасывают со счетов тот факт, что эксперты зачастую располагают очень важными инсайтами. Они узнают важные детали и нюансы, которые не вписываются в мат.модель. Но всё дело в том, что цена этих инсайтов пока что чересчур велика. Прогноз оказывается менее точным.

Ключевой вывод на перспективу - надо изучать процесс принятия решений у эксперта-оценщика. Тогда мы поймем, где слабое место, и сможем соответствующим образом выстраивать их обучение.

Напоследок авторы напоминают, что хороший тон в экспертной оценке – делать конкретные и проверяемые прогнозы относительно будущего поведения оцениваемых кандидатов. Это позволит накопить данные, даже пользуясь оценочными проектами с небольшими выборками, и сильно продвинуться в понимании процессов принятия решений экспертами-оценщиками.


Еще раз ссылка на статью:
Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical Versus Clinical Data Combination in Selection and Admissions Decisions: A Meta-Analysis. Jour-nal of Applied Psychology. Advance online publication. doi: 10.1037/a0034156 (ссылка)



P.S. Cпасибо моему наилучшему коллеге и другу Леше Попову за помощь в подготовке материала.

P.P.S. Спасибо Филипу Ливенсу и Дейву Бартраму за наводку на статью. В первоначальном варианте Российского стандарта центра оценки было четко сказано про приоритет экспертного подхода. После их рецензий мы уравняли в правах оба варианта (см. главу 3.2). Так что Российский стандарт - пока самый актуальный, похожие документы в Британии, Штатах и ЮАР только готовят к обновлению.
Очень круто. Но в целом согласуется с когнитивными иллюзиями Канемана, которым подвержены и эксперты. В частности - игнорирование в экспертных прогнозах регрессии к среднему.
Вообще за последние десятилетия появилось много новых данных по психологии принятия решений. Мне кажется, что мы недостаточно учитываем эти данные в проектировании оценочных мероприятий и в преподавании оценки.
Боря, поддерживаю, это одна тема безусловно. Уверен, что это будет мейнстримом 21 века. Другой вопрос, что ввиду деликатности темы и полной от нее зависимости (все мы подвержены когнитивным искажениям) заниматься ей крайне непросто.

Мы разрабатываем вопрос уже около 3-х лет, и вот, что могу сказать. Оценки в ЦО мало коррелируют с оценками по открытости мышления (нестереотипности мышления, способности принимать решения без влияния когнитивных искажений). Т.е. в поведении эти характеристики выражаются крайне слабо (или скорее не вполне линейно) - эксперты "не видят" эти параметры.

Следовательно, твое предложение учитывать эти параметры при проектировании оценки хорошо теоретически, но крайне непросто с практической точки зрения. Но я десятью руками "за"
Ключевой пункт:

"Эксперты могут использовать результаты статистически агрегированных данных в качестве отправной точки в обсуждении. И при достижении консенсуса эксперты могут вносить в эти оценки изменения (в тех или иных пределах)."

Для того, чтобы отправная точка была данные для статистического анализа нужно собрать. По моим наблюдениям эксперты часто переоценивают свое впечатление :) или просто ленятся делать качественную фиксацию наблюдений, а потом их классификацию. Особенно если эксперт статусный.

Отсюда простой вывод - дисциплина экспертов и качество процедуры сведения имеют принципиальное значение!
Юра, на 200% согласен. Дисциплина - это основная проблема. Технология НОКО, узаконенная в стандарте, для многих опытных экспертов является чем-то несерьезным. Типа для детей.

Технология - она на то и технология, что её блюсти надо. Меткий глаз - очень опасная штука. Год назад писал про это, ибо мучает ужасно http://assessment-ctr.livejournal.com/8645.html
у меня тоже был шок в свое время, когда я это понял.
Причем шок больше от того, что я сидел на данным, мог сам прийти к этому выводу, а принял только после Moneyball - шок от собственной тупости
Отсюда возникает вопрос о роли мифов в оценке персонала
Евгений, давайте еще добавим к математическому сведению оценок экспертов такие вещи как:
1) компетенции будут наполняться индикаторами не экспертами, а машиной
2) вес компетенций будет не экспертами, а машиной наполняться...
И здесь нас ждет тоже много сюрпризов
ну уже сюрпризы есть)
Эдуард, отличное предложение. Правда тут хорошо бы сначала серьезный evidence, а потом уже шашкой махать. Ну и технологическая сторона не выглядит прозрачной. Поделитесь, как вы видите подобные проекты?

Евгений, воспринимайте мои слова как прогноз))
а в прогнозах можно и пошалить)
Правда я готов поспорить, что именно так и будет)))) так что про шашку - бабушкин надвое сказала
по поводу технологической стороны - ну вроде все как раз просто объясняется.
надо будет как нибудь на Больших Данных показать