my face

Валидность теста (или история о том, что нужно читать написанное мелким шрифтом)

У меня есть давний интерес к российскому рынку психодиагностики/психометрики. В свое время даже обзорную статью по сабжу подготовил, по-моему она до сих пор не потеряла актуальность.

Сегодня хочу поделиться одним интересным наблюдением, иллюстрирующим текущее состояние рынка. Сразу предупреждаю: (1) я буду ёрничать; (2) всё изложенное ниже моё ИМХО как частного лица, интересующегося темой.

Итак, в России продолжают появляться крупные и мелкие международные игроки. И это здорово! Некоторое время назад состоялось второе пришествие британского Saville Consulting, которого в России теперь представляет Formatta. И производитель, и дистрибьютор очень искусно ведут бизнес, в том числе нажимая на самую больную точку всех оценочных технологий - на валидность. Настал наконец-то такой момент, когда вокруг этого можно попробовать выстроить пиар (и это тоже клёво!).

Питер Сэвилл умеет делать качественный продукт,тут ничего не скажешь. В анамнезе у него вся продуктовая линейка SHL (версии до 2000 года). И с маркетингом у него тоже всегда было ОК. Тот же SHL, будучи публичной компанией, кормит акционеров бутербродами с икрой, давно и стабильно.



Теперь собственно к сабжу - к их продукту Wave и его фантастической валидности 0,57, которую обещает производитель (пруфф). Wave - это в сущности отличный апгрейд и аналог счловского OPQ. Есть своя универсальная модель компетенций, к этой модели компетенций привязан опросник. Сама модель и опросник во многом повторяют "Большую восьмерку" SHL.

Итак, валидность 0,57 - это очень круто. Особенно для опросника, где валидность выше 0,3 очень большая и необычная редкость. Это какбэ наводит на мысль почитать про тему подробнее.

На сайте российского дистрибьютора инфы нет, поэтому идем к Сэвиллу и ищем тех.отчеты по Wave (они обязательно должны быть, это общеевропейский стандарт EFPA). После возни с регистрацией находим нужный документ и читаем.
Мануал к тесту внушительный, несколько томов. Видно, что работало много людей и работали они долго. Данных набрали очень много, хотя количество не всегда переходит в качество. Не вдаваясь в подробности, опишу несколько ключевых выводов по прочтении:

  1. Технического мануала для русскоязычной версии нет (или он не доступен). Из этого можно сделать вывод, что адаптация российской версии пока в процессе (правда коммерческое использование тоже в процессе)

  2. Исследование валидности к опроснику имеется. То самое, в котором получилось 0,57. Но дальше следим за руками.

  3. Проводилось исследование с помощью британской версии опросника и на британской выборке (300 чел.)

  4. Делалось буквально следующее: взяли группу в 300 человек, дали им много опросников (Большую пятерку, Кетелла, OPQ, Wave и др.). Затем дали руководителям этих людей заполнить экспертный опросник, в котором надо было оценить людей по параметрам из модели Wave (!). Затем посчитали среднюю корреляцию между шкалами опросников и параметрами этого экспертного опросника. Для Wave она оказалась самой высокой. Это корреляция 0.57 - та самая цифра, которую они приводят как валидность.



Соответственно, к прочитанному возникает несколько комментариев:

  1. То, что это самая высокая корреляция, не очень удивительно, учитывая, что оценка руководителями проводилась по модели Wave и опросник построен по модели Wave, а другие опросники не построены по модели Wave )))

  2. Это корреляция, скорректированная на ненадежность. Есть такая сугубо статистическая процедура: смотрим, что будет с валидностью, если предположим, что надежность у опросника 1. Такой надежности не бывает - это просто попытка посмотреть, как бы всё смотрелось в "чистом виде". Традиционно во всех публикациях используется обычная корреляция, а не скорректированная. А обычные корреляции (без этой статистической поправки) у Saville вполне даже обычные для опросников - в районе 0.2 - 0.3.

  3. Вся инфа о валидности основана на одном исследовании, в котором участвовали 300 человек. Все остальные огромные выборки, которые приводятся в тех.отчете, участвовали только в уточнении норм, но не в исследовании валидности.

  4. Данное исследование было проведено в 2008 году в Британии, то есть  данные несвежие и никакого отношения не имеют к российской версии опросника. А, как известно, перевод опросника - это как перевод поэзии, нужно сделать фактически новый опросник. Свежесть исследований также важна, потому что опросники чувствительны к изменениям в социуме (см. отличный комментарий по этому поводу в статье Шмелева "Каша из топора")


Вывод: нажатие на "болевые точки" пока что выглядят немножко как развод не очень просвещенной и ленивой до информации публики. Важно и нужно выстраивать пиар оценочных технологий вокруг их качества, но сначала нужно немножко разобраться с этим самым качеством. Что оно такое и как его измерить? И публике объяснить. А то получается как в анекдоте про Петьку с Василий Иванычем про приборы и "17".

Получается, что рынок уже готов потреблять инфу про валидность (и это гуд), но что это такое конкретно, пока ни для кого не имеет значения... Магия цифр, и всё на мази. Нужно с этим что-то делать.

Я искренне надеюсь, что у ребят хватит смелости и денег провести российский ресерч. Это правда сложная задача, особенно в отношении опросников. Но до этого времени я бы порекомендовал несколько поубавить пыл и подписать, что это 0,57 означает (ну или вообще убрать это до поры).


P.S. Друзья, требуйте от производителя:
1. Исследования качества их инструментов
2. Проведенные на российских выборках с помощью российских инструментов
3. Свежие и честные данные о валидности и надежности
4. Тех.мануал, в котором подробно описано всё про п. 1-3
5. Ну и рекомендую ожидать от производителя критичности и скромности в отношении своих методик - психологи пока еще только учатся делать качественные продукты.


UPD1 (декабрь): на сайте владельца российской франшизы появились три магические звездочки рядом с блоком про надежность и валидность (ссылка). Что эти звёздочки означают, пока загадка - пояснения к ним отсутствуют. Будем надеяться, что пояснение скоро появятся
Спасибо, я не обратил внимание на то, что это скорректированная оценка. Кстати, в свое время в руки попадала информация о выборке, на которой OPQ32 разрабатывали -- там тоже что-то очень смешное.
Добавлю еще, что оригинальные версии обычно имеют нормы, собранные в ходе специальных исследований с репрезентативной для страны выборкой, а у нас представители западных брендов просто дают описательную статистику по имеющейся базе данных. А еще перевод вопросов часто такой, что за голову хватаешься.
Александр, про перевод Сэвилла ничего сказать не могу - не видел. Они очень нажимают на "бизнесовость" вопросов, face validity не только ученых стала волновать ))

SHL, насколько я знаю, располагает российскими тех.отчетами (правда не уверен, что для всех тестов и версий). У них российский R&D всегда был довольно сильный. Анна Браун одна чего стоит.

Но в том то и парадокс, что при наличии сильных спецов не хватает мощностей (или интересных результатов) для серьезных локальных адаптаций. Основной упор на международный бренд и тамошний ресерч. Ну и на невежество потребителей, что раздражает.
Про перевод и R&D Сэвилла - что знаю. Разработка и адаптация инструментов сосредоточены в главном офисе в Лондоне, качество переводов на другие языки проверяется в том числе и обратным переводов с последующим сравнением исходных и конечных пунктов. Так что качеством переводов по крайней мере серьёзно занимаются.

У SHL хороший R&D, но медленный. Например, обновление норм по тестам - 1999, потом только 2008 (но возможность использования появилась только в 2011). И если эти исследования есть - надо бы их выложить в общий доступ.
Спасибо за инфу. Про публичный доступ я не очень уверен - всё-таки тех.отчёт не является чтивом для всех. Но сделать его доступным для профессионалов не мешало бы.

Самый правильный путь - рецензия в российском Ежегоднике проф.рецензий http://yearbook.psytest.ru/ru. Это аналог британской и американской схем принятия методики внутри проф.сообщества. Пока этот механизм только начал работать - его нужно поддерживать, и он снимет вопросы к оценке качества.

(например, у меня есть британские рецензии на пятый 16pf, DISC, OPQ и еще ряд топовых инструментов - очень информативно)
Из этого поста мог бы вырасти качественный брендо-срач. Претензии к маркетингу Сэвилла кажутся логичными, интересно мнение другой стороны, так что в пост призывается Евгений Куприянов aka kazobon, главный представитель Сэвилла в РФ и Форматте.

Лично меня смущает нелюбовь Wave к российским нормам (возможно, информация устаревшая).

При этом в защиту Сэвилла: они большие молодцы, что берут огонь на себя, говоря про валидность и просвещая рынок. Про некоторые другие инструменты, присутствующие на рынке (например, Хоган) неизвестно ровным счётом ничего по качеству российской адаптации. Открытое предоставление информации по валидности и надёжности инструментов должно стать хорошим тоном в наших компаниях, а уже потом можно будет рассуждать о качестве и обоснованности представленных цифр.
Боря, спасибо за такое мощное подключение. Надеюсь, Женя также сможет присоединиться.

Брендосрач устраивать не хотелось бы. Так как:
1) Ребята (в смысле Севилл) действительно молодцы, что шэрят какие-то реальные данные
2) Даже эти данные собрать было крайне непросто
3) Наверняка про РФ что-то имеется, но не в публичном пространстве - хочется это увидеть
4) Холивар не люблю

А вот хотелось бы обсудить вопрос - как просвещать публику на тему КАЧЕСТВА оценки? Как сделать так, чтобы у людей в голове был минимальный и адекватный набор представлений по сабжу.

Тогда подобные ситуации будут просто исключены или крайне затруднительны. Как на пакетах молока пишут ГОСТ, состав, условия хранения, и пишут более или менее точно. Так и здесь - писать нужно не британский ГОСТ пятилетней давности, а свой россейский и свэжий.

К Хогану вопросов еще больше, хотя на ASTD в этом году я слышал от их представителя, что у них есть тех.отчет по РФ.
Весьма по делу!
Женя, спасибо, весьма дельная статья.

И дело не только в магии цифр или слова валидность. Для меня валидность в нашей области - это прежде всего не конструктная валидность, которая здесь описана, а критериальная - то есть насколько результаты теста могут предсказывать эффективность какого либо рабочего поведения.

Вот такие исследования еще сложнее, но тем они ценнее для практики. И с этим работать и работать))