Надійність тестових методик. г) особистісний вплив дослідника

Тест зазвичай вважається надійним, якщо з його допомогою виходять ті самі показники для кожного обстежуваного при повторному тестуванні.

надійність за внутрішньою узгодженістю:якщо деяка змінна вимірюється частиною тесту, інші його частини, не будучи узгодженими з першою, вимірюють щось інше.

Надійність ретестова- передбачає повторне пред'явлення того ж тесту тим же випробуваним і приблизно в тих же умовах, що початкове, а потім встановлення кореляції між двома рядами даних (не менше 1 міс після 1, коеф кор більше 0,7).

Надійність паралельних формпередбачає створення еквівалентних форм опитувальника і пред'явлення їх одним і тим самим випробуваним для того, щоб потім оцінити кореляцію між отриманими результатами (складність, 2 набори завдань).

Надійність частин тестувизначається шляхом поділу опитувальника на дві частини (зазвичай на парні та непарні завдання), після чого розраховується кореляція між цими частинами. Зазвичай до цього способу визначення надійності рекомендується вдаватися лише у випадках, коли необхідно швидко отримати результати.

найкращою процедурою визначення надійності є проведення повторних досліджень через більш-менш значні часові інтервали.

Всі дослідження надійності повинні виконуватися на досить великих (рекомендується 200 і більше випробуваних) та репрезентативних вибірках. Надійність - важлива характеристика тесту, але сама собою цінності не представляє. Вона потрібна для досягнення валідності.

7.Валідність тесту

Тест називається валіднимякщо він вимірює те, для виміру чого призначений.

Очевидна валідність- Описує уявлення про тесті, що склалося у випробуваного.

Конкурентна валідністьоцінюється за кореляцією розробленого тесту з іншими, валідність яких щодо параметра, що вимірюється, встановлена

Прогностична валідністьвстановлюється за допомогою кореляції між показниками тесту і деяким критерієм, що характеризує вимірювана властивість, але пізніше.

Інкрементна валідністьмає обмежене значення і стосується випадку, коли один тест з батареї тестів може мати низьку кореляцію з критерієм, але не перекриватися іншими тестами з цієї батареї. У цьому випадку цей тест має інкрементну валідність. Це може бути корисним при проведенні профвідбору за допомогою психологічних тестів.

Диференційна валідністьможе бути проілюстрована з прикладу тестів інтересів. Тести інтересів зазвичай корелюють з академічною успішністю, але по-різному для різних дисциплін.

емпірична -розраховується величина статистичного зв'язку між результатами обстеження одних і тих же випробуваних за допомогою даної методики та відомими методиками, що вимірюють цю властивість.

Конструктна валідністьтесту демонструється повним, наскільки це можливо, описом змінної, для вимірювання якої призначається тест.

критеріальна– кількісна міра зв'язку між отриманими результатами тестування та зовнішніми критеріями оцінки діагностованої властивості.

Однією з важливих відмінностей психометричних тестів є те, що вони стандартизовані, а це дозволяє порівняти показники, отримані одним випробуваним, з такими у генеральній сукупності чи відповідних групах.

Стандартизація тесту найбільш важлива у випадках, коли здійснюється порівняння показників обстежуваних.

При цьому запроваджується поняття норми, чи нормативних показників.Для отримання стандартних норм потрібно ретельно відібрати більша кількістьвипробуваних відповідно до ясно позначеного критерію. При формуванні вибірки стандартизації слід враховувати її б'єм та репрезентативність.

У деяких випадках доводиться формувати кілька груп стандартизації або стратифікувати групу стандартизації щодо таких параметрів, як вік, стать, соціальний статус. Встановлювати норми який завжди обов'язково. При використанні психологічних тестів у науковому дослідженнінорми менш важливі і досить «сирих» показників тесту.

Нормидля кожної групи повинні бути представлені у середніх величинах та показнику стандартного відхилення.

Сьогодні на практиці все більше використовується такий тип похідної оцінки, як стандартні показники, що задовольняє більшості вимог, що висуваються до психологічного виміру Такі показники виражають відмінність індивідуального результату випробуваного від середнього в одиницях стандартного відхилення відповідного розподілу.

Створенням стандартизованого тесту та його публікацією зазвичай завершується робота психологаОднак слід пам'ятати і про те, що з часом необхідний перегляд (ревізія) тесту.

При створенні тесту можна скористатися факторним аналізомдля стиснення інформації або компактного опису досліджуваних явищ за наявності безлічі спостережень або змінних. щоб знайти кілька фундаментальних факторів, які б пояснювали більшу частину дисперсії в групі оцінок з різних тестів або інших психометричних вимірювань.

Існує кілька процедур факторного аналізу, але вони передбачають дві стадії: 1) факторизацію матриці кореляцій, аби вийшла початкова факторна матриця; 2) обертання факторної матриці, щоб виявити найпростішу конфігурацію факторних навантажень.

3.2. Надійність тестових методик

Перетворення психодіагностичних процедур і технік на надійний інструмент науки і практики залежить від зусиль багатьох фахівців із психометричного налагодження, конструювання тестів, що задовольняють основним психометричним вимогам: надійності, валідності, стандартизації. Основні принципи перевірки та визначення надійності, конструювання та валідизації психодіагностичних методик висвітлені у ряді спеціальних робіт з психодіагностики (А. Анастазі, А. Бодалсі, В. Столін, А. Шмельов, К. Гуревич, В. Мельников та ін.). В данному навчальному посібникуми опишемо базові поняття та принципи проведення психодіагностичного обстеження, знання яких є неодмінною умовою професійної кваліфікації практичного психолога.

Психодіагностика як наукова дисципліна включає три галузі психологічного знання:


  • предметну областьпсихології, що вивчає дані психічні явища;

  • психометрику– науку про вимір індивідуальних відмінностей та діагностованих змінних;

  • практичне використанняпсихологічного знання з метою адекватного психологічного впливута надання допомоги людям у вирішенні їхніх проблем.
Методологічною основою психодіагностики є психометрика. Саме ця наука розробляє технологію створення конкретних психодіагностичних методик та визначає методологію забезпечення наукових вимог до них:

  • надійності– внутрішньої узгодженості частин тесту та відтворюваності результатів при повторному тестуванні;

  • валідності- Відображення в результатах тесту саме тієї властивості, для діагностики якого він призначений;

  • достовірності– захищеності тесту від впливу результати прагнення піддослідного змінити їх у бажану сторону;

  • репрезентативності- Наявності норм результатів масового обстеження в популяції, на яку розрахований тест, що дозволяють оцінити ступінь відхилення від середніх значень будь-якого індивідуального показника.

Ці психометричні вимоги відносяться до різних груп тестів, при цьому найбільшою мірою – до об'єктивних тестів особистісних опитувальників, найменшою – до проективних технік.

Об'єктивна оцінка психологічних методикта тестів означає визначення їх надійності. У психометрії термін «надійність» завжди означає узгодженість показників, отриманих у тих самих випробуваних.

Наскільки придатний цей тест? Чи справді він виконує свої функції? Ці питання можуть викликати і іноді викликають тривалі безплідні дискусії. Упередження, суб'єктивні висновки, особисті уподобання призводять, як вважає А. Анастазі, з одного боку, до переоцінки можливостей конкретного тесту, з другого – до завзятого його неприйняттю. Єдиний спосіб відповісти на такі питання – емпірична перевірка. Об'єктивна оцінкапсихологічних тестів насамперед означає визначення їхньої надійності та валідності у конкретних ситуаціях.
^ Надійність тесту є узгодженість показників, отриманих у тих самих випробуваних при повторному тестуванні тим самим тестом або еквівалентною його формою.
Якщо у дитини IQ у понеділок дорівнює 110, а у п'ятницю – 80, то очевидно, що до такого показника навряд чи можна поставитися з довірою. Аналогічно, якщо індивід у ряду з 50 слів правильно визначив 40, а в іншому еквівалентному ряду – 20, то жоден з цих показників не може розглядається як міра його вербального розуміння. Зрозуміло, в обох прикладах можливо, що помилковим є лише один із двох показників, але це може підтвердити лише наступне тестування; з наведених даних випливає лише те, що разом показники не можуть бути правильними.

Перш ніж психологічний тест стане загальним надбанням, необхідно провести ретельну об'єктивну перевірку його надійності. Надійність може перевірятись щодо тимчасових змін, вибору конкретних завдань або тестової вибірки індивідуальності експериментатора або спеціаліста з обробки тестових показників та інших аспектів тестування. Дуже важливо точно вказати тип надійності і спосіб її визначення, оскільки той самий тест може змінюватися в різних аспектах. Бажано також мати відомості про чисельність та особливості індивідів, на яких перевірялася надійність тесту.

Така інформація дозволить користувачеві вирішити, наскільки надійний цей тест для тієї групи, до якої він збирається його застосувати.

Найбільш повне пояснення надійності тестових методик надає А. Анастазі. Під надійністю розуміється узгодженість результатів тесту, одержуваних при повторному його застосуванні до тих самих випробуваних у різні моменти часу, з використанням різних наборів еквівалентних завдань або при зміні інших умов обстеження. На надійності ґрунтується обчислення помилки виміру,яка служить для вказівки можливих меж коливань вимірюваної величини, що виникають під впливом сторонніх випадкових чинників. У найширшому сенсі надійність показує, якою мірою індивідуальні розбіжності у тестових результатах виявляються «істинними», а якій можуть бути приписані випадковим помилкам. Якщо перекласти це мовою спеціальних термінів, то вимірювання надійності тесту дозволяє оцінити величину загальної дисперсії тестових показників, що є дисперсією помилки.Питання, однак, у тому, що вважати дисперсією помилки. Одні й самі чинники, які стосовно одним завданням є сторонніми, під час вирішення інших проблем вважаються джерелами «істинних» відмінностей. Наприклад, якщо нас цікавлять коливання настрою, то зміни в результатах тесту, що відбуваються з кожним днем емоційного станумогли ставитись до мети тестування і, отже, до справжньої дисперсії результатів. Але якщо тест призначений для виміру більш стабільних характеристик особистості, то самі щоденні коливання можна віднести до дисперсії помилки.

Істотно те, що будь-які зміни умов, у яких проводиться тест, якщо вони не мають відношення до його мети, збільшують дисперсію помилки. Тому, дотримуючись єдиних умов тестування (контролюючи загальну обстановку, тимчасові обмеження, інструктування випробуваного, контакти з ним та інші аналогічні чинники), експериментатор зменшує дисперсію помилки і підвищує надійність тесту. Але і в оптимальних умовах жоден тест не є абсолютно надійним інструментом. Тому стандартний набір даних про тесті повинен включати і міру надійності. Такий захід характеризує тест, коли він застосовується в стандартних умовах і проводиться з випробуваними, схожими на тих, хто брав участь у нормативній вибірці. Отже, необхідно також наводити відомості про цю вибірку.

К. М. Гуревич визначає надійність як «вкрай складне та багатопланове поняття, одна з основних функцій якого – оцінити сталість показників тестових випробувань» [Гуревич, 1981].

У принципі можна сказати, що надійність повинна доводити помилку виміру – вона повинна показувати, яка частина мінливості показників є помилковою. Відомо кілька основних факторів, що визначають рівень надійності. Так, надійність завжди матиме тенденцію до збільшення, якщо дотримується сталість умов проведення процедури тестування, оскільки це знижує помилку варіабельності вимірюваного параметра. Тоді численність цілей, складність проблеми, мінливість ситуацій, зазвичай, збільшують помилку виміру, зменшуючи цим надійність.

Різновидів надійності тесту так само багато, як і умов, що впливають на результати тесту, тому будь-які такі умови можуть виявитися сторонніми по відношенню до мети, і тоді

обумовлена ​​ними дисперсія має увійти до дисперсії помилки. Проте практичне застосуваннязнаходить лише кілька типів надійності. Оскільки всі типи надійності відображають ступінь послідовності або узгодженості двох незалежно отриманих серій показників, то їх міра може виступати коефіцієнт кореляції.Більш спеціальне обговорення кореляції з докладним описомобчислювальних процедур наводиться у підручниках зі статистики для педагогів та психологів (В. Аванесов, А. Гусєв, Ч. Ізмайлов, М. Міхалевська та ін.).

На практиці використовуються три основних методи оцінки надійності тестів:

1) повторне тестування;

2) паралельне тестування;

3) спосіб розщеплення.

Розглянемо кожен із них окремо.

^ Повторне тестування Є одним із основних методів вимірювання надійності. Повторне

тестування вибірки піддослідних проводиться одним і тим самим тестом через певний інтервал часу за однакових умов. Повторне тестування зазвичай називають ретестом,а надійність, виміряну таким способом, – ретестової надійностіСхема оцінки ретестової надійності має вигляд:

І тут за індекс надійності приймається коефіцієнт кореляції між результатами двох тестувань.

Метод повторного тестування має як переваги, так і недоліки. До переваг відносяться природність і простота визначення коефіцієнта надійності. До недоліків слід віднести невизначеність у виборі інтервалу між двома вимірами. Виникнення тимчасової невизначеності пов'язане з тим, що повторне тестування відрізняється від первинного. Випробувані вже знайомі зі змістом тесту, пам'ятають свої початкові відповіді та орієнтуються ними за повторного виконання тесту. Тому при повторному тестуванні нерідко спостерігається або підгонка під початкові результати, або як наслідок негативізму демонстрація нових результатів. Щоб уникнути цього, наводячи у посібнику до тесту його ретестовую надійність, слід зазначати, якому інтервалу часу вона відповідає. У зв'язку з тим, що ретестова надійність зменшується зі зростанням тимчасового інтервалу, найбільш довірчими є високі коефіцієнти надійності, отримані при явно великих інтервалах між тестуваннями. Недостатньо високі коефіцієнти надійності можуть бути наслідком неоптимального визначення часових інтервалів.
^ Паралельне тестування І тут багаторазовість виміру організується з допомогою паралельних, чи еквівалентних, тестів. Паралельними називаються тести, які з однаковою помилкою вимірюють одну і ту ж властивість психіки. У цьому випадку ті самі особи виконують кілька варіантів одного і того ж тесту або еквівалентні тести. Як правило, практичне використання даного типу надійності пов'язане зі значними труднощами, оскільки вкрай складно побудувати кілька варіантів одного тесту таким чином, щоб випробуваний не міг виявити їхню психологічну однорідність. Та й спотворюючий вплив тренування в цьому випадку не повністю знято. Крім того, постає питання: чи є альтернативні типи надійності характеристиками саме надійності тесту, а не параметрами еквівалентності випробувань? Адже якщо дві форми випробування проводяться за однотипних константних умов, то, найімовірніше, досліджуються показники еквівалентності двох форм тестування, а чи не показники надійності самих тестів. Помилка вимірювання у разі визначається флюктуаціями виконання тесту, а чи не флюктуаціями структури тесту.

Схема використання паралельних тестів для вимірювання на діжності має вигляд:

Розрахований між двома тестами коефіцієнт кореляції називається еквівалентною надійністю.

^ Метод розщеплення Він є розвитком методу паралельного тестування і виходить з припущенні про паралельність як окремих форм тесту, а й окремих завдань всередині одного теста. Це з найпростіших перевірок тесту, коли обчислюється коефіцієнт кореляції між його половинами. Яким же чином поділити тест на дві половини, щоб мати змогу вирівняти обидві половини з тієї чи іншої конкретної основи? Найчастіше завдання тесту ділять на чет-нечет, що дозволяє певною мірою усунути можливі недоліки. Головне достоїнство цього надійності полягає у незалежності результатів тестування від таких елементів діяльності, як впрацьовування, тренування, практика, втома тощо. При розділенні тесту на дві частини індекс надійності обчислюється за формулою Спірмена-Брауна, що запропонували її незалежно один від одного. Їхні статті були опубліковані в тому самому номері психологічного журналу з висновками і формулами [Аванесов , 1982]. У їхній формулі

R(х, 0=2 RJ\ + R, у
де R - Коефіцієнт кореляції двох половин тесту. Як коефіцієнт індексу надійності розглядається середній модуль коефіцієнта кореляції всіх завдань тесту або середній коефіцієнт детермінації.

Отже, ми розглянули три емпіричні методи оцінки надійності тестів: повторне тестування одним і тим самим тестом, повторне тестування паралельною формою тесту та розщеплення тесту.

Який із цих методів дає справжню оцінку надійності тесту? Яким із методів слід користуватися? Відповідь це питання залежить від особистої симпатії та цілей дослідження.

При використанні методу повторного тестування отримуємо оцінку ступеня стійкості результатів у часі та залежно від умов тестування. Тому ретестовий коефіцієнт надійності називають також коефіцієнтом стійкостіабо стабільностітіста. При використанні методу паралельних форм та методу розщеплення оцінюється ступінь взаємної узгодженості частин тесту. Тому коефіцієнти надійності, отримані цими двома методами, інтерпретуються як покачений і гомогенності, однорідностітестів.

Крім показників стійкості та гомогенності, Р. Б. Кеттелл вважає за необхідне розглядати показник переносимосmu (transferability). Він є оцінкою здатності тесту зберігати точність виміру в різних вибірках, субкультурах і популяціях. Спільно стійкість, гомогенность і переносимість утворюють комплексну характеристику надійності, яку Р. Б. Кеттелл називає сталістю (consistency) і визначає як «ступінь, в якому тест продовжує передбачати те, що він одного разу передбачив, незважаючи на зміни (у певних межах): а) обсягу, в якому тест застосовувався; б) умов, у яких він застосовувався; в) складу вибірки, де він застосовується».

Нарешті, існує тип надійності, що безпосередньо стосується надійності особи, яка проводить тестове випробування. Оцінка надійності особи, що проводить тест, виходить за допомогою незалежного моделювання випробування двома різними експериментаторами.

Надійність результатів тестування залежить не лише від надійності самого тесту та процедури його проведення. Важливим чинником, що впливає результати інтерпретації даних, є специфіка конкретної вибірки. Найбільш суттєвими характеристиками вибірки, з цього погляду, слід визнати соціально-психологічну однорідність за різними параметрами; враховуються також вік та стать.

Послідовність дій при перевірці надійності А. Г. Шмельов пропонує провести так [Загальна психодіагностика, 1987]:

1. Дізнатися, чи існують дані про надійність тесту, запропонованого до використання, який популяції та у якій діагностичної ситуації проводилася перевірка. Якщо перевірки не було або ознаки нової популяції та ситуацій явно специфічні, провести наново перевірку надійності з урахуванням наведених нижче можливостей.

2. Якщо дозволяють можливості, то провести повторне тестування на всій вибірці стандартизації та підрахувати всі коефіцієнти, наведені як цілого тесту, так окремих пунктів. Аналіз отриманих коефіцієнтів допоможе зрозуміти, наскільки зневажлива помилка виміру.

3. Якщо можливості обмежені, провести повторне тестування лише на частини вибірки (не менше 30 піддослідних), підрахувати вручну рангову кореляцію для оцінки внутрішньої

узгодженості (методом розщеплення) та стабільності цілого тесту.

Безперечно, розглянуті поняття психодіагностики – її найважливіші атрибути. Проте високі показникинадійності власними силами не визначають практичну цінність тесту. Провідний фактор, що дозволяє виміряти цільові результати психологічного тестування, – валідність.

Група таких тестів дозволяє оцінити рівень оволодіння будь-яким видом діяльності. В основі тестів досягнень лежать різні уявлення та моделі інтелекту та діяльності.

Однією з широковживаних моделей інтелекту, де можуть базуватися тести досягнень, є модель Дж. Гілфорда. В основі його моделі лежать три змінні: операції, зміст та результати мислення.

Психометричні основи психодіагностики.

Показники якості психологічного обстеження.

Будь-яке психологічне дослідження або діагностика може проводитися добре або погано різних причин. Для оцінки якості діагностичних процедур використовується низка показників:

Валідність

Достовірність

Надійність

Репрезентативність

Валідність – це характеристика ступеня, у якій тест вимірює те, навіщо він призначений. Наприклад, якщо тест орієнтований на вимір психічної стійкості військовослужбовця, він повинен вимірювати тільки цю змінну і жодну іншу. На 100% цю вимогу реалізувати не завжди вдається, але необхідно прагнути цього. Існує різні видита способи визначення валідності. Одним із найбільш уживаних способів встановлення валідності є порівняння показників з психологічного тесту з експертними оцінками даної якості(або якостей) у випробуваних.

Достовірність – стійкість вимірювальної процедури. Вона відрізняється від валідності в ситуаціях, коли випробуваний намагається навмисно спотворити відповідь чи вимірювана характеристика лінійно пов'язана з будь-якою іншою характеристикою. Для підвищення достовірності використовують різні прийоми типу: введення додаткових шкал (брехні. корекції); побудова питань з суперпитань (поєднання звичайних питань про поведінку або переваги); використання ознак, незалежних від діагнозу та ін.

Надійність оцінює узгодженість показників, отриманих на тих самих випробуваних при повторному тестуванні тим самим тестом або еквівалентною його формою. Іншими словами, тест повинен відтворювати через певний час один і той же результат на фіксованій вибірці піддослідних за умови, що за цей час, згідно з теоретичними уявленнями, дана характеристика значно не змінюється.

Існує три основні методи оцінки надійності:

Повторне тестування (ретестова надійність);

Паралельне тестування (еквівалентна надійність);

Розщеплення (узгодженість).

У першому випадку проводиться повторне тестування тим самим тестом тих самих випробуваних. У другому – використовуються дві еквівалентні форми тесту. Для оцінки узгодженості тест розщеплюється на дві частини та проводиться обстеження однієї групи двома частинами тесту.

Валідність та надійність співвідносяться між собою як предмет та об'єкт вимірювання.

Якщо надійність – показник стійкості процедури щодо об'єктів вимірювання, то валідність – характеристика стійкості результатів вимірювання властивостей об'єктів, тобто. стійкість щодо предмета виміру. Вимірювальна процедура надійна, якщо вона відрізняється від чогось, але невідомо, що саме відрізняється.

Достовірність – це стійкість вимірювальної процедури, зокрема, фальсифікації, тобто. навмисному спотворенню.

Репрезентативність – здатність вибірки піддослідних бути представницькою, тобто. Досить точно (адекватно)відбивати характеристики того контингенту піддослідних, яких обстежується. Якщо ви маєте тестові норми, отримані на старшокласниках, їх не можна застосовувати з оцінки (наприклад, особистісних особливостей) дорослих людей, тобто. Перед застосуванням тесту необхідно знати наступні моменти:

Надійність цієї методики

Її репрезентативність

Її валідність

Її достовірність

Чи адаптована методика до особливостей менталітету нашого суспільства?

Користувач тесту за вивчення даних, що підтверджують валідність, надійність, репрезентативність, за розуміння та оцінювання можливості застосування тесту у своєму дослідженні. У разі, якщо умови стандартизації та перевірки на валідність та надійність тесту відрізняються від тих умов, у яких працює користувач, то на користувача лежить обов'язок провести додаткове дослідження валідності тесту для власного використання, або відмовитись від його застосування.

Тест 3. Методи дослідження

1. Дані про реальну поведінку людини, отримані під час зовнішнього спостереження, називаються:

а) L – даними;

б) Q-даними;

в) Т-даними;

г) Z-даними.

2. Тип результатів, що реєструються за допомогою опитувальників та інших методів самооцінок, називається:

а) L – даними;

б) Q-даними;

в) Т-даними;

г) Z-даними.

3. Таке присвоєння чисел об'єктам, у якому рівні різниці чисел відповідають рівним різницямвимірюваної ознаки або властивості об'єкта передбачає наявність шкали:

а) найменувань;

б) порядку;

в) інтервалів;

г) відносин.

4. Шкала порядку відповідає виміру на рівні:

а) номінальному;

б) ординальному;

в) інтервальному;

г) відносин.

5. Ранжування об'єктів за вираженістю певної ознаки становить суть вимірів на рівні:

а) номінальному;

б) ординальному;

в) інтервальному;

г) відносин.

6. Вкрай рідко в психології застосовується шкала:

а) найменувань;

б) порядку;

в) інтервалів;

г) відносин.

7. До постулатів, яким підпорядковуються перетворення порядкових шкал, не належать постулати:

а) трихотомії;

б) асиметрії;

в) транзитивність;

г) дихотомії.

8. У найбільш загальній формі шкали вимірювань представлені шкалою:

а) найменувань;

б) порядку;

в) інтервалів;

г) відносин.

9. Не можна робити жодних арифметичних дій у шкалі:

а) найменувань;

б) порядку;

в) інтервалів;

г) відносин.

10. Встановлення рівності відносин між окремими значеннями допустимо лише на рівні шкали:

а) найменувань;

б) порядку;

в) інтервалів;

г) відносин.

11. Б.Г. Ананьєв відносить лонгітюдний метод дослідження:

а) до організаційних методів;

б) до емпіричних методів;

в) до способів обробки даних;

г) до інтерпретаційних методів.

12. Цілеспрямоване, планомірно здійснюване сприйняття об'єктів, у пізнанні яких зацікавлена ​​особистість, є:

а) експериментом;

б) контент-аналіз;

в) спостереженням;

г) шляхом аналізу товарів діяльності.

13. Тривале і систематичне спостереження, вивчення тих самих людей, що дозволяє аналізувати психічний розвиток на різних етапах життєвого шляхуі на основі цього робити певні висновки, прийнято називати дослідженням:

а) пілотажним;

б) лонгітюдним;

в) порівняльним;

г) комплексним.

14. Поняття «самоспостереження» є синонімом терміна:

а) інтроверсія;

б) інтроекція;

в) інтроспекція;

г) інтроскопії.

15. Систематичне застосування моделювання найбільш характерне:

а) для гуманістичної психології;

б) для гештальтпсихології;

в) для психоаналізу;

г) психології свідомості.

16. Коротке, стандартизоване психологічне випробування, у результаті якого робиться спроба оцінити той чи інший психічний процес чи особистість загалом, – це:

а) спостереження;

б) експеримент;

в) тестування;

г) самоспостереження.

17. Отримання суб'єктом даних про власні психічні процеси і стани в момент їх перебігу або за ним – це:

а) спостереження;

б) експеримент;

в) тестування;

г) самоспостереження.

18. Активне втручання дослідника у діяльність піддослідного з метою створення умов встановлення психологічного факту називається:

а) контент-аналізом;

б) аналізом продуктів;

в) бесідою;

г) експериментом.

19. Основним для сучасних психогенетичних досліджень не є метод:

а) близнюковий;

б) прийомних дітей;

в) сімейний;

г) інтроспекції.

20. Залежно від ситуації можна назвати спостереження:

а) польове;

б) суцільне;

в) систематичне,

г) дискретне.

21. Спосіб дослідження структури та характеру міжособистісних відносин людей на основі виміру їх міжособистісного вибору називається:

а) контент-аналізом;

б) шляхом порівняння;

в) шляхом соціальних одиниць;

г) соціометрію.

22. Вперше експериментальна психологічна лабораторія була відкрита:

а) У. Джемсом;

б) Г. Еббінгауз;

в) Ст Вундтом;

г) Х. Вольфом.

23. Перша у світі експериментальна лабораторія розпочала свою роботу:

а) 1850 р.;

б) 1868 р.;

в) 1879 р.;

24. Перша експериментальна психологічна лабораторія у Росії відома:

а) з 1880;

б) з 1883;

в) з 1885;

25. Перша педологічна лабораторія була створена:

а) А.П. Нечаєвим 1901 р.;

б) З. Холлом 1889 р.;

в) У. Джемсом у 1875 р.;

г) Н.М. Ланге 1896 р.

26. У Росії першу експериментальну психологічну лабораторію відкрив:

а) І.М. Сєченов;

б) Г.І. Челпанов;

в) В.М. Бехтерєв;

г) І.П. Павлов.

27. Можливість дослідника викликати якийсь психічний процес чи властивість є головною перевагою:

а) спостереження;

б) експерименту;

в) контент-аналізу;

г) аналізу товарів діяльності.

28. За допомогою експериментального методу перевіряються гіпотези про наявність:

а) явища;

б) зв'язок між явищами;

в) причинно-наслідкового зв'язку між явищами;

г) кореляції між явищами.

29. Встановлювати найбільш загальні математико-статистичні закономірності дозволяє:

а) контент-аналіз;

б) аналіз товарів діяльності;

в) розмова;

г) експеримент.

30. Асоціативний експеримент для вивчення неусвідомлюваних афективних утворень розробив та запропонував:

а) П. Жане;

б) З. Фрейд;

в) Й. Брейєр;

а) Р. Готтсданкер;

б) А.Ф. Лазурський;

в) Д. Кемпбелл;

г) У. Вундт.

32. Поняття «експеримент повної відповідності» у науковий обіг запровадив:

а) Р. Готтсданкер;

б) А.Ф. Лазурський;

в) Д. Кемпбелл;

г) У. Вундт.

33. Проміжним між природними методами проведення дослідження та методами, де застосовується суворий контроль змінних, є:

а) уявний експеримент;

б) квазіексперимент;

в) лабораторний експеримент;

г) метод розмови.

34. Активно змінюється у психологічному експерименті характеристика називається змінною:

а) незалежної;

б) залежною;

в) зовнішньої;

г) побічної.

35. За Д. Кемпбеллом, потенційно керовані змінні відносяться до змінних експерименту:

а) незалежним;

б) залежним;

в) побічним;

г) зовнішнім.

36. Як критерій достовірності результатів валідність, що досягається в ході реального експерименту порівняно з ідеальним, називається:

а) внутрішньої;

б) зовнішній;

в) операційною;

г) конструктної.

37. Міра відповідності експериментальної процедури об'єктивної реальності характеризує валідність:

а) внутрішню;

б) зовнішню;

в) операційну;

г) конструктну.

38. При лабораторному експерименті найбільше порушується ва-лідність:

а) внутрішня;

б) зовнішня;

в) операційна;

г) конструктна.

39. Поняття «екологічна валідність» найчастіше використовується як синонім поняття «валідність»:

а) внутрішня;

б) зовнішня;

в) операційна;

г) конструктна.

40. Вісім основних факторів, що порушують внутрішню валідність, та чотири фактори, що порушують зовнішню, виділив:

а) Р. Готтсданкер;

б) А.Ф. Лазурський;

в) Д. Кемпбелл;

г) У. Вундт.

41. Чинник нееквівалентності груп за складом, що знижує внутрішню валідність дослідження, Д. Кемпбелл назвав:

а) селекцією;

б) статистичною регресією;

в) експериментальним відсіванням;

г) природним розвитком.

42. Ефект плацебо було відкрито:

а) психологами;

б) освітянами;

в) медиками;

г) фізіологами.

43. Чинник присутності будь-якого зовнішнього спостерігача в експерименті називається ефектом:

а) плацебо;

б) Хотторна;

в) соціальної фасилітації;

г) ореолу.

44. Вплив експериментатора на результати найбільш значущий у дослідженнях:

а) психофізіологічні;

б) «глобальних» індивідуальних процесів (інтелекту, мотивації, ухвалення рішення тощо);

в) психології особистості та соціальної психології;

г) психогенетичні.

45. Як спеціально розроблена методика інтроспекція найбільш послідовно використовувалася в психологічних дослідженнях:

а) О.М. Леонтьєва;

б) У. Вундта;

в) В.М. Бехтерьова;

г) З. Фройда.

46. ​​Психологічні прийоми, що конструюються на навчальному матеріалі та призначені для оцінки рівня оволодіння навчальними знаннями та навичками, відомі як тести:

а) досягнень;

б) інтелекту;

в) особи;

г) проектні.

47. Оцінка можливостей особистості з оволодіння знаннями, вміннями та навичками, що мають загальний чи специфічний характер, здійснюється за допомогою тестування:

а) досягнень;

б) інтелекту;

в) особи;

г) здібностей.

48. Оцінка узгодженості показників, одержуваних при повторному тестуванні тих самих випробуваних і тим самим тестом або еквівалентною його формою, характеризує тест з погляду його:

а) валідності;

б) достовірності;

в) надійність;

г) репрезентативності.

49. Критерій якості тесту, що використовується при з'ясуванні його відповідності області вимірюваних психічних явищ, становить валідність тесту:

а) конструктну;

б) за критерієм;

г) прогностичну.

50. Критерій якості тесту, що використовується при вимірі якогось складного психічного феномену, що має ієрархічну структуру, виміряти який через це одним актом тестування неможливо, відомий як:

а) конструктна валідність тесту;

б) валідність тесту за критерієм;

в) валідність тесту за змістом;

г) надійність тесту.

51. На дані особистісних опитувальників не повинно впливати:

а) використання обстежуваними неправильних стандартів;

б) відсутність у обстежуваних навичок інтроспекції;

в) невідповідність інтелектуальних можливостей респондентів до вимог опитувальної процедури;

г) особистісний вплив дослідника.

52. Для встановлення статистичного взаємозв'язку між змінними застосовується:

а) t-критерій Стьюдента;

б) кореляційний аналіз;

в) спосіб аналізу товарів діяльності;

г) контент-аналіз.

53. Факторний аналіз у психології вперше почав застосовувати:

а) Р. Кеттел;

б) До. Спірмен;

в) Дж. Келлі;

г) Л. Терстоун.

54. Найчастіше зустрічається значення в сукупності даних називається:

а) медіаною;

б) модою;

в) децилем;

г) відсотком.

55. Якщо психологічні дані отримані за інтервальною шкалою чи шкалою відносин, то виявлення характеру взаємозв'язку між ознаками застосовується коефіцієнт кореляції:

а) лінійної;

б) ранговий;

в) парний;

г) множинної.

56. Табулювання, представлення та опис сукупності результатів психологічного дослідження здійснюється:

а) в описовій статистиці;

б) теоретично статистичного висновку;

в) у перевірці гіпотез;

г) у моделюванні.

57. Найбільш широкий діапазон застосування математичних методів у психології допускає квантифікація показників у шкалі:

а) найменувань;

б) порядку;

в) відносин;

г) інтервальної.

58. Дисперсія є показником:

а) мінливості;

б) заходи центральної тенденції;

в) середньоструктурним;

г) середньостатевим.

59. До багатовимірних статистичних методів не належить:

а) багатовимірне шкалювання;

б) факторний аналіз;

в) кластерний аналіз;

г) кореляційний аналіз.

60. Наочну оцінку подібності та відмінності між деякими об'єктами, що описуються великою кількістю різноманітних змінних, забезпечує:

а) багатовимірне шкалювання;

б) факторний аналіз;

в) кластерний аналіз;

г) структурно-латентний аналіз.

61. Сукупність аналітично-статистичних процедур виявлення прихованих змінних (ознак), а також внутрішньої структури зв'язків між цими ознаками називається:

а) багатовимірним шкалюванням;

б) факторним аналізом;

в) кластерним аналізом;

г) структурно-латентним аналізом.

Перш ніж психодіагностичні методики можуть бути використані для практичних цілей, вони повинні пройти перевірку за рядом формальних критеріїв, що доводять їхню високу якість та ефективність. Ці вимоги у психодіагностиці складалися роками у процесі роботи над тестами та їх удосконаленням. В результаті з'явилася можливість захистити психологію від усіляких безграмотних підробок, які претендують на те, щоб називатися діагностичними методиками.

До основних критеріїв оцінки психодіагностичних методик належить надійність і валідність. Великий внесок у розробку цих понять зробили зарубіжні психологи (А. Анастазі, Е. Гізеллі, Дж. Гілфорд, Л. Кронбах, Р. Торндайк та Е. Хаген та ін.). Ними були розроблені як формально-логічний, так і математико-статистичний апарат (насамперед кореляційний метод та фактичний аналіз) обґрунтування ступеня відповідності методик зазначеним критеріям.

У психодіагностиці проблеми надійності та валідності методик тісно взаємопов'язані, проте існує традиція роздільного викладу цих найважливіших характеристик. Наслідуючи її, почнемо з розгляду надійності методик.

НАДІЙНІСТЬ

У традиційній тестології термін "надійність" означає відносну сталість, стійкість, узгодженість результатів тесту при первинному та повторному його застосуванні на тих самих випробуваних. Як пише А.Анастазі (1982), навряд чи можна з довірою ставитися до тесту інтелекту, якщо по ньому на початку тижня дитина мала показник, що дорівнює АЛЕ, а до кінця 80. Повторне застосування надійних методик дає подібні оцінки. У цьому певною мірою можуть збігатися як результати, і порядкове місце (ранг), займане випробуваним у групі. І в тому, і в іншому випадку при повторенні досвіду можливі деякі розбіжності, але важливо, щоб вони були незначними, в межах однієї групи. Отже, можна сказати, що надійність методики - це такий критерій, що свідчить про точності психологічних вимірів, тобто. дозволяє судити у тому, наскільки вселяють довіру отримані результати.

Ступінь надійності методик залежить багатьох причин. Тому важливою проблемою практичної діагностики є з'ясування негативних факторів, що впливають на точність вимірів. Багато авторів намагалися скласти класифікацію таких факторів. Серед них найчастіше називаються такі:

1) нестабільність діагностованої властивості;

    недосконалість діагностичних методик (недбало складено інструкцію, завдання за своїм характером різнорідні, нечітко сформульовані вказівки щодо пред'явлення методики випробуваним тощо);

    мінлива ситуація обстеження (різна пора дня, коли проводяться експерименти, різна освітленість приміщення, наявність чи відсутність сторонніх шумів тощо);

    розбіжності у манері поведінки експериментатора (від досвіду до досвіду по-різному пред'являє інструкції, по-різному стимулює виконання завдань тощо.);

    коливання у функціональному стані випробуваного (в одному експерименті відзначається гарне самопочуття, В іншому - втома і т.д.);

    елементи суб'єктивності у способах оцінки та інтерпретації результатів (коли ведеться протоколювання відповідей досліджуваних, оцінюються відповіді за рівнем повноти, оригінальності тощо).

Якщо всі ці фактори мати на увазі і постаратися в кожному з них усунути умови, що знижують точність вимірювань, можна досягти прийнятного рівня надійності тесту. Одним з найважливіших засобів підвищення надійності психодіагностичної методики є однаковість процедури обстеження, його строга регламентація: однакові для обстежуваної вибірки досліджуваних обстановка та умови роботи, однотипний характер інструкцій, однакові для всіх тимчасові обмеження, способи та особливості контакту з піддослідними, порядок пред'явлення завдань тощо. д. За такої стандартизації процедури дослідження можна суттєво зменшити вплив сторонніх випадкових факторів на результати тесту та таким чином підвищити їхню надійність.

На характеристику надійності методик великий вплив має досліджувана вибірка. Вона може як знижувати, і завищувати цей показник, наприклад, надійність може бути штучно завищена, якщо у вибірці невеликий розкид результатів, тобто. якщо результати за своїми значеннями близькі один до одного. У цьому випадку, при повторному обстеженні, нові результати також розташуються тісною групою. Можливі зміни рангових місць випробуваних будуть незначними, і, отже, надійність методики буде високою. Таке ж невиправдане завищення надійності може виникнути при аналізі результатів вибірки, що складається з групи, що має дуже високі результати, і групи з дуже низькими оцінками по тесту. Тоді ці далеко віддалені один від одного результати не перекриватимуться, навіть якщо й втручаться в умови експерименту випадкові фактори. Тому у посібнику зазвичай робиться опис вибірки, де визначалася надійність методики.

Нині надійність дедалі частіше визначається найбільш однорідних вибірках, тобто. на вибірках, схожих за статтю, віком, рівнем освіти, професійної підготовки тощо. Для кожної такої вибірки наводяться свої коефіцієнти надійності. Наведений показник надійності застосовується тільки до груп, подібних до тих, на яких він визначався. Якщо методика застосовується до вибірки, яка відрізняється від тієї, на якій перевірялася її надійність, то ця процедура має бути проведена заново.

багато, як і умов, що впливають результати діагностичних випробувань (У Черни, 1983) Проте практичне застосування знаходять лише кілька видів надійності

Оскільки всі види надійності відбивають ступінь узгодженості двох незалежно отриманих рядів показників, то математико-статистичний прийом, з допомогою якого встановлюється надійність методики, - це кореляції (по Пірсону чи Спірмену, див гл. XIV). Надійність тим вища, що більший отриманий коефіцієнт кореляції наближається до одиниці, і навпаки.

У цьому посібнику в описах видів надійності основний акцент робиться на роботи К.М Гуревича (1969, 1975, 1977, 1979), який, провівши ретельний аналіз зарубіжної літератури з цієї проблеми, запропонував тлумачити надійність як:

    надійність самого вимірювального інструменту,

    стабільність досліджуваної ознаки;

3) константність, тобто. відносну незалежність результатів від особистості експериментатора

Показник, що характеризує вимірювальний інструмент, пропонується називати коефіцієнтом надійності, показник, що характеризує стабільність властивості, що вимірюється, - коефіцієнтом стабільності; а показник оцінки впливу особистості експериментатора – коефіцієнтом константності.

Саме такому порядку рекомендується здійснювати перевірку методики: доцільно спочатку перевірити інструмент виміру. Якщо отримані дані задовільні, можна переходити до встановлення міри стабільності вимірюваного властивості, а вже після цього за необхідності зайнятися критерієм константності.

Зупинимося більш докладному розгляді цих показників, характеризуючих з різних сторін надійність психодіагностичної методики.

1. Визначення надійності вимірювального інструмента.Від того, як складено методику, наскільки правильно підібрані завдання з погляду їхньої взаємоузгодженості, наскільки вона однорідна, залежить точність, об'єктивність будь-якого психологічного виміру. Внутрішня однорідність методики показує, що її завдання актуалізують одну й ту саму властивість, ознаку.

Для перевірки надійності вимірювального інструменту, що говорить про його однорідність (або гомогенність), використовується так званий метод "розщеплення". Зазвичай завдання поділяються на парні та непарні, окремо обробляються, а потім результати двох отриманих рядів корелюються між собою. Для застосування цього способу потрібно поставити піддослідних у такі умови, щоб вони змогли встигнути вирішити (або спробувати вирішити) усі завдання. Якщо методика однорідна, то великої різниці в успішності вирішення таких половинок не буде, і, отже, коефіцієнт кореляції буде досить високим.

Можна ділити завдання й іншим шляхом, наприклад зіставити першу половину тесту з другої, першу та третю чверть - з другої та четвертої тощо. Проте "розщеплення" на парні та непарні завдання представляється найбільш доцільним, оскільки саме цей спосіб найбільш незалежний від впливу таких факторів, як вроблюваність, тренування, втома та ін.

Методика визнається надійною, коли отриманий коефіцієнт не нижче0,75-0,85. Найкращі за надійністю тести дають коефіцієнти близько 0,90 і більше.

Але на початковому етапіРозробки діагностичної методики можна отримати невисокі коефіцієнти надійності, наприклад, порядку 0,46-0,50. Це означає, що в методикі, що розробляється, присутня деяка кількість завдань, які в силу своєї специфічності ведуть до зниження коефіцієнта кореляції. Такі завдання необхідно спеціально проаналізувати і переробити їх, або взагалі вилучити.

Щоб легше встановити, з допомогою яких завдань знижуються коефіцієнти кореляції, необхідно проаналізувати таблиці з виписаними даними, підготовленими для кореляцій. Слід зазначити, що будь-які зміни у змісті методики – вилучення завдань, їх перестановка, переформулювання запитань чи відповідей вимагає наново вираховувати коефіцієнти надійності.

При ознайомленні з коефіцієнтами надійності слід забувати, що вони залежать як від правильного підбору завдань з погляду їх взаємоузгодженості, а й від соціально-психологічної однорідності тієї вибірки, де перевірялася надійність вимірювального інструмента.

Справді, завдання можуть зустрітися поняття, маловідомі однієї частини піддослідних, але добре відомі інший частини. Від того, як багато в методиці таких понять, залежатиме і коефіцієнт надійності, завдання з такими поняттями можуть випадково розташуватися і в парній та непарній половині тесту. Вочевидь, показник надійності годі було приписувати лише методиці як і не можна сподіватися те що, що він незмінним, з якою вибіркою не проводилося тестування.

2. Визначення стабільності ознаки, що вивчається.Визначити надійність самої методики - це значить вирішити питання, пов'язані з її застосуванням. Потрібно ще встановити, наскільки стійка, стабільна ознака, яку дослідник має намір вимірювати. Було б методологічною помилкою розраховувати на абсолютну стабільність психологічних ознак. У тому, що ознака, що вимірюється, з часом змінюється, немає нічого небезпечного для надійності. Вся справа в тому, в яких межах варіюються результати від досвіду до досвіду в одного і того ж випробуваного, чи ці коливання до того, що випробуваний з незрозумілих причин виявляється то на початку, то в середині, то в кінці вибірки. Зробити якісь конкретні висновки про рівень представленої вимірюваної ознаки у такого випробуваного не можна. Таким чином, коливання ознаки не повинні мати непередбачуваного характеру. Якщо не зрозумілі причини різких коливань, то така ознака не може бути використана з діагностичною метою.

Для перевірки стабільності ознаки, що діагностується, властивості використовується прийом, відомий як тест - ретест. Він полягає у повторному обстеженні піддослідних за допомогою тієї ж методики. Про стабільність ознаки судять за коефіцієнтом кореляції між результатами першого та повторного обстеження. Він свідчить про збереження або незбереження кожним випробуваним свого порядкового номера у вибірці.

На ступінь стійкості, стабільності властивості, що діагностується, впливають різноманітні фактори. Число їх досить велике. Вище вже говорилося про те, наскільки важливо дотримуватися вимог одноманітності процедури проведення експерименту. Так, наприклад, якщо перше тестування проводилося в ранковий час, то і повторне

має бути проведено вранці, якщо перший досвід супроводжувався попереднім показом завдань, то і при повторному випробуванні ця умова також має бути дотримана тощо.

При визначенні стабільності ознаки велике значеннямає проміжок часу між першим та повторним обстеженням. Чим коротший термін від першого до другого випробування, тим (за інших рівних умов) більше шансів, що ознака, що діагностується, збереже рівень першого випробування. Зі збільшенням часового інтервалу стабільність ознаки має тенденцію знижуватися, оскільки зростає кількість сторонніх чинників, які впливають неї. Отже, напрошується висновок, що доцільно проводити повторне тестування за короткий термін після першого. Однак тут є свої складнощі, якщо термін між першим і другим досвідом невеликий, то деякі випробувані можуть відтворити свої колишні відповіді в пам'яті і, таким чином, відійдуть від сенсу виконання завдань. І тут результати двох пред'явленні методики не можна розглядати як незалежні.

Важко чітко відповісти питанням, який термін можна вважати оптимальним для повторного експерименту. Тільки дослідник, з психологічної сутності методики, умов, у яких проводиться, особливостей вибірки піддослідних, може визначити цей термін. При цьому такий вибір має бути науково обґрунтованим. У тестологічній літературі найчастіше називаються часові інтервали у кілька місяців (але не більше півроку.) При обстеженні дітей молодшого віку, коли вікові зміни та розвиток відбуваються дуже швидко, ці інтервали можуть бути близько кількох тижнів (А Анастазі, 1982).

Важливо пам'ятати, що коефіцієнт стабільності не слід розглядати тільки з його вузько-формального боку, за його абсолютними значеннями. Якщо тест досліджує властивість, що у період тестування перебуває у процесі інтенсивного розвитку (наприклад, вміння проводити узагальнення), то коефіцієнт стабільності, може бути невисоким, але ці слід тлумачити як недолік тесту Такий коефіцієнт стабільності повинен інтерпретуватися як показник певних змін, розвитку досліджуваного властивості. У цьому випадку, наприклад, КМ Гуревич (1975) рекомендує розглянути частинами ту вибірку, на якій встановлювався коефіцієнт стабільності. При такому розгляді виділиться частина піддослідних, що проходять шлях розвитку в рівному темпі, інша частина - де розвиток йшов особливо швидкими темпами; і частина вибірки, де розвиток у випробуваних практично не можна помітити. Кожна частина вибірки заслуговує на спеціальний аналіз і тлумачення. Отже, недостатньо просто констатувати, що коефіцієнт стабільності низький, потрібно зрозуміти, чого це залежить.

Зовсім інша вимога пред'являється до коефіцієнта стабільності, якщо автор методики вважає, що властивість, що вимірюється, вже сформовано і має бути досить стійким. Коефіцієнт стабільності у разі має бути досить високим (не нижче 0,80).

Отже, питання стабільності вимірюваного властивості вирішується який завжди однозначно. Рішення залежить від сутності самого діагностованого властивості.

3. Визначення константності,е відносної незалежності результатів від особистості експериментатора. Оскільки методика, розроблена для діагностичних

цілей, не призначена для того, щоб завжди залишатися в руках своїх творців, дуже важливо знати, наскільки її результати піддаються впливу особистості експериментатора. Хоча діагностична методика завжди забезпечується докладними інструкціями щодо її застосування, правилами та прикладами, що вказують, як проводити експеримент, регламентувати манеру поведінки експериментатора, швидкість його мови, тон голосу, паузи, вираз обличчя дуже важко. Випробуваний у своєму ставленні до досвіду завжди відобразить те, як сам експериментатор до цього досвіду відноситься (допускає недбалість або діє точно відповідно до вимог процедури, виявляє вимогливість, наполегливість чи безконтрольність тощо).

Особливо істотну роль особистість експериментатора грає під час проведення про недетермінованих методик (наприклад, у проективних тестах).

Хоча в тестологічній практиці критерієм константності користуються нечасто, проте, на думку КМ Гуревича (1969), це може бути основою його недооцінки. Якщо в авторів методики виникають підозри щодо можливого впливу особистості експериментатора на результат діагностичної процедури, то доцільно перевірити методику щодо цього критерію. При цьому важливо мати на увазі наступний момент. Якщо під впливом нового експериментатора всі випробувані в однаковій мірі стали працювати трохи краще або трохи гірше, то сам по собі цей факт (хоча і заслуговує на увагу) на надійність методики не вплине. Надійність зміниться лише тоді, коли вплив експериментатора на випробуваних по-різному: одні стали працювати краще, інші гірші, а треті так само, як і за першого експериментатора. Іншими словами, якщо піддослідні при новому експериментаторі змінили свої порядкові місця у вибірці.

Коефіцієнт константності визначається шляхом кореляції результатів двох дослідів, проведених відносно однакових умов на одній і тій же вибірці піддослідних, але різними експериментаторами. Коефіцієнт кореляції не повинен бути нижчим за 0,80.

Отже, було розглянуто три показники надійності психодіагностичних методик. Чи може виникнути питання, чи потрібно при створенні психодіагностичних методик здійснювати перевірку кожного з них? У зарубіжній літературі триває дискусія із цього приводу. Одні дослідники вважають, що це способи визначення надійності тесту певною мірою ідентичні і тому досить перевірити надійність методики якимось одним із них. Наприклад, автор книги, що неодноразово перевидавалася в США, за статистикою для психологів і педагогів Г. Геррет (1962) не знаходить принципових відмінностей між способами перевірки надійності. На його думку, всі ці методи показують відтворюваність тестових показників. Іноді той, іноді інший забезпечує найкращий критерій. Інші дослідники дотримуються іншої точки зору. Так, автори " Стандартних вимог до педагогічним і психологічним тестам " (1974) у розділі " Надійність " відзначають, що коефіцієнт надійності у сучасному розумінні - це родове поняття, що включає кілька видів, і кожен вид має свій особливий сенс. Поділяє цю думку і К.М. Гуревич (1975). На його думку, коли говорять про різні способи визначення надійності, то мають справу не з кращою чи гіршою мірою, а з різною мірою по суті надійності. Справді, чого варта методика, якщо не ясно, чи надійна вона сама по собі як вимірювальний інструмент, чи не встановлена ​​стабільність вимірюваної властивості? Чого варта діагностична методика, якщо

невідомо, чи можуть змінюватись результати залежно від того, хто веде експеримент? Кожен окремо показник ніяк не замінить інших способів перевірки і, отже, не може розглядатися як необхідна і достатня характеристика надійності. Тільки методика, що має повну характеристику надійності, найбільш придатна для діагностико-практичного застосування.

ВАЛІДНІСТЬ

Іншим після надійності ключовим критерієм оцінки якості методик є валідність. Питання валідності методик вирішується лише після того, як встановлено достатню її надійність, оскільки ненадійна методика без знання її валідності є практично марною.

Слід зазначити, що питання про валідність до останнього часу є одним із найскладніших. Найбільш укоріненим визначенням цього поняття є те, яке наведено в книзі А. Анастазі: "Валідність тесту - поняття, що вказує нам, що тест вимірює і наскільки добре він це робить" (1982. С. 126). Валідність за своєю сутністю - це комплексна характеристика, що включає, з одного боку, відомості про те, чи придатна методика для вимірювання того, для чого вона була створена, а з іншого боку, якою є її дієвість, ефективність. З цієї причини не існує єдиного універсального підходу до визначення валідності. Залежно від того, який бік валідності хоче розглянути дослідник, використовуються і різні способидокази. Іншими словами, поняття валідності включає різні її види, що мають свій особливий сенс. Перевірка валідності методики називається валідизації.

Валідність у першому її розумінні має відношення до самої методики, тобто це валідність вимірювального інструменту. Така перевірка називається теоретичною валідизації. Валідність у другому розумінні вже відноситься не так до методики, як до мети її використання. Це прагматична валідизація.

Отже, при теоретичній валідизації дослідника цікавить сама властивість, що вимірюється методикою. Це по суті означає, що проводиться власне психологічна валідизація. При прагматичній валідизації суть предмета виміру (психологічної властивості) виявляється поза увагою. Головний акцент зроблено на те, щоб довести, що щось, що вимірюється методикою, має зв'язок з певними областями практики.

Провести теоретичну валідизацію, на відміну прагматичної, часом виявляється значно важче. Не вдаючись поки в конкретні деталі, зупинимося в загальних рисах на тому, як перевіряється прагматична валідність: вибирається якийсь незалежний від методики зовнішній критерій, що визначає успіх у тій чи іншій діяльності (навчальній, професійній тощо), і з ним порівнюються результати діагностичної методики. Якщо зв'язок між ними визнається задовільним, то робиться висновок про практичну ефективність, дієвість діагностичної методики.

Для визначення теоретичної валідностіВизначити будь-який незалежний критерій, що лежить поза методикою, набагато складніше. Тому на ранніх стадіяхрозвитку тестології, коли концепція валідності тільки складалася, існувало інтуїтивне уявлення про те, що тест вимірює:

1) методика визнавалася валідною, тому що те, що вона вимірює, просто "очевидно";

    підтвердження валідності грунтувалося на впевненості дослідника у цьому, що його метод дозволяє " зрозуміти випробуваного " ;

    методика розглядалася як валідна (тобто приймалося твердження, що такий тест вимірює таку якість) тільки тому, що теорія, на підставі якої будувалася методика, "дуже хороша".

Прийняття на віру голослівних тверджень про валідність методики не могло тривати тривалий час. Перші прояви справді наукової критики розвінчали такий підхід: розпочалися пошуки науково обґрунтованих доказів.

Як уже говорилося, провести теоретичну валідизацію методики - це показати, чи дійсно методика вимірює саме ту властивість, якість, яку вона, за задумом дослідника, має вимірювати. Так, наприклад, якщо якийсь тест розроблявся для того, щоб діагностувати розумовий розвиток школярів, треба проаналізувати, чи він справді вимірює саме цей розвиток, а не якісь інші особливості (наприклад, особистість, характер тощо). Таким чином, для теоретичної валідизації кардинальною проблемою є відношення між психічними явищами та їх показниками, за допомогою яких ці психічні явища намагаються пізнати. Вона показує, що задум автора та результати методики збігаються.

Не так складно здійснити теоретичну валідизацію нової методики, якщо для вимірювання цієї властивості вже є методика з відомою, доведеною валідністю. Наявність кореляції між новою та аналогічною старою методиками вказує на те, що розроблена методика вимірює ту саму психологічну якість, що й еталонна. І якщо новий метододночасно виявляється більш компактним та економічним у проведенні та обробці результатів, то психодіагности отримують можливість використовувати новий інструмент замість старого. Такий прийом особливо часто використовується в диференціальній психофізіології під час створення методик діагностики основних властивостей нервової системи людини (див. гл. VII).

Але теоретична валідність доводиться як шляхом зіставлення з спорідненими показниками, і навіть із тими, де з гіпотези значних зв'язків повинно бути. Таким чином, для перевірки теоретичної валідності важливо, з одного боку, встановити ступінь зв'язку з спорідненою методикою (конвергентна валідність) та відсутність цього зв'язку з методиками, що мають іншу теоретичну основу (дискримінантна валідність).

Набагато важче провести теоретичну валідизацію методики тоді, коли такий шлях неможливий. Найчастіше саме з такою ситуацією стикається дослідник. У таких обставинах лише поступове накопичення різноманітної інформації про досліджувану властивість, аналіз теоретичних передумов та експериментальних даних, значний досвід роботи з методикою дозволяє розкрити її психологічний сенс.

Важливу роль розуміння те, що методика вимірює, грає зіставлення її показників із практичними формами діяльності. Але особливо важливо, щоб методика була ретельно опрацьована в теоретичному плані, тобто. щоб була міцна, обгрунтована наукова база. Тоді при зіставленні методики із взятим з

повсякденної практики зовнішнім критерієм, що відповідає тому, що вона вимірює, може бути отримана інформація, що підкріплює теоретичні уявлення про її сутність.

Важливо пам'ятати, що якщо доведено теоретичну валідність, то інтерпретація отриманих показників стає більш ясною та однозначною, а назва методики відповідає сфері її застосування.

Що стосується прагматичної валідизації,вона передбачає перевірку методики з погляду її практичної ефективності, значущості, корисності. Їй надають великого значення, особливо там, де постає питання відбору. Розробка та використання діагностичних методик має сенс лише тоді, коли є обґрунтоване припущення, що яка вимірюється якість проявляється у певних життєвих ситуаціях, у певних видах діяльності.

Якщо знову звернутися до історії розвитку тестології (А Анастазі, 1982; BC Аванесов, 1982; К.М. Гуревич, 1970; "Загальна психодіагностика", 1987; Б.М Теплов, 1985 та ін), то можна виділити такий період (20 -30-ті рр), коли науковий зміст тестів та його теоретичний "багаж" цікавили меншою мірою. Важливо було, щоб тест "працював", допомагав швидко відбирати найпідготовленіших людей. Емпіричний критерій оцінки тестових завдань вважався єдино вірним орієнтиром у вирішенні наукових та прикладних завдань.

Використання діагностичних методик із суто емпіричним обґрунтуванням, без чіткої теоретичної бази нерідко призводило до псевдонаукових висновків, до невиправданих практичних рекомендацій. Не можна було назвати ті здібності, якості, які тести виявляли. Б.М. Теплов, аналізуючи тести періоду, назвав їх " сліпими пробами " (1985).

Такий підхід до проблеми валідності тестів був характерний аж до початку 50-х років. у США, а й у інших країнах. Теоретична слабкість емпіричних методів валідизації не могла не викликати критики з боку тих вчених, які у розробці тестів закликали спиратися не тільки на "голу" емпірику та практику, а й на теоретичну концепцію. Практика без теорії, як відомо, сліпа, а теорія без практики мертва. В даний час теоретико-прагматична оцінка валідності методик сприймається як найпродуктивніша.

Для прагматичної валідизації методики, тобто. з метою оцінки її ефективності, дієвості, практичної значущості, зазвичай використовується незалежний зовнішній критерій - показник прояви досліджуваного властивості у повсякденні. Таким критерієм може бути успішність (для тестів здібностей до навчання, тестів досягнень, тестів інтелекту), виробничі досягнення (для методик професійної спрямованості), ефективність реальної діяльності – малювання, моделювання тощо. (Для тестів спеціальних здібностей), суб'єктивні оцінки (для тестів особистості).

Американські дослідники Тіфін і Маккормік (1968), провівши аналіз використовуваних для доказу валідності зовнішніх критеріїв, виділяють чотири їх типи:

1) критерії виконання (до них можуть входити такі, як кількість виконаної роботи, успішність, час, витрачений на навчання, темп зростання

кваліфікації тощо);

2) суб'єктивні критерії (вони включають різні види відповідей, які відображають ставлення людини до будь-чого або до кого-небудь, її думку, погляди, переваги; зазвичай суб'єктивні критерії отримують за допомогою інтерв'ю, опитувальників, анкет);

3) фізіологічні критерії (вони використовуються при вивченні впливу навколишнього середовища та інших ситуаційних змінних на організм та психіку людини; заміряється частота пульсу, тиск крові, електроопір шкіри, симптоми втоми тощо);

4) критерії випадковостей (застосовуються, коли мета дослідження стосується, наприклад, проблеми відбору для роботи таких осіб, які менш схильні до нещасних випадків).

Зовнішній критерій повинен відповідати трьом основним вимогам:

він має бути релевантним, вільним від перешкод (контамінації) та надійним.

Під релевантністю мають на увазі смислове відповідність діагностичного інструменту незалежному життєво важливому критерію. Інакше кажучи, має бути упевненість у цьому, що у критерії задіяні саме особливості індивідуальної психіки, які вимірюються і діагностичною методикою. Зовнішній критерій і діагностична методика повинні бути між собою у внутрішньому змістовному відповідності, бути якісно однорідними за психологічною сутністю (К.М. Гуревич, 1985). Якщо, наприклад, тест вимірює індивідуальні особливості мислення, вміння виконувати логічні дії з певними об'єктами, поняттями, то й у критерії слід шукати прояв саме цих умінь. Це однаково відноситься і до професійної діяльності. Вона має не одну, а кілька цілей, завдань, кожна з яких специфічна і висуває свої умови до виконання. Із цього випливає існування кількох критеріїв виконання професійної діяльності. Тому не слід проводити зіставлення успішності за діагностичними методиками з виробничою ефективністю загалом. Необхідно знайти такий критерій, який характером виконуваних операцій співвідносний з методикою.

Якщо щодо зовнішнього критерію невідомо, чи релевантний він вимірюваній властивості чи ні, то зіставлення з ним результатів психодіагностичної методики стає практично марним. Воно не дозволяє дійти будь-яких висновків, які б дати оцінку валідності методики.

Вимоги свободи від контамінації викликаються тим, що, наприклад, навчальна чи виробнича успішність залежить від двох змінних: від самої людини, її індивідуальних особливостей, що вимірюються методиками, та від ситуації, умов навчання, праці, які можуть привнести перешкоди, "забруднити" застосовуваний критерій . Щоб певною мірою уникнути цього, слід відбирати для дослідження такі групи людей, які перебувають у більш менш однакових умовах. Можна використовувати інший метод. Він полягає у коригуванні впливу перешкод. Це коригування носить зазвичай статистичний характер. Так, наприклад, продуктивність слід брати не за абсолютними значеннями, а щодо середньої продуктивності робочих, що працюють в аналогічних умовах.

Коли кажуть, що критерій повинен мати статистично достовірну надійність, це означає, що він повинен відображати постійність та стійкість досліджуваної функції.

Пошуки адекватного критерію, що легко виявляється, відносяться до дуже важливих і складних завдань валідизації. У західній тестології багато методик дискваліфіковано лише тому, що не вдалося знайти відповідного критерію для їхньої перевірки. Наприклад, у більшості анкет дані щодо їх валідності сумнівні, тому що важко знайти адекватний зовнішній критерій, що відповідає тому, що вони вимірюють.

Оцінка валідності методики може мати кількісний і якіснийхарактер.

Для обчислення кількісного показника – коефіцієнта валідності – зіставляються результати, отримані при застосуванні діагностичної методики, з даними, отриманими за зовнішнім критерієм, тих самих осіб. Використовуються різні видилінійної кореляції (за Спірменом, за Пірсоном).

Скільки досліджуваних необхідно для розрахунку валідності? Практика показала, що їх не повинно бути менше 50, проте найкраще понад 200 Часто виникає питання, якою має бути величина коефіцієнта валідності, щоб вона вважалася прийнятною? Загалом зазначається, що достатньо того, щоб коефіцієнт валідності був статистично значущим. Низьким визнається коефіцієнт валідності порядку 0,20-0,30, середнім – 0,30-0,50 та високим – понад 0,60.

Але, як підкреслюють А. Анастазі (1982), К.М. Гуревич (1970) та інших, який завжди для обчислення коефіцієнта валідності правомірно використовувати лінійну кореляцію. Цей прийом виправданий лише тоді, коли доведено, що успіх у якійсь діяльності прямо пропорційний до успіху у виконанні діагностичної проби. Позиція зарубіжних тестологів, особливо тих, хто займається профпридатністю та профвідбором, найчастіше зводиться до беззастережного визнання того, що для професії більше підійде той, хто виконав завдання в тесті. Але можливо і так, що для успіху в діяльності необхідно мати властивість на рівні 40% рішення тесту. Подальший успіх у тесті вже не має жодного значення для професії Наочний приклад з монографії КМ Гуревича: листоноша має вміти читати, але чи читає він зі звичайною швидкістю або з дуже великою швидкістю - це вже не має професійного значення. При такому співвідношенні показників методики та зовнішнього критерію найбільш адекватним способом встановлення валідності може бути критерій відмінностей.

Можливий інший випадок: більше високий рівеньвластивості, чим це вимагає професія, є перешкодою професійного успіху. Так Ф Тейлор виявив, що найрозвиненіші робітниці виробництва мають невисоку продуктивність праці. Тобто високий рівень їхнього розумового розвитку заважає їм високопродуктивно працювати. І тут для обчислення коефіцієнта валідності більше підійшов би дисперсійний аналіз чи обчислення кореляційних відносин.

Як показав досвід роботи зарубіжних тестологів, жодна статистична процедура не може повністю відобразити різноманіття індивідуальних оцінок. Тому часто для доказу валідності методик використовують іншу модель – клінічні оцінки. Це не що інше, як якісний опис сутності досліджуваного

властивості. І тут йдеться про використання прийомів, які спираються на статистичну обробку.

Існує кілька видів валідності,обумовлених особливостями діагностичних методик, а також тимчасовим статусом зовнішнього критерію У багатьох роботах (А Анастазі, 1982; Л.Ф Бурлачук, СМ. Морозов, 1989; КМ. Гуревич, 1970; Б.В Кулагін, 1984; У Черни, 1983; Загальна психодіагностика", 1987 та ін) називаються найчастіше такі:

    Валідність "за змістом".Цей прийом використовують у основному тестах досягнень. Зазвичай до тестів досягнень включається не весь матеріал, який пройшли учні, а якась його невелика частина (3-4 питання). Чи можна бути впевненим у тому, що правильні відповіді на ці небагато питань свідчать про засвоєння всього матеріалу. На це має відповісти перевірка валідності за змістом. Для цього проводиться зіставлення успішності тесту з експертними оцінками вчителів (за даним матеріалом). Валідність "за змістом" також підходить до критеріально-орієнтованих тестів. Іноді цей прийом називають логічною валідністю.

    Валідність "за одночасністю",або поточна валідність, визначається за допомогою зовнішнього критерію, за яким інформація збирається одночасно з експериментами за методикою, що перевіряється. Іншими словами, збираються дані, що відносяться до цього часу успішність у період випробування, продуктивність у цей же період і т.д. З ним корелюють результати успішності по тесту.

    "Пророча" валідність(Інша назва - "прогностична" валідність). Визначається також за досить надійним зовнішнім критерієм, але інформація по ньому збирається через деякий час після випробування. Зовнішнім критерієм зазвичай буває виражена у якихось оцінках здатність людини до виду діяльності, на яку він відбирався за результатами діагностичних випробувань. Хоча цей прийом найбільше відповідає задачі діагностичних методик - передбаченню майбутньої успішності, застосовувати його дуже важко. Точність прогнозу залежить від часу, заданого для такого прогнозування. Чим більше минає часу після вимірювання, тим більше факторів потрібно враховувати при оцінці прогностичної значущості методики. Проте зважити на всі фактори, що впливають на передбачення, практично неможливо.

    "Ретроспективна" валідність.Вона визначається на основі критерію, що відображає події або стан якості у минулому. Може бути використана для швидкого отриманнявідомостей про передбачувальні можливості методики. Так, для перевірки того, якою мірою гарні результатитести здібностей відповідають швидкому навчанню, можна порівняти попередні оцінки успішності, попередні експертні висновки і т.д. в осіб із високими та низькими на даний момент діагностичними показниками.

При наведенні даних про валідність розробленої методики важливо точно вказати, який вид валідності мається на увазі (за змістом, одночасності і т.д.). Бажано також повідомляти відомості про чисельність та особливості індивідів, на яких проводилася валідизація. Така інформація дозволяє досліднику, який користується методикою, вирішити, наскільки валідний цей прийом для тієї групи,

якою він збирається його застосовувати. Як і у випадку з надійністю, необхідно пам'ятати, що в одній вибірці методика може мати високу валідність, а в іншій - низьку. Тому якщо дослідник планує використовувати методику на вибірці піддослідних, що істотно відрізняється від тієї, на якій проводилася перевірка валідності, йому необхідно провести таку перевірку. Наведений у керівництві коефіцієнт валідності застосовний лише до груп піддослідних, подібних до тих, на яких він визначався.

Література

Анастазі А.Психологічне тестування "У 2 кн. / За ред. К.М. Гуревича, В І. Лубовського М., 1982. Кн 1.

Гуревич К.Мнадійності психофізіологічних показників// Проблеми диференціальної психофізіології М., 1969 Т VI. З 266-275.

Гуревич К.МНадійність психологічних тестів// Психологічна діагностика Її проблеми та методи М, 1975 З 162-176.

Гуревич КМСтатистика - апарат доказу психологічної діагностики// Проблеми психологічної діагностики Таллінн 1977. З 206-225

Гуревич К.МЧ^отаке психологічна діагностика М., 1985.