dorinem (dorinem) wrote,
dorinem
dorinem

Category:

Оценки за сочинения

Вот не пишешь ты в ЖЖ, не пишешь, в голове роится туча идей для постов, но после некоторого перерыва становится непонятно, а как вернуться? Про что писать? Что-нибудь программное? Личное? Начинать с извинений?

В общем, я решила никак не начинать, а просто написать: здравствуйте!

Живу я хорошо, у ребёнка волосатость повышается, у котов хвосты не отваливаются, а на прошлой неделе я даже была на конференции. На конференции было много смешного и интересного, но об одной лекции я решила написать, потому что она меня поразила до глубины души.


Во многих стандартизированных тестах по всему миру есть часть, в которой нужно выполнить какое-нибудь письменное задание - иногда полное сочинение, иногда краткий анализ, вариантов есть много. Есть такие части и в ЕГЭ по русскому, английскому и обществознанию, например. А около года назад такая часть появилась и в психотесте. Понятно, что такие задания проверяются живыми людьми. И общепринятая система во всех знакомых мне экзаменах такова, что экспертов всегда двое, потому что живым людям свойственно ошибаться. Оценка вычисляется просто - делается среднее арифметическое между двумя оценками.

А вот дальше начинается разнобойчик. В части экзаменов считают среднее и всё. А в части экзаменов (в том числе в ЕГЭ и на психотесте) ещё проверяется разница между этими оценками, и если она больше определённого порога, то привлекается третий эксперт. Третий эксперт ставит оценку и потом эта третья оценка сравнивается с двумя предыдущими. Та оценка, к которой ближе оценка третьего эксперта, остаётся, а та, которая дальше - выкидывается, и для получения конечного балла делается среднее из двух оставшихся оценок. Эта система принята во всех известных мне западных, израильских и российских экзаменах, в которых есть третий эксперт.

Это была присказка, а вот дальше начинается настоящая сказка. Дядечка, который давал лекцию на конференции, решил проверить, а насколько хороша эта система. Сначала они сделали компьютерную симуляцию. Сделали большой пул "сочинений", настоящая оценка за которые была заложена в программу, а также заложили оценки экспертов с разными разбросами. Симуляция брала сочинение, рэндомально брала для него пару оценок, а дальше шла по алгоритму - проверяла разницу между оценками, если надо, привлекала третьего эксперта и считала конечную оценку по разным моделям. Так как настоящая оценка по сочинению была известна (заложена в симуляцию), можно было посчитать уровень ошибки посчитанной оценки.

Самая плохая оценка (содержащая самую большую ошибку по сравнению с настоящей) была в случае, если брали просто оценку одного эксперта, что логично. А вот дальше пошли интересные результаты. Следующая по "худшести" оценка получилась именно при той системе, которая общепринята и звучит очень логично - третий эксперт+выбрасывание выбивающейся оценки. Намного лучше получалось, если всё делалось ровно наоборот - после проверки третьего эксперта выкидывалась та оценка из двух, которая ближе к третьей оценке. Ещё лучше была ситуация, при которой просто делалось среднее арифметическое двух оценок, вне зависимости от разброса между ними. И ещё лучше, что не удивительно, было делать среднее просто трёх оценок, ничего не отбрасывая.

Эти удивительные результаты, которые никак не сочетаются с интуитивными предположениями, было решено проверить на настоящих сочинениях с настоящими проверяющими экспертами. И реальные проверки показали ту же картину с почти теми же самыми числовыми значениями ошибок при каждой системе подсчёта.

Возможное объяснение этого феномена было предложено следующее: при проверке живым человеком ошибка практически неизбежна. Существующая система исходит из предположения, что если есть две сильно различающиеся оценки, одна из них ближе к правде, а другая неправильная. На самом деле, чаще всего ошибаются оба эксперта, просто в разные стороны, поэтому среднее между ними даёт самый адекватный результат. В случае же отбрасывания стоящей отдельно оценки среднее делается между двумя ошибочными оценками, но при этом они ошибаются в одну сторону, что увеличивает ошибку в конечном балле.

Вот так-то, малятки. А психотест и ЕГЭ так и продолжают проверять по старой системе, и никто менять это не собирается.

Кстати, вопрос на засыпку. Как вы думаете, каким образом исследователи сделали свои подсчёты на настоящих сочинениях, ведь настоящая оценка там неизвестна?

Tags: ЕГЭ, Психотест, Сегодня в номере
Subscribe

  • Make love and war, или Мочилово

    В эти дни большая часть народа Израиля, а также гости нашей маленькой, но гордой страны разделились на две части - те, кто идёт на водные войнушки в…

  • Нашего полку прибыло

    Вы не поверите, но нас теперь стало больше. На немножко. На одного маленького беленького котика. Вот такого: Как говорит Михаль,…

  • Годназады.

    Конечно, смешно в Израиле говорить о наставшей осени, но она таки настала. Оказалось, что год назад я даже успела кое-что написать в ЖЖ. Фликр-40.…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 26 comments

  • Make love and war, или Мочилово

    В эти дни большая часть народа Израиля, а также гости нашей маленькой, но гордой страны разделились на две части - те, кто идёт на водные войнушки в…

  • Нашего полку прибыло

    Вы не поверите, но нас теперь стало больше. На немножко. На одного маленького беленького котика. Вот такого: Как говорит Михаль,…

  • Годназады.

    Конечно, смешно в Израиле говорить о наставшей осени, но она таки настала. Оказалось, что год назад я даже успела кое-что написать в ЖЖ. Фликр-40.…