Что такое достоверность результата измерений
Что такое достоверность измерений?
Основная характеристика измерений – это достоверность измерений.
Достоверность измерений – это характеристика, определяющая степень доверия к полученным результатам измерений. По данной характеристике измерения делятся на достоверные и недостоверные. Достоверность измерений зависит того, известна ли вероятность отклонения результатов измерения от настоящего значения измеряемой величины. Если же достоверность измерений не определена, то результаты таких измерений, как правило, не используются. Достоверность измерений ограничена сверху погрешностью измерений.
Что такое воспроизводимость результатов измерений?
Примечание: Воспроизводимость измерений может характеризоваться средними квадратическими погрешностями сравниваемых рядов измерений.
Перечислите общие способы обнаружения и уменьшения систематических погрешностей.
Для устранения систематических погрешностей в процессе уже начатого измерения применяются различные способы
Способ введения поправок базируется на знании систематической погрешности и действующих закономерностей ее изменения. При использовании данного способа в результат измерения, полученный с систематическими погрешностями, вносят поправки, по величине равные этим погрешностям, но обратные по знаку.
Способ замещения состоит в том, что измеряемая величина заменяется мерой, помещенной в те же самые условия, в которых находился объект измерения. Способ замещения применяется при измерении следующих электрических параметров: сопротивления, емкости и индуктивности.
Способ компенсации погрешности по знаку состоит в том, что измерения выполняются два раза таким образом, чтобы погрешность, неизвестная по величине, включалась в результаты измерений с противоположным знаком.
Способ противопоставления похож на способ компенсации по знаку. Данный способ состоит в том, что измерения выполняют два раза таким образом, чтобы источник погрешности при первом измерении противоположным образом действовал на результат второго измерения.
Перечислите специальные способы обнаружения и уменьшения систематических погрешностей.
Управленческая теория измерений.
Надёжность и достоверность измерений
Управленческая теория измерений.
Надёжность и достоверность измерений
К. э. н., доцент кафедры финансового менеджмента, управленческого учёта и международных стандартов финансовой деятельности факультета ВШФМ РАНХиГС при Президенте РФ, руководитель консультационного бюро Института экономических стратегий, преподаватель школ бизнеса РАНХиГС, НИУ ВШЭ, МГУ, РСПП, ИНЭС и др.
Надёжность измерений
Надёжность измерений — это широкое понятие. Описанные в теории измерений виды шкал не дают полного представления о свойствах полученных по ним оценок. Необходимо выявить присущие этим оценкам ошибки. Это и называется оценкой надёжности измерения. Данная проблема решается путём выявления трёх свойств измерения:
Правильность измерения — это приемлемость используемого способа измерения (шкалы или системы шкал). Оно связано с возможностью учёта различного рода систематических ошибок, возникающих в результате измерения. Систематические ошибки измерения имеют некоторую стабильную природу возникновения: они либо постоянные, либо меняются по определённому закону. Возможно, что последующие этапы оценки надёжности измерения окажутся излишними, если в начале выяснится полная неспособность инструмента измерения дифференцировать изучаемую характеристику на требуемом уровне. Самый простой возможный вариант — исследуемую характеристику объекта просто нельзя дифференцировать с нужной точностью. Систематические ошибки в результате измерения также будут, если окажется, что систематически не используется какая-то градация шкалы или вопроса. Например, исследования показывают, что при непосредственном присваивании коэффициентов люди пользуются ограниченным набором чисел [2].
Как добиться правильности измерений? Прежде всего, нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать её в прикладных целях. Например, изменение шкалы оценок, используемой в ВШЭ. Первоначально в ВШЭ использовалась 10-балльная шкала без пояснений к баллам. В результате анализа правильности измерений выяснилось, что есть градации шкалы, которые практически не применяются (оценки 1, 2 и 10). Тогда шкала оценок была заменена на новую 5-балльную — менее информативную, но более надёжную (таблица 5).
Французская 20-балльная шкала | 10-балльная шкала оценок ВШЭ | Новая 5-балльная шкала оценок ВШЭ |
18 и выше | 10 | «Отлично» — 5 |
17 | 9 | |
15 — 16 | 8 | |
14 | 7 | «Хорошо» — 4 |
12 — 13 | 6 | |
11 | 5 | «Удовлетворительно» — 3 |
9 — 10 | 4 | |
Менее 9 | 1 — 3 | Неудовлетворительно |
Устойчивость измерения характеризует степень совпадения результатов при повторных применениях измерительной процедуры. Она описывается величиной случайной ошибки (чаще всего используется средняя квадратическая ошибка). Устойчивость характеризует постоянство подхода респондента к ответам на одинаковые или подобные вопросы. День на день не приходится, один и тот же человек в разных условиях может дать разные ответы на одинаковый вопрос. Эту неустойчивость оценок при использовании нефинансовых качественных показателей деятельности компании исключать или игнорировать никак нельзя.
Как оценить устойчивость измерений? Существует несколько методов оценки устойчивости измерений:
Устойчивость может быть измерена статистически достаточно строго и выражена в форме числового показателя. Правда, в системе показателей компании это практически не применяется, и устойчивость оценок остаётся «вещью в себе». Например, на Талнахской горно-обогатительной фабрике начальник может увеличить или уменьшить на 1 балл оценку своему подчинённому при 4-балльной системе измерений. Попробуйте установить устойчивость такой оценки формально. Это не получится.
Тем не менее, этот приём (субъективное увеличение или уменьшение оценки на 1 балл) я оцениваю положительно. Дело в том, что абсолютно объективных оценок не бывает. Всегда надо как-то учесть субъективное мнение. Особенно если добавление (удаление) целого балла прописано и используется в системе как «дамоклов меч», то есть скорее как угроза, исключительная мера, а не система оценок «за голубые глазки» (именно так он используется, например, на Талнахской горно-обогатительной фабрике).
Обоснованность измерения — это доказательство соответствия между тем, что измерено, и тем, что должно было быть измерено. Это наиболее сложный вопрос надёжности измерения. Трудно доказать, что измерено вполне определённое заданное свойство объекта, а не некоторое другое, более или менее на него похожее.
В отличие от правильности и устойчивости, которые в идеале могут быть измерены достаточно строго и иногда даже могут быть выражены в форме числового показателя, критерии обоснованности определяются либо экспертно, на основе логических рассуждений, либо на основе косвенных данных. В социологии обычно применяется сравнение данных одной методики с данными других методик или исследований, однако в системе показателей компании это практически исключено. Остаётся экспертное профессиональное мнение. Однако наши менеджеры уверены, что их шкалы оценки той или иной характеристики верные. Уверяю вас, это очень далеко от истины! Наши руководители сами разрабатывают даже систему мотивации, тогда как на Западе принято отдавать это на аутсорсинг фирмам-профессионалам. Что уж говорить о каких-то показателях. Неудивительно, что нефинансовые показатели используются пока редко.
Четвертый объект лишний? Или третий эксперт?
Иногда при измерении по порядковым шкалам привлечение ещё одного объекта экспертизы меняет отношения порядка при обработке с помощью суммарного балла порядковых измерений. Предположим, трём экспертам дали задание ранжировать 4 объекта. Результаты приведены в таблице:
Объекты измерения | A | B | C | D |
Результаты измерений трёх экспертов | 1 | 2 | 3 | 4 |
4 | 2 | 1 | 3 | |
2 | 3 | 4 | 1 | |
Суммарная оценка | 7 | 7 | 8 | 8 |
Вывод: объекты А и В равноценны и лучше, чем С и D, которые тоже равноценны. Теперь уберём объект D и попросим экспертов снова упорядочить между собой объекты А, В и С. Мы вправе ожидать, что предпочтения экспертов, то есть их оценки относительного порядка объектов, не изменятся. Тогда получим следующие результаты:
Объекты измерения | A | B | C | Нет данных |
Результаты измерений трёх экспертов | 1 | 2 | 3 | Нет данных |
3 | 2 | 1 | Нет данных | |
1 | 2 | 3 | Нет данных | |
Суммарная оценка | 5 | 6 | 7 | Нет данных |
Вывод: объект А лучше объекта В, который, в свою очередь, лучше, чем С. Согласитесь, что выводы различаются. И всё из-за наличия «лишнего» объекта измерений. Значит, достоверность зависит от количества объектов измерения.
Вывод по результатам измерений в порядковой шкале меняется и в зависимости от количества экспертов. Уберём одного эксперта, а предпочтения оставшихся будем считать неизменными. В результате получим:
Объекты измерения | A | B | C | D |
Результаты измерений трёх экспертов | 1 | 2 | 3 | 4 |
4 | 2 | 1 | 3 | |
Нет данных | Нет данных | Нет данных | Нет данных | |
Суммарная оценка | 5 | 4 | 4 | 7 |
Вывод опять изменился: объекты В и С равно хороши и лучше объекта А, который, в свою очередь, лучше, чем объект D. Значит, достоверность измерения зависит от количества экспертов. И не факт, что чем больше экспертов, тем выше достоверность выводов.
Три составляющие измерения. Помимо перечисленного выше, при установлении надёжности следует иметь в виду, что в процессе измерения участвуют три составляющие:
Предпосылки надёжного измерения кроются в каждой отдельной составляющей. Может быть, что способ получения оценки не в состоянии дать максимально точных значений измеряемого свойства. Например, у респондента существует развёрнутая иерархия ценностей, а для получения информации используется шкала с вариациями ответов только «очень важно» и «совсем не важно». Как правило, если используется такая шкала, то все характеристики будут «очень важными», хотя реально у респондента имеется большее число уровней значимости.
Возможно, что субъект, производящий измерение, допускает грубые ошибки; нечётко составлены инструкции к анкете; интервьюер каждый раз по-разному формулирует один и тот же вопрос, используя различную терминологию. На практике это критически важно. Именно поэтому построение системы показателей деятельности сопровождается обучением, разработкой тезауруса, распространением информации, разбором опыта подобных измерений и оценок, приёмами социологии и психологии.
Достоверность измерений
Достоверность характеризует другие аспекты измерений, чем надёжность. Измерение может быть надёжным, но недостоверным. Достоверность характеризует точность измерений по отношению к тому, что существует в реальности. Например, респонденту задали вопрос о целевой месячной выручке. Он её оценивает в 250 000 долларов. Однако, не желая называть интервьюеру истинную цифру, респондент указал «более 100 000 долларов». При повторном тестировании он снова назвал данную цифру, демонстрируя высокий уровень надёжности измерений. То есть измерение надёжно, но недостоверно. Но ложь не является единственной причиной низкого уровня достоверности измерений, её причиной может быть плохое знание респондентом действительности и т. п.
Достоверность — это доверие измерению и оценке, степень уверенности, что в измерении нет ошибки.
Достоверность системы показателей деятельности компании весьма важна. Например, какой вес присвоить одному из двух показателей, сделав его более важным? Точно посчитать вес невозможно, выбирать его придётся субъективно из множества чисел от 0,5 до 1. Но исследования показывают, что при присваивании коэффициентов люди пользуются ограниченным набором чисел, причём используют этот набор крайне неравномерно [2].
Отметим некоторые наиболее общие факторы, влияющие на достоверность измерений и не связанные с предметной областью.
Как повысить достоверность измерений? Повышение достоверности измерений может быть связано с разными факторами. Отметим два наиболее общих способа.
Отмечу, что в социологии и маркетинге достоверность измерений существенно более сложное понятие, чем то, что описано выше. В социологии достоверность определяют как степень, в которой различия между оценками, полученными по шкале, отражают истинные различия между измеряемыми характеристиками объектов, а не обусловлены случайными и систематическими ошибками.
Полная достоверность — это отсутствие ошибок измерения.
Исследователи разделяют содержательную, критериальную и конструктивную достоверность.
Содержательная достоверность (content validity) 1 — субъективная систематическая оценка того, насколько хорошо содержание шкалы соответствует поставленной цели измерения. Например, шкала, разработанная для измерения имиджа магазина, считается неадекватной, если будет опущена одна из существенных характеристик объекта (например, качество и разнообразие (широта и глубина ассортимента) предлагаемой продукции). Оценка содержательной достоверности очевидно субъективна, но в любой системе показателей деятельности субъективизм неизбежен. Однако важно понимать: баллы выбраны и описаны адекватно измеряемому объекту или нет. Хотя выбор балльной шкалы — дело достаточно субъективное.
Критериальная достоверность (criterion validity) отражает, насколько используемая шкала соответствует цели измерений. В зависимости от временных рамок измерения критериальная достоверность может принимать две формы — текущую или прогнозную достоверность. Текущая критериальная достоверность определяется, когда данные, полученные на основе использования шкалы, и сведения о целях измерения (критериальных переменных) собираются одновременно. Для оценки прогнозной критериальной достоверности исследователь собирает измерения по шкале в один период времени, а по целям (критериальным переменным) — в другой. Например, отношение к различным маркам продуктов может использоваться для прогноза будущих объёмов их продаж. У определённой выборки покупателей получают информацию об их отношении к продукту, а затем будущие закупки проверяются по данным исследования. Прогнозные и фактические данные по покупкам сравниваются для оценки прогнозной достоверности шкалы отношения к различным маркам продуктов.
При разработке и эксплуатации системы показателей деятельности компании критериальная достоверность вполне применима. Всем важно знать, как используются их оценки в системе мотивации и при принятии каких решений. Поэтому не лишне иметь представление и о проблеме критериальной достоверности.
Конструктивная достоверность (construct validity) связана с ответами на теоретические вопросы: почему должна использоваться эта шкала и какие выводы можно сделать из лежащей в её основе теории. Конструктивную достоверность понять сложнее, останавливаться на ней здесь мы не будем.
В следующей части статьи речь пойдёт об информативности измерений. Мы проанализируем приведённую в предыдущей части систему оценок в фигурном катании, а также обсудим использование теории измерений в системе показателей компании.
Основы общей теории измерений
2.4. Точность и достоверность результата измерения
Применение рассмотренных выше элементов общей теории измерений необходимо для обеспечения точности и достоверности результата измерения. При многократных наблюдениях получают ряд значений, обрабатывая которые находят результат измерения. Для обработки применяют инструменты математической статистики, рассматривая ряд значений как выборку из генеральной совокупности. Опираясь на теорию вероятностей, математическая статистика позволяет оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала.
Требуемая точность технических измерений может также обеспечиваться повторением многократных наблюдений. В этом случае многократные наблюдения одного и того же объекта выполняются несколько раз. Чтобы сократить время, необходимое для обработки нескольких рядов многократных наблюдений, в начале процесса обработки применяют индикаторы, позволяющие определить предпочтительный ряд и в дальнейшем обрабатывать только этот ряд.
Такими индикаторами является сумма остаточных погрешностей и сумма квадратов остаточных погрешностей. Эти индикаторы являются косвенной характеристикой несмещенности и эффективности оценки, полученной при обработке результатов многократных наблюдений.
Однако симметричность не является исчерпывающей характеристикой распределения. Следующим важным в метрологии признаком является компактность распределения. По этому признаку при фиксированном числе наблюдений предпочтительный ряд может быть определен индикатором эффективности. Эффективной называется та из нескольких возможных несмещенных оценок, которая имеет наименьшую дисперсию. Условию эффективности будет удовлетворять ряд с наименьшей суммой квадратов остаточных погрешностей.
Очевидно, что в практической метрологии эффективная оценка является предпочтительной. Признак эффективности свидетельствует о том, что субъективная составляющая случайной погрешности минимальна, наблюдения выполнялись более аккуратно и будет обеспечен наименьший размер случайной погрешности.
В теоретической метрологии рассматривается также состоятельная оценка, являющаяся идеальной моделью для многократных измерений, к которой желательно стремиться, но получить ее практически невозможно. При состоятельной оценке истинное и действительное значение совпадают, погрешность равна нулю. Это достигается бесконечным увеличением числа наблюдений. Состоятельной называется оценка, в которой при числе наблюдений, стремящемся к бесконечности, дисперсия стремится к нулю.
Задавая большую степень неопределенности контролируемым посредством измерений событиям, мы получаем большую уверенность в том, что они произойдут.
2.5. Прямые равноточные измерения с многократными наблюдениями
Метод прямых равноточных измерений с многократными наблюдениями является основополагающим, используется в технических измерениях для повышения достоверности результата, является основой для многих методов метрологических измерений, для методов косвенных измерений.
Равноточность измерений истолковывается в широком смысле, как одинаковая распределенность (в узком смысле равноточность измерений понимается как одинаковость меры точности всех результатов измерений). Наличие грубых ошибок (промахов) означает нарушение равноточности как в широком, так и в узком смысле.
Результат измерения находят как среднее арифметическое результатов наблюдений:
где — число наблюдений.
Для оценки среднего квадратического отклонения результата измерения находим случайные отклонения результатов отдельных наблюдений, принимаем их за остаточные погрешности,
Для минимизации случайной и систематической составляющих погрешности, при наличии нескольких групп наблюдений (реализаций), используют два свойства остаточных погрешностей: сумма остаточных погрешностей равна нулю,
и сумма квадратов остаточных погрешностей минимальна,
Для дальнейших вычислений рекомендуется выбрать реализацию, удовлетворяющую этим условиям.
Степень рассеяния результатов наблюдений вокруг среднего арифметического значения характеризуется средним квадратическим отклонением, (СКО):
Оценка СКО учитывает ограниченность объем а выборки: при малом объем е выборки оценка СКО будет заметно больше, чем СКО, а при большом объем е выборки оценка СКО не будет заметно отличаться от СКО.
Полученное значение СКО результатов наблюдения не так универсально, как среднее арифметическое исправленных результатов наблюдений и не может быть непосредственно принято за значение случайной погрешности результата измерения. Для этого, прежде всего, необходимо восстановить размерность физической величины, ликвидировав нелинейность преобразования физической величины, разделив СКО результатов наблюдения на корень из . Полученное значение принимают за оценку среднего квадратического отклонения результата измерения:
Предположим, что наблюдения были получены в результате измерения цифровым вольтметром, имеющим класс точности, обозначенный цифрой 1,5 в кружочке, причем условия измерения выходили за нормальные пределы.
Основная инструментальная погрешность :
Дополнительная инструментальная погрешность :
Критерии качества измерений
Качество измерений характеризуется точностью, достоверностью, правильностью, сходимостью, воспроизводимостью и погрешностью измерений.
Точность – это качество измерений, отражающее близость их результатов к истинному значению измеряемой величины. Высокая точность измерений соответсвует малым погрешностям как систематическим, так и случайным. Точность количественно оценивают обратной величиной модуля относительной погрешности. Напремер, если погрешность измерений равна 0,05%, то точность будет равна 1/0,0005 = 2000.
Достоверность измерений характеризует степень доверия к результатам измерений. Достоверность оценки погрешностей определяют на основе законов теории вероятностей и математической статистики. Это дает возможность для каждого конкретного случая выбирать средства и методы измерений, обеспечивающие получение результата, погрешности которого не превышают заданных границ.
Правильность измерений – качество измерений, отражающее близость к нулю систематических погрешностей в результатах измерений.
Сходимость – качество измерений, отражающее близость друг к другу результатов измерений, выполняемых в одинаковых условиях. Сходимость измерений отражает влияние случайных погрешностей.
Воспроизводимость – это такое качество измерений, которое отражает близость друг к другу результатов измерений, выполняемых в различных условиях (в различное время, в различных местах, разными методами и средствами).
Погрешность измерения – отклонение результата измерения от истинного (действительного) значения измеряемой величины. Погрешность измерений представляет собой сумму ряда составляющих, каждая из которых имеет свою причину. Можно выделить слудующие группы причин возникновения погрешностей:
Анализируя причины возникновения погрешностей, необходимо в первую очередь выявить те из них, которые оказывают существенное влияние на резульат измерения. Анализ должен проводится в определенной последовательности.