Что такое неопределенность знания
Неопределенность знания и количество информации
Содержательный подход к измерению информации отталкивается от определения информации как содержания сообщения, получаемого человеком. Сущность содержательного подхода заключается в следующем: сообщение, информирующее об исходе какого-то события, снимает неопределенность знания человека об этом событии.
Чем больше первоначальная неопределенность знания, тем больше информации несет сообщение, снимающее эту неопределенность.
Приведем примеры, иллюстрирующие данное утверждение.
Ситуация 1. В ваш класс назначен новый учитель информатики; на вопрос «Это мужчина или женщина?» вам ответили: «Мужчина».
Ситуация 2. На чемпионате страны по футболу играли команды «Динамо» и «Зенит». Из спортивных новостей по радио вы узнаете, что игра закончилась победой «Зенита».
Ситуация 3. На выборах мэра города было представлено четыре кандидата. После подведения итогов голосования вы узнали, что избран Н. Н. Никитин.
Вопрос: в какой из трех ситуаций полученное сообщение несет больше информации?
Неопределенность знания — это количество возможных вариантов ответа на интересовавший вас вопрос. Еще можно сказать: возможных исходов события. Здесь событие — например, выборы мэра; исход — выбор, например, Н. Н. Никитина.
В первой ситуации 2 варианта ответа: мужчина, женщина; во второй ситуации 3 варианта: выиграл «Зенит», ничья, выиграло «Динамо»; в третьей ситуации — 4 варианта: 4 кандидата на пост мэра.
Согласно данному выше определению, наибольшее количество информации несет сообщение в третьей ситуации, поскольку неопределенность знания об исходе события в этом случае была наибольшей.
В 40-х годах XX века проблема измерения информации была решена американским ученым Клодом Шенноном — основателем теории информации. Согласно Шеннону, информация — это снятая неопределенность знания человека об исходе какого-то события.
В теории информации единица измерения информации определяется следующим образом.
Сообщение, уменьшающее неопределенность знания об исходе некоторого события в два раза, несет 1 бит информации.
Согласно этому определению, сообщение в первой из описанных ситуаций несет 1 бит информации, поскольку из двух возможных вариантов ответа был выбран один.
Следовательно, количество информации, полученное во второй и в третьей ситуациях, больше, чем один бит. Но как измерить это количество?
Рассмотрим еще один пример.
Ученик написал контрольную по информатике и спрашивает учителя о полученной оценке. Оценка может оказаться любой: от 2 до 5. На что учитель отвечает: «Угадай оценку за два вопроса, ответом на которые может быть только «да» или «нет»». Подумав, ученик задал первый вопрос: «Оценка выше тройки?». «Да», — ответил учитель. Второй вопрос: «Это пятерка?». «Нет», — ответил учитель. Ученик понял, что он получил четверку. Какая бы ни была оценка, таким способом она будет угадана!
Первоначально неопределенность знания (количество возможных оценок) была равна четырем. С ответом на каждый вопрос неопределенность знания уменьшалась в 2 раза и, следовательно, согласно данному выше определению, передавался 1 бит информации.
Узнав оценку (одну из четырех возможных), ученик получил 2 бита информации.
Рассмотрим еще один частный пример, а затем выведем общее правило.
Вы едете на электропоезде, в котором 8 вагонов, а на вокзале вас встречает товарищ. Товарищ позвонил вам по мобильному телефону и спросил, в каком вагоне вы едете. Вы предлагаете угадать номер вагона, задав наименьшее количество вопросов, ответами на которые могут быть только слова «да» или «нет».
Немного подумав, товарищ стал спрашивать:
— Номер вагона больше четырех?— Да.— Номер вагона больше шести?— Нет.— Это шестой вагон?— Нет.— Ну теперь все ясно! Ты едешь в пятом вагоне!
Схематически поиск номера вагона выглядит так:
Каждый ответ уменьшал неопределенность знания в два раза. Всего было задано три вопроса. Значит, в сумме набрано 3 бита информации. То есть сообщение о том, что вы едете в пятом вагоне, несет 3 бита информации.
Способ решения проблемы, примененный в примерах с оценками и вагонами, называется методом половинного деления: ответ на каждый вопрос уменьшает неопределенность знания, имеющуюся перед ответом на этот вопрос, наполовину. Каждый такой ответ несет 1 бит информации.
Заметим, что решение подобных проблем методом половинного деления наиболее рационально. Таким способом всегда можно угадать, например, любой из восьми вариантов за 3 вопроса. Если бы поиск производился последовательным перебором: «Ты едешь в первом вагоне?» «Нет», «Во втором вагоне?» «Нет» и т. д., то про пятый вагон вы смогли бы узнать после пяти вопросов, а про восьмой — после восьми.
«Главная формула» информатики
Сформулируем одно очень важное условие, относящееся к рассмотренным примерам. Во всех ситуациях предполагается, что все возможные исходы события равновероятны. Равновероятно, что учитель может быть мужчиной или женщиной; равновероятен любой исход футбольного матча, равновероятен выбор одного из четырех кандидатов в мэры города. То же относится и к примерам с оценками и вагонами.
Тогда полученные нами результаты описываются следующими формулировками:
• сообщение об одном из двух равновероятных исходов некоторого события несет 1 бит информации;
• сообщение об одном из четырех равновероятных исходов некоторого события несет 2 бита информации;
• сообщение об одном из восьми равновероятных исходов некоторого события несет 3 бита информации.
Обозначим буквой N количество возможных исходов события, или, как мы это еще называли, — неопределенность знания. Буквой i будем обозначать количество информации в сообщении об одном из N результатов.
В примере с учителем: N = 2, i = 1 бит;в примере с оценками: N = 4, i = 2 бита;в примере с вагонами: N = 8, i = 3 бита.
Нетрудно заметить, что связь между этими величинами выражается следующей формулой:
2 i = N.
Действительно: 2 1 = 2 ; 2 2 = 4 ; 2 3 = 8.
С полученной формулой вы уже знакомы из курса информатики для 7 класса и еще не однажды с ней встретитесь. Значение этой формулы столь велико, что мы назвали ее главной формулой информатики. Если величина N известна, a i неизвестно, то данная формула становится уравнением для определения i. В математике такое уравнение называется показательным уравнением.
Пример. Вернемся к рассмотренному выше примеру с вагонами. Пусть в поезде не 8, а 16 вагонов. Чтобы ответить на вопрос, какое количество информации содержится в сообщении о номере искомого вагона, нужно решить уравнение:
2 i = 16.
Количество информации i, содержащееся в сообщении об одном из N равновероятных исходов некоторого события, определяется из решения показательного уравнения:
2 i = N.
Пример. В кинозале 16 рядов, в каждом ряду 32 места. Какое количество информации несет сообщение о том, что вам купили билет на 12-й ряд, 10-е место?
Но эту же задачу можно решать иначе. Сообщение о номере ряда несет 4 бита информации, так как 2 4 = 16. Сообщение о номере места несет 5 битов информации, так как 2 5 = 32. В целом сообщение про ряд и место несет: 4 + 5 = 9 битов информации.
Данный пример иллюстрирует выполнение закона аддитивностиколичества информации (правило сложения): количество информации в сообщении одновременно о нескольких результатах независимых друг от друга событий равно сумме количеств информации о каждом событии отдельно.
Сделаем одно важное замечание. С формулой 2 i = N мы уже встречались, обсуждая алфавитный подход к измерению информации (см. § 3. Измерение информации. Алфавитный подход). В этом случае N рассматривалось как мощность алфавита, а i — как информационный вес каждого символа алфавита. Если допустить, что все символы алфавита появляются в тексте с одинаковой частотой, т. е. равновероятно, то информационный вес символа i тождественен количеству информации в сообщении о появлении любого символа в тексте. При этом N — неопределенность знания о том, какой именно символ алфавита должен стоять в данной позиции текста. Данный факт демонстрирует связь между алфавитным и содержательным подходами к измерению информации.
Формула Хартли
Если значение N равно целой степени двойки (4, 8, 16, 32, 64 и т. д.), то показательное уравнение легко решить в уме, поскольку i будет целым числом. А чему равно количество информации в сообщении о результате матча «Динамо»-«Зенит»? В этой ситуации N = 3. Можно догадаться, что решение уравнения
2 i = 3.
будет дробным числом, лежащим между 1 и 2, поскольку 2 1 = 2 2 = 4 > 3. А как точнее узнать это число?
В математике существует функция, с помощью которой решается показательное уравнение. Эта функция называется логарифмом, и решение нашего уравнения записывается следующим образом:
Читается это так: «логарифм от N по основанию 2». Смысл очень простой: логарифм по основанию 2 от А — это степень, в которую нужно возвести 2, чтобы получить N. Например, вычисление уже известных вам значений можно представить так:
Значения логарифмов находятся с помощью специальных логарифмических таблиц. Также можно использовать инженерный калькулятор или табличный процессор. Определим количество информации, полученной из сообщения об одном исходе события из трех равновероятных, с помощью электронной таблицы. На рисунке 1.4 представлены два режима электронной таблицы: режим отображения формул и режим отображения значений.
В табличном процессоре Microsoft Excel функция логарифма имеет следующий вид: LOG(apryмент; основание). Аргумент — значение N находится в ячейке А2, а основание логарифма равно 2. В результате получаем с точностью до девяти знаков после запятой: i = log23 = 1,584962501 (бита).
Формула для измерения количества информации: i = log2N была предложена американским ученым Ральфом Хартли — одним из основоположников теории информации.
Формула Хартли: i = log2 N
Здесь i — количество информации, содержащееся в сообщении об одном из N равновероятных исходов события.
Данный пример показал, что количество информации, определяемое с использованием содержательного подхода, может быть дробной величиной, в то время как информационный объем, вычисляемый путем применения алфавитного подхода, может иметь только целочисленное значение.
Неопределенность знаний и количество информации
Содержательный подход к измерению информации отталкивается от определения информации как содержания сообщения, получаемого человеком. Сущность содержательного подхода заключается в следующем: сообщение, информирующее о каком-то событии, снимает неопределенность знаний человека об этом событии.
Чем больше первоначальная неопределенность знаний, тем больше информации несет сообщение, снимающее эту неопределенность.
Приведем примеры, иллюстрирующие данное утверждение.
Ситуация 1. В ваш класс назначен новый учитель информатики; на вопрос: «Это мужчина или женщина», вам ответили: «Мужчина».
Ситуация 2. На чемпионате страны по футболу играли команды Динамо и Зенит. Из спортивных новостей по радио вы узнаете, что игра закончилась победой Зенита.
Ситуация 3. На выборах мера города было четыре кандидата. После подведения итогов голосования вы узнали, что избран Никитин Н.Н.
Вопрос: в какой из трех ситуаций полученное сообщение несет больше информации?
Неопределенность знаний – это количество возможных вариантов ответа на интересовавший вас вопрос. В первой ситуации – 2 варианта: мужчина, женщина; во второй ситуации 3 варианта: выиграли, ничья, проиграли; в третьей ситуации – 4 варианта: 4 кандидата на пост мера.
Согласно данному выше определению, наибольшее количество информации несет сообщение в третьей ситуации, поскольку неопределенность знаний о результате события (выборов мера) в этом случае была наибольшей.
В 40-х годах ХХ века, проблема измерения информации была решена американским ученым Клодом Шенноном – основателем теории информации. Согласно К.Шеннону, информация – это снятая неопределенность в знаниях человека о результате какого-то события.
В теории информации единица измерения информации определяется следующим образом.
Сообщение, уменьшающее неопределенность знаний о результате некоторого события в два раза, несет 1 бит информации
Согласно этому определению, сообщение в первой из описанных ситуаций несет 1 бит информации, поскольку из двух возможных вариантов ответа был выбран один.
Следовательно, количество информации, полученное во второй и в третьей ситуациях, больше, чем один бит. Но как их измерить?
Рассмотрим другой пример выбора одного из четырех вариантов, более удобный для измерения количества информации.
Первоначально неопределенность знаний (число вариантов полученной оценки) была равна четырем. С ответом на каждый вопрос неопределенность уменьшалась в 2 раза и, следовательно, согласно данному выше определению одного бита, передавался 1 бит информации.
Первоначальные варианты : Варианты, оставшиеся после 1-го вопроса: (1 бит) Вариант, оставшийся после 2-го вопроса: (+1 бит) |
Узнав оценку (одну из четырех возможных) ученик получил 2 бита информации.
Рассмотрим еще один частный пример, а затем выведем общее правило.
Вы едете на электропоезде, в котором 8 вагонов, а на вокзале вас встречает товарищ. Товарищ позвонил вам по мобильному телефону и спросил, в каком вагоне вы едете. Вы предлагаете угадать номер вагона, задав наименьшее количество вопросов, ответами на которые могут быть слова «да» или «нет».
Немного подумав, товарищ стал спрашивать:
— Номер вагона больше четырех?
— Номер вагона больше шести?
— Ну теперь все ясно! Ты едешь в пятом вагоне!
Схематически поиск номера вагона выглядит так:
Первоначальное число вариантов: После 1-го вопроса (1 бит): После 2-го вопроса (+1 бит): После 3-го вопроса (+1 бит): |
Каждый ответ уменьшал неопределенность в два раза. Всего было задано три вопроса. Значит в сумме набрано 3 бита информации. И если бы сразу было сказано, что вы едете в пятом вагоне, то этим сообщением было бы передано те же 3 бита информации.
Способ поиска решения проблемы, примененный в примерах с оценками и вагонами, называется методом половинного деления: ответ на каждый вопрос уменьшает неопределенность знаний наполовину. При этом каждый такой ответ несет 1 бит информации.
«Главная формула» информатики
Сформулируем одно очень важное условие, относящееся к рассмотренным примерам. Во всех ситуациях предполагается, что все возможные варианты событий равновероятны. Равновероятно, что учитель может быть мужчиной или женщиной; равновероятен любой исход футбольного матча, равновероятен выбор одного из четырех кандидатов в меры города. То же относится и к примерам с оценками и вагонами.
Тогда полученные нами результаты описываются следующими формулировками:
— сообщение об одном из двух равновероятных результатов некоторого события несет 1 бит информации;
— сообщение об одном из четырех равновероятных результатов некоторого события несет 2 бита информации;
— сообщение об одном из восьми равновероятных результатов некоторого события несет 3 бит информации.
Обозначим буквой N количество возможных результатов события, или, как мы это еще называли, — неопределенность знаний. Буквой i будем обозначать количество информации в сообщении об одном из N результатов.
Нетрудно заметить, что связь между этими величинами выражается следующей формулой:
2 i = N.
Пусть в поезде не 8, а 16 вагонов. Чтобы ответить на вопрос, сколько информации содержится в сообщении о номере искомого вагона, нужно решить уравнение:
Количество информации (i), содержащееся в сообщении об одном из N равновероятных результатов некоторого событий, определяется из решения показательного уравнения: 2 i = N
Пример 1. В кинозале 16 рядов, в каждом ряду 32 места. Сколько информации несет сообщение о том, что вам купили билет на 12-й ряд, 10-е место?
Решение задачи: в кинозале всего 16×32=512 мест. Сообщение о купленном билете однозначно определяет выбор одного из этих мест. Из уравнения 2 i = 512=2 9 получаем: i=9 бит.
Но эту же задачу можно решать иначе. Сообщение о номере ряда несет 4 бита информации, т.к. 2 4 =16. Сообщение о номере места несет 5 бит информации, т.к. 2 5 =32. В целом сообщение про ряд и место несет: 4+5=9 бит информации.
Данный пример иллюстрирует выполнение закона аддитивности информации (правило сложения): количество информации в сообщении одновременно о нескольких результатах независимых друг от друга событий равно сумме количеств информации о каждом событии отдельно.
ГДЗ по информатике 10 класс учебник Босова параграф 2
1. Что такое неопределённость знания о результате какого-либо события? Приведите пример.
Неопределенность знания о результате некоторого события (бросание монеты или игрального кубика, вытаскивание жребия и др.) — это количество возможных результатов.
2. В чём состоит суть содержательного подхода к определению количества информации? Что такое бит с точки зрения содержательного подхода?
В содержательном подходе количество информации, заключенное в сообщении, определяется объемом знаний, который это сообщение несет получающему его человеку.
Сообщение, уменьшающее неопределенность знания в два раза, несет 1 бит информации. Как пример содержит знание: да или нет
3. Паролем для приложения служит трёхзначное число в шестнадцатеричной системе счисления. Возможные варианты пароля: 189 101 654 FFE 123 А41 880 391 110 125 Ответ на какой вопрос (см. ниже) содержит 1 бит информации?
1) Это число записано в двоичной системе счисления?
2) Это число записано в четверичной системе счисления?
3) Это число может быть записано в восьмеричной системе счисления?
4) Это число может быть записано в десятичной системе счисления?
5) Это число может быть записано в шестнадцатеричной системе счисления?
4. При угадывании целого числа в некотором диапазоне было получено 5 бит информации. Каковы наибольшее и наименьшее числа этого диапазона?
Это бит в пятой степени. 2^5 = 32, если берем целые неотрицательные числа, то диапазон определен от 0 до 31, наименьшее и наибольшие числа
5. Какое максимальное количество вопросов достаточно задать вашему собеседнику, чтобы точно определить день и месяц его рождения?
Два вопроса: Какой месяц? Какой день месяца?
6. В чём состоит суть алфавитного подхода к измерению информации? Что такое бит с точки зрения алфавитного подхода?
Алфавитный подход позволяет вычислить количество информации, содержащейся в тексте, сложив информационные объёмы каждого символа, при этом содержание текста не учитывается.
7. Закодируйте фразу «ALL IN GOOD TIME» кодом Бодо и восьмиразрядным компьютерным кодом. Сравните полученные информационные объёмы текста.
010000010100110001001100 0100100101001110 01000111010011110100111101000100 01010100
(I=K*i, K=104 символов, i= 8 бит,I= 104*8=832)
8. Какие единицы используются для измерения объёма информации, хранящейся на компьютере?
Бит, байт, килобайт, мегабайт, гигабайт, терабайт.
9. Объём сообщения, содержащего 11 264 символа, равен 11 Кбайт. Определите максимальную мощность алфавита, который мог быть использован для кодирования этого сообщения? Какова минимальная мощность алфавита, использование которого привело к такому же информационному объёму закодированного сообщения?
90112 = 11264 * i => i = 8
10. В школе 750 учащихся, коды учащихся записаны в школьной информационной системе с помощью минимального количества бит. Каков информационный объём в байтах сообщения о кодах 180 учащихся начальных классов?
Надо найти минимальное b, чтобы N было больше 750.
Значит, минимальное кол-во бит, при помощи которого можно записать коды 750 учащихся b = 10.
Соответственно информационный объем сообщения о кодах 180 учащихся = 180 * 10 = 1800 бит = (1800 / 8) байт = 225 байт
11. В школьной базе данных каждый ученик получил идентификатор, состоящий ровно из б символов. В качестве символов используются все заглавные буквы русского алфавита, кроме «Ё», «Ы», «Ъ» и «Ь», а также все десятичные цифры за исключением цифры 0. Каждый такой идентификатор в информационной системе записывается минимально возможным и одинаковым целым количеством байт (при этом используют посимвольное кодирование и все символы кодируются одинаковым и минимально возможным количеством бит). Определите объём памяти, необходимый для хранения в этой системе 180 идентификаторов учащихся начальных классов. Ответ выразите в килобайтах.
Общее количество символов для записи идентификатора = 29+9=38
Для кодирования одного символа необходимо log(2)38 ≈ 6 бит.
Для записи одного идентификатора требуется 6*6 бит = 36 бит = 36/8 байт ≈ 5 байт
Для хранения 180 идентификаторов потребуется 5*180 байт = 900 байт = 900/1024 Кбайт ≈ 0,9 Кбайт
12. В ходе телевизионного шоу проводится СМС-голосование: каждый телезритель отдаёт свой голос за одного из 12 артистов-участников шоу, отправляя сообщение с его номером. Голос каждого телезрителя, отданный за того или иного участника, кодируется одинаковым и минимально возможным количеством бит и сохраняется для подведения итогов. За время телевизионного шоу в голосовании приняли участие 163 840 зрителей. Определите объём сохранённой информации о голосовании и выразите его в килобайтах.
13. При регистрации в компьютерной системе каждому пользователю выдаётся пароль, состоящий из 6 символов и содержащий только символы из шестибуквенного набора А, В, С, D, Е, F. Для хранения сведений о каждом пользователе отведено одинаковое и минимально возможное целое число байт. При этом используют посимвольное кодирование паролей и все символы кодируются одинаковым и минимально возможным количеством бит. Кроме собственно пароля для каждого пользователя в системе хранятся дополнительные сведения, занимающие 15 байт. Определите объём памяти в байтах, необходимый для хранения сведений о 120 пользователях.
2^2 = 4; 2^3 = 8. Значит 3 бит памяти достаточно для кодировки 1 символа.
Всего символов 6. 6*3 = 18. 18/8 = 3 (округляем до целого) байт нужно для сохранения пароля.
3+15 = 18 байт для кодировки информации про 1 пользователя