[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .

Форум «Пит-стоп» / Вопрос статистикам на засыпку

pashkhan Сообщение #1 29 июля 2021 в 04:46
Новичок
96
На сайте 10ff - есть базовый тест скорости, топ 200 слов (в нашем случае, для русского языка).
Я захотел их все выудить оттудова, и вот что у меня получилось - 10ff Топ 200 слов (русский)

За 1 заезд, я получаю где-то 90 слов в среднем (конечно, часть из них может быть одинаковыми).
И вот так я катаю-катаю, а все слова заношу в базу, и удаляю повторки. Достаточно быстро, я насобирал все 199 слов, но вроде как должно быть еще 1 слово - и вот я сделал заездов 15, но оно все так и не выпало. И я как бы понимаю, что статистически такого быть не может, и что просто в базе всего 199 слов. Но хотелось бы увидеть точные расчеты, сколько нужно сделать заездов, чтобы открыть двухсотое слово (предположим, что оно есть), если уже открыл 199.

з.ы. у нас на КГ, есть еще 2 похожих словарика, но их базы сейчас не совпадают с актуальной на 10фф (видимо, когда там вносили правки, то и получилось что в топ200, сейчас топ199 слов )
Игрок3 Сообщение #2 29 июля 2021 в 12:17
Организатор событий
31
Внимание, экспериментальная зона!!!

Всё, что написано в этом сообщении, может оказаться неправдой. Мнение дилетанта, не эксперта в статистике (я бы посоветовал paskhan-у задать вопрос не на Клавогонках, а на каком-то другом форуме, посвящённом математической статистике).

Надеюсь, что эксперты исправят ошибки, если они есть.
-------------------------------------
Начнём.
Допущение 1. Так как за 1 заезд 90 слов, а пройдено 15 заездов, получаем, что pashkan увидел 1350 слов. [Дополнено: похоже, с этого места начинается ошибка: здесь я не учёл, что 15 заездов сделано после получения 199 слов, а не после начала.]
Допущение 2. Проблема является слегка усложнённой задачей про коллекционные стикеры одной известной компании. По поводу этой задачи (в "стикерной" формулировке) действительно есть статьи (даже в крупных СМИ).
Допущение 3. Нужно решить задачу:
Генератор случайных слов [чисел] выбирает случайным образом (независимо от предыдущих результатов) либо одно слово [число] из 200, либо одно слово [число] из 199. pashkan набирает эти слова. Он видит Х слов, созданных генератором, среди которых 199 уникальных. Какова вероятность, что генератор выбирает одно слово из 200, а не из 199?

Я написал вот такую программку (показана только основная часть, язык - C#):
скрытый текст…

У меня (с помощью программы) получилось, что:
"Если генератор выдаёт одно слово из двухсот, а pashkan набирает текст до тех пор, пока не соберёт "коллекцию" из всех слов, то вероятность того, что pashkan наберёт меньше 1351 слова равна примерно 0,8 (80%), а вероятность того, что pashkan наберёт больше 1350 слов, примерно равна 0,2 (20%)".

Другими словами, или произошло событие, вероятность которого - 20%, или генератор случайных слов обманывает, в нём 199 слов.

Дальнейшие действия:
1. Программа не посчитала ответ на вопрос задачи (см. допущение 3). Стало лишь известно, что или "произошло событие", или "генератор обманывает", но неизвестно, с какой вероятностью генератор обманывает. Возможно, ответ на вопрос задачи нужно высчитывать через теорему Байеса, но здесь я уже начинаю очень сомневаться и задавать самому себе вопросы. Опять же, советую обратиться на форум, посвящённый математической статистике.
2. Мне кажется, пока нельзя быть уверенным, что генератор действительно обманывает (в нём 199 слов, а не 200). Предлагаю pashkan-у сделать ещё 15 заездов. Я поменял в программе число 1350 на 2700, получилось, что примерная вероятность события равна 0,00026 (0,026% - менее трёх сотых процента!). Значит, если после выпадения 2700 слов 200-е слово не появится, то "либо произошло событие, вероятность которого - три сотых процента, либо генератор обманывает".
3. Хотелось бы, чтобы кто-нибудь повторил эти рассуждения, потому что возможность ошибки сохраняется.

Примечания
Примечание 1. Длинное! Здесь указано, какой текст сгенерировала программа в рамках одной из генераций (в тестах №99631-100000). Событие Lose означает, что pashkan получил все слова, не набрав 1351 слова. Событие Win означает, что хотя бы 1351 слово пришлось набрать, чтобы получить все слова.
скрытый текст…
Последний раз отредактировано 29 июля 2021 в 12:51 пользователем Игрок3
pashkhan Сообщение #3 29 июля 2021 в 12:49
Новичок
96
Игрок3, во, спасибо дорогой человек! 20 заездов плюсом прокачу, дело не особо пыльное. Но все же, мне кажется что все 200 слов должны находиться намного быстрее практически со 100% вероятностью, при том - что за 1 заезд я вижу практически 100 слов (и как бы, у меня так и происходило, пока я набирал 199 слов, процесс шел очень-очень быстро: до 190 слов дошел заезда за 3-5, а потом каждый заезд прибавлялось 1-2 слова, а вот после 199 встало намертво).

Я просмотрел словарь 10ff 200 rus, он кривовато составлен и не расчищен от повторов - но от моего отличается наличием двух слов: "ка" и "увидет" - т.е. в нем вообще 201 топ слово. Я думаю, просто когда то они были в базе, но потом их догадались почистить, ибо "ка" (это обрезок от слов с дефисом, который попадает в выборку корпуса языка, но по сути является лишь частью слова, а не самостоятельной единицей) и "увидет" - снесли, потому что есть "увидеть".
tryme Сообщение #4 5 августа 2021 в 02:44
Варп
20
достать список слов можно не доезжая заезды целиком, просто пкмни по строчке набора (ну, там где слова) и смотри код элемента
ruthless Сообщение #5 5 августа 2021 в 21:45
Экстракибер
4
достать список слов можно не доезжая заезды целиком, просто лкмни по пуску (ну, там где таскбар) и жми выключить компьютер
Последний раз отредактировано 5 августа 2021 в 21:45 пользователем ruthless
Sm1te Сообщение #6 5 августа 2021 в 22:03
Новичок
29
ruthless писал(а):
:D
Sm1te Сообщение #7 5 августа 2021 в 22:03
Новичок
29
Шутник)
Последний раз отредактировано 5 августа 2021 в 22:04 пользователем Sm1te

Чтобы писать в форуме, нужно зарегистрироваться.


Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена