[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
Ctrl предыдущая следующая Ctrl Страницы
1 2 3

Форум «Академия» / Немного статистики и расчет вероятного рекорда

Phemmer Сообщение #1 4 июля 2013 в 23:07
Супермен
71
Сделал анализ статистики клавогонщиков и делюсь несколькими интересными графиками.

1. Зависимость рекорда от средней скорости
Такой график уже есть на клавостате, но есть отличие - я вручную отсортировал накрученные результаты. Прежде всего это накрутка средней или количества ошибок с помощью недоездов и иных способов.
Графики для игроков имеющих общий пробег от 3000 текстов и не менее 1000 в обычном



После отсеивания накруток тренд получился очень близок к точке (0,0)
формула: РЕКОРД = 1,2748 * СРЕДНЯЯ - самая приближенная формула по которой можно посчитать приблизительный рекорд. Разброс от расчетного значения будет зависеть от таких факторов как ошибочность игрока, количество пробега и других факторов.

То же самое, но без всякого отсеивания:
скрытый текст…


2. Зависимость процента ошибок от средней скорости.



На клавостате для такого графика предлагается линейный тренд. На мой взгляд зависимость лучше описывает экспоненциальный тренд.
формула: ОШИБКИ = 4.84769*e^(-0.00254 * СО); СО - средняя скорость в обычном.

3. Зависимость процента ошибок от общего пробега.



Ось пробега в логарифмическом виде наглядно выглядит. Тренд тоже логарифмический.
На мой взгляд вообще, ошибочность зависит от общего пробега более явно, чем от достигнутой скорости. Это не только пробег на клавогонках, а и практика в реальности. Разница в скорости при одинаковом пробеге объясняется прежде всего разницей в возрасте начала обучения слепого метода. Но для дальнейшего анализа этот тренд не взял, ведь кто-то пришел с нулевым пробегом на клавогонки, кто-то со значительным.

Вернемся к самой первой зависимости, РЕКОРД = 1,2748 * СРЕДНЯЯ
Посмотрим как влияют на коэффициент К=РЕКОРД/СРЕДНЯЯ такие параметры:

4. Влияние процента ошибок на коэффициент К (рекорд/средняя)



Тот же график в логарифмическом масштабе оси ошибок
скрытый текст…


Тренд наблюдается: чем больше ошибок, тем выше рекорд, но среднее количество ошибок для разных рангов разное.
Тогда вычислим отношение реального процента ошибок к ожидаемому. Ожидаемое - п.2 - Зависимость процента ошибок от средней скорости. Так избавляемся от разброса ошибочности по рангам, чтобы общая формула получилась всеранговая.

5. Влияние отношения реального процента ошибок к ожидаемому на коэффициент К (рекорд/средняя)



Тренд логарифмический
То же самое в логарифмическом масштабе ошибок:
скрытый текст…


6. Влияние пробега в обычном режиме на коэффициент К (рекорд/средняя)
Увеличение пробега кроме роста средней скорости, которое само по себе повлияет на рекорд, дает больше шансов поймать удобный текст и больше шансов не ошибиться на таком тексте. В этом заключается его влияние на коэффициент К (рекорд/средняя). Масштаб пробега и тренд логарифмический.



7. Если принять как базу зависимость РЕКОРД = 1,2748 * СРЕДНЯЯ, добавить влияние степени ошибочности для данной скорости и количество пробега выраженное в увеличении или в уменьшении коэффициента К = 1,2748 на слагаемые, получается следующая формула для расчета вероятного рекорда:

P=C*(1,11555+0,05804*LN(A/(4,85158*EXP(-0,00254*C)))+0,0191*LN(B))

P - наиболее вероятный рекорд в обычном
C - реальная средняя скорость в обычном (без накруток)
A - средний процент ошибок в обычном (также без накруток)
B - пробег в обычном

Для удобства сделал небольшой онлайн-калькулятор для расчета.
скрытый текст…

На рекорд также будет оказывать влияние пробега в частотных словарях - известно, что в рекордных текстах много частотных слов, метод набора - раскладка, жесткие или динамические зоны - у многих набирающих динамикой рекорд выше ожидаемого. А также еще другие факторы.
Если у вас по калькулятору получилась вероятный рекорд больше вашего, возможно это говорит о потенциале. Если ниже - возможно вы ввели необъективные или завышенные исходные числа. Насчет количества пробега - недоезды с целью выбивания хороших результатов тоже стоит прибавлять в формулу в "B - пробег в обычном" - хоть это не пробег а "недобег".



Второй способ определения вероятного рекорда. (добавлено из сообщения 39)

Многие замечали, что распределение результатов езды в обычном режиме режиме, да и не только в обычном, похоже на нормальное распределение – распределение, которое часто встречается в природе.
Такое распределение описывается строго заданной функцией, и это можно использовать, чтобы посчитать вероятность выпадения результатов в каком-то промежутке.
Распределение результатов получается близким к нормальному, когда результат является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад и отсутствуют факторы, в отдельности сильно влияющие на общий результат. К последним факторам не относятся ошибки в процессе набора, но к ним относятся: недоезды, с целью фильтрации каких-либо результатов, также когда что-то постороннее отвлекло во время набора, будь то выскочившее окно, заход в заезд уже после старта, пробегающий по столу или клавиатуре кот ;) и т.д.

Как это использовать.
1. Посчитать свое распределение реальных результатов, например из экспорта статистики в xls файл (требуется премиум), то есть взять какой-то период и посчитать, сколько раз выпала каждая скорость. Построить диаграмму распределения скоростей, оценить, насколько распределение похоже на нормальное.

2. Определить параметры, которые задают функцию нормального распределения на этом промежутке, то есть математическое ожидание (=средняя арифметическая скорость), стандартное (среднеквадратическое) отклонение или дисперсию - меру разброса результатов от математического ожидания. Это можно сделать в экселе соответствующими функциями.

3. Задать новую функцию нормального распределения по этим двум найденным параметрам и найти вероятность выпадения интересующих результатов. Мы рассматриваем какой-то пробеговый промежуток, например пробег за последние N тысяч текстов. И если хотим найти наиболее вероятный рекорд - то считаем и определяем такой диапазон скорости, чтобы вероятность нахождения в нем равнялась одному заезду. (для рекорда ведь нужен всего один заезд ;))

Пример

Берем промежуток 7000 текстов
Подсчитываем количество заездов по каждой скорости (например от 200 до 600 с шагом 1)
Получаем такое распределение (синие точки):

Пока не очень ясно, сильно ли отличается от нормального. Усредняем каждую скорость по шести соседним, получаем:

Вот это уже весьма похоже. Отклонения не большие. Красным цветом показан график распределения, установленный по рассчитанным параметрам из реального распределения: математическое ожидание=403,6, стандартное отклонение - 34,6.

Находим область, в которой по этому распределению должен содержаться всего один заезд, это очень просто сделать интегрированием ;) :
Получается область рекорда – 529+, то есть от [529 до бесконечности ;))
Но наиболее вероятно он выпадет в районе 535
10% шансов – 550+.

Тут я еще раз подчеркиваю что это метод расчета не точного рекорда для всех и каждого, а наиболее вероятного.

Способ должен работать не только для обычного режима, а и для всех остальных режимов тоже. Но нужен достаточный пробег (хотя бы от тысячи текстов)

Вопрос: Какую область пробега лучше взять? Ответ: Любую, но она должна быть похожа по графику на нормальное распределение, не иметь больших провалов в каких-то областях, особенно в последней, предрекордной. Общая рекомендация такая: взять область начиная с того момента, как средняя скорость выросла где-то на 30 знаков.
Попробовав разные варианты, обнаружил что результат получается похожим, даже если брать отрезки с разной начальной точкой. Если взять более раннюю точку отсчета, средняя скорость на тот момент была меньше, но общее число заездов становится больше - поэтому результат похож.

Для всех случаев нужно стремиться чтобы максимально совпала вот эта область:



Недоездунам, которые фильтруют неудачные заезды, тоже можно определить вероятный рекорд таким способом, только выбрать параметры функции нормального распределения нужно будет вручную, так, чтобы добиться максимального сходства в этой предрекордной области. Получится что-то вроде этого:


Область между красной и синей линией в левой части графика - это область, попавшая под недоезды.

Аналогичное делается если вы доезжаете все доезды, включая провальные по другим причинам, кроме причины ошибок - (когда что-то постороннее отвлекло во время набора): подбирается параметры функции нормального распределения, чтобы последняя часть графика совпала, тогда будет не "выемка" в медленной области а "наплыв".

Связь с первым способом определения вероятного рекорда.

По влиянию пробега в обычном - совпадение способов хорошее. В первом способе была зависимость Р = (0,019*LN(B) + 1,114)*C. Коэффициенты 0,019 и натуральный логарифм пробега дают очень хорошую схожесть с подсчетом влияния пробега из нормального распределения. А коэффициент 1,114 будет коррелировать со стандартным отклонением. Если бы было прислано много статистик, можно было б отследить это влияние.
Как я проверял: устанавливаем жестко среднюю скорость, ст. отклонение. Ставим первоначальный пробег. Подбираем коэффицицент вместо 1,114 такой, чтобы вероятные рекорды совпали. Потом меняем пробег сколько угодно в разумных пределах - и вероятные рекорды будут очень хорошо совпадать.

Еще из закона распределения следует важный вывод. Поскольку график симметричен, хорошие результаты будут встречаться с такой же частотой как и плохие. Например, если вы достигаете скорости (средняя+80 зн) один заезд каждый день, то раз в день выпадет заезд (средняя-80 зн). Это абсолютно нормально для процесса набора.

скрытый текст…
Последний раз отредактировано 15 ноября 2013 в 11:31 пользователем Phemmer
Котанчик Сообщение #2 4 июля 2013 в 23:23
Маньяк
43
541.98 - ну что ж, посмотрим

Хотя даже в Спринте пока столько не сделал!
Maxonik Сообщение #3 4 июля 2013 в 23:41
Кибергонщик
59
Наиболее вероятный рекорд 623
_еретик_ Сообщение #4 5 июля 2013 в 09:46
Супермен
31
Эвеланш, Максоник, вы точно по этой формуле считали?
P=C*(1,11555+0,05804*LN(A/(4,85158*EXP(-0,00254*C)))+0,0191*LN(B))

P - наиболее вероятный рекорд в обычном
C - реальная средняя скорость в обычном (без накруток)
A - средний процент ошибок в обычном (также без накруток)
B - пробег в обычном
Переборыч Сообщение #5 5 июля 2013 в 11:16
Клавомеханик
55
Кроме первого графика, больше нигде не увидел закономерностей. С таким мизерным коэффициентом достоверности (R2) соотношение показателей просто не имеет смысла. На клавостате о подобном честно сказано, например:
Линейный тренд для успехов не является достоверным.

Phemmer писал(а):
C - скорость без накруток
A - %-т ошибок без накруток

А как убрать накрутки? У zenz'а, например: Средняя 741 - накрутки = 630 реальной средней. Но как?
Maxonik Сообщение #6 5 июля 2013 в 13:03
Кибергонщик
59
Еретик я калькулятор использовал
sav1 Сообщение #7 5 июля 2013 в 14:25
Маньяк
40
На самом деле средняя на КГ не та самая средняя от 1-го заезда. Всегда было интересно как она считается, и насколько близко это к оценке реально средней. Интересно слышать мнения или видеть пруфлинк.
Результаты калькулятора
скрытый текст…
Последний раз отредактировано 5 июля 2013 в 14:30 пользователем sav1
GoodLoki Сообщение #8 5 июля 2013 в 14:25
Гонщик
30
Phemmer
но есть отличие - я вручную отсортировал накрученные результаты.

Это называется не отсортировал, а подогнал к желаемым результатам.
Очень советую почитать эту главу: Из книги «Вы, конечно, шутите, мистер Фейнман!»
Ну и как результат калькулятор врёт. Причём чем больше скорость, тем больше ошибка.
Вот попробовал посчитать для тех профилей, где я уверен, в честности результатов, и в отсутствии накруток.
Alkhor:
Средняя скорость: 222 зн./мин.
Ошибки: 1.77%
Пробег: 936
Рекорд: 254 зн./мин.
калькулятор: 271 зн./мин.
Ошибка калькулятора: +6.6%

GoodLoki:
Средняя скорость: 338 зн./мин.
Ошибки: 1.52%
Пробег: 2044
Рекорд: 393 зн./мин.
калькулятор: 420 зн./мин.
Ошибка калькулятора: +6.9%

Экспериментатор:
Средняя скорость: 436 зн./мин.
Ошибки: 1.92%
Пробег: 2200
Рекорд: 504 зн./мин.
калькулятор: 555 зн./мин.
Ошибка калькулятора: +10%

дядя_Паша:
Средняя скорость: 430 зн./мин.
Ошибки: 1.84%
Пробег: 3243
Рекорд: 500 зн./мин.
калькулятор: 555 зн./мин.
Ошибка калькулятора: +11%
AcidMan Сообщение #9 5 июля 2013 в 14:28
Кибергонщик
48
Нифига себе я наркоман)) Наиболее вероятный рекорд при проценте моих максимально-средних ошибок и минимално средней скорости в обычном (515 и 1.3% ошибок) скорость составляет 665 а если прям идеал взять возможностей (средняя 520 и ошибок 1.15), то немного более 670 где-то. Так я давно об этом знал, прикольная штука ребят) надо сделать этот рекорд)
sav1 Сообщение #10 5 июля 2013 в 14:38
Маньяк
40
Avalanche писал(а):

GoodLoki писал(а):

AcidMan писал(а):

Полагаю что если с вошедших в анализ профилей взять стату по другим словарям, где есть наработка минимум под сотню, и как-то припилить к расчету (причем с разными коэффициентами в зависимости от словаря), то картина может быть ближе. Еще ближе будет, если выяснить и использовать очередность и коэффициент пробегов в них. Как это делать - уже не знаю
Phemmer Сообщение #11 5 июля 2013 в 16:33
Супермен
71
Переборыч писал(а):
Кроме первого графика, больше нигде не увидел закономерностей. С таким мизерным коэффициентом достоверности (R2) соотношение показателей просто не имеет смысла. На клавостате о подобном честно сказано, например:

Мизерный, но тенденции видны. Чем больше ошибочность и пробег, тем вероятный рекорд выше.
На клавостате только для одного последнего графика признано что линейный тренд не достоверен, а для графиков "Зависимость процента ошибок от средней скорости" и "Зависимость средней скорости от пробега" взяты линейные тренды которые хуже моих логарифмических.

Переборыч писал(а):
А как убрать накрутки? У zenz'а, например: Средняя 741 - накрутки = 630 реальной средней. Но как?

GoodLoki писал(а):
Это называется не отсортировал, а подогнал к желаемым результатам.

Мне интересно было посмотреть статистику исходя из реальных результатов, а не "средненакрученных"
Накрученные статистики в основном просто удалял из обработки. Пусть это называется "На своё усмотрение" какие удалять. Сделаете свою формулу - тогда сравним у кого точнее. Некоторые результаты при высоких скоростях вытягивал чтобы оставит больше результатов в быстром диапазоне. Как - пусть тоже называется "на своё усмотрение" и опять же - предлагаете свой метод и результаты - сравним.

sav1 писал(а):
На самом деле средняя на КГ не та самая средняя от 1-го заезда. Всегда было интересно как она считается, и насколько близко это к оценке реально средней. Интересно слышать мнения или видеть пруфлинк.

Пруфлинка нет, но где-то писалось что средняя и скорости и ошибок в обычных (ненулевых) областях зависит только от последних 50-ти заездов.
Я вкладываю в понятие "реальная средняя скорость" такой смысл - покатайте обычный режим со 100 % доездов в течение пары дней в разное время суток и в разных состояниях пальцев (до полной усталости не доводить) в сумме заездов 50-100. Получите в профиле величину близкую к вкладываемой в понятие.
Или если все время доезжаете, посмотрите свой на график колебания средней, найдите ту скорость вокруг которой происходят ее колебания.

GoodLoki писал(а):
Ну и как результат калькулятор врёт. Причём чем больше скорость, тем больше ошибка.

Калькулятор неправильно считает? Проверил, всё нормально, полное совпадение с excel. Например, для HRUST средняя была 690, 1,53% ошибок, 87908 текстов. По екселю О.Р.=944, по калькулятору - 943.73. Ну в реале у него меньше немного, может потенциал есть еще.

GoodLoki писал(а):
Вот попробовал посчитать для тех профилей, где я уверен, в честности результатов, и в отсутствии накруток.


дядя_Паша/Экспериментатор - это нестандартный случай, переучивание на другую раскладку, к тому же у него была цель - выбить 500 на каждом профиле, поэтому я могу усомниться что он всё доезжал.
Повторюсь, формула считает наиболее вероятный рекорд а не точный для каждого. Чем ближе условия к усредненным - тем должно быть точнее, например, стандартные зоны фыва олдж, желательно равномерный пробег без скачков, перерывов, переучиваний, минимум смен клавиатур.
У вас с Alkhor значит есть потенциал обновить рекорды. С момента как на твоем графике скорость поднялась на 10 знаков имеешь очень малый пробег - рекорду неоткуда появиться без пробега, его надо ловить. Плюс опять нестандартные раскладки.

sav1 писал(а):
Полагаю что если с вошедших в анализ профилей взять стату по другим словарям, где есть наработка минимум под сотню, и как-то припилить к расчету (причем с разными коэффициентами в зависимости от словаря), то картина может быть ближе. Еще ближе будет, если выяснить и использовать очередность и коэффициент пробегов в них. Как это делать - уже не знаю

Я не приплетал в формулу общий пробег. Как общий пробег повлияет на рекорд в обычном? Только усилит навык - повысит среднюю скорость или понизит число ошибок - что и так уже учтено.
Единственное, как я уже говорил, что может повлиять – пробег в частотных словарях.
Переборыч Сообщение #12 5 июля 2013 в 16:59
Клавомеханик
55
Phemmer писал(а):
Накрученные статистики в основном просто удалял из обработки. Пусть это называется "На своё усмотрение" какие удалять. Сделаете свою формулу - тогда сравним у кого точнее. Некоторые результаты при высоких скоростях вытягивал чтобы оставит больше результатов в быстром диапазоне. Как - пусть тоже называется "на своё усмотрение" и опять же - предлагаете свой метод и результаты - сравним.

Для сравнения нужны исходные данные и твой метод рафинирования.
Например, указываешь: однократно отсекаются крайние 5% (в целях очистки явно "глючных" рекордов и нарочито апатичной средней). Тогда исследование можно воссоздать, сравнить и предложить лучшие варианты очистки, помимо "некоторые значения не приглянулись, а другие взял с потолка". :)
Последний раз отредактировано 5 июля 2013 в 16:59 модератором Переборыч
Phemmer Сообщение #13 5 июля 2013 в 17:21
Супермен
71
Переборыч,
Метод рафинирования только вручную. Сортируем по всем интересным показателям, смотрим крайние значения, кликаем профиль, смотрим график → принимаем решение. Проходим по всем показателям пока не надоест, до какого-то процента отсева, пока останутся только статистики похожие на реальные.
Типичные случаи: график заканчивается резким скачком средней скорости, на графике есть рекорды - "столбы", нормальный график на всем протяжении заканчивается внезапным снижением средней скорости (есть и такие).
ЦАРЬ Сообщение #14 5 июля 2013 в 17:57
Супермен
60
1,2748*423=539.2404
В моём случае формула достаточно точна) особенно учитывая, что рекорд в 544 сделал совсем недавно, 4 дня назад, а до этого было 540

А с помощью онлайн калькулятора вообще получилось 545.138
Впечатляет, разница в 1 от рекорда, Phemmer, ты крут! твоя система работает)
Последний раз отредактировано 5 июля 2013 в 19:50 пользователем ЦАРЬ
Верходанов Сообщение #15 5 июля 2013 в 18:01
Новичок
36
Последний раз отредактировано 21 сентября 2017 в 20:47 пользователем Верходанов
Fenex Сообщение #16 5 июля 2013 в 18:08
Клавомеханик
49
У меня совпадает. Интересно.
Надо бы состряпать расчёт в профилях с помощью userjs.
GoodLoki Сообщение #17 5 июля 2013 в 18:56
Гонщик
30
Phemmer
дядя_Паша/Экспериментатор - это нестандартный случай, переучивание на другую раскладку, к тому же у него была цель - выбить 500 на каждом профиле, поэтому я могу усомниться что он всё доезжал.
Повторюсь, формула считает наиболее вероятный рекорд а не точный для каждого. Чем ближе условия к усредненным - тем должно быть точнее, например, стандартные зоны фыва олдж, желательно равномерный пробег без скачков, перерывов, переучиваний, минимум смен клавиатур.
У вас с Alkhor значит есть потенциал обновить рекорды. С момента как на твоем графике скорость поднялась на 10 знаков имеешь очень малый пробег - рекорду неоткуда появиться без пробега, его надо ловить. Плюс опять нестандартные раскладки.

Ну тогда бы и написал: «Для среднестатистического клавогонщика, набирающего в „ЙЦУКЕН“».
А то понимаешь, калькулятор, на «научной основе».
Хотя в любом случае не одобряю отбрасывания результатов, не подходящих под «теорию».
Если результаты отбрасываются, то должно быть железное доказательство, что они недостоверны.
Ну и в противовес тогда, должны проверяться достоверность, тех результатов, которые принимаются.
Надеюсь почитал главу по ссылке. Там очень интересно, про эксперимент Милликена написано.
Считать, что-то на основе принципиально не проверяемой статистике, достаточно сомнительно.
А уж считать что-то на этой-же статистике, но ещё и с произвольно обрезанными результатами, это просто шоу.
Но как шоу, может быть интересно.
Speedyman Сообщение #18 5 июля 2013 в 19:54
Экстракибер
54
Ввел свою реальную среднюю - 550 зн./мин., 29к пробега, 2% реальных ошибок - и получился тот рекорд, который у меня есть сейчас - 737.
Последний раз отредактировано 5 июля 2013 в 19:55 пользователем Speedyman
Верходанов Сообщение #19 5 июля 2013 в 20:07
Новичок
36
Последний раз отредактировано 21 сентября 2017 в 20:48 пользователем Верходанов
Phemmer Сообщение #20 5 июля 2013 в 20:53
Супермен
71
Владимир2о18 писал(а):
Я вот только одного не понимаю. Как рекорд связан одновременно и с пробегом, и со средней, если средняя никак не зависит от пробега. Есть математические выкладки?
Фактически средняя считается за последние N текстов, то есть всё, что было до N, можно просто отбросить, а следовательно цифра пробега к данной ситуации вообще не должна иметь никакого отношения.

C - реальная средняя скорость в обычном (без накруток), а не та, которая висит в профиле за последние 50 текстов. Свою среднюю каждый точнее оценит сам. Непосредственно от пробега никак не зависит.

Цифра пробега B отражает следующее: Увеличение пробега ... дает больше шансов поймать удобный текст. То, что за время этого пробега еще возрастет средняя скорость, учтется не в коэффициенте В, а в С - средней скорости.

Как рекорд связан одновременно и с пробегом, и со средней – это график 6, тренд от которого пошел в итоговую формулу.

Владимир2о18 писал(а):
Если формула действительно работает, то оптимальнее будет рассчитывать по ней не рекорд, а среднюю из рекорда.

Поясни, что такое 'средняя из рекорда' ?

Чтобы писать в форуме, нужно зарегистрироваться.

Ctrl предыдущая следующая Ctrl Страницы
1 2 3

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена