[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
Ctrl предыдущая следующая Ctrl Страницы
1 2 3 4 5 6 7 8 9

Форум «Программное обеспечение» / Немножко простейшей КлавоСтатистики :)

plytishka Сообщение #141 6 января 2021 в 18:49
Маньяк
45
Speedyman писал(а):
Меня, как и многих других клавогонщиков, больше всего интересует простая статистика по рекордам и по пробегу(топ-10 или топ-20) в основных режимах и словарях: Обычный, Обычный ин Инглиш, Безошибочный, Марафон, Мини-марафон, Абракадабра, Буквы, Спринт, Цифры, Частотный, Цифросоточка, Соточка, Короткие тексты, Тренируем указательные, Безымянные, Мизинцы+

можно сказать проще тогда уж, взять 10-20-50 топовых словарей по пробегу за всё время, за вычетом книг. ну или определить минимальную планку по пробегу в словаре для того, чтобы считать словарь "основным", в упр.1.хруста пробег больше чем в мизинцах+, это так прст сравнил, какой словарь более "основной" http://klavostat.com/_vocabularies_by_total_races_count.html
выше публикация популярных словарей не нашел их в интрфейсе на главной, можно было бы положить там где-нибудь
рейтинг по подборке словарей можно было бы использовать как фри-тайм соревнования, что было у кощея на протяжении 2020 года или табличка реализованная Анной для манов, по этому выше и предложил добавить парочку подборок (ук и частотку)
как вариант можно сделать суммарный (скорость/пробег) топ по 10-20-50 самым популярным словарям
можно прикрутить возможность создавать собственную, именную подборку словарей за донаты, типа: брендовая линейка упражнений от Имярека, Имярекчелендж etс

так-то ещё и сами словари можно добавлять за донаты, если кто хочет протащить в топ свой словарь. всё же общая статистика по пробегу/реку уникальна для данного ресурса и её многие хотели видеть. так што вместо добавления уже популярных словарей, можно устроить революцию в популярных словарях

можно еще и рынок труда расширить в столь тяжелое время: работа по накатыванию пробега/продвижению в топы словаря, оплата почасовая по ценнику пятёрочки
Последний раз отредактировано 6 января 2021 в 19:26 пользователем plytishka
nosferatum Сообщение #142 7 января 2021 в 04:55
Супермен
34
Итак, стратегическое обновление в плане топов по словарям!

  • Добавлены чистовые топ по БО и топ по буквам.
  • В каждом словаре по 3 сортировки: рекорд, пробег и задротство общее время в словаре (aka haul). Как мы видим, действительно позиции по пробегу и времени в словаре могут достаточно серьёзно отличаться. Так что это действительно интересная сортировка, спасибо plytishka за наводку.
  • Выгрузка в Excel работает во всех сортировках.
  • Топ по БО добавлен как пруф того, что генерацию топа по другому словарю теперь писать очень просто, вот так выглядит коммит для генерации топа по БО, не включая генерированные файлы по БО.
  • Для БО тоже установил лимит минимального пробега в 100 текстов. Комментарии по изменению этого лимита приветствуются.
  • Названия для щитов в Экселе кое-где сделаны в более короткой форме, так как, напомню, в виндовом Экселе ограничение на название листа в 31 символ.
  • Дробные поля (средняя скорость, средний процент ошибок) округлены до 2 знаков после запятой.
  • В html в качестве десятичного разделителя установлена запятая, как это положено по российскому стандарту. В Экселе это по-простому сделать не удалось, поэтому там разделитель у меня генерируется точкой. Возможно, у компьютера с российской локалью будет показываться запятая, не знаю. Не думаю, что это критичный косяк.
  • Заголовок колонки с averageError изменён с «Ошибки» на «Ошибки, %».


Что дальше?
  • Собираем фидбэк/баг-репорты по текущим версиям топов по словарям.
  • Добавляем топы по всем стандартным режимам.
  • Добавляем топы по популярным нестандартным словарям: Обычный in English, Соточка, Частотный словарь, Короткие тексты, Цифросоточка, далее по заявкам.


Прочее


Любой фидбэк крайне приветствуется и очень важен на ранних фазах (проще править / меньше ре-генерировать).

Также напоминаю, что гораздо проще трекать требования/пожелания, если вы будете комментировать/создавать задачи прямо в ГитХабе.

скрытый текст…
Последний раз отредактировано 7 января 2021 в 05:36 пользователем nosferatum
plytishka Сообщение #143 7 января 2021 в 08:02
Маньяк
45
nosferatum писал(а):
Итак, стратегическое обновление в плане топов по словарям!

  • Добавлены чистовые топ по БО и топ по буквам.
  • В каждом словаре по 3 сортировки: рекорд, пробег и задротство общее время в словаре (aka haul). Как мы видим, действительно позиции по пробегу и времени в словаре могут достаточно серьёзно отличаться. Так что это действительно интересная сортировка, спасибо plytishka за наводку.
  • Выгрузка в Excel работает во всех сортировках.
  • Топ по БО добавлен как пруф того, что генерацию топа по другому словарю теперь писать очень просто, вот так выглядит коммит для генерации топа по БО, не включая генерированные файлы по БО.
  • Для БО тоже установил лимит минимального пробега в 100 текстов. Комментарии по изменению этого лимита приветствуются.
  • Названия для щитов в Экселе кое-где сделаны в более короткой форме, так как, напомню, в виндовом Экселе ограничение на название листа в 31 символ.
  • Дробные поля (средняя скорость, средний процент ошибок) округлены до 2 знаков после запятой.
  • В html в качестве десятичного разделителя установлена запятая, как это положено по российскому стандарту. В Экселе это по-простому сделать не удалось, поэтому там разделитель у меня генерируется точкой. Возможно, у компьютера с российской локалью будет показываться запятая, не знаю. Не думаю, что это критичный косяк.
  • Заголовок колонки с averageError изменён с «Ошибки» на «Ошибки, %».

Благодарности за труды!
Раз уж появилась альтернативная сортировка рейтинга по времени, можно было бы прикрутить и по средней скорости, и по точности, эти рейтинги могут представлять интерес. В таблицах уже лежат данные.
nosferatum Сообщение #144 7 января 2021 в 15:58
Супермен
34
plytishka писал(а):
Благодарности за труды!
Раз уж появилась альтернативная сортировка рейтинга по времени, можно было бы прикрутить и по средней скорости, и по точности, эти рейтинги могут представлять интерес. В таблицах уже лежат данные.


Спасибо за фидбэк!

Это сделать не особо сложно, но нужно будет хостить практически на 2/3 больше файлов, что означает длительность деплоя и большую стоимость хостинга/обновления.
Ценность этих сортировок на первый взгляд вызывает сомнения (хотя по средней могу себе представить, а по среднему проценту ошибок могу представить смысл для именно «Безошибочного»). Конечно, я могу ошибаться (по точности вроде бы кто-то ещё запрашивал, ЕМНИП).

Я бы отложил эти ещё +2 генерации на словарь в отдельную задачу и как минимум до времён, когда будут оптимизированы генерация и деплой.
И ещё надо прикрутить пословарную конфигурацию, какие сортировки генерировать.
Phemmer Сообщение #145 7 января 2021 в 17:02
Супермен
71
Я бы предложил в топах словаря/режима в ссылке рядом с ником помещать ссылку на статистику игрока в соответствующем словаре/режиме.
nosferatum Сообщение #146 7 января 2021 в 17:14
Супермен
34
Phemmer писал(а):
Я бы предложил в топах словаря/режима в ссылке рядом с ником помещать ссылку на статистику игрока в соответствующем словаре/режиме.


Это отличная идея, то есть ссылки вида https://klavogonki.ru/u/#/242585/stats/chars/, https://klavogonki.ru/u/#/231371/stats/noerror/, которые должны всегда работать, если игрок не скрыл свою статистику уже после сбора данных для топов.

Впрочем, для юзеров со скрытой статой линк в принципе тоже нормально работает, просто показывается, что статистика скрыта — например, https://klavogonki.ru/u/#/111001/stats/noerror/.

Я бы сделал второй иконкой наряду с i-ссылкой на профиль. Или лучше просто заменить ссылку в i-иконке? Аналогичный вопрос по Экселю, делать 2 разных линка, или только на стату в словаре?
Последний раз отредактировано 7 января 2021 в 17:29 пользователем nosferatum
Phemmer Сообщение #147 7 января 2021 в 18:27
Супермен
71
Мне кажется, достаточно будет лишь ссылки на статистику и в i-ссылке, и в экселе. С открывшейся страницы можно в один клик перейти на профиль, но не наоборот.

По экспорту в эксель - сейчас скачивается xlsx в zip архиве. Можно не паковать в zip, ведь xlsx уже сам по себе является сжатым, и весят примерно одинаково.
Последний раз отредактировано 7 января 2021 в 18:27 пользователем Phemmer
nosferatum Сообщение #148 9 января 2021 в 02:18
Супермен
34
Phemmer писал(а):
Мне кажется, достаточно будет лишь ссылки на статистику и в i-ссылке, и в экселе. С открывшейся страницы можно в один клик перейти на профиль, но не наоборот.


Хорошо. Но со ссылкой в Экселе есть такая проблема, что (по крайней мере, в виндовом Экселе) не работают ссылки, содержащие #. Если на профиль есть вариант ссылки без # — https://klavogonki.ru/profile/242585/, то со ссылкой типа https://klavogonki.ru/u/#/242585/stats/chars/ такое не прокатывает. Поэтому пока в Экселе оставлю линк на профиль (либо кто-нибудь подскажет, как перейти на статовую ссылку без # в урле).

Phemmer писал(а):
По экспорту в эксель - сейчас скачивается xlsx в zip архиве. Можно не паковать в zip, ведь xlsx уже сам по себе является сжатым, и весят примерно одинаково.

Да, сжатие там жалкое, конечно, зип имеет размер в районе 91-93% от оригинального xlsx. Зип я сделал с идеей экономии трафика из S3. Сейчас подключён https через CloudFront, и по логике там будет какой-то CDN-кэш, да и gzip-ование я вроде бы включил. Кроме того, взглянув на S3 Pricing, видим, что экономия на процентах от единиц мегабайт (которые занимают эксель-файлы) будет совершенно незначительной.

Кроме того, браузеры могут показывать zip-файлы как небезопасные к открытию. Так что переделывание линков на скачивание xlsx-файлов видится разумным, сделаю это сначала хотя бы для словарных топов.
Последний раз отредактировано 9 января 2021 в 02:58 пользователем nosferatum
Phemmer Сообщение #149 9 января 2021 в 03:13
Супермен
71
Поэтому пока в Экселе оставлю линк на профиль (либо кто-нибудь подскажет, как перейти на статовую ссылку без # в урле).

Вроде в экселе не замечал проблем с открытием ссылок с #, но если есть, тогда можно использовать такого типа:
https://klavogonki.ru/profile/242585/stats/...etype=voc-25856

nosferatum писал(а):
Кроме того, браузеры могут показывать zip-файлы как небезопасные к открытию.

Ну как по мне, дело больше в удобстве, чтобы не распаковывать архив или не захламлять папку temp.
А виндовый эксель для скачанных файлов все равно скажет что они небезопасные к открытию
nosferatum Сообщение #150 10 января 2021 в 04:05
Супермен
34
Добавлены топы по всем стандартным режимам

  • В топах по словарям сделаны фиксы по замечаниям Phemmer, Kudos to Phemmer за годные предложения, а также за ссылку на статистику без # (чтобы она работала в Excel):
    — При скачивании Экселя (пока только в топах по словарям) скачивается не зип-файл с Экселем, а сам xlsx-файл
    — В топах по словарям i-ссылка и в html, и в xlsx ведёт на статистику пользователя по данному словарю, а не на начальную страницу профиля.
  • Заблокированные пользователи и пользователи со скрытым профилем сейчас не исключаются из словарных топов.
    ??? Для заблокированных пользователей не всё так однозначно. Не знаю, убирать ли их, так как это может быть реальная статистика человека по словарю. С другой стороны, заблокированные пользователи с нулевым процентом ошибок на первых местах — это явно боты.
  • Прикручен https. Заход на http ссылку будет редиректить на https. Здесь выражаю большую благодарность JustSo за помощь с моими ламерскими вопросами по генерации сертификата через Let's Encrypt!
  • Помимо донатной ссылки на PayPal, добавлен номер карты Тинькофф, на которую вы можете скинуть донат.
  • Devrialex с моим небольшим участием прикрутил к проекту SonarQube, который запускается из GitHub Actions. Для каждого коммита саммари по Сонару можно смотреть прямо в чеках на ГитХабе, переходя туда, нажимая на крестик/галочку на коммите. Vielen Dank за отличную работу!
  • Для упрощения настройки SonarQube и вообще задач, требующих доступа к администрированию проекта, проект на ГитХабе перенесён из моего персонального аккаунта в организацию kghackers.


Что дальше?
  • Добавить топы по популярным нестандартным словарям.
  • Подумать над тем, как реализовывать мультисловарные топы. Если выборку делать SQL-ем, то нужно сделать pivot в MySQL, что-то вроде вот этого. Как более тупой вариант — выбрать все записи, а пивот сделать уже в Джаве.
  • Берём фича-фриз на то, чтобы подуменьшить технический долг:
    — В веб-части нужно разделить старый универсальный парсер и статистику.
    — Генерируемые файлы убрать из исходников, они должны игнориться для гит, а деплоиться из системы сборки. Сейчас число генерируемых html-файлов приближается к 800 — это явно не то, что нужно в чистом виде хранить в VCS.
    — Настроить генерацию страниц и деплой в пайплайне (видимо, через CodeBuild and/or CodeDeploy).
    — Подправить разумные и простоисправляемые кодовые проблемы, найденные Сонаром.
  • Зарегался в Yoomoney (экс-Яндекс.Деньги). Когда мой аккаунт там проверят, нужно будет добавить и кнопку доната через этот ресурс.


Просто идеи
  • Когда-нибудь сделать страницу, агрегирующую данные пользователя по разным топам, где по человеку показывались бы его места во всех топах, где он есть.
  • Для словарей, которые мы выводим в топы, сделать диаграммы (или таблицы), показывающие количество игроков по диапазону пробега по словарю, типа: число игроков с пробегом по словарю: 1+, 10+, 100+, 200+ текстов, 500+, 1000+, 10000+. Я делал подобные выборки запросами, чтобы определить границу нижнего пробега по словарю для выгрузки в словарный топ (чтобы топы не разбухали до совсем уж огромного числа страниц).


Любые замечания, предложения, донаты — приветствуются, как всегда!
nosferatum Сообщение #151 11 января 2021 в 05:40
Супермен
34
Доброго утра Клавокоммьюнити!

Добавлены топы по популярным нестандартным словарям
  • Словари те, которые находятся вверху популярности по набранным текстам + те, которые запрашивали по несколько раз:
    Обычный in English
    Мини-Марафон
    Короткие тексты
    Частотный словарь
    Соточка
    Цифросоточка
    Тренируем указательные
    ??? Тут я впал в ступор от того, что нет словаря чисто на средние пальцы. Какой словарь добавлять, подскажите?
    Безымянные
    Мизинцы+
  • После обсуждения со Speedyman из всех словарных топов убраны заблокированные пользователи. Это убрало практически всех ботов из первых позиций топов, хотя некоторые незаблокированные игроки по-прежнему вызывают у меня смутные сомнения.
  • Немного подчищена шапка: увеличен linespace, заменена иконка ПэйПала, проставлены неразрывные пробелы. Стало вроде поприятнее, но любой фидбэк порадует, как всегда.
  • Подправлена ссылка на старый топ. Он, конечно, не от 2012 года был :)
  • Добавлен удобный донат через ЮMoney (экс-Яндекс.Деньги). Работает и картой без регистрации в самом ЮМани, проверено.
    Какой ещё повод нужен, чтобы не скинуть мне немножко на шоколадку (на самом деле, на доменное имя и хостинг)?! :)

    скрытый текст…


Что дальше?
  • В размеренном режиме буду думать о том, как реализовать многословарные топы. Для начала нужно понимание, как они вообще должны выглядеть и сортироваться. Будем обсуждать с сообществом, в первую очередь с заинтересованными и знающими людьми: HelixOfTheEnd, Speedyman, Phemmer, plytishka, Сударушка, Анна_Банановна и все остальные прекрасные люди с КГ :) Подключайтесь, коллективный мозг всегда лучше работает, чем закрытая тайная разработка!
  • Но в целом следующий спринт будет техническим, как я и писал в предыдущем посте.
  • Главная цель — автоматизировать загрузку и генерацию данных, чтобы процесс был в значительной степени автоматизирован (пока не полный идеал, но с минимумом ручных действий) и мог выполняться чаще и проще.
    Тут давайте все выразим огромный респект Саше devrialex, который взялся за эту тему по собственной инициативе и уже в процессе настройки загрузки данных, импорта в БД и генерации страниц прямо в пайплайне (супер!). Я фактически лишь описываю задачи, объясняю, как что работает и как должен выглядеть процесс. Это наглядно иллюстрирует то, почему проекты вроде КГ должны поддерживаться сообществом в опенсорсе. У кого-то ещё остались сомнения?


Просто идеи
  • При генерации топов автоматически добавлять запись в бортжурнал пользователям, которые заняли первые места в том или ином топе.
  • Для игроков с открытой статистикой мы можем отслеживать, активный ли это игрок, по дате последнего апдейта среди всех словарей.


Как всегда, любая обратная связь принимается с благодарностью! Хотя бы пишите что-нибудь в тему, битте, а то я даже не знаю, следит ли кто-нибудь за обновлениями ;)
Последний раз отредактировано 11 января 2021 в 13:31 пользователем nosferatum
QuetzalcoatI Сообщение #152 11 января 2021 в 09:29
Кибергонщик
19
nosferatum писал(а):
Доброго утра Клавокоммьюнити!

Добавлены топы по популярным нестандартным словарям

Топ Цифросоточки нужно чистить, очень много игроков которые в среднем ездят под 500 знаков и всего один выход за 900+...
Ещё у fanaticism 1007 знаков и fanatlovli 1009
Сударушка Сообщение #153 11 января 2021 в 09:33
Маньяк
64
Следим, читаем, с трудом понимая технические термины, смотрим статистику, от души благодарим!

nosferatum писал(а):
Тут давайте все выразим огромный респект Саше devrialex

Выражаем! Респект и уважуха спасибо!

Честно говоря, даже не совсем представляю навскидку, как должны выглядеть и сортироваться многословарные топы, вероятно, потому что никогда не была увлечена Хрустяшками.

nosferatum писал(а):
Для игроков с открытой статистикой мы можем отслеживать, активный ли это игрок, по дате последнего апдейта среди всех словарей.

Это здорово, но я совершенно точно не раз видела, что люди зайдут раз в полгода-квартал, катнут пару заездов, и все... Он, конечно, активный, но не вполне...
Может, все-таки, на будущее предусмотреть фиксацию базы хотя бы раз в год (26 декабря – практически начало года, идеально подходит) и расчет прироста в количестве заездов за последний год? Да, если человек поудаляет заезды, может быть отрицательный прирост, или искажающая цифра. Но активность такая цифра будет показывать объективнее, чем дата последнего посещения.

nosferatum, скажи, пожалуйста, будет ли в дальнейшем реализована возможность выгрузки данных по любому из интересующих словарей?
Сударушка Сообщение #154 11 января 2021 в 10:11
Маньяк
64
Раз уж тут пошла движуха, выскажу свою мечту в отношении статистики.

Подсчет набранного человеком не в текстах, а в символах.

Не обязательно это делать для всех игроков (ибо для всех это нереально долго, но, правда, можно такое действие выполнить единожды и для каждого игрока установить коэффициент перевода. Естественно, в реальности при изменении статистики игрока, он будет другим, но это лучше, чем крайне необъективное число текстов).

Если это будет реализовано, как генератор наград от JustSo, это уже будет прекрасно.
Считать точно можно только для имеющих Премиум, отталкиваясь от времени и скорости заезда.
Для клавогонщиков без Премиума считать укрупненно. Для словарей типа книга можно брать по Прогрессу, как доли от общего объема

Для реализации подсчета количества набранного в символах для клавогонщиков без Премиума необходима более детальная статистика по словарям, а именно – среднее количество символов в отрывке словаря. Как я (со своим чайниковскими познаниями в программировании) понимаю, это не так сложно. Для словарей с введенными автором словаря отрывками, типа мини-марафона, считается средний размер отрывка. Для остальных типов словарей средний размер внутри типа одинаковый (если я правильно помню свою оценку по Частотному словарю, составляет он 310 знаков). Эту цифру можно уточнить расчетами или узнав у клавомехаников.

Кстати, в статистике по словарям http://klavogonki.ru/forum/software/59/page7/#post121 в любом случае не помешала бы характеристика – тип словаря: фразы, тексты, книга.


Для случая, если этот вариант сложный и нереализуемый, мне кажется, имел бы право на существование показатель Обычко-эквивалентов пробега, исходя из текущей средней скорости в Обычке. Для этого нужно суммировать время проката во всех словарях для клавогонщика и перевести его время в количество Обычек, исходя из средней длины обычки (по моей оценке это 260 знаков). Для топ-игроков по количеству проката (а именно для них интересно в первую очередь смотреть прокат в символах, а не в текстах) искажение из-за изменения скорости будет не таким уж и большим.
Последний раз отредактировано 11 января 2021 в 10:12 пользователем Сударушка
nosferatum Сообщение #155 11 января 2021 в 12:25
Супермен
34
QuetzalcoatI, cпасибо за фидбэк!

QuetzalcoatI писал(а):
Топ Цифросоточки нужно чистить, очень много игроков которые в среднем ездят под 500 знаков и всего один выход за 900+...


Сейчас нет никакой интеллектуальной логики, исключаются только заблокированные юзеры (blocked != 0). Детальной статистики по заездам тоже не выгружается, и я подозреваю, что это будут колоссальные объёмы, так что вряд ли реалистично (и что вообще можно через текущий API выгрузить все заезды по произвольному игроку).

скрытый текст…


Если тебе нужен свой топ, с блэкджеком и умными исключениями пользователей, ты можешь:
— скачать Эксель, и там править что твоей душе угодно :)
подключиться к проекту и добавить какие-то правки с более продвинутой логикой. Если текущих данных для этого хватит.


QuetzalcoatI писал(а):
Ещё у fanaticism 1007 знаков и fanatlovli 1009

У этих игроков скрыта статистика, вот и нет их в нашей базе. Напиши им, попроси открыть стату, и после этого они в следующую выгрузку попадут.
Последний раз отредактировано 11 января 2021 в 12:38 пользователем nosferatum
nosferatum Сообщение #156 11 января 2021 в 15:25
Супермен
34
Сударушка писал(а):
Может, все-таки, на будущее предусмотреть фиксацию базы хотя бы раз в год (26 декабря – практически начало года, идеально подходит) и расчет прироста в количестве заездов за последний год? Да, если человек поудаляет заезды, может быть отрицательный прирост, или искажающая цифра. Но активность такая цифра будет показывать объективнее, чем дата последнего посещения.

Да, дифф между двумя базами по общему числу заездов — это нормальный вариант, не безумно сложный.
Можно вернуться к теме через год. Только я подозреваю, что за год или ишак сдохнет, или эмир, или я КГ уже загнуться могут.

Как я уже писал, работа с разными версиями БД — это нетривиальная задача, и те, кто хочет подобной функциональности, обязаны должны сделать какой-то адекватный донат.

Сударушка писал(а):
nosferatum, скажи, пожалуйста, будет ли в дальнейшем реализована возможность выгрузки данных по любому из интересующих словарей?

Да текущие топы по 1 словарю уже выгружаются универсально с минимальной конфигурацией:
— код словаря
— название словаря в именительном и предложном падежах
— названия листов Эксель (если не влезают в 31 символ, названия длиннее обрезаются виндовым Экселем)

Я могу сделать этот запуск так, что он будет выполняться из командной строки, а конфиг будет передаваться в json файле. Если ты согласна поставить локально Джаву и MySQL, то сможешь выгружать произвольный словарь в текущем формате топа. :)

На сервере такой функциональности нет, потому что за сервер надо платить. Да, это мб несколько десятков долларов, но почему я должен их тратить из своего кармана? Мои трудозатраты на статистику идут на сотни человекочасов, то есть стоимость — сотни (если уже не тысячи) евро. Донатить же не хочет почти никто.

Сударушка писал(а):
Кстати, в статистике по словарям http://klavogonki.ru/forum/software/59/page7/#post121 в любом случае не помешала бы характеристика – тип словаря: фразы, тексты, книга.

Как ты можешь заметить, этот топ черновой, он недоступен из основного меню. Если он кому-то интересен, то надо сделать чистовую версию, куда включить все адекватные поля по словарям.

Сударушка писал(а):
Раз уж тут пошла движуха, выскажу свою мечту в отношении статистики.

Подсчет набранного человеком не в текстах, а в символах.

Не обязательно это делать для всех игроков (ибо для всех это нереально долго, но, правда, можно такое действие выполнить единожды и для каждого игрока установить коэффициент перевода. Естественно, в реальности при изменении статистики игрока, он будет другим, но это лучше, чем крайне необъективное число текстов).

Если это будет реализовано, как генератор наград от JustSo, это уже будет прекрасно.
Считать точно можно только для имеющих Премиум, отталкиваясь от времени и скорости заезда.
Для клавогонщиков без Премиума считать укрупненно. Для словарей типа книга можно брать по Прогрессу, как доли от общего объема

Для реализации подсчета количества набранного в символах для клавогонщиков без Премиума необходима более детальная статистика по словарям, а именно – среднее количество символов в отрывке словаря. Как я (со своим чайниковскими познаниями в программировании) понимаю, это не так сложно. Для словарей с введенными автором словаря отрывками, типа мини-марафона, считается средний размер отрывка. Для остальных типов словарей средний размер внутри типа одинаковый (если я правильно помню свою оценку по Частотному словарю, составляет он 310 знаков). Эту цифру можно уточнить расчетами или узнав у клавомехаников.

Несколько раз перечитал, до конца так и не понял.
Напишу комментарии с моей стороны (мб не совсем релевантны, сорри):
  • Как главный пункт напомню: у меня нет доступа к базе данных КГ. Только API-вызовы, которые дёргаются со страниц самих КГ. Если ты не следишь, то на любой запрос на доступ к исходникам ваш любимый, величайший бог Даниэль отвечает в штыки, а вернее, никаких конкретных ответов от него нет.
  • Сейчас нет загрузки статистики по заездам игрока (я так понимаю, что ты хочешь, чтобы мы сохранили все заезды всех игроков по всем словарям за всё время по данным, которые отображаются вот на таких страницах). Парсинг таких запросов написать можно, но объём данных будет просто феерическим.
    — Насколько я понимаю (могу ошибаться), и в этих данных нет количества символов в каждом заезде. Мб имелась в виду загрузка CSV или что-то такое, что доступно только из премиум-акка? И это разве доступно для всех юзеров, а не только для самого премиум-игрока?
  • Как мы должны определять, премиум игрок или нет? У меня нет доступа к таким данным. Кто-то знает, где их можно получить через API?
  • По поводу подсчёта символов в словаре:
    — Данных по отрывкам словарей у нас нет. По общему знанию, нет никаких API, которые выдают данные словарей. Можно только парсить html, но таким костылестроением я сам заниматься не буду (возможно, кто-то подключится или уже имеет такой код). Это ещё один вопрос к тому, почему нужно переписывать сайт с [вырезано] серверно-генерируемых страниц на PHP на нормальную современную архитектуру с чистым и документированным API. Вопросы по предоставлению исходников — к Даниэлю. Будто это надо мне одному, [вырезано] :/
    — По данным словарей из статистики есть такие поля `symbols` и `rows`. Я документировал в OAS, что в них находится для разных типов словарей, см. вот тут. Я так понимаю, что для некоторых (или всех?) типов словарей из них можно посчитать среднюю длину отрывка.


Сударушка писал(а):
Для случая, если этот вариант сложный и нереализуемый, мне кажется, имел бы право на существование показатель Обычко-эквивалентов пробега, исходя из текущей средней скорости в Обычке. Для этого нужно суммировать время проката во всех словарях для клавогонщика и перевести его время в количество Обычек, исходя из средней длины обычки (по моей оценке это 260 знаков). Для топ-игроков по количеству проката (а именно для них интересно в первую очередь смотреть прокат в символах, а не в текстах) искажение из-за изменения скорости будет не таким уж и большим.

Это раза с десятого (Буратино был тупой, да :)) всё-таки понял:
  • Берём среднюю в обычке и общее время игрока в обычке (они уже посчитаны на самих КГ).
  • Имеем некую эвристическую константу для «число символов в одной обычке».
  • На основе указанных значений считаем показатель игрока «число символов в единицу времени».
  • На основе «символов в секунду» умножаем их на haul в конкретном словаре — и получаем предполагаемое число символов, набранных игроком в словаре.
  • Это будет крайне примерный критерий, т.к., например, скорость в Буквах очевидно ниже скорости в Обычном, а в Соточке — очевидно, больше.
  • Но зато это реалистичное требование, которое, AFAIU, можно реализовать уже на текущих данных.
Последний раз отредактировано 11 января 2021 в 18:31 пользователем nosferatum
Анна_Банановна Сообщение #157 11 января 2021 в 16:00
Маньяк
58
Подсчет набранного человеком не в текстах, а в символах.

Понятия не имею, как технически такое может реализоваться, но я давно мечтала, чтоб "Общий пробег" был отображен в набранных знаках, а не в текстах. Я бы даже, для большей эргономичности, то есть для более удобного восприятия, где-то в скобках указывала бы эквивалент в обычках. Было бы так: Общий пробег (млн.зн) - 3 (10 000), а где-то выше/сбоку указано, что в скобках это обычки. Общий пробег в текстах, это средняя температура по больнице - очень ненадежный показатель, статистически полное фу.

Все остальные словари прекрасно отображены количеством текстов - так как мы можем видеть, о каком типе текста идет речь.
Последний раз отредактировано 11 января 2021 в 16:41 пользователем Анна_Банановна
- Сообщение #158 11 января 2021 в 16:19
Новичок
1
Анна_Банановна писал(а):
Общий пробег в текстах, это средняя температура по больнице - очень ненадежный показатель, статистически полное фу

Соглашусь целиком и полностью!
nosferatum Сообщение #159 11 января 2021 в 16:38
Супермен
34


Поправьте, битте, ежели я гоню?
- Сообщение #160 11 января 2021 в 17:01
Новичок
1
nosferatum писал(а):
Поправьте, битте, ежели я гоню?

Хм, похоже, что не гонишь и так и есть!

Чтобы писать в форуме, нужно зарегистрироваться.

Ctrl предыдущая следующая Ctrl Страницы
1 2 3 4 5 6 7 8 9

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена