[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .

Форум «Программное обеспечение» / Отображение частотности английских слов в тексте

ASplayer9119 Сообщение #1 5 августа 2024 в 03:13
Маньяк
38
Еще раз всем привет!
Недавно разговаривали с пользователем Zikting.
И пришли к мнению, что неплохо было бы кроме обычной нашей всем известной панельки оценки сложности текста добавить еще и просто распределение слов в английских текстах по частотности. В качестве дополнительной инфы. Ведь оценка сложности выводится в том числе и исходя из удобства набора на QWERTY раскладке. А просто частота слов от раскладки не зависит.

Я немного прикинул и сел это писать. Взял список частотности от гугла (10к)

Дальше на коленке забацал по-быстрому реализацию. Возможно, она еще будет как-нибудь допиливаться в будущем.

Скрипт делит слова на категории по частотности: <=200, 200-1к, 1к-5к, 5к-10к, >10k и выводит панельку с процентным распределением (проценты тоже округляются, так что не удивляйтесь).

Скрипт позволит оценить распределение слов текста по частотности. Грубо говоря, чем зеленее (больше процентов в первых двух колонках), тем частотней.

Для текстов, в которых отсутствуют английские слова, естественно, расчеты нормально не выведутся.

Скриншоты как все это выглядит:

скрытый текст…


Пользуйтесь!

Код поставляется как есть, делайте с ним что хотите! (нужно поставить тамперманки, а потом добавить данный скрипт). Если найдете какие-то баги или появятся предложения, пишите сюда или в личку. Если будет мне не лень, то внесу изменения. Вы также сами вольны модифицировать и использовать данный скрипт как того душа пожелает

Ссылка на код, т.к. форум съедает часть символов: >>> тыц <<<
Последний раз отредактировано 31 августа 2024 в 19:06 пользователем ASplayer9119
sashavirtual Сообщение #2 5 августа 2024 в 08:25
Кибергонщик
54
Возможно стоит добавить еще одну графу для более редких слов - 10к+
и выстраивать цвета частотности по шкале от 0% до 100% присутствия в тексте (от красного до зелёного)
Zikting Сообщение #3 5 августа 2024 в 13:35
Супермен
1
Пока мысли такие: приходится самому каждый раз считать процентный остаток слов 10к+. А ещё можно сделать столбчатую диаграмму из 10 столбцов на каждую тысячу слов, максимальной высотой в 10 пунктов (по одному пункту за каждые 10% присутствия). Ну и, конечно, среднюю частоту одним итоговым числом. Вот запросы у меня А так - уже можно пользоваться. Спасибо за скрипт!
ASplayer9119 Сообщение #4 5 августа 2024 в 14:42
Маньяк
38
Ладно, я пока в следующей версии добавлю колонку 10к+ и раскрашу проценты не статично, а в зависимости от самого процента.
Типа:
0-24 красный
25-49 оранжевый
50-74 зеленый (светлый)
75-100 зеленый (темный)

А над отображанием диаграммы я подумаю.

В теме отпишусь, когда сделаю update.

UPD

Чет прикинул, что равномерно распределять цвета процентов (по 25) не очень идея. Нормальными-хорошими уже будут тексты, где в сумме больше 50% слов попадает в первые две категории (<=200 и 200-1k). А не чисто в одну.

А вот найти текст, где будет 75%+ в одной из категорий, мне кажется, будет сложно. Частотки да соточка. Так что красную зону принято решение укоротить, зеленую же еще больше расширить. Опять же, цвета не значат легкость/сложность, они лишь показывают насыщенность текста словами данной категории.

0-14% красный (низкая концентрация слов данной категории)
15-39% оранжевая (средняя концентрация слов данной категории)
40-69% зеленый (светлый) (высокая концентрация слов данной категории)
70-100% зеленый (темный) (очень высокая концентрация слов данной категории)
Последний раз отредактировано 5 августа 2024 в 18:18 пользователем ASplayer9119
sashavirtual Сообщение #5 5 августа 2024 в 15:22
Кибергонщик
54
Ещё есть предложение мерить частотность не по количеству слов, а по общему количеству букв.
То есть: unconsciousness в процентах - одно слово, но по размеру - как три частотных. И более верно его отображать не как (условно) 1/50 всех слов, а 15/250 всех букв
ASplayer9119 Сообщение #6 5 августа 2024 в 18:19
Маньяк
38
sashavirtual писал(а):
Ещё есть предложение мерить частотность не по количеству слов, а по общему количеству букв.
То есть: unconsciousness в процентах - одно слово, но по размеру - как три частотных. И более верно его отображать не как (условно) 1/50 всех слов, а 15/250 всех букв

Не, такое я добавлять не буду скорее всего. Слова учитываются без длины. А то такими темпами это уже начнет со временем смахивать на панельку расчета сложности. Там как раз куча факторов учитывается.
По задумке это должен быть простой вспомогательный инструмент в добавок к панельке сложности, а не штука, которая бы в перспективе ее заменила.
Как у пилотов есть множество разных приборов и датчиков, так и этот скрипт - просто еще один такой датчик.
ASplayer9119 Сообщение #8 5 августа 2024 в 18:41
Маньяк
38
UPDATE (version 0.2.0)
+ Добавлена колонка >10k
+ Цвета теперь не статичные, а в зависимости от концентрации слов в той или иной категории (расшифровку смотреть в update этого поста)
+ Добавлен расчет средней частоты слов и медианной (разницу их вычислений можете прочитать в интернете). Среднюю мы не можем всегда точно рассчитать, т.к. не знаем настоящую частоту для слов 10к+ (их просто нет в списке), поэтому для них частота берется 10001. Сноска об этом есть внизу индикатора.
ASplayer9119 Сообщение #22 31 августа 2024 в 18:52
Маньяк
38
UPDATE (version 0.2.1)
* small fix: фиксанул округление, которое иногда приводило к тому, что отображалось -1% в колонке >10k

Чтобы писать в форуме, нужно зарегистрироваться.


Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена