Отображение частотности английских слов в тексте - Программное обеспечение - Форум - Клавогонки

Маньяк

38

Еще раз всем привет!
Недавно разговаривали с пользователем Zikting.
И пришли к мнению, что неплохо было бы кроме обычной нашей всем известной панельки оценки сложности текста добавить еще и просто распределение слов в английских текстах по частотности. В качестве дополнительной инфы. Ведь оценка сложности выводится в том числе и исходя из удобства набора на QWERTY раскладке. А просто частота слов от раскладки не зависит.

Я немного прикинул и сел это писать. Взял список частотности от гугла (10к)

Дальше на коленке забацал по-быстрому реализацию. Возможно, она еще будет как-нибудь допиливаться в будущем.

Скрипт делит слова на категории по частотности: <=200, 200-1к, 1к-5к, 5к-10к, >10k и выводит панельку с процентным распределением (проценты тоже округляются, так что не удивляйтесь).

Скрипт позволит оценить распределение слов текста по частотности. Грубо говоря, чем зеленее (больше процентов в первых двух колонках), тем частотней.

Для текстов, в которых отсутствуют английские слова, естественно, расчеты нормально не выведутся.

Скриншоты как все это выглядит:

скрытый текст…

Пользуйтесь!

Код поставляется как есть, делайте с ним что хотите! (нужно поставить тамперманки, а потом добавить данный скрипт). Если найдете какие-то баги или появятся предложения, пишите сюда или в личку. Если будет мне не лень, то внесу изменения. Вы также сами вольны модифицировать и использовать данный скрипт как того душа пожелает

Ссылка на код, т.к. форум съедает часть символов: >>> тыц <<<

Последний раз отредактировано 31 августа 2024 в 19:06 пользователем ASplayer9119

Еще раз всем привет!
Недавно разговаривали с пользователем [b]Zikting[/b].
И пришли к мнению, что неплохо было бы кроме обычной нашей всем известной панельки оценки сложности текста добавить еще и просто распределение слов в английских текстах по частотности. В качестве дополнительной инфы. Ведь оценка сложности выводится в том числе и исходя из удобства набора на [b]QWERTY[/b] раскладке. А просто частота слов от раскладки не зависит.

Я немного прикинул и сел это писать. Взял [url="https://github.com/first20hours/google-10000-english/blob/master/google-10000-english-usa.txt"]список частотности от гугла (10к)[/url]

Дальше на коленке забацал по-быстрому реализацию. Возможно, она еще будет как-нибудь допиливаться в будущем.

Скрипт делит слова на категории по частотности: <=200, 200-1к, 1к-5к, 5к-10к, >10k и выводит панельку с процентным распределением (проценты тоже округляются, так что не удивляйтесь).

Скрипт позволит оценить распределение слов текста по частотности. Грубо говоря, чем зеленее (больше процентов в первых двух колонках), тем частотней.

Для текстов, в которых отсутствуют английские слова, естественно, расчеты нормально не выведутся.

Скриншоты как все это выглядит:

[hide][b]Обычный in English[/b]
[img]https://i.imgur.com/4Xs3z20.png[/img]

[b]One Hundred[/b]
[img]https://i.imgur.com/ZddNUwz.png[/img]

[b]Частотный английский[/b]
[img]https://i.imgur.com/kb63jmW.png[/img]

[b]Мини-марафон in English[/b]
[img]https://i.imgur.com/GIQi8Jw.png[/img][/hide]

Пользуйтесь!

[i][b]Код поставляется как есть, делайте с ним что хотите! (нужно поставить тамперманки, а потом добавить данный скрипт). Если найдете какие-то баги или появятся предложения, пишите сюда или в личку. Если будет мне не лень, то внесу изменения. Вы также сами вольны модифицировать и использовать данный скрипт как того душа пожелает[/b][/i]

[size=3]Ссылка на код, т.к. форум съедает часть символов: >>> [url="https://pastecode.dev/s/cy61xk8k"]тыц[/url] <<<[/size]

Кибергонщик

60

Возможно стоит добавить еще одну графу для более редких слов - 10к+
и выстраивать цвета частотности по шкале от 0% до 100% присутствия в тексте (от красного до зелёного)

Супермен

1

Пока мысли такие: приходится самому каждый раз считать процентный остаток слов 10к+. А ещё можно сделать столбчатую диаграмму из 10 столбцов на каждую тысячу слов, максимальной высотой в 10 пунктов (по одному пункту за каждые 10% присутствия). Ну и, конечно, среднюю частоту одним итоговым числом. Вот запросы у меня

А так - уже можно пользоваться. Спасибо за скрипт!

Маньяк

38

Ладно, я пока в следующей версии добавлю колонку 10к+ и раскрашу проценты не статично, а в зависимости от самого процента.
Типа:
0-24 красный
25-49 оранжевый
50-74 зеленый (светлый)
75-100 зеленый (темный)

А над отображанием диаграммы я подумаю.

В теме отпишусь, когда сделаю update.

UPD

Чет прикинул, что равномерно распределять цвета процентов (по 25) не очень идея. Нормальными-хорошими уже будут тексты, где в сумме больше 50% слов попадает в первые две категории (<=200 и 200-1k). А не чисто в одну.

А вот найти текст, где будет 75%+ в одной из категорий, мне кажется, будет сложно. Частотки да соточка. Так что красную зону принято решение укоротить, зеленую же еще больше расширить. Опять же, цвета не значат легкость/сложность, они лишь показывают насыщенность текста словами данной категории.

0-14% красный (низкая концентрация слов данной категории)
15-39% оранжевая (средняя концентрация слов данной категории)
40-69% зеленый (светлый) (высокая концентрация слов данной категории)
70-100% зеленый (темный) (очень высокая концентрация слов данной категории)

Последний раз отредактировано 5 августа 2024 в 18:18 пользователем ASplayer9119

Ладно, я пока в следующей версии добавлю колонку 10к+ и раскрашу проценты не статично, а в зависимости от самого процента.
Типа:
0-24 [color="#FF0000"]красный[/color]
25-49 [color="#FFA500"]оранжевый[/color]
50-74 [color="#22C622"]зеленый (светлый)[/color]
75-100 [color="#007800"]зеленый (темный)[/color]

А над отображанием диаграммы я подумаю.

В теме отпишусь, когда сделаю update.

[b]UPD[/b]

Чет прикинул, что равномерно распределять цвета процентов (по 25) не очень идея. Нормальными-хорошими уже будут тексты, где в сумме больше 50% слов попадает в первые две категории (<=200 и 200-1k). А не чисто в одну.

А вот найти текст, где будет 75%+ в одной из категорий, мне кажется, будет сложно. Частотки да соточка. Так что красную зону принято решение укоротить, зеленую же еще больше расширить. Опять же, цвета не значат легкость/сложность, они лишь показывают насыщенность текста словами данной категории.

0-14% [color="#FF0000"]красный[/color] (низкая концентрация слов данной категории)
15-39% [color="#FFA500"]оранжевая[/color] (средняя концентрация слов данной категории)
40-69% [color="#22C622"]зеленый (светлый)[/color] (высокая концентрация слов данной категории)
70-100% [color="#007800"]зеленый (темный)[/color] (очень высокая концентрация слов данной категории)

Кибергонщик

60

Ещё есть предложение мерить частотность не по количеству слов, а по общему количеству букв.
То есть: unconsciousness в процентах - одно слово, но по размеру - как три частотных. И более верно его отображать не как (условно) 1/50 всех слов, а 15/250 всех букв

Маньяк

38

sashavirtual писал(а):

Ещё есть предложение мерить частотность не по количеству слов, а по общему количеству букв.
То есть: unconsciousness в процентах - одно слово, но по размеру - как три частотных. И более верно его отображать не как (условно) 1/50 всех слов, а 15/250 всех букв

Не, такое я добавлять не буду скорее всего. Слова учитываются без длины. А то такими темпами это уже начнет со временем смахивать на панельку расчета сложности. Там как раз куча факторов учитывается.
По задумке это должен быть простой вспомогательный инструмент в добавок к панельке сложности, а не штука, которая бы в перспективе ее заменила.
Как у пилотов есть множество разных приборов и датчиков, так и этот скрипт - просто еще один такой датчик.

Маньяк

38

UPDATE (version 0.2.0)
+ Добавлена колонка >10k
+ Цвета теперь не статичные, а в зависимости от концентрации слов в той или иной категории (расшифровку смотреть в update этого поста)
+ Добавлен расчет средней частоты слов и медианной (разницу их вычислений можете прочитать в интернете). Среднюю мы не можем всегда точно рассчитать, т.к. не знаем настоящую частоту для слов 10к+ (их просто нет в списке), поэтому для них частота берется 10001. Сноска об этом есть внизу индикатора.

Маньяк

38

UPDATE (version 0.2.1)
* small fix: фиксанул округление, которое иногда приводило к тому, что отображалось -1% в колонке >10k

Форум «Программное обеспечение» / Отображение частотности английских слов в тексте

Чтобы писать в форуме, нужно зарегистрироваться.

Автор:

Обратный адрес:

Тема:

Сообщение: