[{{mminutes}}:{{sseconds}}] X
Пользователь приглашает вас присоединиться к открытой игре игре с друзьями .
Ctrl предыдущая следующая Ctrl Страницы
1 2 3

Форум «Академия» / Как сравнить два слова по сложности?

Bombo Сообщение #1 8 апреля 2011 в 18:50
Маньяк
33
Предлагаю обсудить такой важный вопрос. Как определить сложность печатаемого слова?
Если не брать во внимание расхождение в раскладках, то мы придем к выводу, что легче набирать то, что чаще набираем. Здесь нам может помочь "частотность двухбуквенных сочетаний" и прочие подобные вещи. Если одно сочетание мы очень часто используем, то на любой раскладке оно у нас на автомате =)
Хотелось бы увидеть некий математический подход к подсчету сложности каждого слова. Есть идеи? =)
Morrikon Сообщение #2 8 апреля 2011 в 19:06
Экстракибер
27
Не знаю как насчет математического расчета... думаю слова, в которых используются буквы с краев - сложнее. Правда если они миксуются с буквами из центра клавиатуры - получается быстрее, потому что одними указательными тыкать слово, допустим "которого" - сложнее, чем протыкать слово "существо", уже с использованием средних пальцев.

А так вообще, я, например, и думаю не только я, могу определить целый текст - сложный он будет для меня или нет при печати. Потому что могу мысленно напечатать каждое слово из текста.
Cheatah Сообщение #3 8 апреля 2011 в 19:24
Маньяк
16
Математически точно определить сложность слова вряд ли получится. Чем больше у человека опыта, тем лучше он знает более часто попадающиеся ему слова, а какие слова будут попадаться часто - очень индивидуально, зависит от конкретного человека. И вроде бы даже самое неудобное слово, которое повторено множество раз, может оказаться быстрее, чем впервые увиденное редкое слово, не имеющее особых сложностей "математически".

Но как вариант можно взять частотные словари и проверять текст на процент содержания в нем частотных слов. Чем больше процент, тем легче текст. Кроме того, в тех же частотных словарях легко выяснить сложные слова, просто покатавшись по ним более-не-менее долго и посмотрев на статистику TS с усреднением по словам.
olimo Сообщение #4 8 апреля 2011 в 19:56
Супермен
51
Очень много субъективного. Мне «которого» набрать в разы легче, чем «взгляд», хотя в первом аж 7 букв я набираю одним пальцем, а во втором все буквы разными пальцами.
Тема ни о чем, имхо, у каждого свои затыки, а на самые популярные и общие проблемы словарей предостаточно.
Arkaine Сообщение #5 8 апреля 2011 в 20:01
Маньяк
1
А зачем это?
Dimast17 Сообщение #6 8 апреля 2011 в 20:12
Маньяк
47
Изначально можно оттолкнуться от расстояния, которое "проходят" пальцы при наборе. За ноль считаем исходную позицию.
Примеры:
"которого" - к (1) о (0) т (1) о (0) р (1) о (0) г (1) о (0) = 4
"взгляд" - в (0) з (1.5) г (1) л (0) я (1) д (0) = 3.5

Однако стоит учесть тучу нюансов, например, такие:
1. Буквы в идеале должны чередоваться в слове, то есть сначала нажимает палец левой руки, потом палец правой. Понятно, что этого никогда не будет, поэтому нужно вводить поправочные коэффициенты, когда
а) следующую букву нажимает тот же палец
б) следующую букву нажимает палец на той же руке

2. Перемещение пальцев по вертикали и горизонтали я взял за 1, однако это не всегда так. Наверняка нижний ряд нажимать проще, нежели верхний, поэтому для разных рядов нужны свои коэффициенты.
Tolstij Сообщение #7 8 апреля 2011 в 20:15
Гонщик
8
Bombo писал(а):
Как определить сложность печатаемого слова?
Если этот вопрос имеет конечной целью определить сложность текстов в словаре "Бомботексты", то можно пойти другим путем :). Выводы можно сделать по своим собственным субъективным ощущениям и мнениям других пользователей. Опрос какой-нибудь. Или просить указать тексты, которые понравились своей простотой.

Вообще говоря, было бы действительно большим плюсом этого словаря, чтобы в нем были только легкие, разгонные тексты. То есть, к существующему списку его особенностей и достоинств, прибавился бы еще и этот пунктик :).
olimo Сообщение #8 8 апреля 2011 в 20:15
Супермен
51
Dimast17 писал(а):
нижний ряд нажимать проще, нежели верхний
Мне наоборот.
Перемещения во втором случае гораздо меньше, т.к. во время набора В правый мизинец уже над З :) Ну и так далее. В «которого» так вот заранее не подготовишься. Но это слово я набираю почти всегда без ошибок и быстро, в отличие от «взгляда». Или там «чувства», на котором ошибаюсь почти всегда.
Cheatah Сообщение #9 8 апреля 2011 в 20:15
Маньяк
16
Dimast17 писал(а):
Наверняка нижний ряд нажимать проще, нежели верхний, поэтому для разных рядов нужны свои коэффициенты.


А вот Дворак вроде бы считал наоборот :) Да и самые сложные сочетания как раз с нижним рядом связаны, по-моему: -сяч-, -люб-

Мое мнение: со всеми этими расстояниями/синхронизациями сильно заморачиваться не стоит - наш мозг их довольно быстро тренирует, поэтому исключать их из каких-либо словарей большого смысла нет.
Последний раз отредактировано 8 апреля 2011 в 20:17 пользователем Cheatah
olimo Сообщение #10 8 апреля 2011 в 20:19
Супермен
51
Вообще мне кажется, что если уж так хочется отрабатывать сложности в словарях, надо создавать свои словари под свои конкретные проблемы. И все :)
Cheatah Сообщение #11 8 апреля 2011 в 20:21
Маньяк
16
olimo писал(а):
Вообще мне кажется, что если уж так хочется отрабатывать сложности в словарях, надо создавать свои словари под свои конкретные проблемы. И все :)

Я так понимаю, что Бомбо скорее исключать сложности из словарей хочет, а не отрабатывать :) Чтобы словарик быстрым получился.
mystes Сообщение #13 8 апреля 2011 в 20:36
Новичок
1
Раскладку обязательно надо принимать во внимание, а также клавиатуру и руки. Без этого модель будет сферически-вакуумной.
olimo Сообщение #14 8 апреля 2011 в 20:36
Супермен
51
Тогда можно предложить писать комментарии, если люди встретят особо сложные слова. Не просто сложные, а прямо конкретно неразгонные. Я бы предложила убрать «коадъютора», например :)
Ну а окончательное решение — убирать или оставлять — должен принимать автор. Как, например, у меня в «Лузер-текстах». Люди предлагают, а я могу принять текст или не принять.

Для равномерного чередования есть словари «Качели 5 зн» и «Русский Синхронизация». Но я бы не сказала, что их набирать намного проще обычного. Зачастую даже не проще.
Последний раз отредактировано 8 апреля 2011 в 20:42 пользователем olimo
mystes Сообщение #15 8 апреля 2011 в 20:38
Новичок
1
Dimast17 писал(а):
Однако стоит учесть тучу нюансов, например, такие:
1. Буквы в идеале должны чередоваться в слове, то есть сначала нажимает палец левой руки, потом палец правой. Понятно, что этого никогда не будет, поэтому нужно вводить поправочные коэффициенты, когда
а) следующую букву нажимает тот же палец
б) следующую букву нажимает палец на той же руке

Но это ведь смотря как набирать. Можно жать пары и даже тройки клавиш одной рукой. Для такого стиля равномерное чередование рук — зло.
Tolstij Сообщение #16 8 апреля 2011 в 20:51
Гонщик
8
olimo писал(а):
Тогда можно предложить писать комментарии, если люди встретят особо сложные слова. Не просто сложные, а прямо конкретно неразгонные. Я бы предложила убрать «коадъютора», например :)
Ну а окончательное решение — убирать или оставлять — должен принимать автор. Как, например, у меня в «Лузер-текстах». Люди предлагают, а я могу принять текст или не принять.
Мудро.
Bombo Сообщение #17 9 апреля 2011 в 04:07
Маньяк
33
вечером приду - поясню идею. и зачем это все
Переборыч Сообщение #18 9 апреля 2011 в 04:16
Клавомеханик-Организатор событий
55
Bombo Сообщение #20 9 апреля 2011 в 10:13
Маньяк
33
Переборыч писал(а):

Тему глянул, но там только рассуждения. Никакой реализации.

Сегодня в универе одногруппник подкинул идею и я ее сразу реализовал (написал прогу).
Прога выписывает предложение из моего словарика (допустим) и выставляет ему рейтинг сложности.

Результат был таков:
Самый легкий текст: 43.0187
Самый сложный текст: 113.571
Среднее значение сложности: 65.77

Вот парочка примеров текстов со значением сложности:
Как же не говорить, если мы с тобой сидим у них в плену и нас даже подарили этому чернобородому уроду. 43.0187
Чтобы не поставить себя и детей в неловкое положение, я ни с одним из них не заговаривала на эту тему. 43.3196
Вот вы их и видели во сне, но вы не намерены оставаться среди них и ищете выход из такого положения. 43.2665
Он смотрел на них и как бы новая какая идея осенила его, так что о главном он словно забыл на минуту. 43.5617

Майк заснял крохотных черных детенышей с матерями и разгуливавших неподалеку чванливых крупных самцов. 113.571
Сонечка тщательно размешала омерзительно пахнущую жижу в котелке и решительно двинулась вглубь пещеры. 108.716
Броньола на мгновенье остановил тяжелый взгляд на младшем лейтенанте, сжал кулаки и вышел из дежурки. 107.207
Последний крик верховного жреца оглушил и полководца, и находящихся на почтительном отдалении жрецов. 105.617

Я проверил рекорды 5-7 людей в моем словарике и сложность рекордных текстов была 50-60.
Вот мой рекордный текст:
Но он смеется и говорит, что еще на два года хватит и он за эти два года столичникам хвосты накрутит. 49.2782

Рекорд olimo:
Тут я начинаю понимать, что у нас никто не умер и что события развиваются именно в направлении жизни. 48.9927


На ваш взгляд есть разница по сложности набора текстов со сложностью ~40 и сложностью 100+?
Последний раз отредактировано 9 апреля 2011 в 10:21 пользователем Bombo
olimo Сообщение #21 9 апреля 2011 в 10:27
Супермен
51
Разница есть. Сложно описать, в чем именно, но вторая четверка текстов явно сложноватая, я бы не каждый из них стала печатать :)
Колись, что за алгоритм?)
Bombo Сообщение #22 9 апреля 2011 в 10:33
Маньяк
33
Алгоритм прост. И это только часть всей системы оценки текстов которую можно создать)

Вобщем у каждого двухбуквенного сочетания есть частотность попадания в текстах.
У самого частого 7 миллионов а у самого редкого 3 тысячи.
Ну я извлек корень из частотности. И поделил единицу на полученное число.

В каждом тексте встречается много разных двухбуквенных сочетаний. Для каждого я провел вычисления и сложил. Сумма*1000 и есть это число после текста)

Чтобы писать в форуме, нужно зарегистрироваться.

Ctrl предыдущая следующая Ctrl Страницы
1 2 3

Связаться
Выделить
Выделите фрагменты страницы, относящиеся к вашему сообщению
Скрыть сведения
Скрыть всю личную информацию
Отмена