Мое письмо к Bombo (от 10 апреля):
"...задачи оптимизации раскладки и определения сложности текста принципиально отличаются.
При оптимизации раскладки мы оперируем со среднестатическими данными языка и меняем раскладку, чтобы максимально согласовать ее с этими данными.
При подсчете сложности играет роль тот факт, что текст может быть далек от среднестатистического.
Во-первых, из этого следует, что он может быть как легче, так и сложнее среднестатистического.
Во-вторых, эта сложность должна выражаться:
а) технической сложностью набора, поскольку она всегда присутствует;
б) степенью отличия от среднестатистического текста (которая может быть посчитана на основе частотности диграмм - ты здесь правильно сделал);
в) на коротких текстах (допустим, до 500 символов) отличие от среднестатистического случая может быть очень значительным, поэтому весовые коэффициенты для сложностей, посчитанных по а) и б) предлагаю брать так:
техническая сложность (моя) - 1/3;
степень отработанности сочетаний (твоя) - 2/3;
суммируем, и получаем достаточно обоснованную оценку сложности.
...
P.S. А в задаче оптимизации раскладки фактор б) выпадает (всегда подразумевается среднестатистический текст для этого языка), поэтому играет роль только техническая сложность."
Еще я ему скинут листинг своей программы в MathCAD (по оценке чисто технической сложности, идущей от оптимизатора раскладки). Если захочет - использует :) но пока что-то не вижу...
Каждому понятно, что на коротких текстах полнота статистической выборки будет маленькой (просто очень мало диграмм вообще встретятся и еще меньше шанс, что в среднестатистической пропорции), поэтому отличие от среднестатистической структуры чаще всего будет большим. Значит, основную роль играет отработанность, и ее коэффициент должен быть больше при взвешивании 2 сложностей (допустим, 2/3 или 3/4 для отработанности - тогда как для технической сложности 1/3 или 1/4 - чтобы сумма была 1).
А вообще для практических целей при оценке сложности текстов (не очень длинных) можно ограничиться только отработанностью (или частотностью) диграмм по Bombo. На этом, наверное, можно и закрыть тему.