Есть несколько текстов.
2. Про продажу недвижимости.
3. По психологии.
4. Про продажу недвижимости.
5. Про искусство делать фотографии.
6. Про фотографии и сьёмки моделей.
Индексы тематической схожести пары текстов.
2-3 — 0.51
2-4 — 1.07
3-5 — 0.81
5-6 — 1.08
4-5 — 0.82
Время сравнения — 1 секунда примерно. Ускорить раза в 4-8 можно путём перекомпоновки таблиц.
Результат очень сильно размывают общеупотребительные слова. Так что считать индекс размытости тематики слова всё-таки придётся. Ибо список стоп-слов, это не наш метод.
Вообщем, то, что называется «определить тематику» работает, и, в теории, может давать вполне точные результаты. Надо только больше текста, пару индексов и обработку напильником.
И, кстати, отсюда очень просто считать ценность ссылки. На тематичной странице поставили или чёрт знает где.