Скрипт на PHP
1) Заполняем входные настройки и нажимаем кнопку. Скрипт по хмл яндекса получает список доменов из выдачи по запросу. Фильтруем не учитываемые домены из настроек.
2) Заходим на сайты из полученного списка с юзерагентом робота яндекса (Mozilla/5.0 (compatible YandexBot/3.0 yandex.com/bots)), чтобы видеть код сайта отдаваемый индексирующему роботу.
3) С каждого урл собираем весь текст страницы. И формируем для каждого урл свои мешки слов, а именно:
- title (все слова из тега )
- text-fragment (слова входящие в маленькие куски текста – контейнеры, содержат не более 50 слов учитывается только внутри тега )
- plain-text (слова входящие в большие куски текста – контейнеры содержат более 50 слов учитывается только внутри тега )
- a (слова из тега учитывается только внутри тега )
Не надо бояться морфологии, для этого есть phpMorphy.
Далее обрабатываем слова и выводим в разных форматах результаты.
Полное ТЗ будет предоставлено после вашей заявки.
По оплате предпочтительно частями по факту готовности.
Бюджет обговаривается.
Убедительная просьба не тратить мое время. Кто не понял – нарвется на грубость.
06.02.2021 19:35