Русский  English  Все проекты

Скрипт на PHP



1) Заполняем входные настройки и нажимаем кнопку. Скрипт по хмл яндекса получает список доменов из выдачи по запросу. Фильтруем не учитываемые домены из настроек.

2) Заходим на сайты из полученного списка с юзерагентом робота яндекса (Mozilla/5.0 (compatible YandexBot/3.0 yandex.com/bots)), чтобы видеть код сайта отдаваемый индексирующему роботу.

3) С каждого урл собираем весь текст страницы. И формируем для каждого урл свои мешки слов, а именно:
- title (все слова из тега )
- text-fragment (слова входящие в маленькие куски текста – контейнеры, содержат не более 50 слов учитывается только внутри тега )
- plain-text (слова входящие в большие куски текста – контейнеры содержат более 50 слов учитывается только внутри тега )
- a (слова из тега учитывается только внутри тега )

Не надо бояться морфологии, для этого есть phpMorphy.

Далее обрабатываем слова и выводим в разных форматах результаты.
Полное ТЗ будет предоставлено после вашей заявки.

По оплате предпочтительно частями по факту готовности.
Бюджет обговаривается.

Убедительная просьба не тратить мое время. Кто не понял – нарвется на грубость.
06.02.2021 19:35



 Ответы фрилансеров