Вопросы по теме 'robots.txt'

Запретить динамический перезаписанный URL htaccess
Как запретить в robots.txt индексацию страниц http://example.net/something,category1.php http://example.net/something,category2.php (...) http://example.net/something,category152.php я пробовал Disallow: /something,*.php Но он...
163 просмотров
schedule 18.12.2023

Как запретить сканирование на исходном сервере и обеспечить правильное распространение файла robots.txt?
Я столкнулся с довольно уникальной проблемой. Если вы занимаетесь масштабированием больших сайтов и работаете с такой компанией, как Akamai, у вас есть исходные серверы, с которыми общается Akamai. Что бы вы ни подавали Akamai, они будут...
2533 просмотров
schedule 29.10.2022

В Jsoup возможно ли получить элементы из списка элементов без его прохождения?
Я новичок в Jsoup, но это отличный инструмент. Я пытаюсь извлечь метатег robots. У меня есть следующий код: Document doc = Jsoup.parse(htmlContent); Elements metatags = doc.select("meta"); Element robots = metatags.attr("name", "robots"); //...
1324 просмотров
schedule 16.11.2023

Отсутствует директива агента пользователя! Найдено Разрешить - что это значит?
Я проверил свой сайт через http://www.frobee.com/robots-txt-check и он вернулся с несколькими ошибками. Вот мой файл robots.txt: User-agent: * Disallow: /admin/ # Allowable Index Allow: /*?p= Allow: /blog/ Allow:...
1094 просмотров
schedule 08.03.2024

Удалить субдомен из google и yahoo
если у меня есть субдомен с именем abc.aaa.com и теперь я перехожу на aaa.com/abc мой администратор сервера помог мне сделать перенаправление с abc.aaa.com на aaa.com/abc поэтому независимо от доступа к какой странице / разделу / файлу в...
150 просмотров
schedule 26.01.2024

django эффективно обслуживает robots.txt
Вот мой текущий метод обслуживания robots.txt url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt', content_type='text/plain')), Я не думаю, что это лучший способ. Я думаю, было...
15269 просмотров
schedule 16.04.2024

Google по-прежнему индексирует уникальные URL-адреса
У меня есть файл robots.txt, настроенный как таковой User-agent: * Disallow: /* Для сайта, который полностью основан на уникальном URL. Что-то вроде https://jsfiddle.net/ , когда вы сохраняете новую скрипку, она дает ей уникальный...
68 просмотров

Umbraco imagegen.ashx запрещен в robots.txt, потому что изображения заблокированы для поиска
Я использую imagegen.ashx для изменения размера изображений на своем веб-сайте Umbraco 4.7. По умолчанию это запрещено в robots.txt, и изображения, для которых я использую обработчик, не отображаются в результатах поисковых систем — я проверил в...
109 просмотров
schedule 14.06.2024

Запретить URL-адреса, содержащие каталог
У меня есть URL-адреса, которые выглядят так: www.website.com/user/1 www.website.com/user/2 www.website.com/user/3 Как видите, все они содержат /user/ , а затем число. Как я могу запретить такие URL-адреса в файле robots.txt? Спасибо.
17 просмотров
schedule 12.06.2024

Почему Google не индексирует файл robots.txt?
Я пытаюсь разрешить поисковому роботу Googlebot индексировать мой сайт. Мой robots.txt изначально выглядел так: User-agent: * Disallow: / Host: www.sitename.com Sitemap: https://www.sitename.com/sitemap.xml И я изменил его на:...
146 просмотров
schedule 06.06.2024

Поведение robots.txt, когда в директивах Allow: или Disallow: не указан соответствующий шаблон
Я работаю над презентацией о парсинге веб-страниц и пытаюсь объяснить некоторые части файла robots.txt. Учитывая следующий раздел файла robots.txt Википедии , кажется, что IsraBot разрешено очищать / в то время как Mediapartners-Google* нет....
89 просмотров
schedule 12.11.2022

Добавить разрешенные и запрещенные правила URL-адреса в список в java
Я пытаюсь зафиксировать разрешенные и запрещенные правила файла robots.txt в java, используя следующий код: package robotest; public class RoboTest { public static void main(String[] args) { String robo="user-agent:hello user-agent:ppx...
60 просмотров
schedule 04.05.2024