Вопросы по теме 'robots.txt'
Запретить динамический перезаписанный URL htaccess
Как запретить в robots.txt индексацию страниц
http://example.net/something,category1.php
http://example.net/something,category2.php
(...)
http://example.net/something,category152.php
я пробовал
Disallow: /something,*.php
Но он...
163 просмотров
schedule
18.12.2023
Как запретить сканирование на исходном сервере и обеспечить правильное распространение файла robots.txt?
Я столкнулся с довольно уникальной проблемой. Если вы занимаетесь масштабированием больших сайтов и работаете с такой компанией, как Akamai, у вас есть исходные серверы, с которыми общается Akamai. Что бы вы ни подавали Akamai, они будут...
2533 просмотров
schedule
29.10.2022
В Jsoup возможно ли получить элементы из списка элементов без его прохождения?
Я новичок в Jsoup, но это отличный инструмент. Я пытаюсь извлечь метатег robots.
У меня есть следующий код:
Document doc = Jsoup.parse(htmlContent);
Elements metatags = doc.select("meta");
Element robots = metatags.attr("name", "robots"); //...
1324 просмотров
schedule
16.11.2023
Отсутствует директива агента пользователя! Найдено Разрешить - что это значит?
Я проверил свой сайт через http://www.frobee.com/robots-txt-check и он вернулся с несколькими ошибками.
Вот мой файл robots.txt:
User-agent: *
Disallow: /admin/
# Allowable Index
Allow: /*?p=
Allow: /blog/
Allow:...
1094 просмотров
schedule
08.03.2024
Удалить субдомен из google и yahoo
если у меня есть субдомен с именем abc.aaa.com
и теперь я перехожу на aaa.com/abc
мой администратор сервера помог мне сделать перенаправление с abc.aaa.com на aaa.com/abc
поэтому независимо от доступа к какой странице / разделу / файлу в...
150 просмотров
schedule
26.01.2024
django эффективно обслуживает robots.txt
Вот мой текущий метод обслуживания robots.txt
url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt',
content_type='text/plain')),
Я не думаю, что это лучший способ. Я думаю, было...
15269 просмотров
schedule
16.04.2024
Google по-прежнему индексирует уникальные URL-адреса
У меня есть файл robots.txt, настроенный как таковой
User-agent: *
Disallow: /*
Для сайта, который полностью основан на уникальном URL. Что-то вроде https://jsfiddle.net/ , когда вы сохраняете новую скрипку, она дает ей уникальный...
68 просмотров
schedule
13.01.2024
Umbraco imagegen.ashx запрещен в robots.txt, потому что изображения заблокированы для поиска
Я использую imagegen.ashx для изменения размера изображений на своем веб-сайте Umbraco 4.7. По умолчанию это запрещено в robots.txt, и изображения, для которых я использую обработчик, не отображаются в результатах поисковых систем — я проверил в...
109 просмотров
schedule
14.06.2024
Запретить URL-адреса, содержащие каталог
У меня есть URL-адреса, которые выглядят так:
www.website.com/user/1
www.website.com/user/2
www.website.com/user/3
Как видите, все они содержат /user/ , а затем число. Как я могу запретить такие URL-адреса в файле robots.txt? Спасибо.
17 просмотров
schedule
12.06.2024
Почему Google не индексирует файл robots.txt?
Я пытаюсь разрешить поисковому роботу Googlebot индексировать мой сайт. Мой robots.txt изначально выглядел так:
User-agent: *
Disallow: /
Host: www.sitename.com
Sitemap: https://www.sitename.com/sitemap.xml
И я изменил его на:...
146 просмотров
schedule
06.06.2024
Поведение robots.txt, когда в директивах Allow: или Disallow: не указан соответствующий шаблон
Я работаю над презентацией о парсинге веб-страниц и пытаюсь объяснить некоторые части файла robots.txt.
Учитывая следующий раздел файла robots.txt Википедии , кажется, что IsraBot разрешено очищать / в то время как Mediapartners-Google* нет....
89 просмотров
schedule
12.11.2022
Добавить разрешенные и запрещенные правила URL-адреса в список в java
Я пытаюсь зафиксировать разрешенные и запрещенные правила файла robots.txt в java, используя следующий код:
package robotest;
public class RoboTest {
public static void main(String[] args) {
String robo="user-agent:hello user-agent:ppx...
60 просмотров
schedule
04.05.2024