あなたのウェブサイトのルートに格納されているrobots.txtファイルは、検索エンジンのスパイダーのようなウェブロボットに、どのようなディレクトリやファイルがクロールされるかを知らせます。 robots.txtファイルを使用するのは簡単ですが、覚えておくべきことがいくつかあります:
- BlackhatのWebロボットはrobots.txtファイルを無視します。最も一般的なタイプは、マルウェアのボットと、収集する電子メールアドレスを検索するロボットです。
- 新しいプログラマの中には、robots.txtファイルを無視するロボットを書く人もいます。これは通常誤って行われます。
- 誰でもあなたのrobots.txtファイルを見ることができます。それらは常にrobots.txtと呼ばれ、常にウェブサイトのルートに保存されます。
- 最後に、robots.txtファイルで除外されていないページからrobots.txtファイルによって除外されたファイルまたはディレクトリにリンクした場合、検索エンジンはそのファイルを見つけられる可能性があります。
重要なものを隠すためにrobots.txtファイルを使用しないでください。代わりに、重要な情報を安全なパスワードの背後に置くか、Webから完全に離しておくべきです。
これらのサンプルファイルを使用する方法
実行したいサンプルに最も近いテキストをコピーして、robots.txtファイルに貼り付けます。ロボット、ディレクトリ、ファイル名を好みの設定に合わせて変更します。
2つの基本的なRobots.txtファイル
ユーザーエージェント: *Disallow:/ このファイルには、どのロボット( ユーザーエージェント: *)そのサイトにアクセスするすべてのページを無視する必要があります( Disallow:/). ユーザーエージェント: *Disallow: このファイルには、どのロボット( ユーザーエージェント: *)にアクセスすると、サイトのすべてのページを表示できます( Disallow:). robots.txtファイルを空白にしておくか、サイト上にrobots.txtファイルをまったく残しておくことで、これを行うこともできます。 ユーザーエージェント: *Disallow:/ cgi-bin /Disallow:/ temp / このファイルには、どのロボット( ユーザーエージェント: *)は/ cgi-bin /と/ temp /(ディレクトリを無視する必要があります) Disallow:/ cgi-bin / Disallow:/ temp /). ユーザーエージェント: *Disallow:/jenns-stuff.htmDisallow:/private.php このファイルには、どのロボット( ユーザーエージェント: *)にアクセスすると、ファイル/jenns-stuff.htmと/private.php( Disallow:/jenns-stuff.htm Disallow:/private.php). ユーザーエージェント:Lycos / x.xDisallow:/ このファイルは、Lycosボット( ユーザーエージェント:Lycos / x.x)は、サイトのどこにでもアクセスすることはできません( ユーザーエージェント: *Disallow:/ユーザーエージェント:GooglebotDisallow: このファイルは、最初に上記のようにすべてのロボットを許可せずに、Googlebot( ユーザーエージェント:Googlebot)すべてにアクセスできる( User-agent:*のような、非常に包括的なUser-agent行を使用する方が良いのですが、好きなだけ具体的にすることができます。ロボットはファイルを順番に読み込むことを忘れないでください。最初の行ですべてのロボットがすべてからブロックされていると表示された場合は、後でファイル内ですべてのロボットがすべてのものにアクセスできるようになり、ロボットはすべてのものにアクセスできるようになります。 robots.txtファイルを正しく書き込んだかどうか不明な場合は、Googleのウェブマスターツールを使用してrobots.txtファイルを確認したり、新しいファイルを書き込んだりできます。 ロボットから特定のディレクトリを保護する
ロボットから特定のページを保護する
特定のロボットがあなたのサイトにアクセスするのを防ぐ
特定のロボットにのみアクセスを許可する
複数の回線を組み合わせて、必要な除外事項を正確に取得する




