Індексація сайту

/
0 Views

Індексація сайту

  1. Додайте сайт в пошукову систему Яндекс.
  2. Sitemap. Для зручності вебмайстрів і пошукових систем був розроблений спеціальний формат карти сайту — sitemap. Це список посилань на внутрішні сторінки сайту, представлений в форматі XML. Цей формат підтримує і сервіс Яндекс.Вебмастер. У спеціальному розділі сервісу можна завантажити sitemap для вашого сайту. Це дозволить впливати на пріоритет обходу роботом деяких сторінок вашого сайту. Наприклад, якщо якісь сторінки оновлюються набагато частіше, ніж інші, слід вказати цю інформацію, щоб робот Яндекса правильно планував свою роботу.
  3. Robots.txt — файл, призначений для роботів пошукових систем. У ньому веб-майстер може вказати параметри індексування свого сайту як для всіх роботів відразу, так і для кожної пошукової системи окремо. Розглянемо три найбільш важливі параметри, які можна вказати в цьому файлі:* Disallow. Ця директива використовується для заборони від індексування окремих розділів сайту. З її допомогою необхідно закривати від індексування технічні і не представляючі цінності ні для користувача, ні для пошукових систем сторінки. До них відносяться сторінки з результатами пошуку по сайту, статистика відвідуваності сайту, дублікати сторінок, різноманітні логи, сервісні сторінки баз даних і т.д. Детальніше про директиву disallow читайте у спеціальному розділі допомоги, присвяченій файлу robots.txt.
  4. * Crawl delay — це параметр, що дозволяє вказати індексує роботу мінімальний проміжок часу (в секундах) між зверненнями до сторінок сайту. Цей параметр корисний для великих проектів, які містять десятки тисяч сторінок і більше. Пошуковий робот Яндекса при індексуванні може створити на такий сайт велике навантаження, що може викликати перебої в роботі сайту та затримки у його роботі, тому, можливо, вам слід обмежити кількість звернень за секунду. Наприклад, директива Crawl-delay: 2 вкаже роботу, що він повинен вичікувати 2 секунди між зверненнями до сервера.* Clean param. Цей параметр потрібен для вказівки пошуковим роботам, які cgi-параметри в адресі сторінки слід вважати незначущими. Іноді адреси сторінок містять ідентифікатори сесій — формально сторінки з різними ідентифікаторами різняться, проте їх вміст при цьому однаковий. Якщо таких сторінок на сайті багато, індексуючий робот може почати індексувати такі сторінки, замість того щоб скачувати корисний вміст. Поширена ситуація параметр sid на форумі або у фотогалереї. Для того, щоб робот Яндекса вважав cgi-параметр sid незначущим, потрібно написати в robots.txt директиву виду:
    Clean-param: sid / forum / viewtopic.php
    У відповідному розділі допомоги можна прочитати докладніше про використання директиви clean param.
    Яндекс.Вебмастер дозволяє переглянути список проіндексованих URL з вашого сайту. Регулярно перевіряйте його, тому що навіть невеликі помилки в коді можуть призвести до значного зростання числа непотрібних URL на сайті і можуть збільшити навантаження на сайт.
  5. Підтримка форматів документів і обмеження на індексування. Яндекс індексує основні типи документів, поширених в мережі. Але існують обмеження, від яких залежить, як буде проіндексовані документ, і чи буде проіндексований взагалі:
    • Велика кількість cgi-параметрів в URL, велика кількість повторюваних вкладених директорій і занадто велика загальна довжина URL може призвести до погіршення індексування документів.
    • Для індексування важливий розмір документа — документи більше 10Мб не індексуються.
    • Індексування flash: індексується, якщо він не вбудований в HTML і сторінка передається з HTTP-заголовком, містить Content-Type: application / x-shockwave-flash; індексуються файли *. swf, якщо на них є пряме посилання; індексується вбудований в HTML за допомогою тегів EMBED і OBJECT або їх комбінації.
    • У документах PDF індексується тільки текстовий вміст. Текст, представлений у вигляді картинок, не індексується.
    • Яндекс коректно індексує документи Microsoft Office та Open Office. Але слід враховувати, що після виходу нової версії програми впровадження підтримки нових форматів може зайняти деякий час.
    • Якщо ви перевизначити поведінку сервера для неіснуючих URL, переконайтеся, що сервер повертає код помилки 404. Отримавши код відповіді 404, пошукова система видалить даний документ з індексу. Слідкуйте, щоб всі потрібні сторінки сайту віддавали код 200 OK.
    • Слідкуйте за коректністю http-заголовків. Зокрема, важливо, що містить відповідь, яку сервер віддає на запит «if-modified-since». Заголовок Last-Modified повинен віддавати коректну дату останньої зміни документа.
    • Версії сайту, адаптовані для перегляду на мобільних пристроях, краще виносити на піддомен, так само, як і версії сайту на різних мовах.

    Забороняйте для індексування сторінки, які не призначені для користувачів, управляйте пошуковим роботом Яндекса.