в библиотеку


Аналіз підходів до формування семантичного ядра динамічного контенту веб-сайтів на основі методу link analysis.

Автор: Вороной О.С., Кісніченко К.О.
Донецкий Национальный Технический Университет
Кафедра систем искусственного интеллекта

Источник: Материалы конференции Проблемы и технологии параллельного моделирования (ict-2013) / Материалы международной научно-технической конференции студентов и молодых учёных. - Донецк, ДонНТУ - 2013, с. 319-321.

Аннотация:
Вороной О.С., Кісніченко К.О. Аналіз підходів до формування семантичного ядра динамічного контенту веб-сайтів на основі методу link analysis.
Проведено аналіз особливостей роботи пошукових систем. Розглянута проблема підвищення позиції веб-сайтів у пошукових системах. Показано доцільність розробки методів автоматичного оновлення семантичного ядра динамічних веб-сайтів.


Общая постановка проблемы

Сьогодні для забезпечення позитивної динаміки розвитку будь-якого напрямку бізнесу необхідна наявність віртуального представництва підприємства в мережі Інтернет. Однак для того, щоб наявність сайту гарантувала успіх проекту, він постійно повинен знаходитися на очах у потенційних відвідувачів, і при цьому приносити прибуток. Для того щоб досягти високих результатів, необхідно здійснити грамотний підхід до просування сайту в пошуковій системі, оскільки саме цей спосіб є найбільш ефективним у набутті популярності серед клієнтів проекту. Цей факт пояснює сучасну затребуваність SEO (search engine optimization) - комплексу заходів, спрямованих на просування веб-ресурсу до верхніх позицій пошукової системи з метою збільшення його відвідуваності. Головним моментом, який впливає на просування сайту в пошуковій системі, є контент, основним елементом якого є семантичне ядро. Семантичне ядро є фундаментом для будь-якого інтернет-проекту, на основі якого будується все його існування і стратегія просування [1].

На сегодняшний день практически вся информация, доступная во всемирной паутине не содержит семантики и поэтому ее поиск, релевантный запросам пользователя, а также интеграция в рамках конкретной предметной области затруднены. Для обеспечения эффективного поиска, веб-приложение должно четко понимать семантику документов, представленных в сети. В связи с этим, можно наблюдать бурный рост и развитие технологий Semantic Web, происходящий в настоящее время. Консорциумом W3C была разработана концепция, которая базируется на активном использовании метаданных, языке разметки XML, языке RDF (Resource Definition Framework – Среда Описания Ресурса) и онтологическом подходе. Все предложенные средства позволяют осуществлять обмен данными и их многократное использование.

Семантичне ядро для сайту (СЯ) – це перелік ключових слів, що відображають його спрямованість і тематику. Для великих сайтів даний список може нараховувати кілька тисяч слів. Визначення семантичного ядра - це основа для формування стратегії просування. Залежно від смислового поля виконується технічна оптимізація, вибираються цільові сторінки, формується наповнення сайту і т. інш. Саме СЯ в основному забезпечує результативність просування, допомагає отримати цільових відвідувачів [2]. Завдання розробки СЯ значно ускладнюється в умовах динамічного контенту сайту у зв'язку з тим, що SEO - фахівці не встигають вчасно реагувати на мінливе наповнення сайту, зовнішнє Інтернет-оточення, а також вподобання і дії користувачів. Тому актуальним є дослідження підходів до автоматизації оновлення семантичного ядра динамічних сайтів.

Методика формування семантичного ядра сайту.

Для складання семантичного ядра можна використовувати таку методику [1, 2].

1. Складання первинного списку слів і словосполучень. Для складання первинного списку запитів можна користуватися одним з таких методів або ж їх комбінацією. І в тому і іншому випадку для початку необхідно ретельно проаналізувати структуру та контент сайту і виділити ті слова і словосполучення, які описують основні категорії об'єктів, що надаються на сайті.

Перший метод полягає в складанні списку і аналізі «точок входу», тобто сторінок, на яких найімовірніше відвідувач зацікавиться наданою інформацією. Щоб полегшити складання списку, можна скористатися статистикою і проаналізувати, з яких сторінок користувач починає свій рух по сайту. Другий метод називається «Складання списку масок». «Маска» - це ключове слово або словосполучення, що позначає тему - найбільш частотний запит. Список «масок» складається на основі аналізу тематики сайту. При складанні списку масок потрібно постаратися мислити, як відвідувачі. Далі за допомогою маски запитується сервіс статистики пошукових запитів на видачу списку запитів. Наприклад, якщо маска - «продаж кондиціонерів» - запити «продаж кондиціонерів», «продаж кондиціонерів в Донецьку», «продаж кондиціонерів в кредит» і т. інш.

2 . Розширення списку пошукових запитів або масок за допомогою асоційованих запитів. Можна використовувати сервіси Яндекса і Рамблера. Після підбору асоціативних запитів іноді виникає необхідність у створенні нових сторінок сайту під ці запити. Якщо отримати достатню кількість асоційованих запитів не вдалося, для розширення списку масок можна використовувати метод гіпонімів або метод гиперонімів. Тезаурус являє собою дерево понять для кожної предметної області, починаючи від верхніх, найбільш загальних понять у верхівці цього дерева і закінчуючи самими нижніми, вузькими, конкретними поняттями. Нижні терміни називаються гіпоніми, а верхні, більш загальні поняття, називаються гіпероніми. Припустимо, нам відомі загальні поняття з якої предметної області і кілька гіпонімів, за допомогою пошукового запиту в пошуковій системі можна рухатися вниз по тезаурусному дереву і таким чином знайти всі терміни з даної предметної області.

3. Отримання списку пошукових запитів і їх «очищення». На підставі обраних масок необхідно отримати список реальних формулювань пошукових запитів і їх частот, щоб оцінити, за якими запитами варто починати і аналізувати просування сайту. Зачистка пошукових запитів або видалення непотрібних, нецільових запитів робиться на підставі інформації про матеріали, які є на сайті та оцінки пошукових запитів за допомогою сервісів статистики пошукових систем Яндекса або Рамблера. Після такого відбору залишається список реальних пошукових запитів, за якими сайт і просувається надалі, тобто виводиться в зону видимості пошукових систем.

Далі слід оцінити семантичне ядро. Воно буде характеризуватися наступними параметрами: загальною кількістю пошукових запитів і їх сумарної частотою. Однак, для сайтів з динамічним контентом перераховані етапи розробки СЯ необхідно повторювати досить часто. При цьому тривалість виконання кожного етапу може значно затримувати необхідну періодичність повторення, що призводить до зниження повноти і точності СЯС, а сайт втрачає свої позиції в SERP. Для скорочення часу розробки СЯС з динамічним контентом без втрати повноти і точності можна використовувати такий напрямок Data Mining як аналіз зв'язків (link analysis) [3], який дозволяє генерувати правила кількісного опису взаємного зв'язку між двома і більше ключовими словами, об'єднаними в одному семантичному запиті.

Висновки

Представлення запиту користувача до пошукової системи у вигляді множини подій, які відбуваються одночасно і утворюють транзакцію, дозволяє використовувати в процесі оновлення семантичного ядра динамічного сайту технологію Data Mining, а саме аналіз асоціативних зв'язків. Даний підхід дозволить знизити витрати робочого часу SEO-фахівця на розробку семантичного ядра сайту.

Література

1. Ашманов И.С. А.А. Иванов Оптимизация и продвижение сайтов в поисковых системах. – 3-е изд. – СПб. : Питер, 2011. – 463 с.;

2. Байков В.Д. Интернет. Поиск информации. Продвижение сайтов. - СПб.: БХВ-Петербург, 2000.- 288 с.;

3. 3. Арсирий Е.А, Антощук С.Г., Игнатенко О.А., Трофимов Б.Ф. Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом/Арсирий Е.А, Антощук С.Г., Игнатенко О.А., Трофимов Б.Ф.// «Искусственный интеллект 4’2012 С.464-473.


вверх