Отправьте статью сегодня! Журнал выйдет ..., печатный экземпляр отправим ...
Опубликовать статью

Молодой учёный

Проблемы автоматизированного сбора данных

Научный руководитель
Информационные технологии
08.12.2023
179
Поделиться
Библиографическое описание
Агаджанов, А. О. Проблемы автоматизированного сбора данных / А. О. Агаджанов. — Текст : непосредственный // Молодой ученый. — 2023. — № 49 (496). — С. 21-22. — URL: https://moluch.ru/archive/496/108818/.


Рассматриваются основные проблемы, связанные с извлечением слабоструктурированных данных с веб-страниц. Слабоструктурированные данные представляют собой информацию, лишенную явного разделения на атрибуты и значения, что делает задачу их извлечения нетривиальной из-за нечеткости их структуры. Проблема может быть решена на основе интеграции различных методов и технологий.

Ключевые слова: слабоструктурированные данные, веб-ресурс, интернет, информация, извлечение.

В условиях растущего объема информации на веб-ресурсах возникает неотложная потребность в создании эффективных систем для автоматизированного сбора слабоструктурированных данных. Наступает момент, когда важность извлечения данных с веб-страниц, лишенных четкой структуры, становится крайне актуальной. При этом огромное количество информации, представленной в виде текста с разрозненной разметкой, представляет особый вызов для их обработки с помощью современных методов и технологий.

Коммерческая необходимость в обработке и анализе слабоструктурированных данных, представленных на веб-ресурсах, растёт с каждым годом [1; 2]. Эти данные представляют собой ценный источник информации, который может быть использован для принятия важных решений в сфере бизнеса.

Научные исследования в области извлечения слабоструктурированных веб-данных обретают особую важность в современном контексте. Это требует создания инновационных систем, способных адаптироваться к динамике веб-пространства и эффективно справляться с изменениями в структуре данных на веб-страницах.

Извлечение информации с веб-ресурсов, лишенных четкой структуры, сопряжено с рядом сложностей, затрудняющих автоматизацию данного процесса. Одной из наиболее распространенных проблем при работе с веб-данными является неоднородность структуры данных [1–7]. Эта проблема возникает из-за отсутствия единой семантической разметки на веб-ресурсах. Вместо стандартизированного описания данные представлены в виде неструктурированных блоков текста, лишенных четкой и унифицированной семантики [2].

Также необходимо отметить, что обработка динамического контента и AJAX-запросов представляет собой новый вызов для процесса сбора данных из веб-источников [1]. Поскольку эти данные постоянно обновляются без полной перезагрузки страницы, существующие методы сбора информации могут оказаться недостаточно эффективными.

Технические ограничения, такие как нехватка вычислительной мощности, могут стать преградой [3; 5; 8; 9] при обработке больших объемов данных. Зависимость скорости извлечения данных от характеристик сервера и необходимость соблюдения «норм вежливости» [2; 8; 10], в частности, соблюдение предписаний из файла robots.txt требуют дополнительных усилий для обеспечения эффективного извлечения данных.

Таким образом, чтобы гарантировать точное и полное извлечение необходимых данных, требуется адаптация методов к условиям сбора информации.

Важным моментом является также юридическая [2] и этическая сторона вопроса [5]. Соблюдение политики вежливости, согласование извлечения данных с администрацией веб-ресурсов и учет законов о конфиденциальности представляют собой важные аспекты, требующие внимания.

Отсутствие достаточного количества обучающих данных становится проблемой при разработке эффективных алгоритмов [9]. Также, технические трудности при работе с серверами, включая необходимость научить веб-пауков «вежливости», подчеркивают необходимость учета разнообразных аспектов при извлечении слабоструктурированных веб-данных.

Таким образом, решение данных проблем требует не только технической подготовки и инновационных методов, но также внимания к юридическим и этическим аспектам, подчеркивая комплексный характер задачи извлечения слабоструктурированных данных. Возможным решением может быть интеграции классических методов с технологиями на основе искусственного интеллекта. Это позволит создать адаптивные системы, способные учитывать неоднородность данных и изменения в контенте веб-ресурсов, повышая точность и эффективность процесса извлечения.

Литература:

1. Жучкова, С. В. Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук / С. В. Жучкова, А. Н. Ротмистров // Социология: методология, методы, математическое моделирование. — 2020. — № 50–51. — С. 141–183. — EDN XYTJOY.

2. Вдовин, И. В. Актуальные вопросы автоматического извлечения данных из веб-страниц / И. В. Вдовин // Перспективы развития информационных технологий. — 2015. — № 23. — С. 11–16. — EDN TLOOLF.

3. Ананченко, И. В. Анализ способов автоматического сбора данных с веб-ресурсов, содержащих прогнозы изменения финансовых инструментов / И. В. Ананченко, В. С. Булычев // WORLD SCIENCE: PROBLEMS AND INNOVATIONS: сборник статей LIX Международной научно-практической конференции, Пенза, 30 ноября 2021 года. — Пенза: Наука и Просвещение (ИП Гуляев Г. Ю.), 2021. — С. 81–83. — EDN EEPKPX.

4. Коляда А. С., Гогунский В. Д. Извлечение информации из слабоструктурированных веб-страниц // ВЕЖПТ. 2014. № 9 (67). URL: https://cyberleninka.ru/article/n/izvlechenie-informatsii-iz-slabostrukturirovannyh-veb-stranits (дата обращения: 06.12.2023).

5. Оболенский, Д. М. Имитационная модель распределенного процесса сбора данных / Д. М. Оболенский, В. И. Шевченко, О. В. Ченгарь // Экономика. Информатика. — 2023. — Т. 50, № 2. — С. 476–486. — DOI 10.52575/2687–0932–2023–50–2–476–486. — EDN KNPQJH.

6. Файзрахманов, Р. А. Моделирование представления информации в задачах автоматической обработки веб-страниц и извлечения веб-информации* / Р. А. Файзрахманов, Е. В. Долгова, Р. Р. Файзрахманов // Вестник Ижевского государственного технического университета. — 2011. — № 2(50). — С. 176–179. — EDN TWNAZF.

7. Молокович, О. А. Подходы к извлечению информации из слабоструктурированных данных / О. А. Молокович // Молодежный вестник Уфимского государственного авиационного технического университета. — 2021. — № 2(25). — С. 64–66. — EDN EJBILG.

8. Костяшин, Н. А. Применение автоматизированных средств сбора информации по сайтам / Н. А. Костяшин, О. Н. Колбина, Н. В. Яготинцева // Информационные технологии и системы: управление, экономика, транспорт, право. — 2020. — № 3(39). — С. 11–17. — EDN XPHOSK.

9. Эшонкулов, Х. И. Проблемы автоматизированного сбора информации / Х. И. Эшонкулов // Вестник науки и образования. — 2021. — № 11–2(114). — С. 38–41. — EDN IQIKVA.

10. Ярцев, В. Д. Проблемы сбора данных с веб-сайтов и их решение / В. Д. Ярцев, А. М. Хахина // Заметки ученого. — 2022. — № 4. — С. 48–54. — EDN SHBXCR.

Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Ключевые слова
слабоструктурированные данные
веб-ресурс
интернет
информация
извлечение
Молодой учёный №49 (496) декабрь 2023 г.
Скачать часть журнала с этой статьей(стр. 21-22):
Часть 1 (стр. 1-75)
Расположение в файле:
стр. 1стр. 21-22стр. 75

Молодой учёный