Preview

Машиностроение и компьютерные технологии

Расширенный поиск

Программное обеспечение сбора и анализа графов ближайшего окружения из онлайновых социальных сетей

https://doi.org/10.24108/0818.0001427

Полный текст:

Аннотация

Одна из основных площадок для обсуждения произвольных тем — онлайновые социальные сети. Они являются одним из основных источников данных для анализа общественного мнения. Для сбора и анализа данных из онлайновых социальных сетей используют системы мониторинга данных, неотъемлемой частью которых является система сбора данных. Типовая система сбора данных из сети Интернет содержит краулер, парсеры, очередь задач на сбор, подсистему планирования задач и модуль записи структурированных данных в систему хранения. Сбор данных из онлайновых социальных сетей обладает рядом особенностей: в работе рассмотрены методы доступа к данным онлайновых социальных сетей и подсистема планирования задач.

Сформулированы и обоснованы требования к системе сбора данных из онлайновых социальных сетей: масштабируемость, расширяемость, наличие подсистемы хранения данных и очереди задач на сбор.

Описаны основные методы доступа к данным из онлайновых социальных сетей: доступ через API, через обработку HTML-страниц и через специализированные интерфейсы для ботов. Описаны основные ограничения, накладываемые онлайновыми социальными сетями на сбор: необходимость регистрации приложения, лимитирование числа запросов, необходимость получения разрешения пользователя на сбор его данных. По результатам анализа в качестве метода доступа к данным выбрано анонимное скачивание и обработка HTML-страниц.

Сформулированы требования к подсистеме задач: наличие типов, иерархии и контекста выполнения задачи. Описана общая архитектура разработанной программной системы сбора и анализа данных из онлайновых социальных сетей, обосновано ее соответствие выдвинутым ранее требованиям.

Рассмотрена проблема сбора и анализа графов ближайшего окружения пользователей (подграфов социального графа). Описаны особенности их сбора, предложены варианты реализации в зависимости от количества собираемых данных.

Результаты работы могут быть использованы для построения систем мониторинга онлайновых социальных сетей и сбора тестовых данных для экспериментальной оценки алгоритмов анализа социальных графов. Дальнейшее развитие может быть направлено на детальное рассмотрение проблем сбора других типов данных из онлайновых социальных сетей.

Об авторе

В. О. Чесноков
МГТУ им. Н.Э. Баумана, Москва
Россия

Чесноков Владислав Олегович

кафедра ИУ8

ст. преп.

SPIN-код: 6920-8576



Список литературы

1. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine // Computer Networks and ISDN Systems. 1998. Vol. 30. No. 1-7. Pp. 107-117. DOI: 10.1016/S0169-7552(98)00110-X

2. Mirtaheri S.M., Dinçtürk M.E., Hooshmand S., Bochmann G.V., Jourdan G.-V., Onut I.V. A brief history of web crawlers // CASCON '13: 2013 Conf. of the Center for Advanced Studies on Collaborative Research (Ontario, Canada, November 18-20, 2013): Proc. N.Y.: ACM, 2013. Pp. 40-54.

3. Pant G., Srinivasan P. Learning to crawl: Comparing classification schemes // ACM Trans. on Information Systems. 2005. Vol. 23. No. 4. Pp. 430-462. DOI: 10.1145/1095872.1095875

4. Kausar M.A., Dhaka V.S., Singh S.K. Web crawler: A review // Intern. J. of Computer Applications. 2013. Vol. 63. No. 2. Pp. 31-36.

5. Heydon A., Najork M. Mercator: A scalable, extensible web crawler // World Wide Web. 1999. Vol. 2. No. 4. Pp. 219-229. DOI: 10.1023/A:1019213109274

6. Shkapenyuk V., Suel T. Design and implementation of a high-performance distributed web crawler // 18th Intern. conf. on data engineering: ICDE '02 (San Jose, CA, USA, February 26th – March 1st): Proc. N.Y.: IEEE, 2002. Pp. 357-368. DOI: 101109/ICDE.2002.994750

7. Якушев А.В. Математическое и программное обеспечение распределенной обработки больших объемов данных из социальных медиа: дис. ... канд. техн. наук. СПб., 2013. 125 с.

8. Ключарёв П.Г., Басараб М.А. Спектральные методы анализа социальных сетей // Наука и образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2017. № 5. С. 168-177. DOI: 10.7463/0517.0001159

9. Tor: Overview. Режим доступа: https://www.torproject.org/about/overview.html.en (дата обращения 01.05.2018).

10. McAuley J., Leskovec J. Discovering social circles in ego networks // ACM Trans. on Knowledge Discovery from Data. 2014. Vol. 8. No. 1. Pp. 1-28. DOI: 10.1145/2556612

11. Rui Li, Chi Wang, Kevin Chen-Chuan Chang. User profiling in an ego network: Co-profiling attributes and relationships // 23rd Intern. conf. on World Wide Web: WWW '14 (Seoul, Korea, April 7-11, 2014): Proc. N.Y.: ACM, 2014. Pp. 819-829. DOI: 10.1145/2566486.2568045

12. Paradise A., Puzis R., Shabtai A. Anti-reconnaissance tools: Detecting targeted socialbots // IEEE Internet Computing. 2014. Vol. 18. No. 5. Pp. 11-19. DOI: 10.1109/MIC.2014.81


Для цитирования:


Чесноков В.О. Программное обеспечение сбора и анализа графов ближайшего окружения из онлайновых социальных сетей. Машиностроение и компьютерные технологии. 2018;(8):34-44. https://doi.org/10.24108/0818.0001427

For citation:


Chesnokov V.O. Software for Crawling and Analysis of Ego-Network Graphs from Social Networking Services. Mechanical Engineering and Computer Science. 2018;(8):34-44. (In Russ.) https://doi.org/10.24108/0818.0001427

Просмотров: 80


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2587-9278 (Online)