portaldacalheta.pt
  • Основен
  • Подвижен
  • Дизайн На Марката
  • Възходът На Дистанционното
  • Жизнен Цикъл На Продукта
Наука За Данни И Бази Данни

Извличане на данни за прогнозен анализ на социалната мрежа



Социалните мрежи под една или друга форма съществуват откакто хората започнаха да си взаимодействат. Всъщност, съберете двама или повече души заедно и вие имате основата на социална мрежа. Следователно не е изненадващо, че в днешния свят навсякъде в интернет, онлайн социалните мрежи са станали изцяло повсеместни.

В този свят на онлайн социалните мрежи особено завладяващо явление през последното десетилетие беше експлозивният растеж на Twitter , често описван като „ СМС на Интернет ”. Стартирал през 2006 г., Twitter бързо набра глобална популярност и стана един от десетте най-посещавани уебсайта в света. От май 2015 г. Twitter може да се похвали 302 милиона активни потребители които колективно произвеждат 500 милиона туитове на ден. И тези цифри непрекъснато нарастват.



Като се има предвид този огромен обем данни от социални медии, анализаторите признават Twitter като виртуална съкровищница от информация за извличане на данни, анализ на социални мрежи и информация за отчитане на тенденциите в общественото мнение и основите на подкрепа за (или противопоставяне) на различни политически и социални инициативи. Фирми за научни данни намират темите за тенденциите в Twitter все по-полезни като ценен прокси за измерване на общественото мнение.



анализ на социални мрежи и извличане на данни



Тази статия описва техниките, използвани от мен за доказателство за концепция, които ефективно анализират Twitter Trend Topics, за да предскажат, като примерен тестов случай, регионални модели на гласуване на президентските избори в Бразилия през 2014 г.

Изборите

Общи президентски избори се проведоха в Бразилия на 5 октомври 2014 г. Никой кандидат не получи повече от 50% от гласовете, така че вторият балотаж се проведе на 26 октомври.



В първия кръг, Дилма Русеф ( Работническа партия ) спечели 41,6% от гласовете, преди Aécio Neves ( Бразилска партия за социална демокрация ) с 33,6% и Марина Силва ( Бразилска социалистическа партия ) с 21,3%. Русеф и Невес оспориха балотажа на 26 октомври, като Русеф беше преизбран с тесен марж, 51,6% до 48,4% на Невес. Анализът в тази статия се отнася конкретно до балотажните избори на 26 октомври.

какво е c-корпорация

Partido dos Trabalhadores (PT) е една от най-големите политически партии в Бразилия. Това е политическата партия за настоящия и бившия президент Дилма Русеф и Луис Инасио Лула да Силва . Бразилската партия за социална демокрация (PSDB) е политическата партия на предишния президент Фернандо Хенрике Кардосо изображение на резервоар .



Извличане на данни и извличане на данни за темата в Twitter Trend

Започнах извличането на данни в социалните медии чрез извличане на данните за Twitter Trend Topic за 14-те бразилски града, за които данните се предоставят чрез API на Twitter , а именно: Бразилия, Белем, Бело Оризонти, Куритиба, Порто Алегре, Ресифи, Рио де Жанейро, Салвадор, Сао Пауло, Кампинас, Форталеза, Гояния, Манаус и Сао Луис.

Попитах API за почивка на Twitter за да получите 10-те най-важни теми в Twitter за тези 14 града в интервал от 20 минути (ограничен от някои ограничения, които Twitter има за своя API). Ограничаването на заявката до тези 14 града става чрез посочване на техния Yahoo! GeoPlanet WOEID (къде на земята ID) .



За това доказателство за концепция използвах Python и библиотека в Twitter (хитро наречена „twitter“) за да получите всички данни в социалната мрежа за деня на балотаж (26 октомври), както и за двата дни преди (24 и 25 октомври). За всеки ден изпълних около 70 различни заявки, за да помогна за идентифицирането на незабавните теми на тенденцията.

По-долу е даден пример за JSON обект, върнат в отговор на всяка заявка (този пример се основава на заявка за данни на 26 октомври в 00:40:00 ч. И показва само данните за Belo Horizonte).



[{'created_at': '2014-10-26T02:32:59Z', 'trends': [{'url': 'http://twitter.com/search?q=%23GolpeNoJN', 'name': '#GolpeNoJN', 'query': '%23GolpeNoJN', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23SomosTodosDilma', 'name': '#SomosTodosDilma', 'query': '%23SomosTodosDilma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%23EAecio45Confirma', 'name': '#EAecio45Confirma', 'query': '%23EAecio45Confirma', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Uilson', 'name': 'Uilson', 'query': 'Uilson', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Lucas+Silva%22', 'name': 'Lucas Silva', 'query': '%22Lucas+Silva%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Marcelo+Oliveira%22', 'name': 'Marcelo Oliveira', 'query': '%22Marcelo+Oliveira%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Cruzeiro', 'name': 'Cruzeiro', 'query': 'Cruzeiro', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Tupi', 'name': 'Tupi', 'query': 'Tupi', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22', 'name': 'Real x Baru00e7a', 'query': '%22Real+x+Bar%C3%A7a%22', 'promoted_content': null}, {'url': 'http://twitter.com/search?q=Wanessa', 'name': 'Wanessa', 'query': 'Wanessa', 'promoted_content': null} ], 'as_of': '2014-10-26T02:40:03Z', 'locations': [{'name': 'Belo Horizonte', 'woeid': 455821}] }]

Кратко въведение в анализа на социалната мрежа

Теория на социалната мрежа е изследването на това как хората, организациите или групите си взаимодействат с другите в тяхната мрежа. Има три основни типа социални мрежи:

  • Егоцентрични мрежи са свързани с един възел или отделен човек (например вие и всички ваши приятели и роднини).
  • Социоцентрични мрежи са затворени мрежи по подразбиране. Два често използвани примера за този тип мрежа са децата в класната стая или работниците в организацията.
  • Отворени системни мрежи са мрежи, при които граничните линии не са ясно дефинирани, което прави този тип мрежа обикновено най-трудна за проучване. Типът социално-политическа мрежа, която анализираме в тази статия, е пример за мрежа с отворена система.

Разглеждат се социалните мрежи сложни мрежи , тъй като те показват нетривиални топологични характеристики, с модели на връзка между техните елементи, които не са нито чисто редовни, нито чисто случайни.



Анализ на социалната мрежа изследва структурата на взаимоотношенията между социалните субекти. Тези субекти често са хора, но могат да бъдат и социални групи, политически организации, финансови мрежи, жители на общност, граждани на дадена държава и т.н. Емпиричното изследване на мрежите е изиграло централна роля в социалните науки и много от математическите и статистическите инструменти, използвани за изучаване на мрежите, са разработени за първи път в социологията.

какво е информационна архитектура в ux

Създаване на мрежа

За да създам мрежа с помощта на Twitter Trend Topics, дефинирах следните правила:

  • Всеки град е връх (т.е. възел) в мрежата.
  • Ако има поне една обща тенденция между два града, между тези градове има предимство (т.е. връзка).
  • Всеки ръб се претегля според броя на общите теми на тенденциите между тези два града (т.е. колкото повече теми на тенденциите имат два града, толкова по-голямо е теглото, което се приписва на връзката между тях).

Например, на 26 октомври градовете Форталеза и Кампинас имаха 11 общи тенденции, така че мрежата за този ден включва предимство между Форталеза и Кампинас с тегло 11:

Илюстриран процес на създаване на социална мрежа

Освен това, за да подпомогна процеса на претегляне на взаимоотношенията между градовете, разгледах и теми, които не са свързани със самите избори (предпоставката е, че градовете, които споделят други общи приоритети и интереси, може да са по-склонни да споделят едни и същи политически пристрастия ).

Въпреки че редът на темите за тенденциите може потенциално да има някакво значение за анализа, за опростяване на доказателството за концепция, избрах да игнорирам подреждането на темите в списъка с теми за тенденции.

Мрежова топология

Мрежова топология е по същество подреждането на различните елементи (връзки, възли и т.н.) на мрежата. За социалната мрежа, която анализираме, топологията на мрежата не се променя драстично през 3-те дни, тъй като възлите на мрежата (т.е. 14-те града) остават фиксирани. Разликите обаче могат да бъдат открити в теглата на връзките между възлите, тъй като броят на общите теми на тенденциите между градовете варира в рамките на 3 дни, както е показано в сравнението по-долу на топологията на мрежата на Ден 24 срещу Ден 25.

Илюстрирана топология на социалната мрежа

Прогнозиране на резултатите от изборите с помощта на данните от темата в Twitter Trend

За да ни помогнем да предскажем резултатите от изборите, ние разглеждаме не само общите теми на общите градове, но и как съдържанието на тези теми е свързано с вероятната подкрепа за всяка от двете основни политически партии; т.е. Partido dos Trabalhadores (PT) и Partido da Social Democracia Brasileira (PSDB).

Първо, създадох списък с думи и фрази, които се възприемат като положителна склонност към една от страните или подкрепа за нея. (Попълването на този списък е много сложна задача. В контекста на това доказателство за концепция, аз умишлено възприех опростен подход. Ако не друго, това прави калибъра на резултатите още по-интригуващ, тъй като по-добре настроен списък с термини и фразите вероятно биха подобрили допълнително точността на резултатите.)

След това за всеки възел отчитам:

  • броят на връзките му, които включват термини, които показват поддръжка за PT
  • броят на връзките му, които включват термини, които показват поддръжка за PSDB

Използвайки отново град Фортазела като пример, в крайна сметка получих:

Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37

По този начин правим заключението, че жителите на Форталеза имат цялостно предпочитание към Partido dos Trabalhadores (PT).

Резултати и заключения

Въз основа на този алгоритъм, анализът дава резултати, които са изненадващо подобни на действителните резултати от изборите, особено когато се има предвид общата простота на нашия подход. Ето сравнение на прогнозните резултати въз основа на данните от Twitter Trend Topic в сравнение с реалните резултати от изборите (червеното се използва за представяне на Partido dos Trabalhadores, а синьото се използва за представяне на Partido da Social Democracia Brasileira):

анализ на социални мрежи и извличане на данни

Подобрената научна строгост, както и по-сложните алгоритми и показатели, несъмнено биха подобрили резултатите още повече.

Ето няколко показателя, например, които биха могли да се използват, за да се направи извод за важността или влиянието на възел, което от своя страна би могло да информира за вида на прогнозния анализ, описан в тази статия:

  • Централност на възела. Многобройни централност на възела съществуват мерки, които могат да се използват за идентифициране на най-важните или влиятелни възли в мрежата. Централността на междинността, например, смята възела за изключително важен, ако образува мостове между много други възли. Централността на собствената стойност, от друга страна, базира значението на възела на броя на други изключително важни възли, които се свързват с него.

    въведение в големите данни с apache spark
  • Коефициент на клъстериране. The коефициент на клъстериране на възел измерва степента, до която „съседите“ на възела са свързани помежду си. Това е друга мярка, която може да бъде от значение за оценка на предполагаемата степен на въздействие на възел върху съседните му възли.

  • Централност на степента. Централността на степента се основава на броя връзки (т.е. връзки) към възел. Това е един от най-простите показатели за „значимостта“ на възел в мрежата.

Но дори и без това ниво на усъвършенстване, резултатите, постигнати с тази проста доказателствена концепция, предоставиха убедителна демонстрация на ефективен прогнозен анализ, използвайки данните от Twitter Trend Topic. Очевидно има потенциал да се направи анализ на данните в социалните медии още по-нататък в бъдеще.

Подобрете ангажираността с тези най-добри практики за проектиране на SaaS UX

Ux Дизайн

Подобрете ангажираността с тези най-добри практики за проектиране на SaaS UX
Как да изградим само CSS интелигентни оформления с Flexbox

Как да изградим само CSS интелигентни оформления с Flexbox

Технология

Популярни Публикации
Създавайте данни от случаен шум с генерални състезателни мрежи
Създавайте данни от случаен шум с генерални състезателни мрежи
Миналото все още присъства - преглед на вечния дизайн
Миналото все още присъства - преглед на вечния дизайн
Финансово бедствие в криза: Не можете да предскажете, можете да подготвите
Финансово бедствие в криза: Не можете да предскажете, можете да подготвите
Бруталистки уеб дизайн, минималистичен уеб дизайн и бъдещето на Web UX
Бруталистки уеб дизайн, минималистичен уеб дизайн и бъдещето на Web UX
Разширени съвети и хакове за презентация на PowerPoint
Разширени съвети и хакове за презентация на PowerPoint
 
Архитект отпред
Архитект отпред
Студената технологична война: все още тук и все още се използва
Студената технологична война: все още тук и все още се използва
Въведение в Apache Spark с примери и случаи на употреба
Въведение в Apache Spark с примери и случаи на употреба
Комодитизирани смартфони: Привеждане на 4G в развиващите се страни
Комодитизирани смартфони: Привеждане на 4G в развиващите се страни
Как да създам API за Secure Node.js GraphQL
Как да създам API за Secure Node.js GraphQL
Популярни Публикации
  • кои са петте принципа на дизайна
  • моето llc е s или c corp?
  • урок за node js rest api
  • разлика между s corp и partnership
  • дружество с ограничена отговорност c корпорация
Категории
  • Подвижен
  • Дизайн На Марката
  • Възходът На Дистанционното
  • Жизнен Цикъл На Продукта
  • © 2022 | Всички Права Запазени

    portaldacalheta.pt