Estudio, Tecnicas, Herramientas, Plataformas y "Analisis de Redes Sociales"

Estudio y Análisis de redes sociales, Técnicas, Herramientas y Plataformas
Esta investigación presenta una revisión exhaustiva de herramientas de "software para redes sociales", wikis, feeds de sindicación simples, blogs, grupos de noticias, chat y noticias. Para completarlo, también incluye presentaciones sobre scraping de medios sociales, almacenamiento, limpieza de datos y análisis de sentimientos.

Aunque principalmente es una revisión, la investigación también proporciona una metodología y una crítica de las "herramientas para redes sociales". El "análisis de redes sociales", en particular los feeds de Twitter para el análisis del sentimiento, se ha convertido en una importante actividad de investigación y negocios, debido a la disponibilidad de interfaces de programación de aplicaciones (API) basadas en la web, proporcionadas por Twitter, Facebook y otros servicios de noticias.
Esto ha llevado a una "explosión" de servicios de datos, herramientas de "software para scraping" y análisis y plataformas de "analisis de redes sociales". También es un área de investigación que experimenta un cambio y una evolución rápidos, debido a las presiones comerciales y al potencial de utilizar los datos de las redes sociales para la investigación computacional (ciencias sociales).

Usando una taxonomía simple, esta investigación proporciona una revisión de herramientas líderes de software, y cómo usarlas para extraer, limpiar y analizar los datos, en el espectro de las redes sociales. Además, se discutió el requisito de un entorno computacional experimental para la investigación en redes sociales, y se presenta como ilustración, la arquitectura del sistema de una plataforma de medios sociales (análisis), construida por University College London.

La principal contribución de esta investigación, es proporcionar una visión general (incluidos los fragmentos de código) para los científicos que buscan utilizar el scraping y "análisis de redes sociales", ya sea en su investigación o negocio. Las técnicas de recuperación de datos que se presentan en esta investigación, son válidas en el momento de escribir su documentación (junio de 2014), pero están sujetas a cambios, ya que las API de "análisis de datos en redes sociales" están cambiando continuamente.

INTRODUCCION

Los medios sociales se definen como aplicaciones de Internet basadas en la web, y en dispositivos móviles que permiten la creación, el acceso y el intercambio de contenido generado por el usuario, que es ubicuamente accesible (Kaplan y Haenlein 2010 ).

Además de los medios de "redes sociales" (por ejemplo, Twitter y Facebook), para mayor comodidad, también usaremos el término "redes sociales" para abarcar feeds de sindicación simple (RSS), blogs, wikis y noticias, todo lo cual produce texto no estructurado y accesible a través del web.

Las "redes sociales" son especialmente importantes para la investigación en ciencias sociales computacionales que investiga preguntas (Lazer et al., 2009), utilizando técnicas cuantitativas (por ejemplo, estadísticas computacionales, aprendizaje automático y complejidad), y los llamados big data para la minería de datos y simulación (Ciofi Revilla 2010).

Esto ha llevado a la creación de numerosos servicios de datos, herramientas y plataformas de análisis. Sin embargo, esta disponibilidad de los datos de las "redes sociales", para la investigación académica, puede cambiar significativamente debido a las presiones comerciales. Además, las herramientas disponibles para los investigadores están lejos de ser ideales. O bien dan acceso superficial a los datos brutos, o para acceso no superficial, requieren que los investigadores programen analíticas en un lenguaje como Java.

Problemas de investigación

El scraping y "análisis de redes sociales" proporciona una fuente rica de desafíos de investigación académica para científicos sociales, científicos informáticos y organismos de financiación. Los desafíos incluyen:

Scraping

Aunque se puede acceder a los "datos de redes sociales" a través de API, debido al valor comercial de los datos, la mayoría de las fuentes principales, como Facebook y Google, dificultan cada vez más que los académicos obtengan acceso completo a sus datos "en bruto"; muy pocas fuentes de datos sociales ofrecen ofertas de datos asequibles para el mundo académico y los investigadores.

Los servicios de noticias como Thomson Reuters y Bloomberg, suelen cobrar una prima por el acceso a sus datos. En contraste, Twitter ha anunciado recientemente el programa Twitter Data Grants, donde los investigadores pueden solicitar acceso a los tweets públicos y datos históricos de Twitter, para obtener información de su conjunto masivo de datos (Twitter tiene más de 500 millones de tweets por día).

Limpieza de datos

La limpieza de datos textuales no estructurados (p. Ej., Texto normalizado), especialmente los datos en tiempo real transmitidos en alta frecuencia, aún presenta numerosos problemas y desafíos de investigación.

Fuentes de datos holísticas

Los investigadores reúnen y combinan cada vez más fuentes de datos novedosas: datos de redes sociales, datos de clientes y mercados en tiempo real, y datos geoespaciales para su análisis.

Protección de datos

Una vez que ha creado un recurso de big data, los datos deben protegerse, los problemas de propiedad y de IP resueltos (es decir, el almacenamiento local de datos está en contra de la mayoría de los términos de servicio de los editores), y los usuarios tienen diferentes niveles de acceso; de lo contrario, los usuarios pueden intentar extraer todos los datos valiosos de la base de datos.

Análisis de datos

El análisis sofisticado de los "datos de redes sociales", para la minería de opiniones (por ejemplo, análisis de sentimientos), aún plantea una gran cantidad de desafíos debido a idiomas extranjeros, palabras extranjeras, jerga, errores ortográficos, y la evolución natural del lenguaje.

Tableros de Indicadores KPI para Analítica de Datos (Analytics Dashboards)

Muchas plataformas de medios sociales requieren que los usuarios escriban API, para acceder a fuentes o modelos de análisis de programas en un lenguaje de programación, como Java.

Si bien es razonable para los científicos informáticos, estas habilidades generalmente están más allá de la mayoría de los investigadores de las ciencias sociales. Se requieren interfaces que no sean de programación, para brindar lo que podría denominarse acceso "profundo" a datos "en bruto", por ejemplo, la configuración de API, la fusión de fuentes de medios sociales, la combinación de fuentes holísticas, y el desarrollo de modelos analíticos.

Visualización de datos

Representación visual de datos, por la cual la información se ha abstraído de forma esquemática, con el objetivo de comunicar información de manera clara y efectiva, a través de medios gráficos. Dada la magnitud de los datos involucrados, la visualización es cada vez más importante.

Metodología y crítica de las "redes sociales"

Los dos impedimentos principales para utilizar las redes sociales para la investigación académica son:

  1. El acceso a conjuntos de datos completos
  2. Las herramientas que permiten un análisis de datos "profundo" sin la necesidad de poder programar en un lenguaje como Java
La mayoría de los recursos de las redes sociales son comerciales, y las empresas intentan monetizar sus datos de forma natural. Como se discutió, es importante que los investigadores tengan acceso a conjuntos de datos de código abierto "grandes" (redes sociales) e instalaciones para la experimentación.

De lo contrario, la "investigación en redes sociales", podría convertirse en el dominio exclusivo de las principales empresas, agencias gubernamentales y un grupo privilegiado de investigadores académicos, que presiden de datos privados, a partir de los cuales producen documentos que no pueden ser criticados o replicados.

Recientemente, ha habido una respuesta modesta, ya que Twitter y Gnip, están probando un nuevo programa de acceso a datos, comenzando con 5 modelos de datos de acceso completo para los solicitantes seleccionados.

Herramientas de "analisis de redes sociales"

Las "herramientas de minería de opinión" están llenas de proveedores (comerciales), la mayoría de los cuales están sesgados, hacia el análisis del sentimiento de los comentarios de los clientes, sobre productos y servicios.

Afortunadamente, existe un amplio espectro de herramientas para el análisis textual, que van desde simples herramientas de código abierto, hasta bibliotecas, juegos de herramientas comerciales multifuncionales y plataformas.

Herramientas de negocios

Los "Business Toolkits" son conjuntos comerciales de herramientas, que permiten a los usuarios buscar, y analizar texto, para una variedad de propósitos comerciales.

SAS Sentiment Analysis Manager

Parte del programa SAS Text Analytics, puede utilizarse para analizar fuentes de contenido, incluidos sitios web convencionales y medios sociales, así como fuentes de texto internas de la organización, y crea informes que describen los sentimientos expresados ​​por consumidores y clientes, y competidores en tiempo real.

RapidMiner (Hirudkar y Sherekar 2013)

Un kit de herramientas popular, que ofrece una Edición de Comunidad de código abierto, lanzada bajo licencia GNU AGPL, y también una Edición Enterprise ofrecida bajo una licencia comercial.

RapidMiner proporciona procedimientos de minería de datos y aprendizaje automático que incluyen:
  • carga y transformación de datos (Extraer, Transformar, Cargar, también conocido como ETL)
  • preprocesamiento de datos
  • visualización de datos
  • modelado de datos
  • evaluación de datos
  • implementación

RapidMiner está escrito en Java, y utiliza esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje de máquina Weka, y esquemas de modelado estadístico del proyecto R.

Lexalytics

Proporciona un motor de análisis de opinión comercial para muchos OEM y clientes directos.

IBM SPSS Statistics

Es uno de los programas más utilizados para el análisis estadístico en ciencias sociales.

"Herramientas de monitoreo de redes sociales"

Las "herramientas de monitoreo de redes sociales", son herramientas de "análisis de sentimiento", para rastrear y medir lo que las personas dicen típicamente, sobre una compañía o sus productos, o cualquier tema en el entorno de redes sociales de la web.

En el área de monitoreo de redes sociales, los ejemplos incluyen:
  • Social Mention, que proporciona alertas de redes sociales de manera similar a Google Alerts
  • Amplified Analytics, que se centra en revisiones de productos e información de marketing
  • Lithium Social Media Monitoring
  • Trackur, que es una herramienta de monitoreo de reputación en línea que rastrea lo que se dice en Internet.

Google también proporciona algunas herramientas gratuitas útiles:
  1. Google Trends, muestra la frecuencia con la que una entrada determinada de un término de búsqueda, se compara con el volumen total de búsqueda. 
  2. Google Alerts, se basa en la búsqueda de Google, es una herramienta de detección de cambios de contenido, que proporciona notificaciones automáticamente. Google también adquirió FeedBurner -una gestión de feeds RSS- en 2007.

Herramientas de "análisis de texto"

Las "herramientas de análisis de texto", son herramientas de amplia base, para el procesamiento del lenguaje natural y el análisis de texto. Los ejemplos de compañías en el área de análisis de texto incluyen: OpenAmplify y Jodange, cuyas herramientas filtran y agregan automáticamente pensamientos, sentimientos y declaraciones de los medios tradicionales y sociales.

También hay una gran cantidad de herramientas de libre acceso producidas por grupos académicos y organizaciones no gubernamentales (ONG), para buscar y analizar opiniones. Los ejemplos incluyen las herramientas de grupo Stanford NLP y LingPipe, los cuales comprenden un conjunto de bibliotecas Java para el análisis lingüístico del lenguaje humano (Teufl et al 2010).

Una variedad de herramientas de análisis de texto de código abierto están disponibles, especialmente para el análisis de sentimiento. Una herramienta de análisis de texto popular, que también es de código abierto, es Python NLTK-Natural Language Toolkit , que incluye módulos Python de fuente abierta, datos lingüísticos y documentación para análisis de texto. Otro es GATE.

También deberíamos mencionar Lexalytics Sentiment Toolkit, que realiza un análisis de opinión automático en los documentos de entrada. Es potente cuando se usa en una gran cantidad de documentos, pero no realiza scraping de datos.

Otros software comerciales para minería de texto son:
  • AeroText
  • Attensity
  • Clarabridge
  • IBM LanguageWare
  • SPSS Text Analytics for Surveys
  • Language Computer Corporation
  • STATISTICA Text Miner
  • WordStat.

"Herramientas de visualización de datos"

Las "herramientas de visualización de datos" proporcionan capacidades de inteligencia empresarial o de negocios (BI), y permiten que diferentes tipos de usuarios obtengan información de los datos 'grandes'.

Los usuarios pueden realizar análisis exploratorios, a través de interfaces de usuario interactivas, disponibles en la mayoría de los dispositivos, con un enfoque reciente en dispositivos móviles (teléfonos inteligentes y tabletas).

Las herramientas de visualización de datos ayudan a los usuarios a:
  1. identificar patrones
  2. tendencias
  3. relaciones en los datos que anteriormente estaban latentes

La visualización ad hoc rápida en los datos, puede revelar patrones y valores atípicos, y se puede realizar en marcos de conjuntos de datos a gran escala, como:
  • Apache Hadoop
  • Amazon Kinesis. 

Dos herramientas de visualización notables son:

  • SAS Visual Analytics
  • Tableau

Plataformas de "análisis de redes sociales"

Se examinaron plataformas integrales de "redes sociales", que combinan archivos de "redes sociales", fuentes de datos, minería de datos y "herramientas de análisis de datos". En pocas palabras, las plataformas son diferentes de las herramientas y los kits de herramientas, ya que las plataformas son más completas y proporcionan herramientas y datos.

Se subdividen ampliamente en:

Plataformas de noticias

Plataformas como Thomson Reuters que proporcionan archivos/feeds de noticias, y análisis asociados, y compañías de orientación, como instituciones financieras que buscan "monitorear el sentimiento" del mercado en las noticias.  Los dos proveedores de noticias comerciales más destacados son Thomson Reuters y Bloomberg.

La computadora lee noticias en tiempo real, y proporciona automáticamente indicadores clave y perspectivas significativas. Las noticias se recuperan, analizan e interpretan automáticamente en unos pocos milisegundos. Los indicadores de noticias legibles por máquina pueden potencialmente mejorar las estrategias cuantitativas, la gestión de riesgos y la toma de decisiones.

Entre los ejemplos de noticias legibles por máquina se incluyen:
  • Noticias legibles por máquina de Thomson Reuters
  • Fuentes de información basadas en eventos de Bloomberg y AlphaFlash (noticias de lectura legible por máquina de Deutsche Börse)
  • Thomson Reuters Machine Readable News (Thomson Reuters 2012a , b , c ) tiene contenido de Reuters News que data de 1987, y noticias completas de más de 50 terceros que datan de 2003, como PR Newswire, Business Wire y el Servicio de Noticias Reguladoras ( LSE). El feed ofrece texto completo y metadatos completos a través de streaming XML.

Thomson Reuters News Analytics, utiliza técnicas de procesamiento de lenguaje natural (NLP) para puntuar noticias sobre decenas de miles de empresas, y cerca de 40 temas sobre materias primas y energía. Los artículos se miden en las siguientes dimensiones:
  1. "Sentimiento del autor": indicador de cuán positivo, negativo o neutral es el tono del artículo, específico para cada compañía en el artículo.
  2. Relevancia: qué relevante o sustantiva es la historia para un artículo en particular.
  3. "Análisis de volumen": cuántas noticias están sucediendo en una compañía en particular.
  4. Singularidad: cómo es nuevo o repetitivo el artículo durante varios períodos de tiempo.
  5. "Análisis de encabezado": contiene características especiales, como acciones de intermediarios, comentarios sobre precios, entrevistas, exclusivas y recapitulaciones.

Plataformas de "medios de redes sociales"

Plataformas que proporcionan minería de datos y análisis en Twitter, Facebook y una amplia gama de otras fuentes de "medios de redes sociales". Los proveedores normalmente se dirigen a las empresas que buscan controlar el sentimiento en torno a sus marcas o productos.

Attensity, Brandwatch, Salesforce Marketing Cloud (anteriormente llamado Radian6) y Sysomos MAP (Media Analysis Platform) son ejemplos de plataformas de monitoreo de redes sociales, que miden datos demográficos, temas influyentes y opiniones.

Incluyen "análisis de texto" y "análisis de sentimiento" en conversaciones de consumidores en línea, y proporcionan interfaces fáciles de usar, para personalizar la consulta de búsqueda, paneles de control, informes y funciones de exportación de archivos (por ejemplo, en formato Excel o CSV).

La mayoría de las plataformas eliminan una variedad de "redes sociales", usando un rastreador distribuido que apunta a:
  • microblogging (Twitter a través de Twitter Firehose)
  • blogs (Blogger, WordPress, etc.)
  • redes sociales (Facebook y MySpace)
  • foros
  • sitios web de noticias
  • sitios web de imágenes (ej. Flickr)
  • sitios web corporativos

Algunas de las plataformas ofrecen soporte multilingüe para los idiomas más utilizados (por ejemplo, inglés, francés, alemán, italiano y español).

Las plataformas de "análisis de sentimiento", usan dos metodologías principales:
  1. Uno implica un enfoque estadístico o basado en el modelo en el que el sistema aprende a evaluar el sentimiento mediante el análisis de grandes cantidades de material previamente anotado. 
  2. El otro método utiliza un gran diccionario de frases precalculadas.

RapidMiner 5

Es una plataforma que combina extracción de datos y análisis de datos, que, según los requisitos, puede ser de código abierto. Utiliza la biblioteca de aprendizaje de máquina WEKA y proporciona acceso a fuentes de datos como Excel, Access, Oracle, IBM, MySQL, PostgreSQL y archivos de texto.

Mozenda

Proporciona una interfaz de usuario de apuntar y hacer clic, para extraer información específica de los sitios web y permite la automatización y exportación de datos a archivos CSV, TSV o XML.

DataSift 

Brinda acceso a datos sociales tanto históricos como en tiempo real de las principales redes sociales, y millones de otras fuentes, lo que permite a los clientes agregar, filtrar y obtener información y descubrir tendencias de los miles de millones de conversaciones sociales públicas.

Una vez que los datos se agregan y procesan, es decir, DataSift puede filtrar y agregar contexto, como:
  • enriquecimiento y procesamiento de lenguaje
  • geodatos
  • datos demográficos
  • categorización y detección de correo no deseado
  • identificación intencionada
  • aprendizaje automático

los clientes pueden usar integraciones preconstruidas con herramientas de BI populares, herramientas de aplicaciones, y con desarrolladores, para entregar los datos en sus negocios, o usar las API de DataSift, para transmitir datos en tiempo real a sus aplicaciones.

Otras plataformas de "analisis de redes sociales"

Otras plataformas notables que manejan el sentimiento y el análisis semántico del material de origen Web y Web 2.0 son:
  • Google Analytics
  • HP Autonomy IDOL (capa de operación inteligente de datos)
  • IBM SPSS Modeler
  • Adobe Social Analytics
  • GraphDive
  • Keen IO
  • Mass Relevance
  • Parse.ly
  • ViralHeat
  • Socialbakers
  • DachisGroup
  • evolve24
  • OpenAmplify
  • AdmantX.

Recientemente, han surgido plataformas cada vez más específicas de "análisis social". Uno de ellos es iSpot.tv, que lanzó su propia plataforma de "análisis de redes sociales", que combina anuncios de televisión con menciones en Twitter y Facebook. Proporciona informes en tiempo real sobre cuándo y dónde aparece un anuncio, junto con lo que la gente dice al respecto en las redes sociales (iSpot.tv monitorea casi 80 redes diferentes).

Thomson Reuters anunció recientemente que ahora está incorporando el análisis de sentimiento de Twitter, para la plataforma de análisis y comercialización de Thomson Reuters Eikon, proporcionando visualizaciones y gráficos, basados ​​en los datos de opinión. En el año anterior, Bloomberg incorporó tweets relacionados con compañías específicas en un flujo de datos más amplio.

Conclusiones

Como se discutió, la fácil disponibilidad de las API provistas por los servicios de Twitter, Facebook y Noticias, ha llevado a una 'explosión' de servicios de datos y "herramientas para análisis de sentimiento en redes sociales", "software para scraping" y "herramientas para analisis de redes sociales". Esta investigación examina algunas de las herramientas de "software de redes sociales", y para completar, se introdujo el scraping de los medios sociales, la limpieza de datos y el análisis de sentimientos.

Quizás, la mayor preocupación es que las empresas restrinjan cada vez más el acceso a sus datos para monetizar su contenido. Es importante que los investigadores tengan acceso a entornos computacionales y, especialmente, a datos de redes sociales "grandes" para la experimentación.

De lo contrario, las ciencias sociales computacionales, podrían convertirse en el dominio exclusivo de las principales compañías, agencias gubernamentales y un grupo privilegiado de investigadores académicos, que presidan datos privados a partir de los cuales, producen documentos que no pueden ser criticados o replicados.

Podría decirse que lo que se necesita son entornos computacionales de dominio público e instalaciones de datos para la ciencia social cuantitativa, a los que los investigadores pueden acceder a través de una instalación basada en la nube.

REFERENCIAS

Bogdan Batrinca, Philip C. Treleaven (2014). Social media analytics: a survey of techniques, tools and platforms. AI & Soc (2015) 30:89–116. DOI 10.1007/s00146-014-0549-4

¿Que Tal Te Pareció Este Contenido?

Califica Mi Trabajo

Javier Cañon
4.9 / 5 basado en 20 calificaciones.

Popular Últimos 30 días

Chat? Chat?
Javier Cañon $$$
Direccion:Carrera 14 #37-02, Villavicencio, Meta, 500002, CO |Tel: 57 315819050 |Email: [email protected].
|Nit No.797856401 |Horario