Entradas

Mostrando las entradas con la etiqueta BigQuery

La eficacia del contenido en la web actual #Bigquery #httparchive #gzip_score

Imagen
Optimizar la eficacia del contenido para los portales web/web móviles actuales parecería algo asumido pero, ¿podemos asegurar eso? En el portal de developers de #Google #Web #Fundamentals pueden encontrar muy buenos artículos. Visión general de la optimización de contenidos. También pueden revisar la sección donde se explica la optimización en la codificación y transferencia de recursos basados en texto. Parece directamente asumido que la compresión gzip está activa en todos los portales de mayor impacto, solo quería validar esta presunción. ¿Como? Vamos a utilizar los datos portados a BigQuery de httparchive.org Utilizaremos la sección donde se registran los HARs de análisis realizados y la tabla de 2016_01_01_android_pages.   Solo tenemos la url analizada y el payload en json, con un diseño como este: Como el análisis está realizado con WPT podemos obtener directamente el gzip_score . ¿Como se imaginan esto?  Con BigQuery es muy simple: ...

Indicadores propuestos por el banco mundial, variaciones población mundial y usuarios internet

Imagen
Mientras observaba algunos indicadores mundiales propuestos por el   World Bank , opción de datos abiertos , me pregunté... cómo podríamos visualizar muy rápidamente los cambios en la población mundial año a año y ver lo mismo con el acceso a internet?. El World Bank propone varios tipos de acceso para su información, una aplicación móvil, API y los datos base. Hay unos 1400 indicadores diferentes para analizar. Veamos un ejemplo entre 2000-2014 para: Población total, en millones de personas: Usuarios de internet por cada 100 personas: Si quieren consultar los indicadores desde 1961-2016 hice una pequeña migración a BigQuery. Aquí usuarios autenticados.  Solo necesitan definir su consulta!  Detalles de la tabla en #BigQuery preview de la tabla en #BigQuery Espero compartan interesantes conclusiones! Indicadores propuestos por el banco mundial, variaciones población mundial y usuarios internet por Nicolas Bortolotti se distribuy...

Analizando nacimientos por estado conyugal en Mexico #opendata #bigquery

Imagen
Si te interesan los estudios basados en #opendata utilizando #bigquery  y les resulta atractivo el tópico de nacimientos ,en este caso analizados por estado conyugal, podes seguir leyendo...  Hoy se me ocurrió preguntar a la base de 13 MM de nacimientos en Mexico [2008-2013] y analizar estos nacimientos por estado conyugal, hay sociedades muy apegadas a los modelos religiosos en donde uno se imaginaría una equilibrio en nacimientos para personas casadas ¿Como se imaginan esta situación en #Mexico?   Veamos las proporciones para toda la muestras: Fig.1 Proporciones para toda la muestra Como pueden ver para toda la muestra se ve una balance entre los nacimientos desde el estado conyugal #casada y #unión libre. Ahora otra pregunta, ¿y si lo analizamos año a año? Vamos a ver la curva propuesta para el estado conyugal #casada Fig.2 Análisis año a año para casada Veamos ahora para #solteras. Fig.3 Análisis año a año para soltera Finalmente veamos...

El poder del #OpenData + #BigQuery Egresos Hospitalarios México

Imagen
El análisis de datos masivo resulta muy interesante cuando podemos validar hipótesis rápidamente. En este caso nuestra pregunta central, propone descubrir los servicios de salud más demandados en los último 4 años y ver si nuestra cobertura de salud cubre los mismos. Estudiaremos la demanda de los egresos hospitalarios por tipo y utilizaremos d atos oficiales de la Secretaría de Salud con licencia abierta. Link (portal de datos abiertos con todas las especificaciones de los datos). Vamos a procesar los datos con #BigQuery(en el TableID de la Fig.1 está el camino para si quieren utilizar los datos) Fig.1 ¿De cuanto es la muestra? 14,128,192 MM Trabajando solo los egresos de los datos publicados por la #SecretaríaSalud #Mx. Fig.2 Utilicé VMs de Google ComputeEngine, y #bq para la carga de los datos a #BigQuery ¿Será importante incorporar en nuestros servicios de salud elementos como obstetricia/ginecología/pediatría? Fig.3 Vamos por l...

XmlCsvBigConvert Project, objetivo #Bigquery

Imagen
Hace unos días tuve que afrontar un desafío para procesar una cierta cantidad de archivos y portarlos #BigQuery para luego ejecutar algunas consultas a estos conjuntos de datos masivos. El objetivo proponía utilizar el raw data de stack exchange propuesto en este [ link ]. Ahi comenzaron los problemas, los archivos inicialmente utilizan 7z como modelo de compresión. Pero esto es simple de resolver, ahora en su interior tenemos archivos xml y como #BigQuery ingiere datos en json o csv, primera barrera. El trabajo con json en primera instancia parecía razonable pero el trabajo sobre el esquema es una tarea laboriosa. Entonces el paso fue directo para procesar desde xml a csv. Hay varias opciones, pero para archivos pequeños.. el desafío final es trabajar con archivos de más de 2GB hay opciones de archivo de más de 10 GB. Entonces aquí inicia la historia de  XmlCsvBigConvert, proyecto open source, en modo herramienta de consola desarrollado en #python que propone la rápida tr...

Datos Abiertos y su poder de análisis utilizando BigQuery #Buenos Aires

Imagen
La importancia de los #datosabiertos y su poder de análisis en el Laboratorio de la Ciudad de Buenos Aires junto a toda la comunidad regional. En esta presentación estuvimos compartiendo un caso en donde analizamos datos abiertos publicados por datos.gob.mx desde la ciudad de México. Utilizando la inigualable solución de #BigQuery en segundos podemos analizar millones de registros... fig.1 - La audiencia Mis felicitaciones al  +LABgcba - Laboratorio de Gobierno  por la apertura y trabajo sobre esta importante visión   y a la  vez el   agradecimiento por la oportunidad de interactuar con este linda comunidad. fig.2 - presentando Les dejo la presentación utilizada...

Los datos como combustible en esta nueva era, Desarrolladores Google Show y el análisis masivo de datos

Imagen
En la era de las ciudades inteligentes, los datos son el combustible para mover la maquinaria de progreso en nuestras grandes ciudades. Si recolectamos y analizamos datos podemos entender lo que nos sucede, lo que falta, lo que debemos atender como gobierno, sociedad, vecinos, etc. La tecnología viene a jugar un rol muy importante en este nuevo paradigma de ciudades inteligentes, logrando analizar la gran cantidad de datos y dando respuestas en segundos. Aquí material imperdible desde #DesarrolladoresGoogleShow, que aborda estos temas: el análisis masivo de datos a partir de soluciones como #BigQuery. Hacia el final, una entrevista con el Gobierno Federal de México, quien tiene grandes iniciativas para liberar datos y dejarlos bien presentados a los programadores, infaltable además la visión comunitaria desde #CodeandoMexico, una organización de hackers a cívicos. Seamos conscientes de que tenemos grandes cantidades de datos al alcance de la mano y que el progreso puede estar en manos...

Desarrolladores Google El show junto a +Felipe Hoffa

Imagen
En este nueva emisión y formato del show para desarrolladores en español conversamos junto a +Felipe Hoffa  , Developer Advocate del equipo de Cloud Platform de Google. Un linda experiencia donde se trabaja sobre los datos abiertos aplicando BigQuery esta potente solución para BigData de Google. Podrán seguir paso a paso a  +Felipe Hoffa  en el atractivo camino de procesar conjuntos masivos de datos. Les dejo el video de implementación., imperdible! Espero les sea de utilidad! Si quieres conocer más sobre el proceso propuesto por  +Felipe Hoffa  pueden ver esta publicación en la que se trabaja sobre BigQuery.

El atractivo mundo de BigQuery y los datos abiertos

Imagen
Antes de iniciar la descripción de este pequeño trabajo sobre datos abiertos y el poder de BigQuery, **quiero felicitar  a todos los involucrados en el proceso de liberación de datos, ya que el potencial de análisis que le dejan a la comunidad para análisis cruzados de información es invaluable. También a  +Felipe Hoffa  por su talento y por compartir su conocimiento con la comunidad.  La idea de este análisis es tomar los datos  Descargando los datos desde el portal de datos abiertos Presidencia de la Nación Mexico. http://datos.gob.mx Para este análisis trabajaremos con los datasets de nacimientos del 2008-2013 (6 datasets en promedio csv de 1.3 GB) Si queremos manipular rápidamente estos conjuntos de datos, lo ideal es usar el poder de Compute Engine y la conexión de estos equipo ultra rápida.  Entonces desde una VM de Compute, descargo los archivos. Comando: wget http://www.dgis.salud.gob.mx/descargas/datosabiertos/sinac...

Dashboard-Bigquery, explicación paso a paso del main.py

Imagen
Luego de la publicación Integrando un panel con soporte escalable de consultas, BigQuery llegaron muchas preguntas y solicitudes sobre el paso a paso del código implementado,  ahora les comparto este análisis sobre la implementación. Pueden encontrar actualizada una parte de la wiki del proyecto con esta información ampliada aquí . También los invito  a quienes quieran pueden colaborar en el proyecto de github trabajando un fork y demostrar el talento comunitario. Siempre es bienvenido.  Fig.1 importaciones Para trabajar la integración con BigQuery es necesario autorizarse mediante OAuth2.0. El siguiente decorador Fig.2, me permite obtener el archivo json con la información de seguridad y su ámbito. Fig.2 El decorador Vamos a construir el servicio de integración utilizando apiclient.discovery, en concreto con el método  build . Fig.3 Construcción del servicio de integración con BigQuery Ahora vamos a trabajar algunas variables del proyecto F...

Integrando un panel con soporte escalable de consultas, BigQuery

Imagen
Una de las tradicionales tareas en gran cantidad de escenarios corporativos tiene que ver con el análisis de datos y su visualización en modo panel. En esta oportunidad les voy a compartir el inicio de la integración para un panel basado en BigQuery. El objetivo propone encontrar el mecanismo que nos permita minar millones de filas en determinadas tablas. En este ejemplo iniciamos el desarrollo utilizando App Engine con Python como plataforma de trabajo y aplicamos la integración por API de Bigquery. En el proyecto utilizaremos webapp2 como manejador principal y jinja2 para el trabajo de las plantillas HTML. La Fig.1 muestra el entorno de desarrollo completo y la arquitectura básica de la aplicación. Fig. 1 Entorno de desarrollo utilizado Tendremos que realizar la operación en 3 pasos generales: Vamos a tener que consultar los datos a Bigquery. Tendremos que formatear estos datos para insertarlo en un Google Chart. Tendremos que integrar estos datos para el render en el H...