Entradas

Mostrando las entradas con la etiqueta Open Data

La eficacia del contenido en la web actual #Bigquery #httparchive #gzip_score

Imagen
Optimizar la eficacia del contenido para los portales web/web móviles actuales parecería algo asumido pero, ¿podemos asegurar eso? En el portal de developers de #Google #Web #Fundamentals pueden encontrar muy buenos artículos. Visión general de la optimización de contenidos. También pueden revisar la sección donde se explica la optimización en la codificación y transferencia de recursos basados en texto. Parece directamente asumido que la compresión gzip está activa en todos los portales de mayor impacto, solo quería validar esta presunción. ¿Como? Vamos a utilizar los datos portados a BigQuery de httparchive.org Utilizaremos la sección donde se registran los HARs de análisis realizados y la tabla de 2016_01_01_android_pages.   Solo tenemos la url analizada y el payload en json, con un diseño como este: Como el análisis está realizado con WPT podemos obtener directamente el gzip_score . ¿Como se imaginan esto?  Con BigQuery es muy simple: ...

Indicadores propuestos por el banco mundial, variaciones población mundial y usuarios internet

Imagen
Mientras observaba algunos indicadores mundiales propuestos por el   World Bank , opción de datos abiertos , me pregunté... cómo podríamos visualizar muy rápidamente los cambios en la población mundial año a año y ver lo mismo con el acceso a internet?. El World Bank propone varios tipos de acceso para su información, una aplicación móvil, API y los datos base. Hay unos 1400 indicadores diferentes para analizar. Veamos un ejemplo entre 2000-2014 para: Población total, en millones de personas: Usuarios de internet por cada 100 personas: Si quieren consultar los indicadores desde 1961-2016 hice una pequeña migración a BigQuery. Aquí usuarios autenticados.  Solo necesitan definir su consulta!  Detalles de la tabla en #BigQuery preview de la tabla en #BigQuery Espero compartan interesantes conclusiones! Indicadores propuestos por el banco mundial, variaciones población mundial y usuarios internet por Nicolas Bortolotti se distribuy...

#BuenosAires cuna de grandes desarrolladores? Análisis según #stackexchange

Imagen
En este articulo les quiero compartir un análisis muy simple sobre desarrolladores y su relevancia para 6 de las capitales más importantes de #LatAm. Basado en datos propuestos por [http://data.stackexchange.com/] vamos a estudiar el comportamiento de los desarrolladores de todas las disciplinas en [Buenos Aires, San Pablo, Santiago de Chile, Lima, Bogotá y Ciudad de México] Utilicé la tabla #Users, la complejidad empieza cuando el atributo #Location es una cadena bastante variable. De todas formas se pueden identificar las capitales sin problemas. Para esta muestra/snapshot un poco más de 5K de developers. Bogotá, Colombia 650 Lima, Perú 515 Santiago, Chile 750 Sao Paulo, Brazil 1845 Mexico City, Mexico 582 Buenos Aires, Argentina 1395 Total 5737 Una consulta modelo muy simple como la siguiente: Select count(*), Sum(reputation),Location from Users Where Location LIKE 'key%' Group by Location Order by Sum(reputation) Luego algunos filtros y si quieren ...

Analizando nacimientos por estado conyugal en Mexico #opendata #bigquery

Imagen
Si te interesan los estudios basados en #opendata utilizando #bigquery  y les resulta atractivo el tópico de nacimientos ,en este caso analizados por estado conyugal, podes seguir leyendo...  Hoy se me ocurrió preguntar a la base de 13 MM de nacimientos en Mexico [2008-2013] y analizar estos nacimientos por estado conyugal, hay sociedades muy apegadas a los modelos religiosos en donde uno se imaginaría una equilibrio en nacimientos para personas casadas ¿Como se imaginan esta situación en #Mexico?   Veamos las proporciones para toda la muestras: Fig.1 Proporciones para toda la muestra Como pueden ver para toda la muestra se ve una balance entre los nacimientos desde el estado conyugal #casada y #unión libre. Ahora otra pregunta, ¿y si lo analizamos año a año? Vamos a ver la curva propuesta para el estado conyugal #casada Fig.2 Análisis año a año para casada Veamos ahora para #solteras. Fig.3 Análisis año a año para soltera Finalmente veamos...

El poder del #OpenData + #BigQuery Egresos Hospitalarios México

Imagen
El análisis de datos masivo resulta muy interesante cuando podemos validar hipótesis rápidamente. En este caso nuestra pregunta central, propone descubrir los servicios de salud más demandados en los último 4 años y ver si nuestra cobertura de salud cubre los mismos. Estudiaremos la demanda de los egresos hospitalarios por tipo y utilizaremos d atos oficiales de la Secretaría de Salud con licencia abierta. Link (portal de datos abiertos con todas las especificaciones de los datos). Vamos a procesar los datos con #BigQuery(en el TableID de la Fig.1 está el camino para si quieren utilizar los datos) Fig.1 ¿De cuanto es la muestra? 14,128,192 MM Trabajando solo los egresos de los datos publicados por la #SecretaríaSalud #Mx. Fig.2 Utilicé VMs de Google ComputeEngine, y #bq para la carga de los datos a #BigQuery ¿Será importante incorporar en nuestros servicios de salud elementos como obstetricia/ginecología/pediatría? Fig.3 Vamos por l...

Datos Abiertos y su poder de análisis utilizando BigQuery #Buenos Aires

Imagen
La importancia de los #datosabiertos y su poder de análisis en el Laboratorio de la Ciudad de Buenos Aires junto a toda la comunidad regional. En esta presentación estuvimos compartiendo un caso en donde analizamos datos abiertos publicados por datos.gob.mx desde la ciudad de México. Utilizando la inigualable solución de #BigQuery en segundos podemos analizar millones de registros... fig.1 - La audiencia Mis felicitaciones al  +LABgcba - Laboratorio de Gobierno  por la apertura y trabajo sobre esta importante visión   y a la  vez el   agradecimiento por la oportunidad de interactuar con este linda comunidad. fig.2 - presentando Les dejo la presentación utilizada...

El atractivo mundo de BigQuery y los datos abiertos

Imagen
Antes de iniciar la descripción de este pequeño trabajo sobre datos abiertos y el poder de BigQuery, **quiero felicitar  a todos los involucrados en el proceso de liberación de datos, ya que el potencial de análisis que le dejan a la comunidad para análisis cruzados de información es invaluable. También a  +Felipe Hoffa  por su talento y por compartir su conocimiento con la comunidad.  La idea de este análisis es tomar los datos  Descargando los datos desde el portal de datos abiertos Presidencia de la Nación Mexico. http://datos.gob.mx Para este análisis trabajaremos con los datasets de nacimientos del 2008-2013 (6 datasets en promedio csv de 1.3 GB) Si queremos manipular rápidamente estos conjuntos de datos, lo ideal es usar el poder de Compute Engine y la conexión de estos equipo ultra rápida.  Entonces desde una VM de Compute, descargo los archivos. Comando: wget http://www.dgis.salud.gob.mx/descargas/datosabiertos/sinac...