Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Introducción a Apache Spark
Introducción a Apache Spark
Introducción a Apache Spark
Libro electrónico223 páginas

Introducción a Apache Spark

Por VVAA

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

Hay mucha excitación en relación con el análisis del big data, pero también mucha confusión en decidir por dónde empezar para aquellos que quieren iniciarse en la programación en este apasionante mundo. Este libro proporciona al lector una oportunidad para empezar a programar y manejar datos a través del ecosistema Apache Spark. Spark es actualmente uno de los paquetes de código abierto más importantes en el espacio del big data y por el que importantes empresas, como IBM, SAP, Oracle o Amazon, han apostado, al tiempo que son también grandes contribuidoras. Este libro, que puede utilizarse como texto de autoestudio o de soporte a cursos que requieran una introducción a Apache Spark, contiene unaexcelente visión introductoria de Apache Spark, una descripción de su ecosistema y de sus características básicas e incluye ejemplos de código para que el lector los pueda probar en su propio PC si lo desea y así tener una comprensión de primera mano de algunas de sus posibilidades.
IdiomaEspañol
EditorialUOC
Fecha de lanzamiento30 jun 2016
ISBN9788491160496
Introducción a Apache Spark

Lee más de Vvaa

Relacionado con Introducción a Apache Spark

Programación para usted

Ver más

Comentarios para Introducción a Apache Spark

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Introducción a Apache Spark - VVAA

    C_9788491160458.jpg

    Introducción a Apache Spark

    Introducción

    a Apache Spark


    Para empezar a programar

    el big data

    Mario Macías

    Mauro Gómez

    Rubèn Tous

    Jordi Torres

    Diseño de la colección: Editorial UOC

    Diseño de la cubierta: Natàlia Serrano

    Primera edición en lengua castellana: Noviembre 2015

    Primera edición digital: mayo 2016

    © Mario Macías, Mauro Gómez, Rubèn Tous, Jordi Torres, del texto

    © Dibujo de la cubierta: Estudi Patui - Júlia Torres i Bellido

    © Editorial UOC (Oberta UOC Publishing, SL), de esta edición, 2015

    Rambla del Poblenou 156, 08018 Barcelona

    http://www.editorialuoc.com

    Realización editorial: Oberta UOC Publishing, SL

    Maquetación: Maria García

    ISBN: 978-84-9116-049-6

    Ninguna parte de esta publicación, incluyendo el diseño general y de la cubierta, no puede ser copiada, reproducida, almacenada o transmitida de ninguna forma ni por ningún medio, ya sea eléctrico, químico, mecánico, óptico, de grabación, de fotocopia o por otros métodos, sin la autorización previa por escrito de los titulares del copyright.

    Autores


    Mario Macías

    Doctor en Arquitectura de Computadores por la Universidad Politécnica de Cataluña, donde compagina su trabajo de profesor con el de investigador en el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS). Durante la última década ha trabajado en proyectos de investigación relacionados con cloud computing y eficiencia energética. Como actividad independiente, ha autopublicado dos libros de divulgación científica.

    Mauro Gómez Parada

    Graduado en Ingeniería Informática por la Universidad de Vigo. Actualmente está finalizando el máster de Ingeniería informática en la UPC (Universidad Politécnica de Cataluña) y trabaja como investigador sobre Spark con el grupo de Autonomic Systems del BSC-CNS. Como actividad independiente, ha colaborado en la creación de los Premios Galegos da Musica, nacidos en el año 2013 en Galicia.

    Rubèn Tous

    Doctor en Informática por la Universidad Pompeu Fabra. En la actualidad es profesor contratado doctor en el Departamento de Arquitectura de Computadores de la Universidad Politécnica de Cataluña e investigador colaborador en el Barcelona Supercomputing Center. Es experto en indexación, búsqueda y clasificación de información multimedia. Ha publicado más de cincuenta artículos de investigación en revistas y conferencias internacionales. Es coeditor de múltiples estándares de los grupos MPEG y JPEG de ISO, y ha sido codirector del Metadata Subgroup de JPEG.

    Jordi Torres

    Catedrático de la UPC y lidera un grupo de investigación en el BSC. Actualmente su investigación se centra en la convergencia de la computación de altas prestaciones con el big data y su aplicación a los retos que plantea la analítica del big data o la computación cognitiva. Dada su extensa carrera profesional en diferentes roles, también realiza actividades de consultoría y estrategia relacionadas con las tecnologías de próxima generación y su impacto, y actúa como experto para varias organizaciones y empresas o mentorizando a emprendedores. Una de sus pasiones es la divulgación científica, que lo ha llevado a escribir un par de libros, dar conferencias y colaborar con medios de comunicación como La Vanguardia. Mantiene un blog sobre tecnología en www.JordiTorres.eu.

    El verdadero progreso es el que pone la tecnología al alcance de todos.

    Henry Ford

    Las fuentes y ejemplos de este libro pueden descargarse en el repositorio GitHub del libro: https://github.com/SparkBarcelona/libro y a través de la web: http://www.sparkbarcelona.es, donde el lector podrá encontrar material de apoyo a su aprendizaje, material suplementario de nuevos temas que vayan apareciendo y que los autores creamos conveniente poner a disposición del lector, posible lista de fe de erratas que puedan aparecer en el libro con su correspondiente corrección, material de apoyo a profesores que imparten docencia en este tema, así como enlaces a sitios web de cursos que emplean este libro (rogamos a los profesores que lo empleen que nos lo notifiquen, con su URL, para incluirlos en esta lista).

    Prólogo

    Nos encontramos en un momento muy emocionante a la hora de trabajar en computación paralela y big data. El gran volumen de datos que hoy en día se genera en todos los campos de la industria y la ciencia está revolucionando la forma como interactuamos con las aplicaciones, creamos productos y estudiamos el mundo a nuestro alrededor. Al mismo tiempo, las herramientas necesarias para trabajar con estos datos se han vuelto más fáciles de usar que nunca, puesto que los desarrolladores las han hecho accesibles a más y más usuarios, requiriéndoles menos y menos esfuerzo para adoptarlas. Espero que Apache Spark termine siendo una de estas herramientas para ti, que te aporte un nuevo medio para trabajar con datos de manera fácil, potente, e incluso a veces divertida de usar.

    Por ello estoy encantado de ver este primer libro sobre Spark escrito en lengua española –hasta ahora todos los libros eran en lengua inglesa–, escrito por un fantástico equipo de autores. Mario, Mauro, Rubén y Jordi son destacados miembros de la comunidad con gran experiencia en Spark y la computación paralela en general por sus investigaciones y desarrollos en Barcelona. Sin duda, han elaborado un libro completo y fácil de seguir, con muchos ejemplos, y no solo cubren los fundamentos de Spark, sino también las bibliotecas más utilizadas del ecosistema que conforma Apache Spark.

    Espero que este libro sea solo una introducción a tu viaje al procesado paralelo de datos en el mundo big data. Las ideas aquí tratadas representan algunos de los mejores métodos ideados para trabajar con datos hoy en día. El procesado avanzado de datos sigue siendo una de las áreas de investigación más activas dentro de las ciencias de la computación, y estoy seguro de que están por llegar muchas nuevas ideas de otros campos de la informática para abrirse paso dentro de este campo. Espero que Spark siga aportándote alguna de estas ideas y que este libro te permita empezar a aprender sobre esta nueva y emocionante área.

    Matei Zaharia, CTO en Databricks y vicepresidente de Apache Spark

    Agradecimientos

    Escribir un libro requiere motivación pero también mucho tiempo, por ello los autores de este libro queremos empezar agradeciendo a nuestro entorno personal más próximo el soporte y la comprensión por el tiempo que hemos dejado de compartir con ellos para poder escribir este libro durante fines de semana y parte de las vacaciones de verano. ¡Gracias!

    A Matei Zaharia le queremos agradecer muy sinceramente su disponibilidad y entusiasmo por escribir el prólogo de este libro, que ha sido para nosotros el primer gran reconocimiento al esfuerzo realizado. Además de Matei, también queremos agradecer a Holden Karau, Andy Konwinski y Patrick Wendell que escribieran el libro Learning Spark a principios de este año porque, aunque nuestro libro tiene un enfoque y formato diferente, haber visto el planteamiento de su libro ha sido de gran ayuda.

    Nos gustaría mostrar también nuestro agradecimiento a todos los miembros de Databricks con quienes hemos tenido la oportunidad de intercambiar personalmente nuestras impresiones, y que de una manera u otra han influido en esta obra y nos permiten sentir un poco más autorizados a escribir sobre Apache Spark desde Barcelona: Reynold Xin, Xiangrui Meng, Pat Donough, Reza Yazdi, Aaron Davidson y Anthony Joseph. Una especial mención se merece nuestro amigo Paco Nathan, un gran divulgador de Apache Spark de quien aprendimos cómo se puede explicar Apache Spark de manera sencilla.

    Expresamos nuestro agradecimiento a los muchos cursos de estudiantes de la Universidad Politécnica de Cataluña-UPC Barcelona Tech, cuyas contribuciones en los seminarios y disertaciones nos han ayudado a aprender más sobre este apasionante mundo del big data y en particular de Apache Spark.

    Han sido muchos los compañeros y compañeras que nos han ayudado en este proyecto, contrastando ideas, revisando textos de este libro o compartiendo códigos. Entre ellos recordamos a Gonzalo Pericacho, Ferran Gali, Jordi Nin, Jordi Aranda, Joan Capdevila, Carlos Tripiana, Cesare Cugnasco, Anastasios Gounaris, Albert Calvo, Alessio Conese, Jorge Quimi, Omar Sulca, Dani Mora, Sana Imtiaz, Marc-Oriol Crespí, David Vicente, Diana Moise, Aleix Ruiz de Villa y Ian Bird entre otros.

    Nuestro gran agradecimiento al Barcelona Supercomputing Center, que ha sido el entorno de trabajo que nos ha permitido realizar investigación sobre Spark y acumular los conocimientos que aquí queremos compartir. Especial mención a nuestros colegas investigadores de la UPC y BSC con quien hemos escrito el primer artículo de investigación con las experiencias de Spark con nuestro supercomputador Marenostrum en Barcelona: Anastasios Gounaris, Carlos Tripiana, Sergi Girona, Eduard Ayguade, Jesús Labarta, Yolanda Becerra, David Carrera y Mateo Valero.

    Nos gustaría mostrar también nuestro agradecimiento a todos y cada uno de los más de mil sparkers miembros del Spark Barcelona Meetup por dar vida a esta fantástica iniciativa que en cierta medida es el embrión de esta obra, y en especial a todos los conferenciantes que hasta el momento han participado en uno de los meetups por habernos regalado nuevos y actuales conocimientos sobre esta apasionante tecnología. Y muchas gracias a las entidades que nos apoyan, como son la Facultad de Informática de Barcelona (FIB), el Barcelona Supercomputing Center (BSC), la UPC Barcelona Tech, la aceleradora de proyectos tecnológicos ITNIG, el Col·legi Oficial d’Enginyers Informàtics (COEINF), la Associació d’Antics Alumnes de la FIB (FIBAlumni) y el portal de tecnología TECNONEWS, Centre d’Excel·lencia en Big Data a Barcelona (Big Data CoE de Barcelona).

    Y finalmente nuestro agradecimiento a todos los que nos dejamos, que seguro que son muchos, y que han aportado algo valioso al proyecto.

    Prefacio

    En el marco de los cambios tecnológicos que estamos viviendo en pleno siglo XXI, el crecimiento exponencial de la información disponible representará

    ¿Disfrutas la vista previa?
    Página 1 de 1