POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Resumen semanal de Apache Iceberg Dev (9–15 de agosto de 2025)

## Resumen semanal de Apache Iceberg Dev del 9 al 15 de agosto de 2025

Publicado el 19/08/2025

Apache Iceberg Dev Mailing List Weekly Digest Aug 9 – 15, 2025: recursos destacados y resumen de debates técnicos clave

Recursos gratuitos y recomendaciones: entre los recursos compartidos esta el curso gratuito Apache Iceberg Course disponible en https://hello.dremio.com/webcast-an-apache-iceberg-lakehouse-crash-course-reg.html?utm_source=ev_external_blog&utm_medium=influencer&utm_campaign=iceberg&utm_content=alexmerced&utm_term=iceberg-digest, la copia gratuita del libro Apache Iceberg The Definitive Guide en https://hello.dremio.com/wp-apache-iceberg-the-definitive-guide-reg.html?utm_source=ev_external_blog&utm_medium=influencer&utm_campaign=iceberg&utm_content=alexmerced&utm_term=iceberg-digest, y Apache Polaris The Definitive Guide en https://hello.dremio.com/wp-apache-polaris-guide-reg.html?utm_source=ev_external_blog&utm_medium=influencer&utm_campaign=iceberg&utm_content=alexmerced&utm_term=iceberg-digest. Para quien busque un libro avanzado, Architecting an Apache Iceberg Lakehouse se puede adquirir con descuento en https://www.manning.com/books/architecting-an-apache-iceberg-lakehouse?utm_source=merced&utm_medium=affiliate&utm_campaign=book_merced&a_aid=merced&a_bid=7eac4151. Otros recursos útiles incluyen la guia de arquitectura 2025 en https://medium.com/data-engineering-with-dremio/2025-guide-to-architecting-an-iceberg-lakehouse-9b19ed42c9de, la lista de reproduccion de videos Iceberg Lakehouse Engineering en https://youtube.com/playlist?list=PLsLAVBjQJO0p0Yq1fLkoHvt2lEJj5pcYe&si=WTSnqjXZv6Glkc3y y la guia definitiva de recursos Apache Iceberg en https://medium.com/data-engineering-with-dremio/ultimate-directory-of-apache-iceberg-resources-e3e02efac62e.

Aclaracion sobre SparkTable refreshEagerly: se planteo la duda sobre si activar refreshEagerly en SparkTable fetcharia automaticamente cambios del catalogo remoto y actualizaria el esquema en Spark. La respuesta tecnica es que refreshEagerly solo actualiza metadatos locales y no realiza una consulta remota. Para forzar que Spark vea el snapshot mas reciente es necesario invocar table.refresh() que forza la obtencion remota. Ademas no existe control de concurrencia en refreshEagerly, por lo que si varios hilos llaman al metodo, solo uno realiza la actualizacion y los demas pueden ver snapshots obsoletos. Este intercambio aparece en el hilo de la lista de correo titulado QUESTION SparkTable refreshEagerly en https://lists.apache.org/thread/9fdzzjcq43jlhplrgzzd3qslpn2d4gb8.

Eventos y meet ups impulsados por la comunidad: se anunciaron varias reuniones presenciales y sincronizaciones. El meet up de Tel Aviv regresara el 10 de septiembre de 2025 con medio dia de presentaciones en Monday.com y se publico el hilo de anuncio en https://lists.apache.org/thread/t4j957dyzfzxb4chflmvosv8mm50sfvp. En Japon el tercer meet up comunitario sera el 22 de septiembre de 2025 y el registro aparece en https://lists.apache.org/thread/8bzt2jnlp2gvwwc1gg1r427tpkk2rwkh. La pagina Community del proyecto se reorganizo para facilitar la creacion y promocion de meet ups locales, detalles en https://lists.apache.org/thread/0bqwv0z2cm24qomhlklj52m54kbprwvl. Adicionalmente se programaron sincronizaciones recurrentes para discutir la propuesta V4 single file commits a partir del 19 de agosto de 2025 y tambien se agendo una reunion para debatir la propuesta de estadisticas de columna V4 el mismo dia, hilos en https://lists.apache.org/thread/fxv8v9pgxl5jkzdrtqzs2w1qn4kr5r23 y https://lists.apache.org/thread/1hrc8ophzkymv6m1md46l31fbjg71nl0.

Debate sobre Analytics Accelerator Library para Amazon S3: Kevin Liu y Michael Stubbs propusieron adoptar Analytics Accelerator Library como flujo de entrada por defecto para S3 con el objetivo de mejorar rendimiento de lecturas en muchos escenarios. Se sugirio abordar el tema en la sincronizacion comunitaria semanal y, si hay interes, realizar una sesion dedicada de FileIO. Resumen y borrador compartido en el hilo Discuss Analytics Accelerator Library for Amazon S3 as default S3 Input Stream en https://lists.apache.org/thread/8f8crbm0w70c4k8zwf0hlsqy1tqxdgcm.

Estandarizacion de mensajes de error en RCK: se planteo que las pruebas del Reference Catalog Kit dependen de mensajes de error exactos y esto complica pruebas multiplataforma dado que Java Rust Python y Go pueden generar mensajes ligeramente distintos. En el hilo Discuss RCK and Iceberg Clients Should We Standardize Error Messages se discutieron opciones incluyendo permitir cierta flexibilidad o usar codigos numericos en lugar de cadenas completas, ver https://lists.apache.org/thread/rvxwxv1jzkxmhfb7ojzym08l44s7fqzp.

Propuesta para tratar HTTP 503 como no reintentable en updateTable: Prashant Singh propuso modificar la especificacion del catalogo REST para que un 503 durante updateTable se trate igual que 500 502 o 504 señalando commit state unknown y evitando reintentos automaticos. El argumento es que proxies como Envoy pueden devolver 503 despues de procesar un commit y reintentar podria corromper tablas. Dennis Huo apoyo considerar 503 como no reintentable y sugiirio usar la cabecera Retry-After para decidir cuando es seguro reintentar. Ver hilo en https://lists.apache.org/thread/65730m641p86mfzv8zho2qkwqj14xz0w.

Pregunta sobre TableScan API y metadataLocation en catalogo REST: se pregunto por que la API TableScan del catalogo REST devuelve data files sin metadataLocation mientras que los scans locales si la muestran. La explicacion fue que metadataLocation solo es una pista para escrituras y puede cambiar entre el momento de la planificacion y el commit final, por lo tanto la planificacion server side omite esa pista para clientes simples que no leen metadatos por si mismos. Hilo en https://lists.apache.org/thread/fzwyhnbtmvqsdsbrclrljnh1twvfg6zn.

Propuestas de metadatos V4: la comunidad continuo debatiendo el formato Iceberg V4 orientado a reducir archivos escritos en commits y mejorar metadatos. Entre las ideas principales estan los one-file commits usando root manifests y manifest delete vectors, la unificacion de propuestas mediante un documento unico y preguntas abiertas sobre vectores inline versus externos y como inferir cambios a nivel de archivo. Ademas se analizaron mejoras en estadisticas de columna incluyendo asignacion de field ids y reservas de rangos, y se propuso evolucionar el FileFormat API planteando la posibilidad de eliminar soporte para position-delete files que almacenan filas borradas y deprecar lectores y escritores especificos de formato en favor de APIs unificadas. Hilos relevantes incluyen https://lists.apache.org/thread/4d43fxkkxfmf59l08g0jdc40n50qfqp4 https://lists.apache.org/thread/1hrc8ophzkymv6m1md46l31fbjg71nl0 y https://lists.apache.org/thread/g7vjsrhpq2p2hx59oxtqf4t8pbqpqtjy.

Preguntas varias: se indago sobre la promocion de tipos en escrituras Parquet por Nicolae Vartolomei preguntando si archivos nuevos podrian usar tipos promovidos mientras archivos antiguos usan tipos previos y si los escritores pueden omitir columnas con solo nulos, tema en https://lists.apache.org/thread/5mm5p9d422099tc4dox59jtq1snmx5lp. Guy Gadon reavivo el debate sobre permitir conflictos de commit en REPLACE TABLE argumentando riesgos de revivir snapshots expirados o sobreescribir properties; Ryan Blue respondio que las transacciones deberian reintentar contra metadatos mas recientes en vez de reemplazar metadata.json a ciegas en https://lists.apache.org/thread/h8xowcomtn7h7swo24cv7vo3o8r9wgd.

Reflexiones finales: las discusiones de la semana muestran un equilibrio entre proponer nuevas caracteristicas como V4 single-file commits mejor estadistica de columnas y FileFormat API y atender preocupaciones practicas sobre manejo de errores reintentos y eficiencia de scans. Hubo mucho interes en coordinar meet ups y sincronizaciones para avanzar propuestas complejas. Quedan preguntas abiertas tecnicas pero la participacion activa refleja una comunidad saludable y colaborativa.

Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en soluciones tecnicas avanzadas. Ofrecemos software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA y soluciones con power bi. Nuestro equipo crea aplicaciones a medida integrando inteligencia artificial y ciberseguridad para garantizar proyectos escalables y seguros en plataformas cloud. Si buscas consultoria en servicios cloud aws y azure implementacion de agentes IA o soluciones de inteligencia de negocio con power bi Q2BSTUDIO puede ayudar a transformar datos en valor.

Palabras clave para posicionamiento: aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi.

Contacto y seguimiento: sigue los hilos de la lista de desarrollo de Apache Iceberg en https://lists.apache.org para enterarte de nuevas propuestas reuniones y recursos. Para soluciones empresariales personalizadas contacta a Q2BSTUDIO y descubre como nuestras capacidades en inteligencia artificial ciberseguridad servicios cloud aws y azure y desarrollos a medida pueden acelerar tus proyectos.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio