Ingeniero de Software - Web Scraping (Buenos Aires)

RED Atlas

Buenos Aires
Permanente
Tiempo completo

Hace 1 día

Ingeniero de Datos Senior — Web Scraping & Data Engineering\nUbicación:\nBuenos Aires, Argentina (presencial, zona Obelisco)\nModalidad:\nTiempo completo\nSobre RED Atlas En RED Atlas construimos la plataforma de inteligencia inmobiliaria líder en América Latina y España. Procesamos millones de listings, permisos de construcción, transacciones y datos catastrales de múltiples mercados. Buscamos un Ingeniero de Datos Senior con ownership total sobre la infraestructura de crawling y pipelines de datos que alimentan nuestra plataforma. No hay supervisión técnica directa, eres el experto en la sala.\nResponsabilidades\n\n
- Ownership completo de crawlers de producción para Puerto Rico, Colombia, Argentina, Panamá y España: listados, permisos, transacciones, catastro.
\n
- Diseñar desde cero la arquitectura de nuevos crawlers: stack, base de datos, ciclos de extracción, estrategia de retry.
\n
- Optimizar pipelines de datos para escalabilidad y rendimiento en producción 24/7.
\n
- Bypassear sistemas anti-bot complejos (\nCloudflare, DataDome, PerimeterX\n) con fingerprinting real, proxies rotativos y navegadores stealth.
\n
- Reverse engineer APIs privadas de portales: identificar endpoints, replicar auth, extraer datos directamente sin abrir browser cuando sea posible.
\n
- Detectar y resolver roturas de crawlers de forma proactiva, sin esperar reporte de nadie.
\n
- Administrar la infraestructura completa:\nPM2, systemd, cron\n, monitoreo, alertas, logs.
\n
- Tomar decisiones de arquitectura de datos: esquemas\nPostgreSQL\n, pipelines ETL, almacenamiento en\nGCP\n.
\n
- Garantizar la calidad, integridad y seguridad de los datos extraídos.
\n
- Colaborar con científicos de datos y analistas para asegurar la precisión de los datos entregados.
\n
- Ser mentor de ingenieros junior y contribuir al crecimiento técnico del equipo.
\n\nRequisitos\n\n
- 3+ años\nde experiencia en ingeniería de datos, con fuerte enfoque en web scraping a escala.
\n
- TypeScript/Node.js\nsólido en sistemas de producción, no proyectos personales.
\n
- Puppeteer o Playwright:\nno solo usarlos, sino debuggear bloqueos, manejar memory leaks, optimizar concurrencia.
\n
- Python\nsólido: scripting de automatización, subprocesos, Selenium, Requests.
\n
- PostgreSQL\navanzado: diseño de esquemas, queries con JOINs complejos, migraciones, índices.
\n
- Linux\nproduction-grade: systemd units, PM2, cron, logs, procesos en background 24/7.
\n
- Rotación de proxies:\ngestión de pools datacenter + residencial, SOCKS5, failover, detección de bloqueos y rotación automática.
\n
- Anti-bot en profundidad:\nHTTP headers, fingerprinting, cookies, Cloudflare, DataDome y saber por qué te bloquean, no solo cambiar el User-Agent.
\n
- DOM scraping experto:\nCSS selectors, XPath, Shadow DOM, JSDOM, mutaciones dinámicas en SPA.
\n
- Scraping por API:\nidentificar y consumir endpoints internos sin browser, parsear respuestas JSON/GraphQL, manejar auth tokens y paginación.
\n
- Desobfuscación de JS:\nleer código minificado/ofuscado, usar DevTools para trazar flujos, reproducir lógica de firma de requests.
\n
- GCP:\nCloud Storage, Compute Engine, Cloud Run.
\n
- Criterio para operar solo, se espera autonomía técnica total.
\n
- Excelentes habilidades de resolución de problemas y atención al detalle.
\n
- Inglés avanzado (deseable).
\n\nDiferenciadores (Candidatos Top)\n\n
- Haber roto un sistema anti-bot formal (\nCloudflare, DataDome, PerimeterX\n) y poder documentar cómo.
\n
- Experiencia con\nCamoufox, noDriver\nu otros browsers anti-detección; entender fingerprinting real (Canvas, WebGL, TLS JA3, User-Agent entropy).
\n
- AST parsing\ny transformación de código para análisis de sitios altamente protegidos.
\n
- Conocimiento de\nBigQuery, Cloud Run, Pub/Sub\npara pipelines de datos a escala.
\n
- Xvfb\ny entornos headless en servidores Linux sin GPU.
\n
- Experiencia en el sector\nPropTech / Real Estate\no scraping de portales inmobiliarios a escala.
\n
- Conocimiento de frameworks adicionales como\nScrapy o BeautifulSoup\n.
\n\nStack Tecnológico\nTypeScript · Node.js · Python · Puppeteer · Playwright · JSDOM · Selenium · PostgreSQL · SQLite · PM2 · systemd · Linux · GCP\n(Cloud Storage, Compute Engine, Cloud Run, BigQuery)\n· Git · Proxies / Anti-bot · API Reverse Engineering ·

Kit Empleo

Postularse