Site Reliability Engineering
Banca Mediolanum
Basiglio
30
Discreto
help
thumb_up Mi piace
Azienda: Banca Mediolanum Basiglio
Siamo alla ricerca di un IT Service Engineering Manager dotato di una solida
esperienza nell’implementazione e gestione di pratiche Site
Reliability Engineering (SRE) e nella conduzione delle operazioni di
Incident Management. Il candidato ideale conosce il ruolo dell’ Incident
Commander e possiede familiarità con strumenti di monitoraggio e log analysis
quali Elastic, Grafana o Splunk. La figura ricercata saprà integrare competenze
tecniche con una buona capacità di leadership, coordinando un team volto a
garantire la resilienza e l’efficienza dell’intera infrastruttura IT.
Responsabilità principali
• Valutare i sistemi interni all’azienda tramite test periodici al fine di garantire il miglior funzionamento possibile di essi.
• Elaborare report sulle performance dei sistemi aziendali definendo e monitorando indicatori della practice SLI e SLO.
• Assicurare un ottimale funzionamento delle soluzioni tecnologiche aziendali.
• Individuare eventuali bug di sistema e proporre soluzioni tempestive al fine di ripristinare nel minor tempo possibile il funzionamento dell'infrastruttura aziendale.
• Assicurare che i sistemi, le reti e l’intera infrastruttura aziendale siano in sicurezza ed in linea con le practice di reliability.
• Assistere nell’implementazione delle infrastrutture e servizi ICT on-premise e cloud al fine di garantire la production readiness.
• Gestire i processi di automazione e di riparazione automatica dell’infrastruttura aziendale.
• Programmare e pianificare gli aggiornamenti dell’infrastruttura ICT dell’azienda dove aderenti alla practice.
• Implementare tool in grado di aumentare il livello di automazione del monitoraggio e event prevention dell’infrastruttura ICT.
• Monitorare il corretto funzionamento delle soluzioni di DR.
• Redigere la documentazione tecnica necessaria. Garantire piattaforme resilienti e scalabili coordinando gli aspetti tecnici dei test di resilienza sull'ambiente di produzione e DR.
• Supportare le fasi tecniche dei test sugli ambienti di Disaster Recovery garantendo il rispetto dell'esito in linea con le normative vigenti (RTO ed RPO).
• Fornire supporto per la risoluzione dei bug di integrazione tra le piattaforme.
• Lavorare per guidare la risoluzione dei problemi attraverso il team in coerenza con le skill aziendali necessarie.
• Implementare le pratiche SRE: Progettare, implementare e mantenere processi e strumenti per assicurare l’affidabilità e la scalabilità dei servizi IT.
• Gestire gli incidenti: Coordinare procedure di incident response nel ruolo di Incident Commander assicurando una rapida risoluzione dei problemi.
• Guidare le analisi post mortem: Condurre analisi post mortem per identificare le cause degli incidenti, definire azioni correttive e migliorare costantemente i processi e l'infrastruttura IT.
• Monitoraggio e analisi: Guidare le implementazioni di dashboard e allarmi su strumenti come Elastic e Grafana per garantire un monitoraggio costante delle performance e l’identificazione preventiva delle anomalie.
• Supervisione degli stack tecnologici: Supervisione dei principali layer tecnologici (network, application server, database, macchine virtuali) per assicurare elevati standard in termini di resilienza e performance.
• Collaborazione cross-funzionale: Interfacciarsi con i team di sviluppo, operations e sicurezza favorendo l’ottimizzazione dei processi interni.
• Analisi e miglioramento continuo: Valutare costantemente i processi di service management, implementando azioni correttive e migliorative in un’ottica di continuo apprendimento e adattamento.
Profilo competenze
Requisiti
• Cinque o più anni di esperienza nel settore IT e esperienza nella realizzazione di progetti di infrastrutture IT.
• Tre anni di esperienza nel coordinamento / gestione del progetto.
• Esperienza pluriennale nella progettazione ed implementazione dell'infrastruttura IT e del software relativo alla sicurezza IT.
Skill
• Competenze nell’attivazione e configurazione di infrastrutture.
• Conoscenza delle principali tecnologie di virtualizzazione server, come V Mware, Red Hat Virtualization o Oracle VM.
• Conoscenza delle principali tecnologie di monitoraggio commerciale e open source ( Dynatrace, opensearch, splunk).
• Competenza comprovata nei prodotti della Fusion Middleware Oracle: Weblogic Server, Oracle HTTP Server, Oracle Service Bus, Oracle SOA Bpel/ Bpm.
• Conoscenza dei più comuni Application Server, come MS IIS, J Boss, Apache/ Tomcat.
• Conoscenza dei più utilizzati sistemi operativi, come Windows e Linux.
Conoscenza dei tool di automazione Dev Ops: Terraform, Chef, Puppet, Ansible, Git.
• Conoscenza dei più comuni sistemi e tool di cyber security.
• Competenze in ambito di reti aziendali (LAN, WAN, VPN).
• Conoscenza dei più utilizzati database e sistemi di backup.
Conoscenza delle più utilizzate piattaforme cloud, come Microsoft AZURE e OCI.
• Esperienza professionale in ruoli di IT Service Management o Service Engineering, preferibilmente in ambito finanziario.
• Competenze SRE e Incident Management: Conoscenza delle metodologie SRE e delle dinamiche operative tipiche di un Incident Commander.
Padronanza degli strumenti: Abilità nell’utilizzo di piattaforme di monitoraggio e analisi come Elastic, Grafana o Splunk.
• Conoscenze tecniche: Familiarità con i principali layer tecnologici, inclusi network, application server, database e ambienti virtualizzati.
Sede di lavoro Basiglio – Milano 3 City; possibilità di parziale Smart Working (2 giorni a settimana)
I dati richiesti verranno trattati nell’assoluto rispetto delle disposizioni contenute nel Regolamento Europeo 679/2016 ( General Data Protection Regulation - “GDPR” o “ Normativa Privacy”) e sue successive modificazioni ed integrazioni.
E’ possibile visionare l’informativa di Banca Mediolanum SPA, accedendo al seguente link:
Il Gruppo Mediolanum si impegna a garantire la parità di trattamento a tutti i candidati secondo i principi di Diversity and Inclusion.
✔ Banca Mediolanum