亚历山大·路易斯·拉达·阿鲁达,开发商在<s:1>圣保罗州-巴西圣保罗州
Aleksander is available for hire
Hire Aleksander

亚历山大·路易斯·拉达·阿鲁达

Verified Expert  in Engineering

站点可靠性工程(SRE)开发人员

Location
圣保罗州-巴西圣保罗州
至今成员总数
February 8, 2019

Aleksander是一名DevOps和站点可靠性工程师,拥有丰富的云原生技术经验. 同时拥有计算机科学学士学位, 他部署和管理生产级集群,比如Kubernetes, Kafka, 和elasticsearch——并致力于微服务架构及其附带的一切,包括容器编排, 服务发现, message queues, monitoring, logging, and tracing.

Portfolio

Metabase
亚马逊网络服务(AWS)、Kubernetes、Helm、Terraform、Terragrunt...
Scanifly
Terraform,亚马逊网络服务(AWS), RabbitMQ,谷歌云平台(GCP)...
HMBradley
站点可靠性工程(SRE), PostgreSQL, Kubernetes运营(kOps)...

Experience

Availability

Part-time

首选的环境

Linux, MacOS, iTerm2, Bash, Shell Scripting, Git

最神奇的...

...我构建的是一个多集群Kafka设置,它提供了非常高的可用性,可以接收来自下载量超过10亿的公司的传入应用数据.

Work Experience

首席开发运维工程师

2023 - PRESENT
Metabase
  • 在三个不同大洲的多个区域部署生产Kubernetes集群.
  • 扩展了Kubernetes操作符,用于管理大规模快照.
  • 使用Falco和其他工具实现安全最佳实践和CIS基准测试.
Technologies: 亚马逊网络服务(AWS)、Kubernetes、Helm、Terraform、Terragrunt, CI/CD Pipelines, Grafana, Prometheus, 站点可靠性工程(SRE)

现场可靠性工程经理

2022 - 2023
Scanifly
  • 从头开始构建公司的云原生基础设施, 将所有现有的基础设施迁移到AWS和Kubernetes.
  • 将复杂的CV/ML批处理应用程序重写为独立的、可独立扩展的组件.
  • 使用KEDA实现事件驱动的自动缩放, 优化资源密集型系统的资源配置.
  • 使用OpenTelemetry和Grafana Tempo的仪器应用程序, 识别导致应用程序断开连接的瓶颈.
技术:起程拓殖,亚马逊网络服务(AWS), RabbitMQ,谷歌云平台(GCP), Python, Grafana, Prometheus, Elasticsearch, Kubernetes, Helm, GitLab, OpenTelemetry, 站点可靠性工程(SRE)

现场可靠性工程经理

2020 - 2022
HMBradley
  • 从零开始构建一个面向未来的云原生基础设施, 跨不同环境管理多个Kubernetes集群, 运行独立的, 使用基础设施作为代码维护的可替换组件.
  • 使用LokiJS和Cortex实现了一个可伸缩的高可用堆栈,用于集中日志和指标, 根据严重性级别将自动警报发送到不同的通道.
  • 构建公司在Kubernetes上运行的数据基础设施, 管理Kafka等集群, Elasticsearch, and Cassandra; created components to extract data from different sources into Redshift and Snowflake.
  • 介绍了AWS CIS benchmark等安全最佳实践,以及入侵检测和防御技术, targeting SOC 2 compliance; implemented granular access control across the systems, 包括AWS和Kubernetes.
  • 在整个环境中自动构建和部署基础设施组件和应用程序, 将持续交付和基础架构结合为代码.
  • 在AWS上开发一个提取详细数据的小软件,每小时收费, tagging, 并把它们运送给普罗米修斯和考克特, 从而允许实时可视化基础设施的粒度成本.
Technologies: 站点可靠性工程(SRE), PostgreSQL, Kubernetes运营(kOps), Kubernetes, Redis, Cassandra, Vault, Apache管理员, Falcon, Prometheus, Grafana, Elasticsearch, Apache Kafka, Terraform, 亚马逊网络服务(AWS), Redshift, Snowflake, AWS数据库迁移服务, 工程数据, 数据仓库, Shell Scripting, CI/CD Pipelines, SQL, Amazon EC2, Amazon S3 (AWS S3), 亚马逊虚拟私有云(VPC), AWS IAM, 亚马逊监测, AWS认证SysOps管理员, GitHub, Git, Ansible, 基础设施即代码(IaC), 云基础设施, SecOps, Amazon CloudFront CDN, Amazon RDS, Amazon DynamoDB, Cloudflare, 持续交付(CD), Flask, 集装箱化, Architecture, Bash, Containers, Load Balancers, VPN, DevOps, 技术领导, AWS云架构, Terragrunt

DevOps技术筛选员

2019 - 2021
Toptal
  • 作为Toptal筛选团队的一员,处理DevOps垂直领域的所有类型的申请人.
  • 对候选人进行审查,在优秀者中只有3%的优秀者获得批准.
  • 改进面试流程, 提出新的技术问题和任务, 以及改进现有的.
  • 建议申请人提高他们作为DevOps工程师的技能, 他们应该学习什么技术, 以及他们应该根据自己的目标去追求什么样的认证.
  • 协助被批准的候选人建立他们的个人资料,以提高他们被雇用的机会.
技术:亚马逊网络服务(AWS), 谷歌云平台(GCP), 基础设施架构, DevOps, 站点可靠性工程(SRE), Shell Scripting, CI/CD Pipelines, SQL, Amazon EC2, Amazon S3 (AWS S3), 亚马逊虚拟私有云(VPC), AWS IAM, 亚马逊监测, AWS认证SysOps管理员, GitHub, Git, 基础设施即代码(IaC), 云基础设施, SecOps, Amazon CloudFront CDN, Amazon RDS, Amazon DynamoDB

高级站点可靠性工程师

2019 - 2020
Pypestream
  • 部署和升级知名生产集群和数据库, 比如Kubernetes, Elasticsearch, PostgreSQL, and Ceph.
  • 微调我们的Elasticsearch集群,它每天摄取大约300G的数据, 考虑到Apache Lucene的底层实现,实现最佳实践, 从而提高了它的性能并允许我们缩小它的尺寸.
  • 拥有安全组件和最佳实践的实现,如AWS CIS基准和入侵检测和预防工具, 使公司获得SOC 2认证.
  • 提供全天候随叫随到的支持,处理生产基础设施上的各种事件.
  • 用Groovy和Bash创建了几个Jenkins管道,用于部署基础设施组件和应用程序,并使用Jenkins配置作为代码(JCasC), 确保整个持续交付堆栈易于复制.
  • 容器化了几个应用程序, 创建CI/CD管道,不仅用于构建和部署,还用于执行代码检查和安全扫描.
  • 为备份不同的系统实施不同的解决方案,从而能够制定快速的灾难恢复计划.
技术:站点可靠性工程(SRE), Rancher, LDAP, OpenStack, Harbor, GitLab CI/CD, Grafana, Prometheus, Ansible, Jenkins, Ceph, Elasticsearch, Kubernetes, Security, Docker, Kubernetes运营(kOps), 亚马逊网络服务(AWS), Shell Scripting, CI/CD Pipelines, SQL, Amazon EC2, Amazon S3 (AWS S3), 亚马逊虚拟私有云(VPC), AWS IAM, 亚马逊监测, AWS认证SysOps管理员, GitHub, Git, 基础设施即代码(IaC), HIPAA合规, 云基础设施, SecOps, Amazon CloudFront CDN, Amazon RDS, Amazon DynamoDB, 持续交付(CD), Flask, 集装箱化, Architecture, Bash, Containers, Load Balancers, VPN, DevOps, AWS云架构

DevOps顾问

2018 - 2019
Audsat
  • 为开发、暂存和生产环境设置三个Kubernetes集群. 所有集群都是多可用区,并具有自动缩放功能. 监测是用Datadog和Pagerduty完成的.
  • 使用自定义弹性代理实现GoCD,用于将应用程序部署到所有Kubernetes集群中. 容器化应用程序并将其部署为Helm图表.
  • 使用cert-manager实现Let 's Encrypt TLS证书的自动配置和续订.
  • 已部署的Fluentd守护进程集,用于将所有应用程序的日志聚合到Elasticsearch中. 还部署了Elasticsearch管理员来清理旧日志.
  • 通过使用sidecar容器运行部署在集群中的所有Java应用程序,设置对它们的自动监视,这些容器公开从应用程序的JMX接口检索到的指标.
  • 领导Navalis项目, 哪个web应用程序旨在允许开发人员部署, monitor, 并在多个Kubernetes集群中轻松扩展应用程序. 它是用Golang和Vue开发的.js.
  • 将Kubernetes扩展到300个节点,以便在几个小时内处理大量数据, 同时考虑本地实例和数据源的网络和I/O限制.
Java技术:, PagerDuty, Datadog, GoCD, Fluentd, Elasticsearch, Kubernetes, 亚马逊网络服务(AWS), Shell Scripting, CI/CD Pipelines, SQL, Amazon EC2, Amazon S3 (AWS S3), 亚马逊虚拟私有云(VPC), AWS IAM, 亚马逊监测, AWS认证SysOps管理员, GitHub, Git, 基础设施即代码(IaC), 云基础设施, SecOps, Amazon CloudFront CDN, Amazon RDS, Amazon DynamoDB, Grafana, 持续交付(CD), 集装箱化, Architecture, Bash, Containers, Load Balancers, VPN, DevOps, AWS云架构, 站点可靠性工程(SRE)

DevOps Engineer

2017 - 2018
野生动物工作室
  • 与数据工程团队合作,受Netflix编排和监控Kafka方式的启发,为公司开发了一个新的Kafka集群. 它由几个相互连接的Kafka集群组成,以防止数据丢失.
  • 开发了一个用于监控备份的系统,该系统由Python和Flask服务器以及用Go编写的客户端组成. 系统将集中整个基础设施的备份状态,并在备份丢失时通知我们的团队.
  • 解决了一个大型Elasticsearch集群每天早上崩溃的问题. 这个问题是由配置错误的Logstash实例引起的,它向集群发送了大量创建新分片的请求.
  • 用Go开发了一个工具,用于交叉验证Kubernetes网络,该工具将在Kubernetes中的每台机器之间建立路由,生成完整的图或指出网络中的问题.
  • 使用VyOS在AWS中的可用区(US和AP)之间创建冗余VPN.
  • 帮助我们的最重要的服务器仪器与Jaeger APM.
  • 部署了一个带有自动伸缩功能的Kubernetes集群,作为概念验证,以测试Kafka集群在Kubernetes中的伸缩能力.
  • 解决了我们的Kafka集群会崩溃的问题,因为有人安装了一个监视zookeeper的工具的意外行为, Netflix的参展商.
  • 部署多个MongoDB集群,用于在高流量事件时收集数据.
  • 艰难地部署了Kubernetes集群, 没有任何工具,如Kubernetes Operations (Kops)或Kubeadm, 学习更深层次的建筑概念.
技术:Hyperledger洞穴, Apache管理员, Apache Kafka, Datadog, Elasticsearch, Jenkins, Helm, Kubernetes, VyOS, MongoDB, PagerDuty, 亚马逊网络服务(AWS), Go, Python, Docker, Terraform, Chef, Shell Scripting, CI/CD Pipelines, SQL, Amazon EC2, Amazon S3 (AWS S3), 亚马逊虚拟私有云(VPC), AWS IAM, 亚马逊监测, AWS认证SysOps管理员, GitHub, Git, 基础设施即代码(IaC), 云基础设施, SecOps, Amazon CloudFront CDN, Amazon RDS, Amazon DynamoDB, 持续交付(CD), 集装箱化, Architecture, Bash, Containers, Load Balancers, VPN, DevOps, AWS云架构, 站点可靠性工程(SRE)

DevOps Engineer

2017 - 2017
MAV Technology
  • 在HAProxy集群中集中所有没有适当的基础设施入口点的传入请求.e.(DNS指向许多不同的入口点),从而避免单点故障.
  • 修正了Node中的多个错误.js servers, 其中有一个非常关键的问题,它迫使我们时不时地重新启动生产容器,因为性能会逐渐下降.
  • 通过创建一个实时调试多个服务器的系统,解决了Objective-C服务器中的多个bug, 将多个gdb附加到分布在节点之间的多个进程,并捕获最终的堆栈跟踪——允许我们快速修复只会在生产环境中出现的错误.
  • Developed a Node.Js服务器,它可以作为无法同时接收太多连接的遗留服务器的前端代理,保持数千个打开的连接.
  • 阻止正在进行的暴力密码攻击, 我之所以能够检测到这一点,是因为DataDog中失败的身份验证次数明显增加了. 我通过在HAProxy中阻止攻击者的IP地址来阻止攻击.
  • 解决了一个可能导致Ceph崩溃的严重问题. 我们将问题追踪到与我们使用的特定软件版本相关的bug.
技术:Ceph, MongoDB, MySQL, Datadog, Consul, HAProxy, Node.js, Shell Scripting, CI/CD Pipelines, SQL, Nagios, GitHub, Git, SecOps, 集装箱化, Architecture, Bash, Containers, Load Balancers, DevOps, 站点可靠性工程(SRE)

软件工程实习生

2015 - 2016
Synopsys, Inc.
  • 在Python中开发了一个工具,用于自动生成c++代码,将用c++编写的硬件事务处理程序绑定到TCL.
  • 构建了一个从硬件仿真平台提取统计数据并生成D3的工具.js charts.
  • 修复了一个由GTK和硬件处理器之间的竞争条件引起的主要c++错误.
  • 在山景城的新思科技总部工作了一个月,在那里我学到了很多关于电子设计自动化的知识.
技术:EDA, D3.. js, Tcl, Python, c++, Verilog, GitHub, Git, Bash

初级后端工程师

2012 - 2014
MAV Technology
  • Developed a substantial part of a back end of a corporate email service; it was written in C++ with language bindings to Lua. 我使用MongoDB来存储邮件元数据, 用于存储它们身体的网格, MySQL用于存储关系用户数据. 在整体架构中使用REST接口.
  • 用Java和Google Web Toolkit编写了他们前端的一部分.
  • 构建IMAP和POP3代理,将新用户从其他电子邮件服务提供商路由到他们的旧服务器,同时捕获他们的密码并透明地将他们的帐户迁移到我们的服务器.
  • 用c++从零开始开发HTTP和SMTP服务器.
  • Supported the development of the company’s ERP system; built with CakePHP and Bootstrap.
技术:引导, CakePHP, GWT, Java, MySQL, MongoDB, Lua, C++, SQL, Nagios, GitHub, Git, Bash, Load Balancers

Navalis

Navalis是一个平台,它使开发人员能够轻松地在Kubernetes中部署和可视化应用程序. 它还检查集群的不一致性,并不断监视其运行状况. 它由用Go编写的API和用Vue编写的前端组成.js.

通量控制语言编译器

http://github.com/aleksanderllada/FCL-Compiler
FCL是我大学毕业设计的一门编程语言. 它的目标是允许不熟悉低级编程语言的科学家动态控制移液机器人.

这个项目是我用Java和ANTLR4编写的编译器,用于生成FCL的p代码, 基于我为这门语言写的正式语法.

通量控制语言解释器

http://github.com/aleksanderllada/FCL-Interpreter
FCL是我大学毕业设计的一门编程语言. 它的目标是允许不熟悉低级编程语言的科学家动态控制移液机器人.

这个项目是我为该语言的p-code编写的解释器, 是由FCL编译器生成的. 它像一个堆栈机器一样工作,类似于Python和Lua的解释器.

Languages

Bash, Go, JavaScript, C++, Python, SQL, Java, Lua, Verilog, Tcl, Falcon, Java 8, 事务控制语言(TCL), Snowflake

Tools

Jenkins, Terraform, 亚马逊虚拟私有云(VPC), AWS IAM, GitHub, Git, Ansible, Vault, Chef, NGINX, Grafana, 亚马逊监测, Amazon CloudFront CDN, VPN, Helm, GitLab CI/CD, ANTLR 4, Kong, Fluentd, Apache管理员, MirrorMaker, Nagios, RabbitMQ, GitLab

Paradigms

持续集成(CI), 持续交付(CD), 分布式计算, DevOps, Scrum, Design Patterns, HIPAA合规

Platforms

Kubernetes, Linux, Apache Kafka, 亚马逊网络服务(AWS), Docker, Amazon EC2, PagerDuty, 谷歌云平台(GCP), Heroku, Hyperledger洞穴, Harbor, OpenStack, Rancher, MacOS

Storage

Elasticsearch, Datadog, Amazon S3 (AWS S3), MongoDB, MySQL, PostgreSQL, Amazon DynamoDB, Cassandra, Redis, Ceph, Redshift

Other

Kubernetes运营(kOps), 站点可靠性工程(SRE), GoCD, Prometheus, AWS DevOps, Shell Scripting, CI/CD Pipelines, 基础设施即代码(IaC), 云基础设施, SecOps, Amazon RDS, 集装箱化, Architecture, Containers, Load Balancers, AWS云架构, 分布式跟踪, HAProxy, APM, AWS认证SysOps管理员, Cloudflare, 技术领导, EDA, LDAP, 基础设施架构, Security, 计算机科学, Compilers, 编程语言, iTerm2, Consul, VyOS, AWS数据库迁移服务, 工程数据, 数据仓库, OpenTelemetry

Frameworks

Qt 5, Flask, Express.. js, GWT, CakePHP, Bootstrap, Spring

Libraries/APIs

Node.. js, POCO, c++, Terragrunt, Vue, D3.js

2011 - 2017

计算机科学学士学位

米纳斯吉拉斯州联邦大学-贝洛奥里藏特,米纳斯吉拉斯州,巴西

2020年2月- 2023年2月

AWS认证SysOps管理员

亚马逊网络服务

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring