简单简历
马超云

马超云

高级大数据工程师 上海

工作经历

2022/06 - 至今

高级大数据工程师

云计算解决方案有限公司 深圳

领导团队设计大型数据系统架构,并着手于机器学习模型的开发与部署。

 

主要项目:实时风险评估系统

带领团队建立了一个实时风险评估系统,用于分析实时交易数据,快速识别并回应潜在欺诈活动。

  • 项目架构:使用Apache Kafka处理实时流数据,利用Apache Flink进行流数据的实时处理与分析,机器学习模型部署于Apache Spark MLlib以及TensorFlow Serving中。
  • 技术栈:Scala, Kafka, Flink, Spark, TensorFlow, Kubernetes
  • 个人职责:负责整体系统架构设计,实现实时数据处理流水线,开发和优化机器学习模型,并配合DevOps团队通过Docker和Kubernetes部署上线。同时,负责监控系统性能,保证系统稳定高效运行。

2018/01 - 2019/12

初级大数据工程师

数据狂潮科技有限公司 杭州

在数据狂潮科技担任初级大数据工程师,负责处理和分析大型数据集,设计并实施数据处理工作流。


主要项目:用户行为分析平台


构建了一个处理和分析用户行为日志的平台,该系统能够处理每日数十亿级别的事件日志。

  • 项目架构:使用Hadoop HDFS存储日志文件,MapReduce进行初步的日志清洗,Hive用于实现数据仓库功能,利用Pig做一些复杂的数据转换,利用Spark SQL进一步深入分析。
  • 技术栈:Java, Hadoop, Hive, Pig, Spark, Kafka(用于实时数据收集)
  • 个人职责:负责搭建Hadoop集群环境,编写MapReduce作业进行数据清洗,以及通过Hive和Spark SQL来分析数据,生成报告供业务团队使用。

专业技能

编程语言与开发工具

  • 熟练使用Java, Python, Scala, C++,并熟悉函数式编程概念。
  • 熟练使用IDEs如IntelliJ IDEA, Eclipse以及版本控制工具Git, SVN。

大数据处理框架与技术

  • 对Hadoop生态圈有深入理解,包括HDFS, MapReduce, YARN, Hive, Pig, HBase。
  • 精通Apache Spark和其组件Spark SQL, Spark Streaming, MLlib, GraphX。
  • 熟悉流处理框架Apache Flink和Apache Storm。

数据存储与管理

  • 掌握NoSQL数据库如Cassandra, MongoDB及键值存储Redis。
  • 熟悉关系型数据库如PostgreSQL, MySQL的使用与优化。

大数据云平台与服务

  • 熟悉AWS, Azure, GCP等主流云服务商提供的大数据处理服务,如Amazon EMR, Google DataProc等。
  • 了解并使用过Docker容器化和Kubernetes集群管理。

教育经历

2006/09 - 2010/07

学士

湖南大学 计算机科学与技术

个人项目

Spark 优化工具集 (SparkOpt)

GitHub:https://github.com/wangming-bigdata/SparkOpt


  • 这个项目旨在为 Apache Spark 提供一组工具,用于监控、诊断和优化 Spark 作业的执行。