
工作经历
2022/06 - 至今
高级大数据工程师
云计算解决方案有限公司 深圳
领导团队设计大型数据系统架构,并着手于机器学习模型的开发与部署。
主要项目:实时风险评估系统
带领团队建立了一个实时风险评估系统,用于分析实时交易数据,快速识别并回应潜在欺诈活动。
- 项目架构:使用Apache Kafka处理实时流数据,利用Apache Flink进行流数据的实时处理与分析,机器学习模型部署于Apache Spark MLlib以及TensorFlow Serving中。
- 技术栈:Scala, Kafka, Flink, Spark, TensorFlow, Kubernetes
- 个人职责:负责整体系统架构设计,实现实时数据处理流水线,开发和优化机器学习模型,并配合DevOps团队通过Docker和Kubernetes部署上线。同时,负责监控系统性能,保证系统稳定高效运行。
2018/01 - 2019/12
初级大数据工程师
数据狂潮科技有限公司 杭州
在数据狂潮科技担任初级大数据工程师,负责处理和分析大型数据集,设计并实施数据处理工作流。
主要项目:用户行为分析平台
构建了一个处理和分析用户行为日志的平台,该系统能够处理每日数十亿级别的事件日志。
- 项目架构:使用Hadoop HDFS存储日志文件,MapReduce进行初步的日志清洗,Hive用于实现数据仓库功能,利用Pig做一些复杂的数据转换,利用Spark SQL进一步深入分析。
- 技术栈:Java, Hadoop, Hive, Pig, Spark, Kafka(用于实时数据收集)
- 个人职责:负责搭建Hadoop集群环境,编写MapReduce作业进行数据清洗,以及通过Hive和Spark SQL来分析数据,生成报告供业务团队使用。
专业技能
编程语言与开发工具
- 熟练使用Java, Python, Scala, C++,并熟悉函数式编程概念。
- 熟练使用IDEs如IntelliJ IDEA, Eclipse以及版本控制工具Git, SVN。
大数据处理框架与技术
- 对Hadoop生态圈有深入理解,包括HDFS, MapReduce, YARN, Hive, Pig, HBase。
- 精通Apache Spark和其组件Spark SQL, Spark Streaming, MLlib, GraphX。
- 熟悉流处理框架Apache Flink和Apache Storm。
数据存储与管理
- 掌握NoSQL数据库如Cassandra, MongoDB及键值存储Redis。
- 熟悉关系型数据库如PostgreSQL, MySQL的使用与优化。
大数据云平台与服务
- 熟悉AWS, Azure, GCP等主流云服务商提供的大数据处理服务,如Amazon EMR, Google DataProc等。
- 了解并使用过Docker容器化和Kubernetes集群管理。
教育经历
2006/09 - 2010/07
学士
湖南大学 计算机科学与技术
个人项目
Spark 优化工具集 (SparkOpt)
GitHub:https://github.com/wangming-bigdata/SparkOpt
- 这个项目旨在为 Apache Spark 提供一组工具,用于监控、诊断和优化 Spark 作业的执行。