下面是StuQ 发布的大数据工程师技能图谱(仅供参考)

大数据通用处理平台

  1. Spark
  2. Flink
  3. Hadoop

分布式存储

HDFS

资源调度

Yarn

Mesos

机器学习工具

Mahout

  1. Spark Mlib
  2. TensorFlow (Google 系)
  3. Amazon Machine Learning
  4. DMTK (微软分布式机器学习工具)

数据分析/数据仓库(SQL类)

  1. Pig
  2. Hive
  3. kylin
  4. Spark SQL,
  5. Spark DataFrame
  6. Impala
  7. Phoenix
  8. ELK

8.1 ElasticSearch

8.2Logstash

8.3Kibana

消息队列

  1. Kafka(纯日志类,大吞吐量)
  2. RocketMQ
  3. ZeroMQ
  4. ActiveMQ
  5. RabbitMQ

流式计算

  1. Storm/JStorm
  2. Spark Streaming
  3. Flink

日志收集

Scribe

Flume

编程语言

  1. Java
  2. Python
  3. R
  4. Ruby
  5. Scala

数据分析挖掘

MATLAB

SPSS

SAS

数据可视化

  1. R
  2. D3.js
  3. ECharts
  4. Excle
  5. Python

机器学习

机器学习基础

  1. 聚类
  2. 时间序列
  3. 推荐系统
  4. 回归分析
  5. 文本挖掘
  6. 决策树
  7. 支持向量机
  8. 贝叶斯分类
  9. 神经网络

机器学习工具

  1. Mahout
  2. Spark Mlib
  3. TensorFlow (Google 系)
  4. Amazon Machine Learning
  5. DMTK (微软分布式机器学习工具)

算法

一致性

  1. paxos
  2. raft
  3. gossip

数据结构

  1. 栈,队列,链表
  2. 散列表
  3. 二叉树,红黑树,B树

常用算法

1.排序

插入排序

桶排序

堆排序

2.快速排序

3,大子数组

4.最长公共子序列

5.最小生成树

最短路径

6.矩阵的存储和运算

云计算

云服务

  1. SaaS
  2. PaaS
  3. IaaS
  4. Openstack
  5. Docker

End.

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>