从事大数据、海量数据处理相关的工作，如何自学打基础？

2023-01-14 09:56

2023-01-14 10:32

第一层：搞Google那个套路的，云计算方向的，hadoop那些搞搞，就可以去一些公司忽悠工作了。
第二层：搞一些社交网络，多媒体等海量数据的存储分析处理，侧重数据挖掘，以后可能能够在这个领域做点名堂。
第三层：在上面两层的数据的基础上，做PB级别“以上”规模，侧重“实时”海量数据分析，能够对在线业务做海量数据支撑的。可能搞出商业和专业（技术）方面的重量级的。我个人在这个行业混，是看到了需求，但个方面，还没有现成的：思想，方法，系统。以后类似有Google M/R之类的，包含方法和系统甚至开发运维环境的东西出现。从我个人的理解看：思想要变，并行计算的一些思想要引入比如Pipeline+Partitioning+M/R；算法要变：侧重常数事件复杂度的或者logn以下的；做业务的思想要变：比如实时要一个一定范围最优的解比一个一天后给一个全局范围的解跟重要等。

更多回答

2023-01-14 14:08

海量数据分成两块，一是系统建设技术，二，海量数据应用。先说系统建设，现在主流的技术是HADOOP，主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点，在分布式系统出来之前，主要是集中式架构，如DB2，oracle。为什么现在用分布式架构，那是因为现在集中式架构受限于IO性能，出来速度慢，如果又一种硬件技术，可以很快地处理海量数据，性能上能满足需求，那么集中式架构优于分布式架构，因为集中式架构稳定，运维压力小。现在的集中式架构要么性能达不到要求，要么就是过于昂贵。我期待一种技术出现，可以非常快地传输和处理数据，那么集中式架构将再次进入人们眼球。再说海量数据应用。海量数据应用主要是数据挖掘和机器算法。具体有不同的应用场景，如个性化搜索和推荐，社交网络发现，精准营销，精准广告，实时最优路径，人工智能等等。看你想做系统支撑技术还是与业务结合的应用技术。