【全球网科技报说念 记者 勃潺】11月6日,进程一年奋战,小红书已把业界体量最大的数据湖0故障迁上阿里云。据统计推特 反差,该表情共有1500东说念主参与,移动数据500PB。
算作中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了往常11年的扫数原始数据,包括结构化、半结构化和非结构化数据。连年来,跟着业务的高速增长,小红书在线处理数据的需求连续增多,同期离线处理所积聚的历史问题,也会在改日的切换中带来更多资本与风险。
为此,2023年11月,小红书发起迁云表情——缱绻一年内,把小红书的数据湖搬上阿里云。
移动至阿里云上后,数据湖可通过多个OSS Bucket因循纳入联合伙源池,已毕多个Bucket分享资源池内的OSS隐隐及QPS才调。这么的流控才调在面向小红书复杂业务场景,可生动调配资源,高效欺骗隐隐性能,缩短不同行务田户间的彼此影响。阿里云原生HDFS+DLA元数据可已毕无缝对接Hadoop EMR体系,因循元数据线性扩张才调,毁坏搪塞小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次移动的数据体量更大。
探花据先容,小红书的迁云表情资历了三个阶段。第一步,表情组领先惩处程序问题,然后阐述程序进行不断;第二步,完成不断后,表情在2024年5月讲求参加双跑阶段。把数据拷贝到阿里云上,双方同期跑数,考证正确性与实时性;第三步,2024年8月,表情罢休双跑,参加割接阶段。阿里云团队全程在现场保险,顺利完成了割接。
2024年11月推特 反差,小红书迁云表情讲求宣告罢休。在0故障的情况下,移动数据500PB,任务11万,参与东说念主数1500东说念主,触及部门40多个。