数据驱动的时代,图数据的处理能力成了不少公司的生命线

在这个数据驱动的时代,图数据的处理能力成了不少公司的生命线,Netflix最近把自己的家底亮出来了。他们搞了个高吞吐的图抽象系统,专门用来管着650TB的大数据,查起来快得惊人,基本就是毫秒级的反应。这东西主要就是为了伺候公司内部的各种业务,像社交图还有运维监控用的拓扑图。为了让数据跑得动,工程师们把边的连接关系跟属性分开存,还在全球各地放了副本。传统数据库在灵活性和速度上总是顾此失彼,但Netflix的工程师通过限定遍历深度和要求指定起点来提高速度,哪怕负载特别高,响应时间也能压得很低。这么一来,在处理大量图数据时就能在速度和稳定性之间找到个最佳平衡点。 这个平台不光能记录服务之间的实时交互关系,还能帮着游戏建模用户关系,帮大家排查故障时分析服务依赖。为了让历史数据也能用上,系统还引入了时序抽象来保留状态,支持回头看看以前的数据是怎么变的。跟传统数据库不一样的是,这个图抽象不是单独建的一栋楼,而是像一层外衣披在现有的数据基础设施上。最新的状态存在键值抽象里,历史改动就用时序抽象记着。为了把访问延迟压下去,系统跟EVCache这个分布式缓存深度绑定在一起。 为了节省时间不做无用功,平台用了分层缓存的策略。写入时走旁路绕开旧数据避免重复写;读取时也走旁路加速访问。这样一来就把读写放大的问题给解决了,保证了在高负载下也能稳稳当当跑起来。Netflix的工程师说了,单跳遍历能做到个位数毫秒的延迟,双跳查询的P90时延更是不到50毫秒。 随着公司业务不断往直播、游戏还有广告那边扩,这种图抽象的重要性只会越来越大。它能把用户、服务还有内容的关系弄得明明白白,也给全平台提供了高吞吐、全球都能用且低延迟的访问能力。总之这套架构不光技术牛掰,更是对未来数据需求的一个回应。以后技术再进步一点,它肯定还能给我们带来更丰富、更稳定的数字体验。