第058章 数据的心跳(1/2)
soho办公室的角落里,有一间常年拉著窗帘的小房间。
那里是halo的“大脑”——算法实验室。
房间里没有杂乱的电线,也没有那种极客风的涂鸦。
只有四面巨大的白板,上面写满了密密麻麻的数学公式。
空气中瀰漫著一种乾燥的粉笔灰味道。
大卫·陈站在白板前,手里的粉笔已经断成了两截。
这位从普林斯顿出来的数学博士,此时正面临著他职业生涯中最大的挑战。
“不行。还是不行。”
大卫把粉笔头扔在地上,有些焦躁地抓了抓稀疏的头髮。
“数据太稀疏了。虽然我们有几百万用户,但大部分人只对自己感兴趣的那一点点东西点讚。矩阵里全是零。按照现在的线性回归模型,计算出来的推荐结果,误差率高达40%。”
“也就是说,我给一个喜欢看猫的用户推了狗的照片,他可能会觉得我在侮辱他的智商。”
顾清舟坐在旁边的椅子上,手里拿著一份数据报表。
他看著大卫,就像看著一个陷入死胡同的绝世高手。
在2007年,推荐算法还是个新鲜词。
大部分网站还在用人工编辑的方式来决定用户看什么。所谓的“个性化”,顶多就是根据你填写的性別和年龄,给你推不同的gg。
但halo要做的是——猜你喜欢。
“大卫,你把问题想复杂了。”
顾清舟站起身,走到白板前。
“你试图用一个完美的数学公式去解构人性。但人性是不完美的,是混沌的。”
他擦掉了一块复杂的矩阵运算,画了一个简单的坐標轴。
“我们不需要知道用户到底喜欢什么。我们只需要知道,他和谁像。”
“协同过滤。”
顾清舟写下了这四个字。
这是亚马逊用来卖书的逻辑。
但在社交网络里,它更有效。
“假设用户a喜欢看美女、豪车和科技新闻。用户b也喜欢看美女和豪车。”
“那么,当用户a给一张新的iphone照点了赞时,我们就可以大胆地推测——用户b也可能喜欢这张照片。”
“即使b从来没看过科技新闻。”
大卫的眼睛亮了一下,但隨即又黯淡下去:“这个理论我知道。但在海量数据下,计算量太大了。我们要实时计算几百万用户之间的相似度?伺服器会烧掉的。”
【记住全网最快小説站 101 看书网超顺畅,????????????.??????隨时看 】
“降维。”
顾清舟在坐標轴上画了几个圆圈。
“我们不需要计算每个人。我们把人变成『向量』。”
“给每个用户打標籤。比如:美妆、极客、摄影、美食、宠物……”
“用户a不再是用户a,他是一个向量:美妆: 0.1, 极客: 0.9, 摄影: 0.5。”
“我们只需要计算向量之间的夹角。夹角越小,这两个人越像。”
“然后,把那个像的人看过的东西,推给他。”
大卫盯著白板上的那个坐標轴,脑海里仿佛有一道闪电划过。
作为数学家,他习惯了追求精確解。
但在商业应用里,有时候“模糊的正確”比“精確的错误”更有价值。
“向量化……”大卫喃喃自语,“这確实能极大地降低计算量。我们可以把用户的行为日誌离线处理,生成用户画像向量,然后在线上实时匹配內容向量。”
“可是,还有一个问题。”
大卫推了推眼镜,指出了关键,“冷启动。对於那些刚註册的新用户,我们没有任何数据,怎么给他们生成向量?”
本章未完,点击下一页继续阅读。