首页 > 精品推荐 > 重生2007：我在硅谷做教父！ > 第058章数据的心跳

第058章数据的心跳（1/2）

好书推荐：没有红警基地你当什么国际大导？重生高三，我带着1GU盘每秒一块，我的财富计时器重生高武：我能无限抽取动漫神技华娱之为你而来每月发放黑科技，美帝要制裁我？斗破：药族弃子？吾为玄丹圣帝魔女的流浪炼金行商日志斗罗：双神一体，海神修罗追着喂诡异安全屋：我收留室友就变强！

soho办公室的角落里，有一间常年拉著窗帘的小房间。

那里是halo的“大脑”——算法实验室。

房间里没有杂乱的电线，也没有那种极客风的涂鸦。

只有四面巨大的白板，上面写满了密密麻麻的数学公式。

空气中瀰漫著一种乾燥的粉笔灰味道。

大卫·陈站在白板前，手里的粉笔已经断成了两截。

这位从普林斯顿出来的数学博士，此时正面临著他职业生涯中最大的挑战。

“不行。还是不行。”

大卫把粉笔头扔在地上，有些焦躁地抓了抓稀疏的头髮。

“数据太稀疏了。虽然我们有几百万用户，但大部分人只对自己感兴趣的那一点点东西点讚。矩阵里全是零。按照现在的线性回归模型，计算出来的推荐结果，误差率高达40%。”

“也就是说，我给一个喜欢看猫的用户推了狗的照片，他可能会觉得我在侮辱他的智商。”

顾清舟坐在旁边的椅子上，手里拿著一份数据报表。

他看著大卫，就像看著一个陷入死胡同的绝世高手。

在2007年，推荐算法还是个新鲜词。

大部分网站还在用人工编辑的方式来决定用户看什么。所谓的“个性化”，顶多就是根据你填写的性別和年龄，给你推不同的gg。

但halo要做的是——猜你喜欢。

“大卫，你把问题想复杂了。”

顾清舟站起身，走到白板前。

“你试图用一个完美的数学公式去解构人性。但人性是不完美的，是混沌的。”

他擦掉了一块复杂的矩阵运算，画了一个简单的坐標轴。

“我们不需要知道用户到底喜欢什么。我们只需要知道，他和谁像。”

“协同过滤。”

顾清舟写下了这四个字。

这是亚马逊用来卖书的逻辑。

但在社交网络里，它更有效。

“假设用户a喜欢看美女、豪车和科技新闻。用户b也喜欢看美女和豪车。”

“那么，当用户a给一张新的iphone照点了赞时，我们就可以大胆地推测——用户b也可能喜欢这张照片。”

“即使b从来没看过科技新闻。”

大卫的眼睛亮了一下，但隨即又黯淡下去：“这个理论我知道。但在海量数据下，计算量太大了。我们要实时计算几百万用户之间的相似度？伺服器会烧掉的。”

【记住全网最快小説站 101 看书网超顺畅，????????????.??????隨时看】

“降维。”

顾清舟在坐標轴上画了几个圆圈。

“我们不需要计算每个人。我们把人变成『向量』。”

“给每个用户打標籤。比如：美妆、极客、摄影、美食、宠物……”

“用户a不再是用户a，他是一个向量：美妆: 0.1, 极客: 0.9, 摄影: 0.5。”

“我们只需要计算向量之间的夹角。夹角越小，这两个人越像。”

“然后，把那个像的人看过的东西，推给他。”

大卫盯著白板上的那个坐標轴，脑海里仿佛有一道闪电划过。

作为数学家，他习惯了追求精確解。

但在商业应用里，有时候“模糊的正確”比“精確的错误”更有价值。

“向量化……”大卫喃喃自语，“这確实能极大地降低计算量。我们可以把用户的行为日誌离线处理，生成用户画像向量，然后在线上实时匹配內容向量。”

“可是，还有一个问题。”

大卫推了推眼镜，指出了关键，“冷启动。对於那些刚註册的新用户，我们没有任何数据，怎么给他们生成向量？”

本章未完，点击下一页继续阅读。

新书推荐：每秒一块，我的财富计时器世子归来，将娱乐圈姐姐宠上天摆烂后，我把恋综搞垮了线上腹黑游戏姐，线下高冷女教授斗罗：双神一体，海神修罗追着喂每月发放黑科技，美帝要制裁我？重生高三，我带着1GU盘重生高武：我能无限抽取动漫神技重生2007：我在硅谷做教父！谁是卧底（np）

第058章 数据的心跳（1/2）

第058章数据的心跳（1/2）