69书吧最新网址:www.69hao.com
首页 > 精品推荐 > 重生2007:我在硅谷做教父! > 第058章 数据的心跳

第058章 数据的心跳(1/2)

目录
好书推荐: 没有红警基地你当什么国际大导? 重生高三,我带着1GU盘 每秒一块,我的财富计时器 重生高武:我能无限抽取动漫神技 华娱之为你而来 每月发放黑科技,美帝要制裁我? 斗破:药族弃子?吾为玄丹圣帝 魔女的流浪炼金行商日志 斗罗:双神一体,海神修罗追着喂 诡异安全屋:我收留室友就变强!

soho办公室的角落里,有一间常年拉著窗帘的小房间。

那里是halo的“大脑”——算法实验室。

房间里没有杂乱的电线,也没有那种极客风的涂鸦。

只有四面巨大的白板,上面写满了密密麻麻的数学公式。

空气中瀰漫著一种乾燥的粉笔灰味道。

大卫·陈站在白板前,手里的粉笔已经断成了两截。

这位从普林斯顿出来的数学博士,此时正面临著他职业生涯中最大的挑战。

“不行。还是不行。”

大卫把粉笔头扔在地上,有些焦躁地抓了抓稀疏的头髮。

“数据太稀疏了。虽然我们有几百万用户,但大部分人只对自己感兴趣的那一点点东西点讚。矩阵里全是零。按照现在的线性回归模型,计算出来的推荐结果,误差率高达40%。”

“也就是说,我给一个喜欢看猫的用户推了狗的照片,他可能会觉得我在侮辱他的智商。”

顾清舟坐在旁边的椅子上,手里拿著一份数据报表。

他看著大卫,就像看著一个陷入死胡同的绝世高手。

在2007年,推荐算法还是个新鲜词。

大部分网站还在用人工编辑的方式来决定用户看什么。所谓的“个性化”,顶多就是根据你填写的性別和年龄,给你推不同的gg。

但halo要做的是——猜你喜欢。

“大卫,你把问题想复杂了。”

顾清舟站起身,走到白板前。

“你试图用一个完美的数学公式去解构人性。但人性是不完美的,是混沌的。”

他擦掉了一块复杂的矩阵运算,画了一个简单的坐標轴。

“我们不需要知道用户到底喜欢什么。我们只需要知道,他和谁像。”

“协同过滤。”

顾清舟写下了这四个字。

这是亚马逊用来卖书的逻辑。

但在社交网络里,它更有效。

“假设用户a喜欢看美女、豪车和科技新闻。用户b也喜欢看美女和豪车。”

“那么,当用户a给一张新的iphone照点了赞时,我们就可以大胆地推测——用户b也可能喜欢这张照片。”

“即使b从来没看过科技新闻。”

大卫的眼睛亮了一下,但隨即又黯淡下去:“这个理论我知道。但在海量数据下,计算量太大了。我们要实时计算几百万用户之间的相似度?伺服器会烧掉的。”

【记住全网最快小説站 101 看书网超顺畅,????????????.??????隨时看 】

“降维。”

顾清舟在坐標轴上画了几个圆圈。

“我们不需要计算每个人。我们把人变成『向量』。”

“给每个用户打標籤。比如:美妆、极客、摄影、美食、宠物……”

“用户a不再是用户a,他是一个向量:美妆: 0.1, 极客: 0.9, 摄影: 0.5。”

“我们只需要计算向量之间的夹角。夹角越小,这两个人越像。”

“然后,把那个像的人看过的东西,推给他。”

大卫盯著白板上的那个坐標轴,脑海里仿佛有一道闪电划过。

作为数学家,他习惯了追求精確解。

但在商业应用里,有时候“模糊的正確”比“精確的错误”更有价值。

“向量化……”大卫喃喃自语,“这確实能极大地降低计算量。我们可以把用户的行为日誌离线处理,生成用户画像向量,然后在线上实时匹配內容向量。”

“可是,还有一个问题。”

大卫推了推眼镜,指出了关键,“冷启动。对於那些刚註册的新用户,我们没有任何数据,怎么给他们生成向量?”

本章未完,点击下一页继续阅读。

目录
新书推荐: 每秒一块,我的财富计时器 世子归来,将娱乐圈姐姐宠上天 摆烂后,我把恋综搞垮了 线上腹黑游戏姐,线下高冷女教授 斗罗:双神一体,海神修罗追着喂 每月发放黑科技,美帝要制裁我? 重生高三,我带着1GU盘 重生高武:我能无限抽取动漫神技 重生2007:我在硅谷做教父! 谁是卧底(np)
返回顶部