正文 265 累积阅读时间 (第1/2页)
“小说网站模型失败的原因就在于面对所有用户,它都只有一个接入口,所有人来到站点都只能看编辑大人事先准备好的内容,所有人!所有人!所有人!重要的事情说三遍,所有人看到的都是同一个内容,来来去去都是一些符合编辑口味的作品在首页上大行其道。因为只有一条路,这条路上能走通的方向自然也是基本固定的了,这就是为什么小说库的访问范围不超过0.1%的原因。
某易云音乐能达到整个曲库访问量的5%,这是因为它给每个用户都开启了一扇随机门,每个用户的推荐内容都是不同的,一千万个用户就意味着有一千万个接入口,这么多条路,自然能够让整个曲库的访问范围扩展到极大的一个范围。
同样作为数据管理系统,某易云音乐显然是要强过小说网站的,强就强在它的自动推荐机制,现在的小说站点还不能有效的为用户提供个性化的推荐服务。
我去质问小说站点:你们为何迟迟不推出高质量的推荐系统?
小说站点回复说:我也不想这样呀!我们也有花钱投入,也有尝试做出让用户满意的东西呀!可是做不出来怎么办嘛,投入资金没有回报我有什么办法嘛。
搞个推荐系统有这么难吗?
于是我开始研究这个东西,发现确实挺难的,不过却也没有难到做不出来的程度。他们之所以没有成功做出高质量的推荐系统,这是因为他们挖掘数据的方法不对。
问题的重点归根结底只有一个,那就是如何让程序来评判一部作品的好坏。
程序可没有我们人类的大脑可以通过阅读作品来评判作品的好坏,所以程序想要实现评判作品好坏只能从作品和读者的行为来辨别作品的好坏。
我是个喜欢使用带入思维的程序员,因为这个方式比较好使,于是我尝试着带入了程序,我问了我这样一个问题:我应该如何在不看书本内容的情况下推断出两部作品的哪一部作品的质量更高呢?
要去看看作品的点击量吗?但是啊,点击量这个东西真的能衡量两部作品谁好谁坏吗?前面也说过了,因为小说站点只给读者预留了一条路,所以基本上只要能上首页,点击量必定能上去,就算作品内容就是一坨屎,它在荼毒了大量读者之后点击量依然能够超越大多数作品。这不是作品质量的胜利,而是能够登录首页的胜利。
就算抛除首页这个因素,两部作品中其中一部是人气作家的作品,作者本来就有观看群体,他开的新书点击量也肯定比新手作家的点击量更高吧,这依然不是作品质量的胜利,而是人气的胜利。
所以我认为点击量这项数据不靠谱,它不能成为衡量作品好坏的关键数据。
那么要去看看作品的收藏数据吗?
想了想还是不靠谱,因为小说站点上允许游客访问,这些游客看作品是不会点击收藏的,账号都没有收藏个屁啊。只看收藏数据岂不是对这些游客的意见不管不顾?来自游客的数据难道不作为参考依据了吗?大数据之所以叫大数据,自然是需要足够多的数据才能深挖出宝贵的数据,不仅不多收集数据,还要屏蔽大部分人的浏览数据这样做显然是不对的。
于是我得出结论,无论是点击量还是收藏数据,都不能真正评判出一部作品的好坏。
得到这个结论的我当时惊了个呆,难道就没有一种能够真正评判作品好坏的参考数据吗?
有,我想到了一个数据能够评判作品的好坏。
这个思路有点奇葩,我把采集数据的重点从作品的身上转移到了读者的身上。
(本章未完,请点击下一页继续阅读)