长差五，四月《媒介》主题“数算力”视点

数据为纲，纲举目张

本期封面主题讨论了一个学界业界都在关注的话题：内容与数据之间的关系。很早之前我们就在关注内容产业的进程，之后又在追寻大数据技术的点滴变化，媒体内容产业虽然有别于其他行业，然而与数据之间的关系却是异常紧密的——老牌新闻媒体巨头纷纷试水基于数据挖掘的机器人写作，互联网大佬则在搭建内容的数据化工具矩阵，即便自己不生产内容的聚合平台本质上就是在利用数据进行内容分发和推荐，原生广告已经开始利用计算机进行相应的内容创作和投放，第三方专业机构开始利用数据化工具构建自身的盈利莫。所谓纲举目张，数据，正在成为内容之纲。

然而为何本期封面用了“数算力”这样一个表述？因为笔者认为，当下的数据现实早已过了只谈数据的阶段，而是必须加上与之相匹配的运算能力。两者相加，方能走向真正的智能化进阶。

先看媒体的内容究竟是什么。一般而言，大家都会将内容产品视为精神文化产品的一种，从传递价值、精神、文化这样的角度来看，内容是一种“无形”的产品；可是，从其表现形态来看，文字、图片、声音、视频等又确实是一种可见可感的形态。对于这样一种特殊的存在，数据究竟能否进行测量？笔者认为，是可以的。

一方面是与内容产品相关的客观数据，比如产品的数量，时长，被观看（使用）的时间、地点、次数等，观看（使用）的用户特征，利用的终端介质情况等，这些数据是可以被清晰记录的，在大数据技术成熟之前就可以进行，现在，基于互联网的特性和大数据的技术发展，这种记录变得更加精准和全面。一个重要的表现就是，但凡参与内容运营的机构，都在积累庞大的数据资源，无论是数据的体量、类型，还是数据处理的速度和方式，都成为其立身之本，也是编辑部此次探讨的内容数据化工具的诞生基石。在本期封面主题所选择的案例中，机构运用数算力处理的第一步就是搭建一个量级足够的数据库体系。比如，Facebook的EdgeRank首先收集的是每位用户发布的内容（包括分享的内容）、关注好友的状态更新、加入的群组以及点赞、评论、分享等用户行为数据，进而才从这些数据中产生该用户的“权重评级标准”。随着产品迭代，Facebook不断将诸如视频、链接等内容形态因素，点赞、取关、隐藏、阅读时间等用户行为因素转变为算法考虑因素，让这个数据库不断丰富

另一方面则是与内容产品相关的主观数据，一个重要的应用是在海量行为数据库的基础之上，去了解用户接触内容产品时，究竟产生了怎样的观感和态度。涉及情感与偏好，我们通常归入定性研究的范畴。过去很长一段时间，研究者们一边使用科学抽样、深度访谈等研究方法来对这些主观数据进行尽可能真实地还原，一边也在积极引入类似眼动仪、脑电波测试等技术手段来监测和分析受试者情绪的波动和喜好变化。在大数据技术逐渐普及的过程中，这种研究外化为“打标签”这个行为动作，并且通过爬虫技术、文本分析等技术更好更快地帮助研究者简单、明了地了解用户特征及喜好需求。例如，腾讯推荐平台的实现方式就是基于腾讯众多产品中的行为数据为用户采集丰富的兴趣标签，然后系统自动对这些原始标签进行聚类和分类，从而对用户兴趣进行抽象。不仅如此，改系统会自动建立标签—>主题（topic）—>类目的映射关系，从而为用户画像进行多粒度、多尺度兴趣刻画，同时系统会根据实时上报的行为，不断更新当前用户的画像兴趣。

以上两方面告诉我们，内容产品的属性虽然复杂，运营流程也极为精细，但是数据完全可以参与到这个运营流程和体系当中来，给运营者充分的支持和辅助。可以说，主客观两种数据的监测和记录，一直都在进行中，只不过在时效性、准确性方面有所欠缺，同时也较难获得理想的成本控制与数据量级的平衡，所以此前很难大规模的复制和普及。而万物互联的现实条件，数算力的不断发展，较为完美地帮我们解决了这个问题。现在，只要数算力足够，就能够有效地帮助我们在海量的内容产品中判别优劣，分析原因，进而希冀能够以此指导下一次的内容生产。

再看媒体内容作为产品的特殊性。虽然内容产品具备可以感知的形态，但是与实体产品相比，其特殊性还是显而易见的。几乎所有社会产品在流通的过程中都有一个共性：可以大批量复制。尤其受欢迎的产品，可以及时根据市场的反馈扩大生产，从而提升收益。然而内容产品显然并不是这样的商业逻辑——每一个内容产品都需要具有独创性才能够产生价值，复制在这个产业领域中则是极大的死穴。那么，摆在内容产品运营者面前的一个严峻问题就是：如何根据过去的数据、现在的数据，来预判用户未来的喜好，从而生产出与之匹配的内容产品？为人们的精神产品市场寻找下一个“热点”，这一直以来都是内容产业的难点与痛点。

长久以来，内容运营者都在试图通过数据来解决这个问题，而数算力的成熟似乎给了我们更大的可能性。最典型的例子怕是前几年名声大噪的Netflix成名作《纸牌屋》。这是一部号称利用大数据指导生产的电视剧——根据用户过往数据来判断用户的需求和喜好，进而利用这些数据指导自身的内容生产，从而诞生出一部大卖的新作品。那么Netflix究竟做了多少数据准备？根据外媒报道，仅在评估这一环节，Netflix就建立了一套极致精细数据指标体系。这个数据库构建的基础一方面是平台实时的观看数据沉淀，另一方面是对内容的细分、解构、标签的过程——例如，Netflix至少把影片分成76897种“微类型”，完全颠覆了过往人们对于影片分类的标准，进而更好的预测人们的真实喜好需求，并指导自身的内容生产方向。

在本期封面所涉及的案例中，个性化推荐已经是较为成熟的一种基于“预测”的内容运营手段。在国内大火的今日头条依凭的正是标签基础上的个性化推荐分发。基于算法推荐机制的个性化分发所代表的精准满足信息需求、扩展细分市场的内容运营理念。然而在及这个过程中，这种模式也面临着读者“过滤气泡”、“信息茧房”等质疑的声音。那么更进一层的利用数据挖掘基础之上的智能化工具介入生产，则是目前困难重重的一个领域。虽然从美联社、华盛顿邮报，到谷歌、Facebook，以及此次首次进入编辑部研究视线的专业数据机构NewsWhip都在尝试内容数据化工具，然而直到现在，数算力能够扮演的还是“辅助”生产这一角色，完全的“替代”和“自主生产”是较为困难的。

解决这个问题的难点在于，我们只有过去的数据、现在的数据，究竟应该如何准确推断下一个内容热点？笔者所在的内容银行团队也在过去十年间试图解答这个困惑。而我们发现，除了行为数据、情感数据之外，经验数据的引入也许是一个有效的解决方向。美国俄亥俄大学的一项研究表明，人类所有的行为都是由15种基本的欲望和价值观所控制，而人类行为总是反复地产生相同的经验，反过来就是说，人类的行为是基于过往的经验和记忆产生的，是在一定程度上可以被预测的。那么，除去极端情况的发生，通过足够的经验数据的引入作为校正参数，应当能够帮助我们去进行内容热点的判断——在足量行为和情感数据的分析基础之上，经验数据可以帮助我们去预判人们的喜好和需求是什么。而笔者认为，这其实是数算力实现真正“智能”的关键步骤。

由于泄露用户信息和隐私，扎克伯格被要求赴美国国会作证；因为一句“国内用户对隐私信息不敏感”的发言，李彦宏引发了新一轮的舆论风波。仿佛关于数据处理的话题进入社会大众视线时，往往是负面消息更加引人注目。“数算力”的发展是否能够在曲折中前进，迎来真正智能化的那一天？笔者无比期待。

身份验证通知

公安部网安大队要求，

您需要身份验证后，

才能进行此操作！