查看原文
其他

剥离几百万行代码,复制核心算法去美国?TikTok 最新回应来了

InfoQ
2024-08-22


编译 | 核子可乐、Tina
剥离几百万行代码,是一个繁琐的“脏活”,需要一年多时间才能完成。  

路透社 5 月 30 日消息,据直接掌握内情的消息人士透露,TikTok 正着手为其 1.7 亿美国用户开发克隆版推荐算法。这可能催生出一个独立于其中国母公司运行的版本,因此更容易被拟发布禁令的美国立法机构所接受。

就在 TikTok 中国母公司字节跳动去年年底下令拆分源代码之前,美国方面已经提出一项拟议的强制出售 TikTok 在美业务的法案,且此项法案今年初在国会得到支持。今年 4 月,该法案正式被签署为法律。由于未获授权公开谈论这款短视频分享应用,消息人士拒绝透露姓名。但其表示一旦代码被拆分,即可为剥离在美资产奠定基础,从而打开一条免受法律强制执行的可能之路。

TikTok 公司此前曾经表示并无出售在美资产的计划,甚至强调绝不可能采取此类措施。在路透社报道发表之后,TikTok 在 X 上的帖子中表示,“路透社方面日前发布的报道存在误导性,且与事实有所出入”。


路透社表示,该“辟谣”没有具体说明哪里不准确。TikTok 还发布了一段来自其联邦诉讼材料的内容:“无论是从商业、技术还是法律角度来看,该法案提出的「获准剥离」以允许 TikTok 继续在美运营的建议都根本不可行。而即使可行,法案给出的 270 天时间表也远远不够。”

路透社方面的发言人则回应称,“我们坚持报道内容属实。”

剥离数百万行代码的“脏活”

路透社称,过去几个月以来,来自美国和中国的数百名字节跳动和 TikTok 工程师被要求着手剥离数百万行代码,旨在筛选该公司用于将用户与其偏好的视频相匹配的算法。据两位直接了解该项目的消息人士说,工程师们的任务就是建立一套独立的代码库,其独立于字节跳动的中国版 TikTok、即抖音的系统之外,同时将消除其中与中国用户相关的信息。

路透社此前曾报道称,TikTok 将应用程序连同算法一同出售的可能性极低。而且内容推荐算法在我们国家的出口管制名单当中,因此对 TikTok 算法的剥离或者出售必须经过审查。

根据相关法律文件,TikTok 推荐引擎的源代码最初由字节跳动工程师在中国开发完成,并针对包括美国在内的 TikTok 全球各市场运营情况进行了定制。

在字节跳动看来,TikTok 之所以在全球范围内大受欢迎,首先要归功于其推荐引擎的出色表现。该引擎能够根据每位用户与其观看内容的交互方式来提供更多内容来源。

在向路透社描述这项任务的复杂性时,消息人士们将其称为繁琐的“脏活”,这也凸显出将 TikTok 业务与其母公司底层代码剥离开来的难度。据消息人士们介绍,这项工作预计需要一年多时间才能完成。

TikTok 及字节跳动已经明确表示会以美国宪法第一修正案为依据,在法庭上对抗这条新法律。尽管如此,消息人士称工程师们已经在依命令开展工作,着手将 TikTok 推荐引擎与字节跳动的整体网络拆分开来。

消息人士们提到,TikTok 高管曾一度考虑开源部分 TikTok 算法,或者允许其他人访问并修改该算法,借此展示技术透明度。

据一位出席团队全体会议的消息人士、以及另一位翻阅过相关材料的消息人士所言,高管们在会上通过内部规划文件及内部通讯系统 Lark 传达了剥离计划,并就代码拆分项目做出了更新说明(但路透社无法独立核实这些内部消息的真伪)。

据一位消息人士透露,目前这项工作的复杂之处,在于确定 TikTok 具体代码迁移部分所带来的合规性与法律问题。消息人士还补充称,必须审查每一行代码以核实其是否可以被剥离至独立代码库。

这项工作的目标,是为面向美国用户的 TikTok 推荐算法创建一套新的源代码库。工作完成之后,TikTok 美国版将独立于其他地区的 TikTok 版本以及中文版抖音,采取专门的一套推荐算法运行和维护体系。消息人士称,此举将导致美国 TikTok 失去母公司字节跳动强大的工程开发支持。

消息人士还补充称,如果 TikTok 最终完成美版推荐引擎与中国版本的拆分工作,管理层承认后续 TikTok 美国版在性能上恐怕达不到现有 TikTok 的水平。因为目前 TikTok 推荐算法库仍高度依赖字节跳动中国工程师们的更新和维护。换句话说,TikTok 在美国市场上的用户吸引力可能将因此被削弱。

TikTok 推荐算法神秘吗?

在 TikTok 风波中,其推荐算法一直是大家争相讨论的话题中心。

2022 年 6 月,有媒体报道,TikTok 宣布将美国境内的所有流量转移到甲骨文云服务的基础设施上,同时这项托管服务也给甲骨文带来高达 10 亿美元收入。而后,甲骨文于这一年的 8 月份启动了对 TikTok 算法和模型的审查,甲骨文希望确保 TikTok 上的内容显示“符合用户的期望”,并且推荐算法不会受到操纵。TikTok 还专门设有一个“专用透明度中心”的区域,供甲骨文员工审查该应用程序的源代码。

然而一年之后,据福布斯报道,字节跳动和甲骨文之间的关系就已经变得非常不信任和敌对。消息人士将甲骨文对字节跳动的立场描述为“反情报行动”,而不是正常的客户关系。与此同时,一些字节跳动员工怀疑甲骨文是否只是想增加他们的账单。TikTok 托管服务合同在甲骨文内部被称为 Project Telesis,使字节跳动成为甲骨文最赚钱的客户之一。

如今看来,甲骨文的审查并没有让美国政府放松对 TikTok 的仇恨和警惕。

实际上,TikTok 之前发表过一篇博客文章,主要描述解释了他们的 FYP 算法工作机制,相信大家只要是做软件技术的,看过之后都知道其中并没有什么新鲜的创造。

另外,前亚马逊产品经理(同时也是亚马逊战略规划部第一位分析师)Eugene Wei 也曾发过专门分析文章,阐述 TikTok 的算法本身并没有特别的突破性创意。


当大家谈及 TikTok 的算法是其成功的关键时,便会认为该公司的秘密武器是一些神奇的代码。但该领域的大多数专家持怀疑态度,TikTok 在机器学习推荐算法方面并未取得外界未知的突破性进展。事实上,他们中的大多数人认为,TikTok 很可能就是基于标准方案解决的问题,跟其他方案无异,没有什么特殊性。


不过机器学习算法的有效性并不仅仅取决于算法本身的函数,还取决于数据集训练后的算法函数。GPT-3 并不是新创意,但是通过大量数据训练和大量的参数设置,它的输出结果往往是令人惊讶的。


同样道理,基于自身数据集训练过的 TikTok FYP 算法,在将视频与觉得该视频有趣的人进行匹配方面做的非常精确和高效(而且,反向匹配做的也很精确,对某些视频不感兴趣的人就不会接收到这些视频) 。

他认为,TikTok 产品真正的价值点在于 TikTok 的设计和流程里面的每一个元素是怎么互相关联到一起,从而创建出一个数据集,再通过这个数据集,把算法训练成最佳性能的。

“这就是 TikTok 设计的神奇之处:它是一个反馈的闭环,这种设计能够激发并实现视频的创作和观看,产生的数据进而通过其算法进行训练,之后再反过来激发创作和观看。为了让 TikTok 的算法变得像现在这样有效,TikTok 成为了它自己的训练数据来源。”

但多数人还是非常费解,为什么很多公司想要收购 TikTok,另一方面,字节跳动是否应该将 TikTok 这一备受欢迎的 App 卖掉。对此,Eugene Wei 评论说:“围绕 TikTok 算法大肆的炒作已经开始变的异化了,这也是如今西方对中国科技领域项目的普遍套路。”

参考链接:

https://www.reuters.com/technology/tiktok-preparing-us-copy-apps-core-algorithm-sources-say-2024-05-30/

https://newsroom.tiktok.com/en-us/how-tiktok-recommends-videos-for-you

https://www.infoq.cn/article/38dKguZxeyz2vx2dAR4S

声明:本文为 InfoQ 翻译整理,未经许可禁止转载。

今日好文推荐

禁令再升级!拜登政府已不想让中国人在美从事 AI 工作了,套壳大模型的公司也危险了

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

一个参数没填,将客户数据连备份一起删,谷歌故障报告来了:全是脚本的锅!

谷歌刚刚更新了算法,顺便搞毁了几家公司

 活动推荐

6 月 14 日,Microsoft AI Day in Beijing 重磅来袭!诚挚邀请您加入 Microsoft AI Day in Beijing。届时来自微软的高管及技术专家、合作伙伴将与您齐聚一堂,分享关于 AI 智能技术的前瞻见解和行业应用场景,结合现场演示展示微软产品的功能和特性,深入探讨生成式 AI 技术的最新进展与创新潜力,如何在 AI 时代构建企业竞争力,以及开发者如何迈进企业数据与生成式 AI 的新纪元。同时,我们还将分享人工智能助力提升生产效率的实践经验,以帮助您更深入、直观地了解微软 AI 解决方案。欢迎扫码或点击【阅读原文】报名!

继续滑动看下一个
InfoQ
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存