字节跳动技术团队

字节跳动“安全范儿”高校挑战赛来袭！快人一步拿Offer！

Fri, 06 Sep 2024 14:28:18 +0800

2024-09-06 14:35 重庆

三大赛道邀你来战！赢80万元专项基金

点击左下角阅读原文，参与报名！

阅读原文

跳转微信打开

豆包招聘速递｜豆包大模型 Vision 团队热招中

Thu, 05 Sep 2024 22:41:41 +0800

2024-09-05 22:46 重庆

社招、Top Seed人才计划、2025校招、实习岗位均有开放

更多豆包大模型团队岗位，欢迎点击阅读原文了解

阅读原文

跳转微信打开

数据库顶会 VLDB 2024 论文解读｜ResLake: 字节跳动多机房资源统一管理系统解析

Tue, 03 Sep 2024 16:02:29 +0800

原创张鑫春 2024-09-03 16:11 重庆

引言

在字节跳动，每天有数百万的大数据作业在其全球的数十个数据中心运行。由于作业计算和存储资源的不匹配，存在将跨机房带宽用尽的风险，这会影响其他业务的运作，还会造成不同机房的资源负载不均衡。而且跨机房带宽存在成本高、延迟高、稳定性差等问题，会大幅增加作业的运行时长。为兼顾作业完成时间（Job Completion Time, JCT），并均衡不同机房之间资源的负载，字节跳动基础架构计算团队、存储团队、应用研究中心，和系统部网络团队协作，共同研发了多机房计算、存储、网络一体化资源管理系统 ResLake。ResLake 具备资源的全局视角，通过作业调度、数据调度、网络管控等手段，能够显著优化计算和存储的布局，有效降低业务运营成本。ResLake 上线后，作业平均 JCT（最小化用户作业完成时间）时间降低了 20%，机房间资源利用率均衡性提升了 53%，跨机房流量降低了 50%，存储成本降低了 46%。

论文链接：https://www.vldb.org/pvldb/vol17/p3934-kashaf.pdf

背景介绍

大数据作业与数据表之间存在错综复杂的关系（如下图所示），图(a)表明将近 50% 的作业存在跨机房读数据，34% 的从超过1个远程机房读取。图(b)表明将近 50% 的作业从多个表中读取数据，分布存在长尾效应。考虑到数据高可用和单机房容量限制，这些数据通常以多副本形式存储在多个物理机房中，机房之间通过广域网（WAN）连接。

对于这种多机房架构，现有的解决方案主要集中在最小化跨机房带宽，以此节约跨机房带宽的成本。究其原因是在公有云环境中 WAN 成本高且带宽有限，极易成为瓶颈。这种资源管理方式存在一定的局限性，它忽略了不同资源之间的联动性，造成机房之间资源负载不均。由下图可见，不同机房之间资源利用率相差达到将近 25%。

现有的研究表明，计算、存储和网络几乎有相同的概率成为数据密集型作业的性能瓶颈。因此，我们将计算、存储、网络视为三种不同类型的资源，资源管理系统需要统一考虑不同机房多种资源的排布，并进行全局优化。基于以上原因，我们将多机房资源管理系统的设计目标归结为以下两点：

在作业负载不变和满足 SLO 的前提下，最小化用户作业完成时间（JCT）；
在资源总量不变的前提下，最优化资源利用率。

架构设计

多机房架构下，资源管理系统需要具备全局视角，感知不同机房计算、存储和网络资源的异质性，并为作业和数据的全局排布做出最优决策。为此我们设计了中心化的资源管理系统 ResLake，采用分层架构，具体架构如下图：

控制层：负责与计算层、存储层、网络层进行交互，控制层综合计算、存储、网络资源状态信息，实时对作业布局进行最优调度决策，并指导和反馈其它层进行作业迁移、数据迁移/复制、网络 Quota 调整等，提升跨机房资源的整体利用率。
计算层：负责全域计算资源管理 (GRM) 。GRM 主要负责管理不同机房、不同集群的计算资源，并将最新的计算资源状态汇报给控制层，以便做出最优的作业调度决策。
存储层：负责全域存储资源管理。根据控制层的决策，存储层可以对数据进行离线调度，例如变更数据副本分布、增加带 TTL 周期的缓存副本、对多副本数据进行压缩，以优化数据排布和节省存储成本。同时，存储层将存储元数据上报给控制层，用于作业数据亲和性调度决策。
网络层：负责全域网络监控、网络 Quota 管控、QoS 保障等，并执行控制层下发的网络 Quota 分配和调整指令。同时，网络层将最新的网络状态、剩余带宽 Quota 等信息上报给控制层，以优化作业调度。

系统输入：当用户向 ResLake 提交作业时，需要指定作业的计算资源 Quota，如 CPU/Memory 等。网络带宽资源作为系统级资源池由 ResLake 统一分配。考虑到大数据作业通常需要读取大量离线数据，而单机房容量有限，跨机房读几乎不可避免，这类作业不仅消耗大量的跨机房带宽，并且跨机房读取延时高，导致作业 JCT 时间进一步增长。为了解决这个问题，ResLake 要求作业提交时指定读取的路径，路径可以是数据库表分区、文件路径或消息队列的偏移和长度。ResLake 通过数据特征分析，从而无需用户显式指定作业输入数据路径。

系统输出：经过 ResLake 决策的作业机房和集群。

ResLake 按照调度决策的实时性，分为在线调度和离线优化两种。实时调度侧重于进行轻量化的作业调度，而离线调度侧重于对数据分布进行优化。具体差别如下：

在线调度

作业动态调度：ResLake 提供给用户的是一组虚拟队列，虚拟队列可以跟多个物理资源池关联。ResLake 根据作业读取的路径、数据的副本分布、作业资源需求、作业运行时长、物理资源负载、机房剩余带宽等指标，动态决策作业运行的最优物理资源池；
数据懒加载：ResLake 允许为每个机房设置缓存。对于临时查询作业，ResLake 在作业跨机房读取数据时，缓存一份临时副本到本地缓存。从而，将后续的跨机房读取转化成本地读；
数据访问特征分析：对于周期性作业，ResLake 通过对作业运行的历史数据进行分析，对作业读取路径等进行预测。对于临时 SQL 查询，ResLake 能提前从 SQL 中解析出输入路径，并根据数据量预估作业运行时长。
网络 Quota 动态分配：ResLake 为每个作业分配初始网络 Quota，并对 Quota 进行动态调整，回收作业未使用的 Quota，并分配给其它 Quota 不足的作业。

离线优化

副本缓存：ResLake 通过分析作业历史访问特征，挖掘多机房访问的热点数据，在周期性作业启动前，将数据缓存到对应机房。为避免不必要的存储成本，我们只会同步读写比极高的数据，并且设置数据的过期时间（TTL）。
副本策略优化：ResLake 分析周期性作业的历史数据访问特征，生成数据访问模式，对计算和存储机房错配的副本进行调整。
温存推荐：ResLake 通过分析数据的访问行为，推荐业务将不常访问的数据放入温存，从而降低业务的存储成本。

调度模型

我们将作业调度抽象为 5 个 Meta 任务：

等待调度阶段：任务进入调度队列并等待调度的时间，通常是 ms 级，不实际消耗资源。
全局调度阶段：全局调度阶段，根据作业依赖的数据副本分布、预估计算时长、物理资源池负载、物理资源池计算性能、跨机房带宽等指标，为作业找到跨机房读取数据时间最短、且物理资源等待时间最短的机房和集群，调度决策充分考虑了最优化作业 JCT 和资源池负载均衡。调度决策本身耗时也是 ms 级。
数据准备阶段：ResLake 为作业寻找满足数据亲和性（计算与大部分数据在同一机房）的机房或者计算资源充足且跨机房带宽充足的机房，ResLake 保证此阶段大部分数据同步到决策机房。主要使用网络带宽，在满足计算数据亲和性时，该阶段耗时可以忽略。
集群调度：ResLake 将作业分发到具体集群后，由 YARN/Godel 进行集群内资源调度。该阶段耗时包括等待资源时间和作业运行时间，主要分配计算资源。
数据输出：将计算结果输出到存储，供下游计算使用。

根据 ResLake 的设计目标，我们将调度抽象为 2 个优化目标：

最小化 JCT 时间

其中，为作业在机房的数据量，为集群内资源的处理速度，仅当作业分配到集群时。在调度决策时，ResLake 针对各个阶段预估近似处理时间（APT），预估方式为数据量/资源处理速度。因此，JCT 最小化目标，主要根据数据准备阶段和集群调度阶段的 APT 进行优化。

资源负载均衡

其中，为集群内资源利用。在进行调度决策时，还需要尽可能考虑全局资源的均衡性，比如当作业有多个可选择物理资源池时，选择集群负载更低的资源池，不但能兼顾集群间负载均衡，避免单个资源成为瓶颈，而且低负载集群往往处理速度更快。

结合以上两个优化目标，ResLake 针对作业调度问题归结为求解以下优化问题，其中，和为权重，取值在0~1之间，可以根据业务差异调整。

系统实现

控制层和计算层

控制层维护计算、存储和网络资源的全局状态视图，并作出作业调度和全局资源平衡的最优决策。如上图所示，控制层通过 SDK 接受提交的大数据作业。首先，作业将通过计算层实现的虚拟队列权限管理模块（VAM）进行权限校验。接下来，虚拟队列 Quota 管理模块（VQM）根据作业的资源量分配作业请求的资源量。ResLake 实现了统一编排框架 (UOF)，用于作业和队列管理，并于底层的计算、存储和网络层交互，进行调度决策，并将作业分发到对应计算集群。

虚拟队列编排：VQM 负责按需编排虚拟队列。对于存在大量跨机房的作业，并且虚拟队列在对应机房没有物理资源池时，虚拟队列管理模块能够为作业在目标分配临时队列，并在作业完成后回收对应资源。

作业动态调度：作业编排模块根据维护的计算、存储和网络资源的最新视图，并根据分析的作业元数据，如作业依赖数据、作业资源需求等，求解调度模型，决策最优的作业运行机房和集群，并将作业分发到对应集群。

存储层

提供元数据查询能力：控制层通过离线预测或者 SQL 解析得到作业依赖的数据路径后，通过存储层进一步分析数据所在机房、每个机房副本数、单个副本大小等信息，并利用这些信息进行数据准备阶段的耗时预估。

具备数据缓存加速能力：为了降低跨机房数据的带宽和延迟，ResLake 离线分析作业所需数据及其访问行为，控制层根据分析结果，在网络低谷期通知存储层发起数据复制/迁移，将数据提前缓存在本地数据中心。

执行副本重分布：存储层数据洞察服务从存储元数据节点、数据节点等存储组件收集存储指标，进而获取当前数据放置策略、存储空间占用、跨 DC 流量等指标，评估数据迁移的预期资源消耗。并通过数据管理服务实现存储副本迁移能力，实现原理是扫描所有文件块的副本分布，判断是否满足目标分布策略（如跨机房流量最少），利用元数据节点副本修复流程补充目标数据中心对应副本，并利用副本删除机制删除不符合副本放置策略的冗余块，最终实现目录级数据中心副本重分布。

对数据聚类分析：基于历史访问特征，可以对离线数据进行更为精细的编排和调整，有序地进行迁移，达到减少跨机房流量的目的。根据计算任务与数据的依赖关系，我们以计算任务与数据路径为顶点，查询任务与数据路径之间的流量为边，构建一个有向无环图（DAG）。上述问题可以概括为将此 DAG 划分为若干个子图，使得跨子图的边权重之和最小。每个子图中的数据路径放在相同机房中，因此跨子图的边就是跨机房的流量。我们使用混合整数线性规划（MILP）来解决数据聚类问题。通过数据聚类，我们能够将关联性强的表放到相同机房中，以减少跨机房数据访问。

网络层

执行初始配额分配：网络层的网络 Quota 管理模块（NQM）在作业提交时执行初始配额分配，并动态管理网络 Quota。对于周期性作业，我们将初始 Quota 分配为作业在最后 n（n>=3）次运行中的平均带宽使用量。对于临时作业，ResLake 为作业分配一个默认 Quota 值。

动态管理网络 Quota：根据当前带宽水位为每个集群设置 Quota 回收带宽策略参数。Quota 管理策略根据剩余 Quota 和计算集群优先级进行差异化调整。当剩余 Quota 水位较高时，将优先为高优集群分配 Quota，并回收低优集群的 Quota。

效果验证

ResLake 上线后，作业平均 JCT 时间下降了 20%。

ResLake 将 CPU 利用率均衡性提升了 80%，内存利用率均衡性提升了 53%。

ResLake 将跨机房流量减少了 50%。

ResLake 通过推荐数据进入温存，节省了 46% 的存储成本。

总结

针对多机房架构，通过设计多机房统一资源管理系统 ResLake，减少作业完成的同时实现不同机房之间的资源均衡。ResLake 具备计算、存储和网络的全局视角，能够全局优化资源的最优排布问题。在 ResLake 的实现上，控制层与底层计算、存储和网络层协调，以确保各种在线和离线机制的有效性。并如上文所介绍的，在字节跳动的生产实践中验证了自 ResLake 部署以来，大数据作业平均作业完成时间明显降低、资源均衡性得到显著提升，并且跨机房流量和存储成本大幅下降。

作者信息

张鑫春，字节跳动基础架构工程师。电子科技大学硕士，曾就职阿里、百度，目前在字节跳动专职于大数据资源管理系统研发工作。

跳转微信打开

ByteHouse案例实践：某销售数据平台如何基于OLAP大幅提升复杂查询效率？

Mon, 02 Sep 2024 13:22:22 +0800

2024-09-02 14:01 重庆

本文将从业务痛点、解决方案、优化结果三个方面，详细拆解该公司销售数据平台如何基于ByteHouse复杂查询能力实现效率提升。

在现如今激烈的市场竞争中，销售数据是企业下一步市场决策的重要依据。销售数据提供了关于市场需求、客户行为、产品表现等方面的详细信息。通过深入分析这些数据，企业销售人员、决策者等可以获取有关市场趋势和消费者偏好的宝贵洞察，从而做出更加明智和精准的决策。

某公司的市场份额一直处于快速增长的态势，为了更好的统一数据口径、保障数据质量、控制数据权限，企业内部已将分散的销售数据统一到一套可视化分析平台中。该平台之前由开源ClickHouse作为数据分析引擎，但在引入鉴权ACL用于管理数据权限、保障数据安全之后，该平台出现性能不足、影响用户体验的情况。

ByteHouse是火山引擎推出的一款定位为OLAP的分析型数据库，基于ClickHouse进行架构升级和优化，在复杂查询层面拥有显著优势。该公司引入ByteHouse之后，结合相关销售场景，对ByteHouse优化器能力点对点优化，实现查询效率显著提升，在某些场景下效率提升达到16倍。

本文将从业务痛点、解决方案、优化结果三个方面，详细拆解该公司销售数据平台如何基于ByteHouse复杂查询能力实现效率提升。

在该公司内部，销售人员（数据使用者）、数据分析师、数据工程师（数据维护和提供方）以及公司管理，一直以来都存在以下痛点问题：

对于销售来说，数据范围难以全平台对齐，即便是同一个数据集也会存在可见范围不同的问题；组织变动、负责的客户频繁，调整过后则会存在看数问题。
对于数据产品经理、数据工程师、数据分析师等数据维护和提供方来说，数据集行权限维护成本高，了解销售场景中复杂的鉴权逻辑，导致学习成本高。
对于公司合规管理来说，数据权限应该得到合理控制，各个销售能看到的客户信息应控制在最小范围内。

为了解决以上问题，该公司的研发团队单独把销售数据的鉴权内聚成新服务，并且引入新的一种查询鉴权模式 ACL来解决以上问题。

“鉴权 ACL（Access Control List）”通常指用于进行身份鉴别和权限控制的访问控制列表。鉴权是指验证用户或实体的身份和权限，以确定其是否有权访问特定的资源或执行特定的操作。引入鉴权 ACL之后，能严格控制数据访问权限，确保只有授权人员可查看和操作敏感的销售数据，还可以根据员工职责精细划分权限，比如销售团队只能访问自身业务数据，管理层能获取更全面数据，提升数据使用的合理性和安全性。

引入鉴权ACL之前的查询情况：

引入鉴权ACL后：

绿色部分为SQL改动，通过引入子查询的方式，使用户无权限数据过滤，保证用户鉴权最新状态。

在引入ACL之前，日常销售分析查询就非常复杂、查询量级大。而在SQL加入ACL控制后，采用的是分布式表JOIN，且ACL表子查询返回结果大，进一步导致集群负载恶化，ClickHouse集群CPU使用率长期打满，影响用户体验。

性能恶化核心原因为ClickHouse社区的Scatter/Gather执行模型缺少shuffle的能力，对于多轮join难以很好支持。

下面用一个简单的例子说明Scatter/Gather执行模型下join的原理：

两张分布式表source和to_join（对应local表分别是source_local和to_join_local)数据分布在两个分片上，如下图：

先设置distributed_product_mode = 'allow'，执行join查询：

每个分片节点独立执行子查询SELECT *FROM to_join AS tj，然后在本地做join，最后在接收查询的节点（下文用host server指代）上汇总join结果，如下图所示

最终结果如下：

如果分片数目为N，右表表达式的分布式表to_join在一次join中就会被重复查询N次，导致效率低下。为了解决该问题，我们采用Global Join，或者设置distributed_product_mode='global'，引擎会自动将分布式表的join改写成Global Join。

Global Join的原理是host server先执行带分布式表的子查询，再类似临时表存在内存中，发送到其他的节点，让其他节点join的时不用重复查询该分布式表。这样的优化方式让Global Join效率基本可用了，但还存在如下局限性：

右表的大小影响join效率，如果右表比较大，join的时候cache missing会非常严重，性能很差；
不考虑SPILL的情况下（Graceful hash join可以部分缓解这个问题），右表的必须全部在内存中，容易OOM。
Broadcast右表实现的效率上也有提升空间，比方说右表数据先汇总到host server，再下发到各个节点多了一轮额外的传输和序列化反序列化开销。
多表JOIN，不同的join顺序对性能影响也很大，ClickHouse并没有join reorder的能力，依赖用户手动调优join的表的顺序。

ByteHouse企业版支持优化器和MPP执行模型，可以较好的支持复杂join的场景，并且优化器能力可以进一步提升查询效率，成为该公司销售数据平台从ClickHouse迁移的首选。

优化器是DBMS中一个核心组件，它负责分析查询语句，并根据表的结构、索引等信息来生成最优的执行计划。通过优化查询执行计划，可以提高查询的执行效率，减少资源消耗，提升系统性能。为了提升在复杂场景的查询性能，ByteHouse 的自研优化器进行了大量的优化，主要包括四个大的优化方向：RBO（基于规则的优化能力），CBO（基于代价的优化能力），分布式计划优化以及一些高阶优化能力。

优化器和MPP执行模型原理

开启优化器后，执行模式由原来的Scatter/Gather模型切成了完全MPP模型。整个SQL的执行流程如下图所示（以3节点的集群为例）

PlanSegment：分布式执行计划逻辑单元（QueryPlan+Exchange输入输出）
Optimizer: 根据Rule(RBO)和统计信息（CBO）进行查询计划的优化，生成最终的查询计划PlanSegmentTree.
Scheduler: 发送PlanSegment到各个Worker
Exchange：在Pipeline之间传输数据
PipelineExecutor: 驱动执行PlanSegment

ByteHouse优化器四大优化方向

下面用上一节的例子简单说明：采用之前的SQL

可以看到右表读取完之后通过exchange进行了广播到左表再join（不同于原来模式需要先在host server汇总右表再下发到各个节点）。

如果两个表很大，开启统计信息的情况下，计划如下：

左右表会先shuffle N份（N默认为分片总数/10，可以通过distributed_max_parallel_size参数控制）再进行join，这样单个节点join的时候右表的大小平均是总右表的1/N，内存占用和性能都有很大提升。

开启ByteHouse优化器后，查询计划会有这四类优化：

优化一：RBO：

基于规则的优化能力。支持列裁剪，分区裁剪，表达式简化，子查询解关联，谓词下推，冗余算子消除，外部连接转内部连接，算子下推存储，分布式算子拆分等常见的启发式优化能力。

解关联

很多OLAP引擎不支持相关子查询，在语法分析阶段就会报错。优化器实现了完整的解关联能力，对于关联查询可以转换为常见的 join agg filter 等算子执行，下图就是一个简单的解关联例子。对于一些特殊类型的关联查询也可以利用 window 算子执行，更加快速简洁。

非等值Join优化

在很多引擎中，带有非等值条件的 join 需要通过多个算子来组合执行(inner join + filter + group-by)，而在 ByteHouse 中，支持非等值 join 之后可以直接在 join 算子中完成非等值条件的执行。

优化器会对一些关联子查询转成非等值 join 来执行，相较于转成其他常见的算子（inner join, filter, agg）性能有一倍以上的提升。

优化二：CBO

基于代价的优化能力。基于级联搜索框架，利用Graph分区技术实现了高效的Join枚举算法，以及基于直方图的代价估算，对10表级别规模的Join Reorder问题，能够全量枚举并寻求最优解，同时针对于10表规模的Join Reorder支持启发式枚举并寻求最优解。CBO支持基于规程扩展搜索空间，除了常见的Join Reorder问题以外，还支持外部Join/Join Reorder、Aggregate/Join Reorder、Magic Set Placement等相关优化能力。

优化三：分布式计划优化

业界主流实现分为两个阶段，首先寻求最优的单机版计划，然后将其分布式化。但是这样的设计流程，不能提前考虑分布式系统的特点，可能会导致网络延迟、数据分布不均衡，并导致可扩展性限制等问题。我们的方案则是将这两个阶段融合在一起，在整个 CBO 寻求最优解的过程中，会结合分布式计划的诉求，从代价的角度选择最优的分布式计划，同时在 Join/Aggregate 过程中，也支持 Partition 属性展开。

另外，我们也在 CBO 中实现了对于 Aggregate/Join Reorder，Magic Set Placement 等相关能力。对于 CTE 的实现方式也基于 Cost 进行选择，在 inline，shared 和 partial inline 之间做权衡，选出最优的计划。在 tpcds 等 benchmark 中都有一定的应用。

优化四：高阶优化能力

ByteHouse实现了动态Filter下推、物化视图改写、基于代价的CTE（公共表达式共享）、计划复用、结果复用等高阶优化能力。

最佳实践之“聚合计算加速”

在数据库中，优化器对于聚合计算加速起着关键作用。优化器能够分析查询语句的结构和涉及的数据，评估不同的执行计划。对于聚合计算，它会考虑数据的分布、索引的可用性以及表之间的关系等因素。除了JOIN场景，ByteHouse在聚合计算场景也产生了积极的影响。

多节点并行merge聚合结果

分散/聚集模式在聚集阶段会聚合各个节点局部聚合的中间结果，这时容易遇到单节点的性能和内存瓶颈，其典型的场景是大数据的count distinct。开启ByteHouse优化器后，我们可以使用10%的分片（通过distributed_max_parallel_size参数调整，最大值为集群分片数目）来做最终的聚合操作，实现较好的并行聚合。

优化器会对聚合进行改写优化，提升聚合性能

如果缺少group by key的聚合操作，在没开优化器的情况下，Gather阶段在单机内为单线程聚合（由于缺少group by key无法并行）。ByteHouse优化器能实现进行自动改写，除了多节点并行合并聚合结果，单节点内部也能并行。

下面为tpch的数据（6亿数据的lineitem表）在一个两节点集群测试（最后merge的节点为同一个），SQL如下：

开启优化器耗时从5.913秒下降到了2.263秒。

通过非ACL查询和ACL查询两个方向，我们可以看到查询时间在优化前后有显著提升。其中，在ACL查询中的60M广告客户DI场景中，引入ByteHouse之后将查询效率从16s缩短为秒级，提升了16倍。

非ACL查询

❝
抽取该公司销售平台某数据集测试
❞

ACL查询

❝
抽取该公司销售平台某数据集测试
❞

总结来看，但随着用户使用场景愈加复杂，ByteHouse针对复杂的查询场景，在RBO、CBO、分布式计划等层面进行大量优化，进一步提升了OLAP在各个场景下的查询性能。未来，ByteHouse也将持续为更多企业的数据分析能力提供支持，助推数智化转型升级。

点击左下角阅读原文，了解更多

阅读原文

跳转微信打开

穿着西装的「人」却专做家务？OpenAI 家庭机器人 NEO 登场，动作丝滑逼近人类！｜AGI 掘金资讯

Mon, 02 Sep 2024 13:22:22 +0800

AGI 掘金知识库 2024-09-02 14:01 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 穿着西装的「人」却专做家务？OpenAI 家庭机器人 NEO 登场，动作丝滑逼近人类！

1X Technologies 公司推出了最新的家用机器人 NEO，该机器人外形自然拟人，动作流畅，能够执行多种家务任务。NEO 身高 1.67 米，体重 30 公斤，拥有 20 个自由度的手部，能举起 70 公斤的重量。它采用轻量化设计，动作自然，能与人类进行交互，如打招呼和拥抱。NEO 的机载电机产生的力量接近人体肌肉力密度的 80%，且运行时非常安静。目前，NEO 处于 Beta 测试阶段，公司计划在挪威工厂大规模生产。NEO 的设计注重安全性，能够在家庭环境中安全操作，预计将在未来几年内成为家务机器人的主流。

🔗 英特尔 Gaudi 3 AI 加速器找到了第一个云客户：IBM Cloud

英特尔与 IBM Cloud 宣布合作，IBM Cloud 将于 2025 年初推出基于英特尔 Gaudi 3 AI 加速器的云服务。Gaudi 3 采用 5nm 制程技术，具备 64 个 TPC 和 8 个 MME，支持高达 3.7TB/s 的内存带宽，并集成 24 个 200Gb 以太网端口。英特尔宣称 Gaudi 3 在推理能效和性能上均优于英伟达 H100。IBM Cloud 将利用 Gaudi 3 为客户提供优化的 AI 解决方案，同时计划在 watsonx 平台启用 Gaudi 3，以增强 AI 基础设施资源。此次合作旨在通过开放和协作的生态系统，推动经济实惠且创新的 AI 计算解决方案的发展。

🔗 世界首个 1 亿 token 神级上下文模型诞生，前 OpenAI 大佬加盟获 4.65 亿融资！

Magic 公司开发的 LTM-2-mini AI 模型，上下文窗口达到 1 亿 token，相当于 1000 万行代码，远超现有技术。该模型采用序列维度算法，计算效率比 Llama 3.1 405B 的注意力机制高出约 1000 倍，大幅减少计算和内存需求。团队创新 HashHop 评估体系，提高上下文长度和可靠性。Magic 已获得包括 Eric Schmidt 和红杉资本在内的 4.65 亿美元融资，致力于实现编码和研究的全自动化，推动 AGI 发展。

🔗 谷歌打磨 Gemini AI 技能：扩充支持文件类型、提高文档洞察力

谷歌 GeminiAl AI 进行了重大升级，新增对电子表格、演示文稿、图像、音频和视频等文件类型的支持。用户可以上传电子表格以获得数据分析和趋势洞察，演示文稿可以提取关键信息和视觉元素。图像识别功能可以提取文本和识别对象，音频文件可转录并识别发言者，视频内容解析则能提取对话和关键场景，为教育和内容索引提供便利。这些升级显著增强了 GeminiAl 的文件处理和分析能力。

🔗 阿里通义上新 PPT 创作！PC 端“效率”功能三合一，听读写一站搞定

阿里通义新推出的 PC 端“效率”功能集实时记录、阅读助手和 PPT 创作于一体，旨在提升工作效率。PPT 创作支持一句话主题生成和文件上传，提供丰富模板和智能编排，实现快速制作。实时记录功能支持多语言转文字和智能总结，而阅读助手则能速读多种格式文档并提供全文翻译。这些功能基于通义千问大模型 2.5，优化了理解、逻辑推理和指令遵循能力，支持长文档和多模态输入，为用户提供一站式的信息整理、阅读和创作解决方案。

🔗 讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

科大讯飞推出星火版「Her」AI 助手，支持极速响应和自由打断，具备高情绪价值和逼真的人设表现。该技术通过端到端建模，实现语音到语音的直接转换，减少响应延迟，保留语音中的情感和环境信息。AI 助手能够识别和响应数十种情绪，支持多种方言和风格，提供丰富的交互体验。讯飞的这一创新预示着语音交互技术的突破，将推动智能语音市场的发展，为用户带来更自然、更智能的交流方式。

🔗 用数学方法证明量子纠缠会突然消失！MIT 计算机科学家“无心插柳”提供关键论证

MIT 计算机科学家团队通过数学方法发现，在一定温度值以上，量子纠缠会完全消失，导致基于纠缠的量子计算和通信协议失效。这一发现意味着量子计算机在高温下可能失去其计算优势。此前，学界虽观察到量子纠缠随温度升高而减弱，但缺乏直接证据。该团队的研究提供了全面严谨的数学证明，揭示了量子纠缠“突然死亡”的现象，并指出这一现象与系统中原子间的相互作用有关，而非原子总数。研究结果为量子物理学和量子计算机理论提供了新的视角和理解。

🔗 城市智慧脉络构建者：揭秘高效能 OpenCity 大模型的城市交通新玩法

OpenCity 大模型是城市智慧脉络构建者，通过高效能技术革新城市交通。该模型利用先进的数据处理和分析能力，优化交通流量，减少拥堵，提升出行效率。它通过实时监控和预测交通模式，为城市管理者提供决策支持，同时为市民提供更便捷的出行选择。OpenCity 模型的实施，预示着城市交通管理向智能化、自动化迈进，为城市居民带来更高效、更绿色的出行体验。

🔗 中国科学院开发出基于语义记忆的动态神经网络：相比静态最高减少 48.1% 计算量

中国科学院微电子研究所刘明院士团队联合香港大学和复旦大学的研究人员，开发了一种新型动态神经网络，该网络模仿大脑的动态可重构性，通过关联新旧信息实现动态连接。与静态网络相比，这种网络能根据资源需求调整计算效率和准确性，显著减少计算量和能耗。研究团队利用 TaN/TaOx/Ta/TiN 阻变存储器阵列验证了其设计的有效性，该网络在 ResNet 和 PointNet++框架上表现出色，已在《科学进展》发表，为开发高效人工智能系统提供了新思路。

💫 企业动态

🔗 GPT-4o mini 排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

大模型竞技场更新规则，导致 GPT-4o mini 排名急剧下降。新规则对回答长度和风格进行降权，以更真实反映模型解决问题的能力。奥特曼的 GPT-4o mini 和马斯克的 Grok-2 系列受影响较大，而 Claude 系列和 Llama-3.1-405b 大模型分数上升。Lmsys 通过公开数据和新算法控制风格影响，使榜单更符合实际性能。调整后的榜单更贴近用户主观印象，促进了 AI 领域的整体进步。

🔗 8 秒生成犯罪现场报告，美警使用 AI 工具写文书，竟比人脑回忆还准

美国警察采用 AI 工具 Draft One 辅助撰写犯罪报告，显著提升文书工作效率。该工具由 GPT-4 支持，能迅速将执法记录仪音频转录成报告，减少 82%的撰写时间。尽管受到警务人员欢迎，但存在准确性和偏见问题。AI 报告可能包含错误信息，且种族偏见问题引起关注。Axon 公司通过测试确保不同种族间报告无显著差异，并建议仅用于轻罪报告。技术仍在测试阶段，以确保其在警务工作中的可靠性。

🔗 Perplexity AI 搜索测试 PPLX 支付系统：网购仅需点 2 下

Perplexity AI 正在测试其内部支付系统 PPLX，该系统在 Discover 信息流中展示产品卡，提供产品摘要和“通过 PPLX 购买”选项。用户可以通过点击两次按钮轻松完成购物，无需跳转至第三方支付页面。这种模式类似于联盟营销，Perplexity 通过引导用户购买产品赚取佣金。用户首次点击购买按钮时需填写支付信息，之后便可快速完成交易。Perplexity 成立于 2022 年 8 月，获得了 OpenAI、Meta 等投资，专注于利用 AI 技术打造无广告搜索体验。

🔗 白领的噩梦？这家瑞典支付巨头计划裁员一半：靠 AI 便可维系

瑞典支付公司 Klarna 宣布，为提高效率，计划将员工人数从 3800 人减少至 2000 人，通过采用人工智能技术来完成客户服务和营销等任务。公司首席执行官 Sebastian Siemiatkowski 认为，AI 技术将使公司能够用更少的资源完成更多的工作，同时提高员工收入水平。尽管裁员可能带来失业率上升，但 Siemiatkowski 表示，这是政府而非企业需要关注的问题。Klarna 的这一战略转型可能是其即将进行的 IPO 的关键卖点，公司目前正筹备上市，预计估值在 150 亿至 200 亿美元之间。

🔗 红杉美国对话 Sierra 联合创始人 Clay Bavor：B2B AI Agent 如何做到 PMF 以及客户满意？

Sierra 是一家专注于企业解决方案的 AI 初创公司，由 OpenAI 现任董事会主席 Bret Taylor 和 Clay Bavor 共同创立。Clay Bavor 曾在谷歌工作 18 年，负责 AR/VR 项目等。Sierra 采用基于结果的定价模式，即客户仅在问题解决后支付费用，确保公司与客户利益一致。Clay Bavor 在对话中分享了 AI 技术的最新动态，讨论了 AI Agent 在客户服务中的潜力，以及如何通过模拟经验丰富的员工来提升服务质量和效率。他还预测了未来五年 AI 技术的发展趋势，包括全自动化的电影制作和创意实现过程的加速。Sierra 的 Agent OS 提供了一个工具包和运行时环境，用于构建工业级别的 AI Agent，通过集成不同的模型和工具，提高 AI 在实际应用中的可靠性和安全性。

✨ 行业观点

🔗 米哈游蔡浩宇发布爆款言论，新 AI 公司曝光：挖 Llama 3 科学家坐镇大模型

米哈游创始人蔡浩宇认为 AIGC 将彻底改变游戏开发，未来游戏创造将只属于顶尖团队和业余爱好者。他参与创建的 AI 公司 Anuttacon 汇集了多位行业大牛，包括计算机图形学专家童欣和大模型研究负责人吴箫剑。Anuttacon 旨在利用 AI 技术为游戏玩家创造前所未有的体验，突破互动娱乐的界限。蔡浩宇的言论和 Anuttacon 的成立预示着 AI 技术在游戏行业的深远影响。

🔗 AI 行业风光背后：80% 项目会失败，5 大原因导致

美国 RAND Corporation 的报告指出，AI 行业 80%的项目以失败告终，造成数十亿美元损失。报告通过访谈 65 位 AI/ML 模型构建者，揭示了五大失败原因：投资错位、数据不足、盲目追新、算力缺乏以及 AI 产品定位不切实际。这些因素共同作用，导致项目无法解决实际问题，最终难以实现预期目标。

🔗 Anthropic 创始人 Dario Amodei：关于护城河与风险，AI 大多数情况很难直接替代人

Anthropic 创始人 Dario Amodei 与科技投资人 Erik Torenberg 对话，讨论 AI 安全性、全球竞争和行业监管。Amodei 认为 AI 系统可控性高，强调监管应避免过度，支持威慑机制管理 AI 风险。他指出 AI 可能加剧经济不平等，但通过政策和监管可实现技术红利普惠。Amodei 还讨论了 AI 公司护城河问题，提出在 AI 模型规模扩大的情况下，可能形成寡头垄断市场。他预测 AI 将改变工作方式，但人类与 AI 的比较优势将持续存在。最后，他强调了 AI 技术在国家安全中的重要性，以及中美在 AI 领域的竞争态势。

🔗 执教 10 年 46 枚美国 IMO 金牌！罗博深：不看好 AI 教育，不建议 AI 辅助学数学

前美国奥数总教练罗博深认为，AI 教育并非数学学习的必要工具。他强调，教育应注重培养独立思考和解决问题的能力，而非依赖 AI。罗博深提倡传统教育方法，鼓励学生通过创造性方式解决问题。他通过 LIVE 项目，让高中生为小学生授课，同时接受表演训练，旨在提高学生的表达和共情能力。该项目不仅提升学生的数学兴趣，还培养了他们的领导力和影响力，为未来的学术和职业生涯打下基础。罗博深的目标是培养关心人类、能对社会产生积极影响的人才。

🔗 晋江文学城痛批“部分博主偷取多部知名小说喂 AI”：无耻嚣张的侵权行为

晋江文学城官方微博发文，强烈谴责部分博主使用平台小说训练 AI 生成文字内容的行为。这些博主在小红书平台宣传 AI 制作文字的方法，分解作品内容生成 AI 文字，严重侵犯了作者权益。晋江文学城法务已向小红书发函维权，要求删除侵权内容，并将持续关注和对抗此类侵权行为。同时，晋江文学城也表达了对 AI 拼凑文字内容行为的坚决抵制态度，强调将维护作者权益，反对窃取智慧成果的行为。

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开

横扫四大赛道，火山引擎斩获 MSU 世界视频编码器大赛“最佳ASIC编码器”

Fri, 30 Aug 2024 14:30:46 +0800

多媒体实验室 2024-08-30 14:35 重庆

火山引擎自研视频转码芯片的 BVE1.2 编码器首次亮相，获得多项指标第一，及全部参赛H.265/HEVC编码器中所有指标第一，并斩获所有四个赛道“最佳ASIC编码器”称号。

MSU世界编码器大赛由莫斯科国立大学（MSU）举办，是视频编码领域极具影响力的国际赛事，比赛采用「SSIM、PSNR、VMAF」等多个评价指标对全球范围内参赛的软硬件编码器进行多维度的评估和排名，已成功举办18届。

2024年硬件编码器赛道竞争激烈，吸引了各大科技巨头参赛，包括腾讯、Streamlake、Netint、Intel、英伟达、AMD等。火山引擎自研视频转码芯片的「BVE1.2编码器」首次亮相，全面参与1080p@30fps、1080p@60fps、1080p@120fps、和1080p@240fps 四个子赛道，获得多项指标第一，及全部参赛H.265/HEVC编码器中所有指标第一，并斩获所有四个赛道“「最佳ASIC编码器」”称号。

在所有的四个赛道中，BVE1.2是表现最好的ASIC编码器，不仅表现出「优异的编码性能」，同时「吞吐率」大幅度领先同类产品。在高吞吐1080p@240fps赛道中，BVE1.2包揽了所有四项质量指标的第一，并且保持显著的领先幅度 (Fig1)。在1080p@30fps、1080p@60fps、以及1080p120fps 赛道上，BVE1.2是最好的H.265/HEVC编码器（仅次于基于最新一代标准的H.266/VVC编码器），同时相比于压缩性能前三的其他编码器吞吐性能也有非常明显的优势 (Fig2)。

「Fig1.BVE1以及其他codecs的overall quality比较(赛道240 fps)」

「Fig2.BVE1.2、Streamlake-200、Netint Quadra以及changhaiV2 吞吐率比较」

比赛结果不仅证明了BVE1.2编码器能同时实现高吞吐和高质量的双重优势，适应多种不同的编码场景，能够同时兼顾画质、延迟、及成本，带给用户更好的视觉体验。

为了加强在视频编码领域的竞争力，字节跳动在核心技术上不断加大投入，从2019年就开始启动自研硬件编码器研发，目前自研硬件编码器包含FPGA编码器（过去两年都参加了MSU编码器大赛并荣获“最佳FPGA编码器”）和ASIC编码器，覆盖场景从图片到视频，在各个场景下都展现了更极致的压缩效率，并进一步探索具备高压缩率、灵活性、高吞吐率、多标准兼容的未来编码器架构。结果表明，硬件编码器的各项指标不仅在MSU比赛中表现优秀，更在互联网视频方面，进一步扩大了领先优势，火山引擎视频转码芯片集成了视频编解码、视频分析、视频前处理、主观优化、内容自适应编码等关键技术，适用于各种业务场景，包含静图、动图、短视频、长视频、视频直播、视频会议、云游戏等，并通过火山引擎服务外部客户。

当前，直播和短视频迅速增长，导致带宽成本显著增加。火山引擎视频转码芯片以其高编码质量和高密度特性，单卡支持120路 1080p30fps 编码和“一进多出”转码模式。相比通用CPU平台上的软件编码方案，在达到同样的视频压缩效率前提下，拥有几十倍以上的成本优势，同时提供行业领先的编码质量，并支持画质增强，显著降低带宽成本以及计算成本。为满足不同业务及视频应用场景的需求，火山引擎视频转码芯片还提供ABR、CBR、CRF、VBV 等多种码控方案，及low latency模式等。

火山引擎自研芯片及系统可大规模节省IDC机房中视频类应用的成本和能耗，不仅能大幅降低客户的视频类应用成本，还能获得更好的视频主观及客观质量。字节跳动一直致力于推动技术创新和研发，不断提升产品的技术水平和用户体验，在视频编码领域持续突破。

关于火山引擎多媒体实验室：

火山引擎多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎是字节跳动旗下的云服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业，提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务，帮助企业在数字化升级中实现持续增长。

欢迎更多小伙伴加入，共同探索多媒体前沿技术！

跳转微信打开

谷歌推世界首个 AI 游戏引擎，2000 亿游戏产业恐颠覆！0 代码生成游戏，老黄预言成真｜AGI 掘金资讯

Fri, 30 Aug 2024 14:30:46 +0800

AGI 掘金知识库 2024-08-30 14:35 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 谷歌推世界首个 AI 游戏引擎，2000 亿游戏产业恐颠覆！0 代码生成游戏，老黄预言成真

谷歌研究者推出 AI 游戏引擎 GameNGen，能实时生成逼真的游戏画面，无需编码即可创造游戏。该技术在模拟《毁灭战士》时显示了高画质和实时交互能力，预示着游戏开发成本和时间的大幅降低，同时为小型工作室和个人创作者提供了创造复杂互动体验的可能性。GameNGen 的诞生不仅可能重塑游戏产业格局，还为虚拟现实、自动驾驶等行业带来变革潜力，尽管仍面临算力和通用性挑战。

🔗 全国首个上手机的 AI 视频通话来了！《黑神话：悟空》经文也能破译

智谱 AI 最新推出了全国首个手机 AI 视频通话功能，该功能不仅能够破译《黑神话：悟空》中的经文，还能辅导作业、翻译、检查食品保质期等。AI 视频通话的实现，标志着智谱 AI 在交互方式上的重大突破，使得 AI 能够通过摄像头理解用户所看到的世界。此外，智谱 AI 还升级了其基座大模型 GLM-4-Plus，增强了语言文本和图像视频理解能力，进一步推动了大模型技术的前沿发展。

🔗 阿里通义千问推出 Qwen2-VL，代码、视频、多语种全能选手登场

阿里云 Qwen 团队推出了 Qwen2-VL 视觉大模型，具备图像和视频理解、复杂推理决策能力，支持多语言文本识别。模型包含 2B、7B 和 72B 版本，其中 2B 和 7B 版本已开源，授权协议为 Apache 2.0。Qwen2-VL 在多个视觉理解基准测试中达到先进水平，能够处理长视频内容，并可集成到移动设备和机器人中进行自动操作。相关资源和社区链接已提供以供深入了解。

🔗 人人都能玩得起 AI 机器人！HuggingFace 开源低成本解决方案

HuggingFace 推出了低成本 AI 机器人 LeRobot，由前特斯拉工程师 Remi Cadene 领导开发。LeRobot 基于 Koch v1.1 机器人套件，包含两个六电机机械臂，支持使用摄像头作为视觉传感器。项目提供全部开源硬件和软件资源，包括训练控制程序和 AI 模型，使得个人可以自行组装并训练机器人。LeRobot 的单个机械臂成本约 200 美元，未来计划推出更经济的 Moss v1 版本，定价 150 美元。项目旨在推动 AI 机器人技术普及，让更多人能够体验和开发自己的 AI 机器人。

🔗 国内⾸款私⼈ AI 健康管理师“健康小美”正式发布，美年健康与华为云、润达医疗合作研发

美年健康、华为云和润达医疗联合推出了国内首款 AI 健康管理师“健康小美”，提供 24 小时 1 对 1 的个性化健康管理服务。该产品利用大模型技术和医疗大数据，能够识别并理解医疗数据，提供专业精准的健康分析和疾病风险预测。结合用户健康档案和生活习惯，"健康小美"可提供定制化的健康干预措施和就医指导，实现全天候健康咨询和多模态交互的健康管理新体验。

🔗 中国科学院、阿里云发布首个月球专业大模型，撞击坑年代判别准确率超 80%

中国科学院地球化学研究所和阿里云在 2024 数博会上发布了国际首个月球科学多模态专业大模型。该模型基于阿里云通义系列模型，通过视觉、多模态及自然语言技术，在月球撞击坑年代和形态判别上达到超过 80%的准确率。模型的应用极大提升了月球地质研究的效率，可从多种数据中识别撞击坑特征，并回答相关问题。未来，该模型将嵌入数字月球云平台，助力月球与行星科研创新。

🔗 书生・天际 3.0 实景三维大模型开源发布：城市级 100 平方公里全范围实时渲染，VR 可用

上海人工智能实验室发布的书生·天际 3.0 实景三维大模型，通过技术创新，实现了渲染效率的 6 倍提升并支持 VR 设备应用。模型支持全尺度场景的 3D 建模，从单个物体到城市场景，提供逼真立体的呈现。新系统 LandMarkSystem 兼容多种算法和硬件，优化实时渲染能力。书生·天际 3.0 的开源代码和算法，为城市规划、文旅、游戏开发等领域带来广阔应用前景。

🔗 最强端侧开源 AI 模型 Zamba2-mini 登场：12 亿参数，4bit 量化下内存占用小于 700MB

Zamba2-mini 是 Zyphra 推出的端侧开源 AI 模型，具有 12 亿参数，采用 4bit 量化技术，内存占用控制在 700MB 以下。该模型在推理任务中表现出色，与更大模型相比，首次令牌时间减半，内存占用减少 27%。Zamba2-mini 通过高度优化的架构和双层共享注意力层设计，实现了高质量输出和高计算效率。其预训练基于三万亿个 token 的庞大数据集，并在 Apache 2.0 许可下开源。

💫 企业动态

🔗 谷歌将借助升级版 Imagen 3 重新开放 Gemini 生成人物图像功能，此前因争议暂停

谷歌子公司Gemini计划重新启用升级后的Imagen 3 AI技术来生成人物图像。此前因争议而暂停的功能，此次将引入新的图像质量标准和多样性保护机制，避免历史问题重现。新模型将首先向付费用户提供，同时推出SynthID工具以区分AI图像，公司承诺将根据用户反馈持续优化。

🔗 国产 AI 硬件 NotePin 出海狂揽 20 万用户，1200 元买一个 GPT-4o 吊坠

国内 AI 硬件公司深圳机智连接科技推出可穿戴 AI 设备 NotePin，售价 169 美元，续航 20 小时，支持 59 种语言转录和摘要生成。配备 MEMS 麦克风和 AI 技术，支持端到端加密，保障用户隐私。NotePin 定位生产力工具，旨在记录和整理日常生活与工作，由许高领导的公司开发，此前 AI 硬件 Plaud 已获 20 万用户。

🔗 一年翻，OpenAI 称 ChatGPT 周活跃用户超 2 亿，92%财富 500 强公司使用

OpenAI 宣布其 AI 聊天机器人 ChatGPT 周活跃用户数已超 2 亿，一年内翻倍。92%的财富 500 强公司采用其产品，自 7 月 18 日发布成本更低、性能更优的 GPT-4o mini 模型后，自动化 API 使用量翻倍。CEO 奥特曼强调，ChatGPT 在医疗、教育等领域发挥重要作用，帮助完成日常任务、解决问题和激发创造力。尽管面临微软、谷歌、Meta 等巨头的竞争，OpenAI 依旧保持行业领先地位。同时，Meta 的 Llama 模型使用量亦见显著增长。

🔗 OpenAI 和 Anthropic 同意将模型发送给美国政府进行安全评估

OpenAI 和 Anthropic 与美国国家标准与技术研究院下属的人工智能安全研究所签订协议，共同推进 AI 模型的安全研究和评估。此举旨在制定负责任的 AI 规则，确保技术安全、可靠。尽管美国人工智能安全研究所的行政命令并非法律，但合作被视为 AI 安全领域的重要里程碑，有助于塑造全球 AI 安全标准。尽管存在对"安全"定义模糊和缺乏明确规定的担忧，该协议仍被看作是向正确方向迈出的一步。

🔗 利用 AI 技术制造谣言，一男子被厦门警方依法采取刑事强制措施

湖北籍男子任某（32 岁）因在社交媒体发布 AI 合成的虚假视频，通过夸张标题和内容吸引流量并获利，被厦门警方以涉嫌寻衅滋事罪采取刑事强制措施。任某利用写作 APP 和 AI 技术生成虚假文章和图片，制作视频误导公众，警方提醒网民保持警惕，不轻信未经证实的信息，同时将加强打击网络谣言。

🔗 2024 三星开发者大会将于 10 月 3 日在美国加州举行，聚焦 AI 创新

三星 One UI 7.0 操作系统预计将于 2024 年 10 月发布，届时将在三星开发者大会上展示其新功能。该版本基于 Android 15，将为超过 50 款 Galaxy 设备带来更新，包括改进的蓝牙 Auracast、NFC 功能，以及全新的 UI 设计和动画。One UI 7.0 还计划优化电池寿命，引入 App Lock 功能和垂直应用抽屉，提升用户操作体验。此外，三星还可能增强 Bixby、Galaxy AI 等生态系统功能，为用户带来更智能、更安全的手机使用体验。

🔗 用户反馈 Claude AI 聊天机器人愈发“慵懒”，官方回应未做调整

科技媒体 The Decoder 报道，Anthropic 公司旗下的 Claude AI 聊天机器人被用户反馈变得“慵懒”，在基础编程任务上表现不佳。Reddit 社区中，用户 NextgenAITrading 的帖子获得了广泛关注。对此，Anthropic 公司回应称，经过调查未发现普遍问题，并确认未对 Claude 3.5 Sonnet 模型或推理管道进行修改。此前，OpenAI 的 ChatGPT 也曾面临类似“变懒”的反馈。

✨ 行业观点

🔗 Omdia：2029 年 AI 数据中心芯片需求将达 1510 亿美元，但 2026 年后增长将大幅放缓

Omdia 报告预测，AI 数据中心芯片需求将从 2022 年的不足 100 亿美元激增至 2029 年的 1510 亿美元。但预计 2026 年后市场增速将显著下降。当前市场增长主要由技术采纳推动，未来增长动力将转向 AI 应用需求变化。超大规模企业定制芯片，如谷歌 TPU，开始抢占 GPU 市场份额。AI 模型规模自 2021 年以来未见显著增长，创新转向多样化小型模型，预示着 AI 基础设施投资可能面临挑战。推理需求的增长将推动推理基础设施的扩展。

🔗 AI+Companion 分享回顾：a16z 榜单中陪伴产品整体更加集中靠前，国内出海产品迭代频次更高，运营与变现能力更强

8 月 23 日在上海举办的“AI+陪伴”交流会上，有新 Newin 创始人 Tim 分享了 AI 陪伴产品的最新市场观察。a16z 榜单显示，陪伴类产品排名上升，使用时长和移动访问比例超过 ChatGPT。国内产品在产品能力和商业化方面表现强劲，如 Talkie 的 ARPU 和更新频次远超 C.ai。投资者青睐具有差异化和个性化的 AI 陪伴产品。驰星创投和观庐科技分别从投资和产品角度，探讨了 AI 陪伴产品的商业潜力和人文价值，强调了数据资产和数字分身在陪伴赛道的重要性。

🔗 张宏江：我对于 AI 和大模型八点观察和看法 | AI 光年

张宏江博士在《AI 光年》栏目中分享了对 AI 大模型的八点观察，包括大模型的规模定律、计算中心的转移、操作系统角色、应用前景、模型大小选择、投资机会、多模态模型对 AGI 的重要性以及其对机器人的赋能。他预见大模型将成为新一代操作系统，推动软件重写和生态构建，同时强调多模态大模型在实现通用人工智能（AGI）和自主智能世界中的关键作用。

🔗 逛完世界机器人大会，投资人说再也不想投人形机器人了

在 2024 年世界机器人大会上，尽管人形机器人成为焦点，但一位长期关注该领域的投资人表示不再考虑投资。原因是目前人形机器人在工业和家用场景中表现不够突出，与现有自动化解决方案相比缺乏明显优势。尽管机器人在机械性能上有所差异，但在软件层面难以形成突破，泛化能力不足。此外，人形机器人的量产和进厂更多是为了收集数据，而非真正的工业化应用。尽管存在怀疑，但技术发展是逐步的，人形机器人的真正成熟仍需时间。

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开

惊喜大奖放送 | 字节豆包MarsCode编程助手体验和邀新有礼中

Thu, 29 Aug 2024 13:20:38 +0800

2024-08-29 14:01 重庆

豆包MarsCode 始终致力于用 AI 激发创造，帮助开发者“ Mar 力”全开，一起在豆包MarsCode 中寻找散落的“ Mar 力”。

为了让更多同行者加入我们，共同探索编程世界中的无限可能性，豆包MarsCode 特此推出「寻找散落的Mar力」邀请助力计划（点击链接参与：https://sourl.co/4Fauuu）。

邀请自己的朋友登录并体验豆包MarsCode 即可获取火星值，凭对应火星值可获取 🎁4090显卡、金条、肯德基代金券和京东卡等丰厚奖品！

活动对象

所有豆包MarsCode 登录用户

活动时间

2024年8月28日 - 2024年9月28日

活动规则

方式一：使用豆包MarsCode，赢火星值🌟

完成豆包MarsCode 登录；
在本地 IDE 安装豆包MarsCode 编程助手，并完成一次 AI 问答对话。

完成以上步骤，可获得火星值*1。

注：此方式每位用户仅限使用一次。

方式二：邀请新伙伴，再赚火星值🌟

分享您的专属邀请链接给同事或朋友。
被邀请人通过该链接完成登录，并在本地开发环境中完成一次与 AI 的互动对话。

每成功邀请一位新用户，可获得火星值*1。

注：“豆包MarsCode新用户” 指未在豆包MarsCode 注册过的用户；每位新用户仅限为一位老用户增加一次火星值。

积分兑换

活动期间，用户在获得对应奖品的积分后可兑换对应奖品；在满足奖品兑换条件的情况下，即可兑换任意数量的奖品。

注：4090显卡与金条均限量一个，先到先得。

不卷排名！

把 AI 传递给所有的开发者！

💡重要提示：

请确保遵守活动规则，任何作弊行为（如使用虚假账户、刷单等）都将导致取消活动资格。
我们保留对活动解释权及根据实际情况调整活动规则的权利。

每一次敲击代码

都是在编织未来

豆包MarsCode

用 AI 助力编码，激发创造

期待您参与邀请助力活动

与我们一起“ Mar 力”全开！

点击左下角阅读原文，了解详情

阅读原文

跳转微信打开

硬件领域挤进新巨头！AI 图像生成公司 Midjourney 携手苹果前高管有大动作｜AGI 掘金资讯

Thu, 29 Aug 2024 13:20:38 +0800

AGI 掘金知识库 2024-08-29 14:01 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 330亿参数！中国石油联合中国移动、华为、科大讯飞推出昆仑AI大模型

由中国石油与中国移动、华为和科大讯飞牵头合作，即将发布330亿参数的昆仑大模型。这是中国能源化工行业首个通过国家备案的AI大模型。该模型采用创新四层架构，支持专业领域数据建模，具备统筹管理、建设标准制定及开放共享能力，推动智能化发展。模型包括不同参数规模的语言、视觉和专业大模型，满足多样化业务需求，如知识问答、概念理解、视觉理解等，助力行业数字化转型。

🔗 智能 AI 电话客服 Bland AI 宣布获得1600 万美元 A 轮融资，可自动接打客户电话

Bland AI 是一家人工智能电话客服平台，专注于为企业创建和管理智能电话代理，以自动化处理客户支持、销售和预约等任务。该公司最近宣布获得1600万美元A轮融资，由Scale Venture Partners领投，总融资额达2200万美元。Bland AI 的平台支持定制化设置，能够与任何系统集成，并提供详细的呼叫分析和工具定制服务。其技术亮点包括自主开发的Conversational Pathways编程语言和语音技术，以及全面的可观察性和分析能力。该平台旨在提高企业效率，降低运营成本，同时改善客户体验。

🔗 ChatGPT应用更新：支持“@”功能，实现模型无缝切换

科技媒体testingcatalog报道，安卓版和macOS版的ChatGPT AI应用新增了Mentions功能，用户可通过输入"@"字符来选择并调用不同的定制GPT模型，实现在对话中的无缝切换。这一功能使得用户能够在保持聊天上下文的同时，与多个专门的AI模型互动，每个模型提供独特的功能以丰富对话内容。目前，iOS平台的ChatGPT尚未支持此功能。

🔗 日赚13亿的英伟达市值一夜蒸发10000亿

英伟达在2025年第二财季实现了显著的营收和利润增长，营收达300亿美元，同比增长122%，净利润同比增长168%，均超市场预期。数据中心业务营收263亿美元，同比增长154%，成为主要收入来源。游戏业务也同比增长16%。尽管业绩强劲，股价在财报公布后却下跌超过8%，可能因市场对第三财季营收增长放缓的担忧。英伟达宣布500亿美元的股票回购计划以稳定股价。公司数据中心芯片需求激增，新一代AI芯片Blackwell性能大幅提升，尽管面临生产挑战，但预计第四财季将有重大硬件出货。英伟达的芯片广泛应用于生成式AI，如ChatGPT，其技术在AI基准测试中表现卓越。

🔗 港大EasyRec推荐系统：零样本文本推荐性能超越OpenAI、Bert

香港大学研发的EasyRec推荐系统通过结合语言模型的语义理解和协同过滤技术，在零样本学习场景下显著提升了推荐性能。该系统不依赖用户和商品的ID，而是利用用户和商品的文本描述生成语义嵌入，实现个性化推荐。EasyRec采用多层双向Transformer架构，通过自注意力机制全面理解上下文，生成高质量的文本嵌入。模型训练采用对比学习方法，优化编码特征空间，并通过文本掩码-重构损失提高语义理解能力。EasyRec在多数据集上表现出色，不仅在零样本推荐能力上超越了BERT、RoBERTa等通用语言模型，还能快速适应用户偏好的动态变化，展现了在推荐系统领域的强大潜力和应用前景。

🔗 世界最大芯片助力，Cerebras Inference推理速度狂飙20倍，英伟达H100被超越

Cerebras Systems推出了全球最快的AI推理架构Cerebras Inference，其速度是英伟达H100 GPU的20倍，运行Llama3.1 8B模型时速率可达1800 token/s。这一突破得益于Cerebras自研的第三代芯片WSE-3，拥有44GB SRAM和21PB/s的内存带宽，解决了内存带宽限制。Cerebras Inference不仅速度快，还保持了16位权重的高精度，同时提供极具竞争力的价格，Llama 3.1 8B每百万token仅10美分。此外，Cerebras Inference支持大规模部署，未来将支持更大参数模型，并为开发者提供免费token体验。尽管上下文长度为8K，低于其他平台，但其速度和性价比为AI推理领域带来显著变革。

💫 企业动态

🔗 硬件领域挤进新巨头！AI 图像生成公司 Midjourney 携手苹果前高管有大动作

AI 图像生成公司 Midjourney 宣布拓展至硬件领域，并已邀请苹果前硬件经理 Ahmad Abbas 加盟，担任硬件部门负责人。尽管具体产品细节尚未公布，但公司表示有多个项目正在进行，暗示未来将有多样化的硬件形态。Midjourney 创始人 David Holz 拥有丰富的硬件背景，此次进军硬件领域备受业界期待。

🔗 OpenAI估值超1000亿美元，新一轮融资在即

OpenAI的估值飙升至1000亿美元以上，成为全球估值最高的AI初创公司。尽管公司内部经历了动荡，包括高层离职和财务亏损，但新一轮的融资谈判正在进行中，兴盛资本可能领投10亿美元，微软也可能参与。OpenAI的年化收入超过34亿美元，但预计年底将面临50亿美元的亏损。公司在AI模型训练和人员配备上已投入85亿美元。此外，OpenAI的神秘项目Converge 2旨在支持AI领域的创业公司，一些初创公司已经获得了资助。随着新模型“草莓”和“猎户座”预计在秋季发布，OpenAI的估值和市场地位有望进一步巩固。

🔗 马斯克AI公司xAI被指未经许可使用燃气涡轮机，污染空气质量

马斯克的 AI 初创公司 xAI 因在田纳西州孟菲斯市的数据中心使用燃气涡轮机而受到环保和健康倡导者的批评。该公司被指控在未获得必要的空气许可证的情况下使用近 20 台燃气涡轮机，总容量约 100 兆瓦，这些涡轮机的运行可能加剧了当地的空气污染问题。南方环境法律中心已向相关部门发信，要求核实情况并采取执法行动。马斯克此前宣称该数据中心为“世界上最强大的 AI 训练集群”，并计划在年底前训练出世界上最强大的 AI。xAI 初创公司由马斯克创立，目前估值超过 240 亿美元，是 OpenAI、谷歌和 Anthropic 的竞争对手，并已推出 Grok 2 系列语言模型。

✨ 行业观点

🔗 GenAI投资带来显著回报：谷歌调查显示企业平均收入增长6%

根据Google Cloud与National Research Group的联合调查，86%的企业在使用生成式人工智能（GenAI）后实现了至少6%的收入增长。这项技术不仅被视为一项新技术，更是业务转型的关键驱动力。调查显示，74%的企业在一年内获得了投资回报，其中生产力提升45%，63%的企业认为GenAI推动了业务增长。用户体验和企业安全也因GenAI得到显著改善。然而，Upwork的研究表明，员工层面对人工智能的适应存在挑战，许多员工感到压力和倦怠，因为他们没有得到足够的培训来利用这些工具。谷歌建议企业领导层应提供全面战略，重视员工培训和参与，以平衡人工智能带来的效益和员工的实际需求。

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开

有奖征集｜人人都是豆包MarsCode测评官！AirPods Pro！机械键盘、音响等你来拿

Wed, 28 Aug 2024 15:13:11 +0800

2024-08-28 15:20 重庆

豆包MarsCode ，基于豆包大模型的智能开发工具，提供 Cloud IDE 及 AI 编程助手两种使用形态，具备代码补全、智能问答、代码解释和代码修复等多项功能，原生的AI能力，让编程变得更加智能化和便捷化。

「豆包MarsCode，基于豆包大模型的智能开发工具」，提供 Cloud IDE 及 AI 编程助手两种使用形态，具备代码补全、智能问答、代码解释和代码修复等多项功能，原生的AI能力，让编程变得更加智能化和便捷化。豆包MarsCode IDE 提供开箱即用的线上开发环境，用户随时随地打开浏览器就能快速进行项目开发。AI 编程助手兼容支持Visual Studio Code、JetBrains IDEs等主流编程工具，支持100+种编程语言。

「❤️ 这次征文不同于之前，除了在掘金平台，也鼓励大家发布到其他内容社区哦！发布的渠道越多，更有机会得到征文大奖～」

✍️ 征文主题

「豆包MarsCode编程助手（即插件）原理解读、实用功能解读」
针对开发者、泛AI好者、潜在用户关心的豆包MarsCode编程助手产品能力、应用场景、业务价值、技术原理、新手操作指引等深度介绍、思考和产品解读。

举例：

功能体验：介绍豆包MarsCode编程助手的安装方法、使用方法、功能特点等
场景实践：展示你如何使用豆包MarsCode编程助手的各功能辅助项目学习、需求开发或代码优化，功能包括但不限于代码补全、代码优化、bug修复、单测生成、AI问答等

「豆包MarsCode编程助手（即插件）功能测评」
基于豆包MarsCode编程助手在项目中的应用背景，解决的问题，以及如何提升工作效率。

举例：

应用创新：展示你如何将豆包MarsCode编程助手用于创新项目开发，让AI激发创造，实现创意落地
使用感受：分享你使用豆包MarsCode编程助手的感受

「豆包MarsCode编程助手（即插件）开发建议、工具使用建议」
基于现有的豆包MarsCode编程助手功能，未来可以在哪方面进行优化。

举例：

功能建议：基于现有的豆包MarsCode编程助手功能，未来可以在哪方面进行优化

⏰ 征文时间

投稿时间：8月23日-9月27日

内容评审：9月28-9月29日

奖项公布：9月30日

✍️ 投稿方式

第一步：仅限豆包MarsCode编程助手体验

进入豆包MarsCode官方网站 https://sourl.cn/yWAtYr 「登陆/注册」账号
点击【立即获取编程助手】下载对应插件
安装豆包MarsCode编程助手

第二步：发布体验内容

「🌟注：本次测评征文活动不限制发布平台，」 可在稀土掘金社区内「发布完成后」同步内容到其他内容社区 「、如同步到知乎、公众号、B站、小红书、视频号、抖音、CSDN、微博等，发布成功后将链接补充到👉 点此填写问卷发布渠道越多获奖机会越大哦！」（https://bytedance.larkoffice.com/share/base/form/shrcnGVzOOjY5tK9v2O1aDIeUxh）

掘金发布规则：结合自己的体验在稀土掘金官网 juejin.cn/ 发表文章，分类选择不限，「标签和创作话题」选择「“豆包MarsCode”」，且在文章首或尾句带下 「“本文正在参加豆包MarsCode测评官征文活动”」 即可

文章可同步提交到「沸点」话题中，会更容易被官方看见～

【重要】其他平台发布规则（不限体裁）：内容话题需要带上「#豆包MarsCode」，且@当前平台的官方账号 「（即@豆包MarsCode）」 其他平台内容可以使用图文、视频、文字等。例：在掘金站内发布相应测评文章后，提炼其中亮点+视频可以同步发布至b站或小红书。我们本次鼓励大家可以把测评的一些过程通过视频记录下来，发布到视频号、小红书、b站、抖音等平台

🏆 征文奖励&规则

评分标准

「多渠道发布用户请务必将其他平台发布链接提交至问卷，发布越多获奖机会越大哦：【点此提交】（https://bytedance.larkoffice.com/share/base/form/shrcnGVzOOjY5tK9v2O1aDIeUxh）
按照单篇文章进行评选，单人可入选不同类型的奖项，即奖项叠加；
内容刷赞、刷阅读量等作弊行为将直接取消所有获奖资格；
最终符合标准的内容不满足当前奖项预定名额，将按照实际获奖用户发放；
注意未添加在掘金" 「#豆包MarsCode」"标签下的文章无法被活动统计，后果自负。

奖品激励

加群交流

如有任何问题请私信 「稀土君」 或扫描二维码进群咨询征文运营皮皮

点击阅读原文，了解详情

阅读原文

跳转微信打开

Karpathy 都看呆了！8 岁女孩玩转 AI 编程，45 分钟打造聊天机器人｜AGI 掘金资讯

Wed, 28 Aug 2024 15:13:11 +0800

AGI 掘金知识库 2024-08-28 15:20 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 Karpathy 都看呆了！8 岁女孩玩转 AI 编程，45 分钟打造聊天机器人

8 岁女孩使用 AI 代码编辑器 Cursor，在 45 分钟内成功构建聊天机器人，引起广泛关注。Cursor 由 Anysphere 公司开发，背后有 OpenAI 和 Anthropic 等支持。该工具通过 AI 模型如 GPT-4 和 Claude 3.5 Sonnet，简化编程流程，实现代码自动生成和审查。其创新功能如光标位置预测和多行编辑，极大提升编程效率。Anysphere 公司因此获得高估值和显著用户增长，预示着 AI 编程工具的广阔前景。

🔗 SuperCraft：草图秒变成品图像，Figma 与 ComfyUI 的完美结合

SuperCraft 是一款结合了 Figma 和 ComfyUI 特点的创新工具，专为产品经理和设计师设计。它通过 AI 技术将草图快速转化为逼真的产品图像，并支持 3D 模型自动生成，允许用户从不同角度审视设计。用户可以通过调整提示词来微调设计细节，如风格、功能等，实现个性化设计。SuperCraft 还支持实时协作，让团队成员能够共同在一个画布上创作和讨论，极大提升了设计工作的效率和创意性。

🔗 最强开源，媲美可灵？智谱 AI 发布 50 亿参数 CogVideoX-5B 模型

智谱 AI 推出 50 亿参数的 CogVideoX-5B 视频模型，采用三维融合 transformer 架构和 3D VAE 技术，有效提升视频生成质量和效率。模型支持文生视频和图生视频，能在 10G 显存设备上运行，包括 RTX3060 和 GTX1080Ti。此外，通过插帧和像素放大技术，可进一步提高视频帧率和分辨率。项目源代码和演示可在 GitHub 和 Hugging Face Space 访问。

🔗 Anthropic 向所有 Claude 用户开放超强大模型可视化功能 Artifacts

Anthropic 公司宣布其大模型可视化工具 Artifacts 对所有用户免费开放。用户可以在 iOS 和 Android 应用上创建和查看 Artifacts，实现与 Claude 对话的即时可视化，提高代码编写、故事创作和文章撰写的效率。此外，Artifacts 支持多人协作，便于团队成员共享想法和追踪贡献。该工具还适用于产品经理、设计师、营销人员和销售团队，简化了产品开发流程。

🔗 融资千万美元的顶级 AI 写作工具 Napkin——告别 PPT 轻松把想法可视化

Napkin 是一款由前谷歌成员创立的 AI 写作工具，它通过将文字转化为流程图、图表等可视化结构，显著提升文章的易读性。用户可以通过白板或 AI 辅助起稿开始，选择文本后一键生成多种模板，并进行个性化编辑。Napkin 还提供丰富的图片和图标库，支持将作品保存为图片分享至社交媒体。尽管目前对中文支持有限，但其强大的用户体验和功能已受到广泛关注。

🔗 《inZOI》能否挑战《模拟人生》霸主地位？超精致模拟游戏，捏人乐趣无穷

韩国 KRAFTON 开发的游戏《inZOI》以其逼真的 3D 世界和细致的角色自定义系统，提供了一个贴近东亚审美的模拟人生体验。游戏采用 Unreal Engine 5 技术，玩家可从婴儿到成人体验不同生活阶段，包括职业选择、社交活动等。独特的名声系统和梦境系统为玩家带来新的挑战。《inZOI》预计将推出角色自定义试玩版，为模拟游戏领域带来新的变革。

🔗 吴恩达开发新模型让公众来“给地球降温”

人工智能先驱吴恩达推出了“Planet Parasol”模拟器，让公众通过调整参数模拟太阳能地球工程对气候变化的影响。该工具基于简化的气候模型，允许用户选择不同排放场景和气溶胶释放量，预测至 2100 年的全球变暖趋势。尽管模型简化，它提供了对太阳能地球工程潜在影响的直观理解，并强调了人工智能在气候研究中的应用潜力。然而，工具未能涵盖所有潜在的负面后果和社会问题，如臭氧层破坏和区域降雨模式改变等，开发者计划根据用户反馈不断改进。

🔗 防止黑客重建人脸，浙大&阿里人脸隐私保护新方案

浙江大学与阿里安全部合作开发了一种名为 FaceObfuscator 的人脸隐私保护技术，旨在防止人脸数据泄露后被恶意重构还原。该技术通过在客户端删除图像中的冗余视觉信息并引入随机性干扰，有效抵御重构攻击，同时保持人脸识别的准确性。FaceObfuscator 轻量级，具有高精度识别、高效率运行和强隐私保护的特点，适用于多种人脸识别场景，为安防、金融等行业提供隐私安全保障。

💫 企业动态

🔗 曝 OpenAI 神秘模型「草莓」秋季推出，ChatGPT 或迎来今年最重大升级

OpenAI 计划秋季推出名为「草莓」的新模型，这将是 ChatGPT 今年最重大的升级。该模型在复杂推理能力上取得突破，引发 AI 伦理和安全讨论。同时，Ilya Sutskever 离开 OpenAI，创立「安全超级智能」公司，专注于 AI 安全。这一变动和「草莓」模型的推出，预示着 AI 技术的新发展和行业对未来 AI 应用的期待。

🔗 苹果官宣 9 月 9 日举办 iPhone16 发布会！标语为 Glowtime，暗示重新设计的 Siri 界面

苹果公司宣布将于 9 月 9 日举行发布会，推出 iPhone 16 系列。预计新款 iPhone 将配备更大屏幕和新相机功能，Apple Watch Series 10 将更薄且屏幕更大。同时，苹果将推出新的 AirPods 版本，包括首次在中端型号上提供降噪功能。此外，苹果计划在 Mac 上使用 M4 处理器，并可能在发布会后不久推出重新设计的 Siri 界面。

🔗 智谱 AI 宣布 GLM-4-Flash 大模型免费开放

智谱 AI 最新推出的 GLM-4-Flash 大模型已免费开放，支持 26 种语言，适合快速响应任务和多轮对话等。该模型具备网页浏览、函数调用和长文本推理能力，生成速度高达每秒 115 个字符，适用于客户服务、内容生成和数据分析等领域。用户可通过智谱 AI 平台注册、获取 API Key 并进行环境准备，利用一键微调工具定制化模型，满足不同业务需求。

🔗 OpenAI 内部大清洗，AGI 安全团队半数出走，现在还招人调查自家员工

据《Fortune》报道，专注于超级人工智能长期风险的 OpenAI 安全团队近期遭遇重大人员流失，近半数成员在过去几个月选择离职。这一变动可能对公司在人工智能安全领域的研究和发展产生影响，同时也引发了对公司内部管理和战略方向的疑问。目前，OpenAI 正在招募新成员以填补空缺，并进行内部调查，以了解离职潮背后的原因。

🔗 连 Llama3 都坐冷板凳，市场正在抛弃开源模型？

开源 AI 大模型 Llama3 遭遇市场冷遇，其下载量和企业使用率大幅下降。受限的开源性，即仅开放参数和接口而未开放核心算法和数据，导致开发者难以进行有效迭代开发。同时，开源模型在安全性、资源消耗和性能上存在问题，与闭源模型相比，商业应用和企业服务市场更倾向于后者。专家预测，随着 Llama3 的持续遇冷，大模型的开源与闭源之争或将得出明确结论，市场可能更偏向闭源模型。

🔗 小扎突发公开信！Facebook 深陷选举公案，马斯克在线嘲讽

Meta CEO 小扎在公开信中承认，Facebook 曾因拜登政府施压而审查 COVID-19 相关内容，并对 Hunter Biden 的“邮件门”事件进行热度降低。此举被马斯克视为对宪法第一修正案的侵犯。小扎表示遗憾，并强调未来将抵抗类似压力。同时，Facebook 更新了内部措施，不再因等待事实核查而降低内容优先级。此外，小扎宣布不再为本次选举捐赠，以保持中立性。这封信在大选前引发广泛关注，加剧了对社交媒体内容审查的争议。

🔗 大厂围堵 AI 创业曝「死亡名单」，前谷歌大佬出走几乎无一幸免！

近期，多家由前谷歌员工创立的 AI 初创公司面临被大科技公司收购的命运。这些公司虽然在技术上取得突破，但在商业化、管理结构和资金方面遭遇挑战。谷歌等大公司提供的支持对这些初创企业至关重要，而投资者对 AI 领域的投资变得更加谨慎。硅谷内部的科技巨头对这些拥有 AI 模型研发能力的初创公司表现出浓厚兴趣，预示着未来可能有更多的收购案例发生。

✨ 行业观点

🔗 KDD 2024 中国队闪耀登场！AI 巨头齐聚，专题研讨亮点全总结

KDD 2024 大会在巴塞罗那举行，中国队以清华大学、中国人民大学、阿里巴巴等为代表的学术和企业团队表现突出，展示了在数据挖掘、知识发现等领域的创新成果。松鼠 Ai 等中国企业在教育和金融等行业的 AI 应用受到关注，松鼠 Ai 在自适应教育领域的研究成果尤其引人注目，其 4 篇论文、2 个研讨会和 1 个教程被收录，彰显了中国在 AI 教育领域的领先地位。

🔗 陶哲轩：AI 时代，数学研究将进入前所未有的规模

陶哲轩在演讲中探讨了 AI 如何推动数学研究进入新纪元。他指出，借助 AI，未来数学研究将能同时处理大量问题，规模前所未有。从毕达哥拉斯三元组到开普勒猜想，机器在数学证明中的作用日益凸显。机器学习、大模型等技术在数学领域的应用，正在帮助数学家发现新的联系和解决问题的方法。陶哲轩还分享了自己使用 AI 工具辅助研究的经验，展示了 AI 作为灵感来源和辅助证明的潜力。尽管 AI 在数学研究中的应用仍处于初级阶段，但其发展前景广阔，预示着数学研究方式的根本变革。

🔗 马斯克力挺！OpenAI 强烈反对，加州 AI 安全法案争议不断

加州 SB 1047 人工智能安全法案旨在为高风险 AI 模型设立安全准则，防止滥用。法案自提出以来备受争议，马斯克支持该法案，而 OpenAI 则持反对态度，担心其损害创新。法案起草者与反对者就监管必要性及潜在影响展开辩论。同时，AB 3211 法案要求 AI 内容明确标记，获得科技巨头支持。两个法案反映了 AI 技术监管的全球关注和探索，科技公司和研究者的积极参与对制定合理政策至关重要。

🔗 大脑存在内部“世界模型”，快速眼动睡眠期间就会运行

加州大学旧金山分校的神经科学家发现，在快速眼动（REM）睡眠期间，大脑会运行内部"世界模型"模拟与外界交互。实验显示，即使无实际运动，大脑亦模拟运动指令，上丘和丘脑前背侧核活动与清醒状态相似。这表明大脑可能在 REM 睡眠中通过内部模型模拟动作及其结果，有助于认知模式的模拟或重现，可能是梦境和创造性思维的基础。

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开

Kubernetes RBAC 最佳安全实践

Tue, 27 Aug 2024 14:15:41 +0800

韦伟、李昌昊 2024-08-27 14:31 重庆

本文将通过实际案例与示例介绍由 RBAC 管理不当可能导致的安全风险，然后为大家介绍 RBAC 安全开发的最佳安全实践，以及我们在字节跳动内部的安全治理实践和经验。

Kubernetes 是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。它提供了丰富的功能，如服务发现、负载均衡、自动缩放等。随着 Kubernetes 在云原生领域的广泛应用，「有效管理谁可以对 Kubernetes 集群执行何种操作变得至关重要」。本文将简要介绍 Kubernetes的认证与授权体系以及RBAC授权原理。通过实际案例展示RBAC管理不当可能导致的安全风险，然后向大家分享RBAC安全研发与运维的最佳实践，以及我们在字节跳动内部的安全防护和治理经验。

❝
如果您对相关背景知识比较了解，可直接跳转到“RBAC 安全风险剖析”、“RBAC 安全研发与运维最佳实践” 章节阅读。
❞

本章节将对 Kubernetes 的认证和授权体系进行概述，了解这些机制的原理有助于理解不同场景下集群权限的安全风险。特别是那些能够被轻易利用的未授权访问漏洞，以及那些容易被忽视的权限提升与横向移动攻击风险。

Kubernetes 认证与授权体系

Kubernetes 的认证与授权体系主要用于满足对关键服务 API（API Server、Kubelet Server）的访问控制。在经过多年的发展后，Kubernetes 已经实现了一套比较完善的认证与授权机制，可以满足用户大多数场景的使用需求。

「API Server」

Kubernetes 是一个以容器技术为基础，以声明式 API Server 为核心的分布式容器编排系统。Kubernetes 几乎所有的功能都通过 API Server 对外暴露。而 API Server 支持了多种认证机制，内置了多种授权模式和准入控制器，允许用户根据需要灵活配置和使用。

简单来说，当一个用户访问 Kubernetes 的 API Server 时，API Server 会使用启用的认证器依次对请求进行身份认证，API Server 使用第一个成功认证的身份来标识请求者；然后再使用启用的授权器依次对请求进行授权策略的检查，当有任意一个授权器显式地允许、拒绝一个请求时，则立刻返回当前授权结果（如果没有授权器显式地授权，那么请求也将被拒绝）。除此之外，在 API Server 真正处理请求前，它还会使用启用的准入控制器对请求进一步变异和验证。只有所有的准入控制器都验证通过后，请求才会被真正处理。

❝
注意：API Server 不保证认证器和准入控制器的执行顺序，但会按照授权模式的配置顺序进行鉴权。
❞

「Kubelet Server」

Kubernetes 中还有一个非常重要的组件，那就是 Kubelet。它充当了分布式系统中的 Agent 角色，并使用节点专属的用户证书访问 API Server，管理节点上的资源。但 Kubelet 自身也会作为服务端，对外提供服务。从而实现在容器内执行命令、获取指标信息、容器日志、宿主机日志等功能。

Kubernetes 也为 Kubelet Server 提供了多种认证和授权模式。值得一提的是其中的 webhook 认证和 webhook 授权，它们本质上是向 API Server 发送 TokenReview 和 SubjectAccessReview 请求，对客户端的身份进行认证与授权。

「小结」

Kubernetes 为 API Server 和 Kubelet Server 支持了多种认证机制、授权机制、准入控制器，以及灵活的自定义接口。这些机制虽然能够满足各种用户需求，但也给用户带来了困扰。因为如果不了解这些机制的原理和负面影响，就很容易为集群引入安全风险和入侵检测盲点。特别是那些能够被轻易利用的未授权访问漏洞，以及那些容易被忽视的提权与横向移动攻击风险。

请参见附录和参考文献，了解更多 API Server 和 Kubelet Server 的认证、授权、准入控制的技术细节。

Kubernetes RBAC 授权原理

RBAC 是 Kubernetes 默认启用的授权机制，也是 Kubernetes 核心组件所使用的授权机制。用户在使用集群时，往往需要使用 RBAC 授权机制来为其用户账号授权，以便部署、运维工作负载及所需的各种资源。各类云原生应用的 Operator、Controller 往往也需要利用 RBAC 授权机制来为其服务账户授权，以确保它们能够访问必要的资源，从而实现其功能。

下面的示意图展示了用户账号和服务账号访问 API Server 时的认证、授权、准入控制过程。

在 Kubernetes 的 RBAC 授权体系中，引入了以下几种概念：

「Subject」

在 Kubernetes 环境中有三类 Subject 可以被授予 RBAC 角色权限。

「Rule」

用于在 Role, ClusterRole 内部定义具体权限，每一个 rule 都可以通过 apiGroups, resources, resourcesName, verbs, nonResourceURLs 来定义允许对什么资源（API 组，资源类型，资源名称）执行什么操作（动词）。

注意：rule中的apiGroups, resources, resourcesNames, verbs, nonResourceURLs 支持使用通配符

「Role & ClusterRole」

Role 用来定义当前命名空间范围内资源的角色，它通过 Rules 显式地定义权限。
ClusterRole 用来定义集群范围内资源的角色，它通过 Rules 显式地定义权限。

「Role & ClusterRoleBinding」

RoleBinding 将某个 ClusterRole 或当前命名空间中的某个 Role 绑定到 subjects，使 subjects 获得当前命名空间中的 ClusterRole、Role所定义的角色权限，例如可以在命名空间 A 中创建 RoleBinding，将命名空间 A 中的 Role 与命名空间 B 中的 ServiceAccount 绑定。那么命名空间 B 中的 ServiceAccount 将获得命名空间 A 中的 Role 定义的权限。
ClusterRoleBinding 将某个 ClusterRole 绑定到 subjects，使 subjects 获得 ClusterRole 所定义的角色权限。

由以上可知，Role 和 ClusterRole 内的 rules 代表一系列显式授予的权限，遵从 Deny-by-Default 安全模型。由于不支持 "deny" 规则，因而不支持显式的排除某些权限。

这一特点使得某些应用场景无法利用 RBAC 授权机制实现：在授予所有已知、未知 CRD 资源操作权限的同时，显式地排除某些敏感权限。但我们可以借助 ABAC、Webhook 授权模式，结合准入控制器来为此类场景的服务账号进行权限管理，从而缓解这类问题。

下面是一个通过 RBAC 授权机制为 ServiceAccount 绑定权限的示例：

apiVersion: rbac.authorization.k8s.io/v1kind: ClusterRolemetadata:  name: example-clusterrole  namespace: example-nsrules:- apiGroups:  - apps  resources:  - daemonsets  - deployments  - replicasets  - statefulsets  resourcesNames:  - test  verbs:  - '*'- nonResourceURLs:  - /healthz  - /healthz/*  verbs:  - get---apiVersion: rbac.authorization.k8s.io/v1kind: RoleBindingmetadata:  name: example-rolebinding  namespace: example-nsroleRef:  apiGroup: rbac.authorization.k8s.io  kind: ClusterRole  name: example-clusterrolesubjects:- kind: ServiceAccount  name: example-sa  namespace: example-ns

Kubernetes 是一个分布式的容器编排系统。除了要确保 Kubernetes 基础组件的配置安全（例如 API Server、Kubelet Server 基本的认证授权配置等，对应 CIS Kubernetes Benchmark 中的第一至第四章中的要求）外，我们还需要对其 RBAC 授权配置进行精细化管理。

正确的授予主体 RBAC 权限能够避免为集群引入不必要的稳定性 & 安全性风险，而不恰当的权限设置可能导致敏感数据泄露、资源滥用、权限提升，甚至威胁整个集群的安全。接下来我们将借助文献和案例来进一步说明其安全风险。

概述

在 Kubernetes 中，可以通过对资源的操作来实现信息窃取、权限提升、横向移动等攻击。例如可以利用 pods/exec 资源的 create 权限通过 API Server 在指定容器内执行任意命令，也可以利用 nodes/proxy 资源的 create 权限直接访问 Kubelet Server 在指定容器内执行任意命令，还可以利用 pods 的 create 权限创建具有安全风险的容器、利用 pods 的 patch 权限在指定 Pod 的容器内执行代码......「随着 Kubernetes 的广泛使用，此类风险在云厂商、PaaS平台、云原生应用、SaaS产品中愈演愈烈，轻则被用于后渗透入侵，重则会给产品引入安全漏洞。」

Palo Alto Networks 的安全研究员深入分析了 Kubernetes 中的所有敏感权限，并根据其危害类型将其分类和分级[2]（严重等级请参考开源项目 rbac-police 的风险权限扫描策略集[3]）。如下图所示，在这些敏感权限中，有许多都可以被攻击者用于信息泄漏、权限提升、横向移动等攻击，最终实现整个集群的接管。

Palo Alto Networks 的研究结果表明，在针对主流公有云、CNI 厂商的分析中，有将近 50% 的厂商存在容器逃逸后轻易导致集群沦陷的安全问题。另外有 25% 的厂商存在容器逃逸后在一定条件下导致集群沦陷的安全风险[2]。

公开案例

RBAC Buster：来自 Aqua Sec 的研究者通过蜜罐首次捕获到利用 Kubernetes 的 RBAC 配置漏洞进行攻击的行为，黑客通过创建后门访问集群，导致未授权访问和数据泄露的风险。详见 First-Ever Attack Leveraging Kubernetes RBAC to Backdoor Clusters[5]
Sys:All：研究团队 The Orca Research Pod 扫描了 250,000 个 GKE 集群（约总数的 2%），发现其中 1300 个集群存在错误配置的角色绑定，其中有 108 个集群允许攻击者使用任何有效的谷歌帐号接管集群。详见：How A Simple Loophole in Google Kubernetes Engine Puts Clusters at Risk of Compromise[6] & GCP-2024-003 security-bulletins[7]
在 OWASP Kubernetes Top 10 安全风险中，RBAC 配置错误导致的“权限过多”问题排名第三，可能引发未授权操作和权限提升。详见 OWASP Kubernetes Top 10[8]

风险示例

下面的示例演示了攻击者可以利用任意 secrets 的 create 权限，来获取了包含敏感权限的 ServiceAccount（这里以窃取 prometheus-agent SA 的 token 为例）的 token。对此，我们建议使用专用命名空间中的 Role 来定义所需权限，从而与 kube-system 等敏感命名空间隔离。

下面的示例演示了攻击者可以利用任意 secrets 的 get 权限，来爆破获取保存 SA token 的 secrets。虽然爆破 SA token 需要较长时间（爆破一个拥有 5 个随机字符串的 SA token 最多需要 27^5 次），但此权限也可能被用于窃取其他已知名称的 secrets 资源。对此，我们建议使用 Role 定义角色，或者通过 resourceNames 对 secrets 的权限范围进行约束，而非授予全部命名空间中任意 secrets 的 get 权限。

以上数据和案例表明，Kubernetes RBAC 权限管理已成为一个必须认真对待并及时采取有效防御措施的安全问题。

基于我们在字节跳动内部的安全实践，我们为 RBAC 授权配置总结了如下原则，以指引大家进行 Kubernetes RBAC 权限管理，从而降低由此为集群引入的安全风险。

遵循最小权限原则

在 RBAC 角色中分配权限时，请遵循最小权限原则授予执行任务所需的最低权限。例如：

优先使用 Role, RoleBinding 授予一个、多个特定命名空间中的权限。
定义 rule 时，使用明确的 apiGroups, resources, verbs 以及 resourceNames 来限定权限范围。

❝
注意：
如果设置了 resourceNames 字段，那么请求权限不能是 list、watch、create、deletecollection，否则请求将不会被允许（「当使用 resourceNames 限制 list、watch 权限范围时，客户端必须在请求参数中指定 fieldSelector=metadata.name%3D{RESOURCENAME} 用于通过授权」）。但当 resourceNames 字段中包含 "" 时，将允许 list 请求。
虽然 RBAC 授权模式不支持通过 resourceNames 来约束 create、deletecollection 权限，但仍然建议通过 resourceNames 来约束 update、patch、get 等权限。
❞

RBAC 权限最小化不应被视作“非黑即白”，哪怕组件的某些敏感权限无法收敛，最小化权限仍然对降低风险、增加入侵检测的机率有重要作用。

避免使用默认角色/用户/用户组

一般情况下，Kubernetes 和基于 Kubernetes 的 PaaS 平台会自动将一些默认角色绑定到默认用户和用户组，以保证系统的正常运行。如需查看 Kubernetes 创建的默认角色和绑定的完整列表，请参阅 Default roles and role bindings。

常见的默认角色有：cluster-admin, system:node, system:controller:daemon-set-controller ...
常见的系统用户有：system:anonymous, system:kube-controller-manager, system:kube-scheduler, system:kube-proxy, system:serviceaccounts:NAMESPACE:default ...
常见的系统用户组：system:unauthenticated, system:authenticated, system:serviceaccounts, system:nodes, system:monitoring, system:masters ...

大部分默认角色（例如 cluster-admin, edit, system:node 等）都会被授予较广泛的权限。因此，我们「不建议」将默认角色绑定到服务账号，除非您知道并接受由此带来的安全风险。用户可以根据实际需要将其绑定到用户账号上。

除此之外，我们「应当避免」为系统用户（例如 system:anonymous, system:serviceaccounts:NAMESPACE:default 等）、系统用户组（例如 system:authenticated, system:serviceaccounts 等）绑定额外的角色，这会导致权限的非预期扩散，引入严重的安全风险。

避免为 default 服务账号授予权限

在附录 1 的“准入控制机制”一节中，我们提到了默认启用的 ServiceAccount 准入控制器。创建 Pod 时如果未指定 ServiceAccount，那么 ServiceAccount 准入控制器会将命名空间内名为 default 的 ServiceAccount 分配给 Pod。

因此，我们「应当避免」为 default 服务账号授予权限，这会导致非预期的权限泄露。

尽量避免使用通配符

* 字符是一个适用于所有内容的通配符，「应尽量避免」在规则中使用通配符。这容易造成授权范围过大，除非您明确知晓并接受此行为可能引入的安全风险。建议您在 RBAC 规则中明确指定 API 组（apiGroups）、资源（resources）、动词（verbs），甚至是资源名称（resourceNames）。

例如，在 verbs 字段中指定 * 将授予 get、list、watch、patch、update、deletecollection 和 delete 等权限。下表举例说明了如何避免在规则中使用通配符。

尽量避免使用敏感权限

设计角色前，请先仔细评估存在权限提升、命令执行、信息泄漏等安全风险的权限。例如 secrets 的操作权限、证书签发权限、pods/exec 访问权限等，更多请参考 Kubernetes RBAC - privilege escalation risks[9] 和风险权限扫描策略集[3]。

为应用服务、控制组件授予敏感权限会给整个集群引入安全风险。在系统设计和开发时，「应尽量避免」使用它们，并配合其他手段进行安全编排、安全加固和入侵检测。

尽量使用单独规则对特定资源授予权限

规划规则时，建议您尝试以下简要步骤，在每个角色中采用更高效、可读、易于维护的规则设计[4]：

为主体需要访问的每项资源上的动词草拟单独的 RBAC 规则。
草拟规则后，分析规则，以检查多条规则是否具有相同的 verbs 列表。将这些规则合并为一条规则。
请将其余的所有规则彼此分散。

这种方法可实现更有条理的规则设计，将对多个资源授予相同动词的规则组合起来，将为资源授予不同动词的规则彼此分散[4]。

例如，如果您的工作负载需要获取 deployments 资源的权限，但需要 daemonsets 资源的 list 和 watch 权限，则您应该在创建角色是使用单独规则。当您将 RBAC 角色绑定到工作负载时，该角色将无法对 deployments 资源进行 watch 操作[4]。

再举一例，如果您的工作负载需要 pods 资源和 daemonsets 资源的 get 和 watch 权限，您可以将它们组合成一条规则，因为工作负载需要在这两个资源上使用相同的动词[4]。

在下表中，这两种规则设计均有效，但拆分规则会根据需要更精细地限制资源访问权限[4]。

安全编排与其它

有些场景下，业务需求可能与安全要求产生冲突。例如一些应用必需某些敏感权限才可以正常运行或提供必要功能。对此，我们建议您考虑采取以下安全编排、纵深防御策略来尽量降低风险。

❝
注意：如果您的组件是 DaemonSet 类型且必需某些敏感权限，我们强烈建议您对其进行重构或缓解（例如通过webhook准入控制器进行校验等）。否则当出现节点沦陷的事件时，整个集群都将遭受威胁。
❞

「使用专用命名空间」

如果应用仅需命名空间范围内的权限，那么我们「强烈建议」将其部署在专用命名空间中，而非 kube-system 命名空间、default 命名空间、业务负载所在的命名空间，从而避免不必要的权限扩散。

例如某控制组件的 SA 会被授予所在命名空间 secrets 的 list & watch 权限用于维护 ssl 密钥对。我们可以将其部署在专用命名空间（而非 kube-system 命名空间、业务负载所在的命名空间）来降低 SA token 泄漏后的能够带来的安全风险。

如果应用需要所有全局范围内的敏感权限，那么「不建议」将其部署在 default 命名空间、业务负载所在的命名空间，从而避免潜在的权限扩散。

「制定特殊调度策略」

如果某些组件需要全局范围内的敏感权限，那么「建议」制定合适的调度策略（通过节点污点、准入控制策略等确保调度策略不会被绕过），将此类组件强制调度到专用节点池或使用弹性容器部署组件，从而实现将包含敏感权限的控制组件与业务负载分离。避免业务负载所在节点沦陷后，敏感权限 SA token 泄漏带来的安全风险。

「单独部署敏感组件」

您也可以将需要敏感权限的组件部署到独立的控制面，从而解决此类安全风险。

「建设纵深防御」

在实际业务场景中，不是所有的敏感权限都能够被消除。尤其是那些风险等级较高，但业务又强依赖的权限。因此，除权限最小化、安全编排外，我们强烈建议您引入主机、Kubernetes 层面的威胁管理与入侵检测能力。从而及时发现并管理风险，告警并响应潜在的入侵行为。

在许多企业中，往往会因为安全意识不足、云原生安全建设开展较晚、使用开源云原生应用等原因，已经为系统引入了大量 RBAC 权限风险。但由于涉及基础设施，并且缺乏相应的知识和手段，针对这类风险的防护和治理往往充满挑战。接下来笔者将向大家介绍我们在字节跳动内部的一些经验和实践，抛砖引玉供大家参考。

整体思路

通过公开案例和红蓝演练等方式，向研发团队展示 K8s RBAC 错误配置对生产环境安全性和稳定性造成的危害。与 DevOps 团队在风险认知上达成一致，从而自上而下对齐治理目标。在开展治理工作前，应根据企业的实际情况制定合理的计划。同时，安全团队应提供治理所需的知识库、工具和系统，与 Ops 团队构建合适的治理流程，以确保治理工作顺利推进。此外，安全团队还应持续加强反入侵能力建设，为 K8s RBAC 等安全风险提供兜底保障。

制定计划

制定切实可行的计划，以及提供必要的工具与系统，是收敛 K8s RBAC 安全风险的重要前提和保障。

「数据驱动」

我们建议以数据驱动的方式开展防护和治理工作。通过持续的安全扫描来识别风险、评估风险严重性、明确优先级。通过定位风险引入的原因，来定位责任人和卡点，从而对症下药。

❝
需要指出的是，虽然“RBAC 安全风险剖析”一章已经指出 Kubernetes 中有大量权限存在安全风险，但面对各种场景和现实因素，我们很可能无法要求业务避免使用所有的敏感权限。这需要我们在安全防护与业务需求之间取得平衡。
❞

「明确优先级」

我们结合 RBAC 风险权限的可利用性、严重等级，以及影响范围等，将其划分成五个优先级（风险权限及其安全扫描策略请参考风险权限扫描策略集[3]），以此来推进 K8s RBAC 的权限评估和治理。在完成风险评估和治理前后，我们还需借助入侵检测等机制来进行持续监控与兜底。

「增量管控 & 存量整改」

通过在企业的 PaaS 平台、K8s 集群内集成准入控制机制，以此来实现增量管控。建议提供必要的白名单机制，为无法立刻整改的应用进行临时豁免。然后根据定期扫描结果来推动责任人进行存量组件的整改、灰度测试、全量更新。

防护与治理框架

在字节内部，我们构建了如下图所示的安全防护和治理框架，并推进了权限治理工作。

在开发与集成阶段，我们借助最佳安全实践来指导研发部门进行安全的 RBAC 权限设计和开发。并在部分 CI/CD 流水线中集成了安全扫描，对存在危险 RBAC 配置的 chart 产物进行拦截、告警和记录。

在部署阶段，我们通过与 PaaS 平台集成的准入控制机制、K8s 准入控制器来对非法的应用和资源进行增量管控。并指导关键业务通过安全编排等手段来降低具有敏感权限的控制组件的安全风险。这里我们基于开源项目 Kyverno 的策略引擎，实现了 Policy as Code。从而在流水线安全扫描、准入控制中实现策略兼容，降低了安全策略的维护成本。

在运行阶段，我们通过定期扫描（基于开源项目 rbac-police）来持续识别风险。此外，我们还设计实现了针对服务账号和用户账号的行为建模能力。此能力基于账户行为来生成最小权限的角色定义，为组件的权限收敛提供参考。由于不是所有的敏感权限都能得到整改，因此，在实践中我们会基于 K8s 的审计日志进行入侵检测，从而发现潜在的攻击行为。

通过以上机制，我们构建了针对 K8s RBAC 安全风险的防护和治理框架，为字节内部大规模生产集群的 RBAC 安全治理和防护提供了必要能力。

RBAC 是 Kubernetes 中的一项重要的授权机制，正确地配置 RBAC 对于保障基于 Kubernetes 的系统安全至关重要。在设计中，我们应遵循最小权限原则进行权限设计，并理解敏感权限的安全风险，为其引入必要的防护能力。在开发中，我们要注意避免过度授权、权限混乱等问题。在安全防护和运营中，我们还要平衡安全要求和业务需求，持续收敛安全风险，建立纵深防御体系。

希望本文能让大家更好地理解 Kubernetes 的权限体系，了解 RBAC 授权模式的安全风险和最佳安全实践，从而指导系统的安全设计、开发和防护，最终构建更加安全可靠的系统。

https://kubernetes.io/docs/reference/access-authn-authz
https://www.paloaltonetworks.com/apps/pan/public/downloadResource?pagePath=/content/pan/en_US/resources/whitepapers/kubernetes-privilege-escalation-excessive-permissions-in-popular-platforms
https://github.com/PaloAltoNetworks/rbac-police/tree/main/lib
https://cloud.google.com/kubernetes-engine/docs/best-practices/rbac
https://www.aquasec.com/blog/leveraging-kubernetes-rbac-to-backdoor-clusters
https://orca.security/resources/blog/sys-all-google-kubernetes-engine-risk
https://cloud.google.com/kubernetes-engine/security-bulletins#gcp-2024-003
https://owasp.org/www-project-kubernetes-top-ten
https://kubernetes.io/docs/concepts/security/rbac-good-practices/#privilege-escalation-risks

「通过“容器安全防护平台”审计K8s RBAC错误配置」

火山引擎容器安全防护平台的“RBAC洞察”功能支持定期自动扫描 K8s RBAC 错误配置，帮助您高效收敛攻击面。

同时支持自定义审计规则，满足企业个性化风险治理诉求。

Kubernetes 是一个以容器技术为基础，以声明式 API Server 为核心的分布式容器编排系统。作为 Kubernetes 对外服务的唯一接口，API Server 具备多种认证、授权、准入控制机制。

认证机制

认证器将对请求者进行身份识别，识别出对应的 Username, Groups, UID, Extra fields。所有认证通过的用户都会位于 system:authenticated 用户组中。

❝
注意：当用户使用 AlwaysAllow 以外的授权器时，将默认开启匿名访问。认证失败的用户将位于 system:unauthenticated 用户组，其 Username 则为 system:anonymous。
❞

Kubernetes 支持多种认证机制，可用于不同场景下的客户端身份认证。

「证书认证」

UserAccount 使用 x509 客户端证书访问 API Server 时，API Server 会使用 CA 证书对其进行身份认证。如果认证通过，则使用 Common Name 作为 Username，使用 Organization 作为 Group。

Kubernetes 还支持用户配置 Authenticating Proxy，可以使用独立的 CA 对符合请求头条件的请求进行身份认证。更多请参见 authenticating proxy。

「Token 认证」

Static Token：Kubernetes 允许用户通过 API Server 的 --token-auth-file 参数来设置一个保存用户信息和 token 的 csv 文件。由于 token 无法动态吊销，因此不鼓励用户使用。
Bootstrap Token：这是一类特殊的 bearer token，被用于创建新集群、在集群中添加新节点时，为节点 Kubelet 签发证书。
ServiceAccount Token：这是一类特殊的 bearer token，它使用 JSON Web Token (JWT) 作为令牌格式，主要用于容器内应用与 API Server 通信时进行身份认证。当开启 ServiceAccount 准入控制器后，默认情况下 API Server 会为 Pod 自动创建并关联 ServiceAccount 并将 token 挂载到容器内。虽然 ServiceAccount Token 可以用于从集群外访问 API Server，但从安全角度不建议这样使用，这会给安全管理、审计与监控引入风险。
Webhook Token：Kubernetes 还支持用户配置 webhook 认证来扩展认证能力。即通过向远程 webhook server 发送 TokenReview 认证请求来验证 bearer token。
OpenID Connect Tokens：Kubernetes 支持使用 OIDC 来进行用户和服务账户的身份认证。OIDC 是一个基于 OAuth 2.0 协议的身份验证层，允许用户使用外部身份提供商进行身份验证。OIDC 也使用 JSON Web Tokens (JWT) 作为令牌格式。主流公有云提供商的容器托管服务，例如 EKS，GKE，AKS 均支持使用 OIDC 进行身份认证。

授权机制

Node 授权模式：此授权模式仅用于对 Kubelet 的账号进行授权，它基于调度到所在节点的 pods 为 Kubelet 授予相关权限，从而确保 Pod 能够正常运行。所有 Kubelet 账号的用户名格式为system:node:[NODE_NAME]，并且都位于 system:nodes 用户组。
RBAC 授权模式：此授权模式可基于用户角色对 Kubernetes 内资源进行细粒度访问控制。Kubernetes 的一大特点是将底层基础设施及其关系抽象为不同类型的资源对象，并通过声明式 API 暴露出来。而 RBAC 则是被广泛使用的授权模式，它允许用户通过管理 rbac.authorization.k8s.io API 组内资源对象的方式来进行灵活的权限管理。更多请参见“Kubernetes RBAC 授权原理”一章。
ABAC 授权模式：此授权模式提供了基于属性的访问控制 (ABAC) 机制，允许用户通过结合属性的策略向用户授予资源的访问权限。用户需要以 JSON 形式定义访问控制策略，并且每次更新策略都需要重启 API Server，因而不常使用。
Webhook 授权模式：此授权模式支持用户配置 Webhook Server 来扩展 Kubernetes 的授权能力。
AlwaysAllow 授权模式：此授权模式将允许所有的用户请求。

❝
注意：当开启 API Server 的 --anonymous-auth=true 后，匿名用户也可以访问 Kubernetes 的所有资源。
❞

AlwaysDeny 授权模式：此授权模式将拦截所有的用户请求。

准入控制机制

Kubernetes 内置了大量准入控制器，它们可以在 API Server 处理 create, delete, modify 请求之前，对请求进行变异（Mutating）、验证（Validating），从而实现强制修改资源、访问控制等功能。Kubernetes 内置了如下准入控制器：

AlwaysAdmit, AlwaysDeny, AlwaysPullImages, CertificateApproval, CertificateSigning, CertificateSubjectRestriction, ClusterTrustBundleAttest, DefaultIngressClass, DefaultStorageClass, DefaultTolerationSeconds, DenyServiceExternalIPs, EventRateLimit,  ExtendedResourceToleration, ImagePolicyWebhook, LimitPodHardAntiAffinityTopology, LimitRanger, MutatingAdmissionWebhook,  NamespaceAutoProvision, NamespaceExists, NamespaceLifecycle, NodeRestriction, OwnerReferencesPermissionEnforcement,  PersistentVolumeClaimResize, PersistentVolumeLabel, PodNodeSelector, PodSecurity, PodTolerationRestriction, Priority, ResourceQuota, RuntimeClass, ServiceAccount, StorageObjectInUseProtection, TaintNodesByCondition, ValidatingAdmissionPolicy,  ValidatingAdmissionWebhook.

Kubernetes 默认启用的准入控制器如下所示：

NamespaceLifecycle, LimitRanger, ServiceAccount, TaintNodesByCondition, PodSecurity, Priority, DefaultTolerationSeconds, DefaultStorageClass, StorageObjectInUseProtection, PersistentVolumeClaimResize, RuntimeClass, CertificateApproval, CertificateSigning, ClusterTrustBundleAttest, CertificateSubjectRestriction, DefaultIngressClass,  MutatingAdmissionWebhook, ValidatingAdmissionPolicy, ValidatingAdmissionWebhook, ResourceQuota

接下来简要介绍如下几个常用的准入控制器

ServiceAccount：此准入控制器用来为 Pod 自动配置 ServiceAccount。若创建 Pod 时未指定 ServiceAccount，那么准入控制器会将命名空间内名为 default 的 ServiceAccount 分配给 Pod。通常情况下，此准入控制器默认启用。
NodeRestriction：此准入控制器用于对 Kubelet 的账户权限进行限制，限制 Kubelet 可以修改的 Node 和 Pod 对象。开启此准入控制器后，Kubelet 只被允许修改与其对应的 Node 对象，并且其修改范围也会受到严格限制，避免被攻击者利用。与此同时，Kubelet 也只被允许修改被调度到当前节点的 Pod 对象。
PodSecurity：此准入控制器用于替代 PodSecurityPolicy，它能够基于 Pod Security Standards 在 namespace 级别对 Pod 资源进行准入控制、审计、提醒。
MutatingAdmissionWebhook：Kubernetes 允许用户通过 MutatingWebhookConfiguration 资源来灵活配置自定义的 Webhook 对请求进行变异，向用户提供了较高的可扩展性。
ValidatingAdmissionWebhook：Kubernetes 允许用户通过 ValidatingWebhookConfiguration 资源来灵活配置自定义的 Webhook 对请求进行验证，向用户提供了较高的可扩展性。

Kubelet 作为 Kubernetes 的 Agent 运行在集群中的每个节点上，它主要通过监控集群资源、本地资源的变化来完成 pods/containers 的创建、secrets/configmap 同步等工作。除此之外，Kubelet 还会通过本地端口对外提供服务。其中 10250 端口提供了多个接口，对外提供容器内命名执行、容器端口转发、获取容器和节点日志、获取节点状态、获取指标信息等功能。

对此 Kubernetes 也为 Kubelet Server 提供了多种认证和授权机制。

认证机制

匿名认证：Kubelet 默认启用匿名访问，匿名请求的认证结果是：username 为 system:anonymous，groups 为 system:unauthenticated（kubeadm 创建的集群默认关闭匿名认证）。
证书认证：可以通过为 Kubelet Server 配置的 CA 证书对客户端身份进行认证。在许多场景下，它往往与 API Server 使用相同的 CA 证书。
Webhook 认证：Kubelet Server 将以 Kubelet 的身份向 API Server 发起认证请求（通过 TokenReview API），对请求 Kubelet Server 的客户端身份进行认证。因此任何能被 API Server 验证的证书、服务 token，均可被用来访问 Kubelet Server。

授权机制

AlwaysAllow 授权模式：任何通过认证（注：也包括匿名用户）的用户都可以得到授权。
Webhook 授权模式：Kubelet Server 将以 Kubelet 的身份向 API Server 发起授权校验请求（通过 SubjectAccessReview API），从而对请求 Kubelet Server 的客户端身份进行权限校验。所需权限跟所访问的接口有关，例如 node/proxy, nodes/log 资源访问权限的 get, create 权限等。

下图以 kubectl exec 命令的背后逻辑为例，展示 Kubelet Server 对客户端进行认证和授权的整个过程。

执行 kubectl exec 后都发生了什么？

跳转微信打开

40 亿美金打造，马斯克亲自展示！特斯拉 Cortex AI 超级集群内部视频曝光｜AGI 掘金资讯

Tue, 27 Aug 2024 14:15:41 +0800

AGI 掘金知识库 2024-08-27 14:31 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 Meta 祭出三篇最详尽 Llama 微调指南！0 基础小白必备

Meta 发布三篇技术文章，全面介绍如何微调大语言模型（LLM），包括适配方法、确定用例、管理训练数据集。讨论了预训练、继续预训练、微调、参数高效微调（PEFT）、检索增强生成（RAG）和上下文学习（ICL）等技术。强调微调是艺术与科学的结合，数据集质量和多样性对成功至关重要。提供了选择适配方法的建议，以及微调的实践指导，适合资源有限团队的适配策略。

🔗 迈向 AGI 关键一步，云知声推出山海多模态大模型

云知声推出山海多模态大模型，标志着向人工通用智能（AGI）的关键进展。该模型整合多种模态信息，提供实时拟人交互体验，支持语音交互、情绪感知与表达，以及视觉场景理解。山海大模型在多个评测赛事中表现卓越，展现出强大的通用和专业能力。未来，山海将拓展实时语言翻译、面部情绪分析等多模态能力，成为人们日常生活的智能伙伴。

🔗 打破 AlphaFold 大模型局限，世界最大蛋白质相互作用数据集 AlphaSeq 横空出世

初创公司 A-Alpha Bio 发布的 AlphaSeq 数据库，拥有超过 7.5 亿条测量结果，成为全球最大的蛋白质-蛋白质相互作用（PPI）数据集。AlphaSeq 数据集支持训练 AlphaBind 模型，以预测蛋白质序列的结合特性，推动蛋白质设计和新药发现。该平台每月能快速扩展数百万数据点，由计算生物学专家 David Baker 提供科学指导，已融资 6410 万美元，致力于通过合成生物学和机器学习加速药物开发。

🔗 比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

比尔·盖茨在其官方公众号上分享了计算机视觉技术在抗击疟疾方面的应用。通过识别蚊子的种类和性别，以及它们是否携带疾病，这项技术有助于更精确地定位和应对疟疾传播。VectorCam 应用程序和 HumBug 技术分别通过图像识别和声音分析，简化了蚊子监测流程，提高了数据收集的效率和实时性，为根除疟疾提供了新的工具和希望。

💫 企业动态

🔗 40 亿美金打造，马斯克亲自展示！特斯拉 Cortex AI 超级集群内部视频曝光

马斯克于 2024 年 8 月 26 日展示了特斯拉正在建设的新型 AI 训练超级集群 Cortex，预计安装约 10 万个英伟达 H100 和 H200 芯片，服务于 FSD 和 Optimus 的神经网络训练。该集群今年电力需求达 130 兆瓦，未来 18 个月计划扩展至超 500 兆瓦，位于得州工厂，总投资约 40 亿美元，是特斯拉总部 AI 相关支出的一部分。

🔗 AI 创投有多卷：李飞飞、吴恩达纷纷下场

AI 创投市场活跃，李飞飞和吴恩达作为 AI 领域的领军人物，分别以 LP 身份加入 Radical Ventures 和担任 Landing AI 执行主席，推动 AI 技术商业化和创新应用。他们的专业知识和行业经验将引导资本流向，推动技术创新，同时为 AI 创投领域带来新动力和活力。两位科学家的参与预示着以技术创新为主导的投资新时代的到来，为行业树立高标准，加速 AI 技术的成熟和发展。

🔗 Anthropic 公开 Claude AI 模型的系统提示词

科技公司 Anthropic 近日公开了其 Claude AI 模型的系统提示词，这些提示词用于设定对话背景、提供指导和规定 AI 模型的行为规则。与行业内保密系统提示词的常规做法不同，Anthropic 致力于成为更道德、更透明的 AI 供应商，已在其应用程序和网络上公布了最新模型的系统提示词。这一做法旨在提高透明度，让公众了解 AI 模型如何被引导以防止不良行为，并塑造其回复的总体语气和情绪。

🔗 4 名 MIT 学霸两年造 AI 编程帝国，撼动全球 2600 万开发者！成立 2 年估值 4 亿美金

四位 MIT 本科生创立的 Anysphere 公司，仅两年时间，其 AI 编程助手 Cursor 就估值 4 亿美元。Cursor 是一个 AI 驱动的集成开发环境，能自动用英文写代码并回答问题。公司在 A 轮融资中筹集超过 6000 万美元，由 a16z 和 Thrive Capital 领投。AI 编程工具赛道竞争激烈，Cursor 与 GitHub Copilot 等竞品相比，专注于自动完成之后的代码查找、修复和库回答。Anysphere 团队认为，尽管微软 Visual Studio Code 广受欢迎，但他们的产品能为开发者提供真正的 AI 原生体验，市场潜力巨大。

🔗 苹果被曝另起炉灶，独立于 Siri 为桌面机器人开发拟人个性化 AI

据彭博社 Mark Gurman 报道，苹果可能正在开发一种基于生成式 AI 的新型“个性”，作为 Siri 的替代，该技术将应用于未来机器人设备。预计这款桌面机器人成本将低于 1000 美元，但项目仍处于早期阶段。苹果智能系统将集成文本创建、文本摘要、图像生成等生成式 AI 功能，预计将在今年晚些时候登陆 iPhone、iPad 和 Mac。尽管目前许多 AI 功能由 ChatGPT 支持，苹果仍在积极开发自有的 AI 聊天机器人技术。

🔗 黑神话悟空背后 140 人：华科校友带队，核心团队平均合作超 10 年

《黑神话：悟空》由华科校友冯骥带领的 140 人团队开发，团队成员平均合作超过 10 年。游戏上线后销量超 26 亿元，获得全球玩家青睐。冯骥曾放弃考研投身游戏行业，与核心团队成员在腾讯《斗战神》项目中积累经验。2014 年离开腾讯创立游戏科学，坚持高品质游戏开发原则。《黑神话：悟空》预告片发布后，团队迅速扩张，获得腾讯投资。游戏成功背后还有英雄互娱等合作伙伴的支持，以及多家知名动画团队的贡献。

🔗 IBM 中国研发部彻底关闭！3 分钟会议千人被裁

IBM 中国研发部门宣布关闭，导致千人失业。在 3 分钟的线上会议中，IBM 宣布退出中国所有开发任务。此次关闭涉及 IBM 中国开发中心和系统中心，标志着 IBM 在中国 40 年发展的重要转折点。尽管 IBM 曾高度评价中国研发团队的贡献，但近年来在华销售额持续下滑，2023 年下降 19.6%。IBM 表示将调整运营以适应市场变化，未来战略重点转向服务中国民营企业和跨国企业，尤其是混合云和 AI 领域。员工们对此消息感到震惊，社交平台上流传着内部会议纪要，显示 IBM 高层对关闭研发部门的决策和对员工的感谢。赔偿方案为 N+3，员工们纷纷在社交平台上表达感慨并开始寻找新的工作机会。

🔗 AI 终结法律行业的 Dirty Work ｜对话案牍 AI

案牍 AI，一家法律 AI 服务公司，通过智能合同审查和尽调报告等产品，致力于简化法律行业的繁琐工作。公司创始人刘振汉，拥有丰富的法律与产品开发经验，已为 500 多个 IPO 项目和 200 多个律师团队提供服务。案牍 AI 利用 LLM 技术，推动法律文件自动化生成与审查，提升法律专业人士工作效率。8 月 27 日，案牍 AI 将参与量子位的「365 行 AI 落地方案」直播，分享 AI 在法律行业的应用与前景。

🔗 元萝卜 AI 下棋机器人发布国际象棋专业版

商汤科技旗下品牌元萝卜 SenseRobot 即将推出国际象棋专业版 AI 下棋机器人，预计 9 月下旬上市。该机器人具备灵活机械臂和高精度机械爪，搭载 25 级 AI 引擎，满足不同棋力用户需求。提供多种功能如 AI 习题、棋力闯关等，旨在提升棋艺和激发儿童兴趣。外观设计独特，具有科技感和仪式感。继象棋和围棋版后，国际象棋版进一步丰富了家用 AI 下棋机器人市场，填补了市场空白。

✨ 行业观点

🔗 对话百亿美金公司 Airtable 创始人：企业缺乏对 AI 模型能力的理解以及应用 AI 的想象力不足

Airtable 联合创始人兼 CEO Howie Liu 在接受 No Priors 播客访谈时，讨论了 AI 技术与低代码平台的结合及其未来发展。他指出，尽管代码生成技术发展迅速，低代码和无代码平台依然具有独特优势，特别是对非技术用户的易用性。Airtable 正通过集成 AI 功能，提升用户体验并助力用户构建个性化 AI 应用。Howie 强调了企业在 AI 应用上面临的挑战，包括对 AI 模型能力理解不足和应用 AI 的想象力缺乏。他认为，通过教育和产品化可以帮助客户克服这些障碍，并展望了 AI 和代码生成技术将如何塑造未来的企业应用。

🔗 谷歌前 CEO 言论惹众怒，硅谷打工人硬刚公司，「在家办公」成大势所趋

谷歌前 CEO Eric Schmidt 对散漫工作制度的批评引发众怒，导致其删除相关视频。疫情后，混合办公模式成为许多公司的常态，如英伟达允许员工无限期远程办公。科技公司尝试强制员工回办公室，但遭到强烈抵制，如 Meta 和戴尔的 RTO 政策引发员工不满和抗议。Flex Index 报告显示，科技公司中只有 3%要求全职上班，79%采取灵活办公政策。CEO 们态度软化，预计未来三年内全面回归办公室的公司比例大幅下降。员工自主选择工作模式受到青睐，混合工作制被认为是顺应员工需求和提高效率的有效方式。

🔗 让 Karpathy 倍感意外而马斯克反对的研究：人类大脑已被塑料污染

最新研究表明，人类大脑中微塑料含量平均约为 0.5%，远高于其他器官。Karpathy 表示对研究结果感到惊讶，Twitter 上的讨论引起了马斯克的关注，他质疑微塑料对健康的潜在影响。而多年的塑料行业专家反驳了马斯克的观点，认为塑料的危害不容忽视。这项研究使用了 Py-GC/MS 技术，揭示了微塑料在大脑中的高含量，并暗示这可能与多种健康风险有关。

🔗 美国律师协会：ChatGPT 等生成式 AI，能帮助律师提升效率

美国律师协会发布正式意见 512，认为生成式 AI 如 ChatGPT 在法律研究、合同审查、文件审核、案情预测分析和起草法律文件等方面能显著提升律师工作效率。但同时提醒律师需了解 AI 产品特性和局限性，注意数据保密性，并对 AI 生成内容负责。ABA 强调律师应审慎使用 AI，确保服务的安全性和可靠性。

🎡 热门活动

🔗 AI Talk 沙龙第 3 期——AI Agent 技术突破和应用实践（精彩回放）

（https://agijuejin.feishu.cn/wiki/UGbtwpUQ0iwFfzkpIyicAfrenwf）

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开

抖音集团招聘 | 广告业务2025校招已启动！七大类技术岗热招

Mon, 26 Aug 2024 14:00:58 +0800

2024-08-26 14:10 重庆

跳转微信打开

魔方最新黑科技！全球首个语音指挥 FPS AI 队友 F.A.C.U.L. 亮相科隆｜AGI 掘金资讯

Mon, 26 Aug 2024 14:00:58 +0800

AGI 掘金知识库 2024-08-26 14:10 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 魔方最新黑科技！全球首个语音指挥 FPS AI 队友 F.A.C.U.L. 亮相科隆

腾讯魔方工作室在 2024 科隆国际游戏展上展示了其最新黑科技——全球首个语音指挥 FPS AI 队友 F.A.C.U.L.。该技术集成了语音输入、大语言模型、实时语音合成和环境识别等先进功能，支持玩家通过语音下达复杂战术指令，并能实时反馈。F.A.C.U.L.能识别超 10000 个游戏内物体，与玩家进行高度协作，提供更真实的游戏体验。该技术目前以技术 demo 形式展出，未来有望进一步推动游戏 AI 技术的发展。

🔗 多模态 AI 王者登场，语言图像模型大一统！Meta 发布 Transfusion 模型

Meta 最新发布的 Transfusion 模型，成功融合了 Transformer 和 Diffusion 技术，实现了文本和图像生成的统一。该模型通过结合语言建模和扩散机制，在混合模态序列上训练单个 Transformer，生成高质量图像的同时保持文本生成能力。Transfusion 在单模态和多模态基准测试中表现出色，超越了 DALL-E 2 和 Stable Diffusion XL。此外，模型还支持图像编辑功能，展现了多模态 AI 模型的潜力。研究者通过创新的建模方法，如全局因果注意力和模态特定编码解码层，提升了模型性能。Transfusion 的提出为多模态 AI 的发展开启了新的可能性，预示着未来在视频生成和图像编辑等领域的应用前景。

🔗 源 2.0-M32 大模型发布 4bit/8bit 量化版，性能媲美 LLaMA3

浪潮信息推出了源 2.0-M32 大模型的 4bit 和 8bit 量化版，其性能与 700 亿参数的 LLaMA3 开源大模型相当。4bit 量化版在推理运行时仅需 23.27GB 显存，算力消耗显著低于 LLaMA3-70B。该模型采用 GPTQ 量化方法和 AutoGPTQ 框架，通过定制化算子和优化量化层，实现了在几乎无损精度的情况下提升压缩效果和推理吞吐量，降低了计算成本。源 2.0-M32 量化版在多个评测任务中表现优异，特别在数学竞赛和科学推理任务中与 LLaMA3 相当，已在 Hugging Face 和 modelscope 平台开源。

🔗 Meta 又一巨作！Sapiens 模型：以人为中心的视觉基础模型，可用于姿势估计等任务

Meta Reality Labs 推出了 Sapiens，这是一款先进的以人为中心的视觉基础模型，专为 2D 姿势估计、身体部位分割、深度估计和表面法线预测等视觉任务设计。Sapiens 模型在超过 3 亿张自然人类图像上预训练，通过微调可适应各种特定任务。模型参数从 0.3 亿到 20 亿不等，展现了显著的跨任务性能提升。Sapiens 在多个基准测试中超越了现有基线，特别是在深度估计方面，与现有技术相比，RMSE 降低了 20%。模型的高分辨率和高容量视觉变换器主干，以及对增强工作室和合成数据的高质量注释，是其先进性能的关键。Sapiens 有望成为众多下游任务的关键构建块，未来可能扩展到 3D 和多模态数据集。

🔗 Amazon Q 如何助力亚马逊节省 4500 名开发人员一年工作量？

亚马逊 AI 助手 Amazon Q 在软件开发领域取得革命性进展，显著提升开发效率。Amazon Q 能自动理解代码逻辑、提出优化建议、执行代码转换，大幅缩短 Java 版本升级时间。预计节省 4500 名开发人员一年工作量，推动软件开发行业新标准。AI 与人类共生，AI 助手将承担重复性工作，使开发人员专注于创新和解决复杂问题，促进共同进步。Amazon Q 的成功预示着 AI 在软件开发领域的广泛应用前景，开启 AI 时代软件开发新篇章。

🔗 心辰 Lingo 语音 AI 模型开启内测，号称国内首个能力追齐 GPT-4o 语音能力的模型

心辰 Lingo 语音 AI 模型由西湖心辰研发，是国内首个端到端语音大模型，于 2024 年 8 月 24 日开放内测预约。该模型集语音识别、自然语言处理、意图识别、对话管理及语音合成于一体，提供从语音输入到输出的完整交互。Lingo 具备实时打断和控制能力，支持多种语音风格表达，并采用高压缩率编解码技术以降低计算和存储成本。其应用前景广阔，涵盖心理咨询、儿童教育、老年陪护和智能客服等。心辰 Lingo 预示着 AI 语音陪伴将融入日常生活。

🔗 ChatGPT 有多全能，女生用 ChatGPT 测网恋对象是否谎报身高，误差只有 2 厘米

AI 技术在个人生活中的应用越来越广泛，其中 GPT-4o 模型被用于检测网恋对象是否谎报身高。通过上传照片，AI 能根据比例和环境估算身高，误差仅约 2 厘米。硅谷风投机构合伙人 Justine Moore 的测试显示，AI 的估算结果非常准确。此外，AI 还被用于挑选水果、炒股等，展现了其多功能性。AI 在提供信息的同时，还能避免对外貌的过度评价，体现了其礼貌和实用性。

💫 企业动态

🔗 Transformer“贡献最大”作者，重返谷歌领导 Gemini 项目对抗 OpenAI

Noam Shazeer，Transformer 技术的关键贡献者，重返谷歌担任 Gemini 项目的联合技术主管。Gemini 旨在与 OpenAI 的 GPT 模型竞争。Shazeer 之前离开谷歌与 Daniel De Freitas 共同创立了 Character.AI，专注于个性化 AI 研究。谷歌以 25 亿美元收购了 Character.AI 的核心团队，尽管大部分团队仍留在原公司。Shazeer 在谷歌期间曾负责开发 LaMDA 对话模型。此次回归，他将与 Jeff Dean 和 Oriol Vinyals 共同推动 Gemini 项目，加剧了 AI 领域的竞争。同时，这也反映了 AIGC 初创公司面临的资金和盈利挑战。

🔗 图形学大佬童欣加入 AGI 创业团队 Anuttacon，B 站前直播老大也加入了

前微软全球研究合伙人童欣加盟 AGI 创业公司 Anuttacon，担任首席研究员，致力于利用 AI 技术创新虚拟世界体验。Anuttacon 在新加坡设立办公点，主要在旧金山湾区招聘。公司目标是探索 AGI 边界，突破互动娱乐界限。前 B 站副总裁王宇阳加入 Anuttacon，担任用户生态总裁，他在 B 站负责直播业务，有丰富的电竞行业经验。童欣在微软亚洲研究院工作 25 年，是计算机图形学领域的领军人物，其研究成果广泛应用于游戏开发、3D 打印等领域。

🔗 快手可灵 AI 全球会员体系正式上线：支持 AI 视频生成

快手可灵 AI 推出会员订阅计划，首月 19 元，次月起 58 元。会员可每月生成约 66 个视频或 3300 张图片，享受高表现视频生成、视频延长等特权功能，提升创作体验。新功能如大师运镜将提供专业运镜效果，增强视频质量和观感。

🔗 前 OpenAI 研究人员警告“老东家”：若 AI 无监管将造成灾难性伤害

两名前 OpenAI 研究人员公开反对公司对加州 AI 安全法案的反对立场，强调 AI 监管的必要性。他们指出，OpenAI 曾支持 AI 监管，但在法案出台时却持反对态度。研究人员警告，缺乏安全措施的 AI 开发可能给公众带来灾难性风险，如生物武器开发或巨额经济损失。他们强调，负责任的 AI 系统开发应是公司的核心目标。

🔗 国内首家人工智能标准化研究机构落地北京亦庄

2024 年 8 月 25 日，北京人工智能标准化研究院在北京经济技术开发区成立，标志着国内首家人工智能标准化研究机构的诞生。该研究院将致力于人工智能技术的标准化研究，推动技术进步和产业升级。研究院将聚焦算力、算法、数据等基础支撑和关键技术，以及人工智能技术发展带来的社会治理风险和伦理问题。此外，将重点推动机器人产业领域的发展，构建开放共享的技术攻关体系。北京亦庄正全力打造全域人工智能之城，构建创新体系，推动人工智能技术与城市建设、产业升级的深度融合。研究院的成立将为人工智能产业发展提供标准化服务，助力企业成长，促进产业链条化、集群化、高端化发展。

✨ 行业观点

🔗 DeepMind 创始人：AI 被过度炒作，但它还是被低估了

DeepMind 联合创始人兼首席执行官 Demis Hassabis 在最新访谈中提出，尽管人工智能(AI)在公众视野中被过度炒作，但实际潜力仍被低估。他认为，AI 的发展和应用前景广阔，其在解决复杂问题、推动科技创新等方面具有巨大潜力。Hassabis 强调，AI 技术的进步不应被简单视为炒作，而应关注其在实际应用中创造的价值。同时，他也提醒，随着 AI 技术的快速发展，需要谨慎考虑其对社会和伦理的影响，确保技术的正面应用。这次访谈深入探讨了 AI 技术的现状、挑战与未来方向，为公众提供了对 AI 领域更全面的理解。

🔗 Transformer 作者预警：只卖模型玩不过 OpenAI！

Aidan Gomez，Transformer 模型的作者之一及 Cohere 公司 CEO，在一次访谈中分享了对 AI 发展的洞见。他指出，仅依靠模型规模的扩张并非提升性能的唯一途径，数据和算法创新同样关键。他强调，只卖模型难以与 OpenAI 竞争，AI 公司需探索数据创新和模型方法创新。Gomez 认为，合成数据和人类标注是应对数据隐私挑战的关键，并预测机器人领域将在未来五年内实现重大突破。他同时警告 AI 创业公司不要过度依赖云服务提供商，而应保持独立性。最后，他提到数据质量对模型性能的影响被严重低估，而提升世界生产力和增长应是技术的首要任务。

🔗 “机器狗之父”对话中国四大 AI 机器人 CEO：中国机器人距离规模商业越来越近了

在 2024 年世界机器人大会上，来自中美的机器人行业领袖就机器人技术发展进行了深入讨论。波士顿动力创始人 Marc Raibert 认为，未来五年机器人硬件发展至关重要，同时 AI 技术在语义理解上的突破将对机器人技术产生重大影响。中国 AI 机器人企业领军者则对 AI 与机器人融合的前景表示乐观，预计未来将出现“机器人的 ChatGPT 时刻”。讨论还涉及机器人技术的可靠性、安全性、伦理道德问题以及大规模部署的挑战。专家们普遍认为，尽管存在挑战，但机器人技术的进步将推动其在工业、商用和服务领域的广泛应用。

🔗 《破晓之钟》：AI 大牛田渊栋的科幻巨著

AI 领域杰出科学家田渊栋撰写的科幻小说《破晓之钟》融合了 AI、智能体、数字人等前沿科技元素，以近未来的技术背景探讨人类面对外星挑战的危机处理。小说以科学家为主角，描绘了元宇宙、纳米机器人对人类社会的影响，以及超人类智能可能的形态和态度。田渊栋凭借其科研背景，确保了小说中科技设想的科学性，同时展现了其戏剧性和文笔细腻。小说不仅是一次对未来世界的畅想，也是作者对人类存在意义的深刻思考。

🔗 李沐重返母校，上交大秒变追星现场，大模型趋势无保留分享

AI 领域专家李沐在上海交通大学的演讲中，分享了大模型（LLM）的发展趋势和个人职业选择的见解。他将大模型的构成分为数据、算力和算法三部分，比喻为炼丹过程，并强调了带宽、内存和算力在硬件方面的重要性。李沐还讨论了多模态模型的现状，并预测长文本人机交互将更流行。他基于个人经历，提出了在不同职业阶段应考虑的目标，并分享了职场心得，如预训练与后训练的重要性以及大模型评测的挑战。演讲内容丰富，金句频出，受到师生热烈欢迎。

🔗 《大都市》预告片风波：AI 生成虚假影评引发争议

电影《大都市》预告片因使用人工智能生成的虚假影评而引发争议。这些虚假评论冒充对导演弗朗西斯·福特·科波拉的《教父》和《现代启示录》的批评，与原版影评内容不符。事件导致预告片负责人 Eddie Egan 被移除，再次引发对 AI 生成内容可靠性的质疑。此前已有多起案例显示 AI 可能生成错误或虚假信息，警示人们在实际应用中需谨慎对待 AI 生成的内容。

🔗 程序员为何容易爱上 AI？MIT 学者诊断：「智性恋」浓度过高！

MIT 研究发现，程序员可能因“智性恋”倾向而对 AI 产生情感依赖。软件工程师与 AI 的互动中，体验到的智能对话和持续的交流，使他们逐渐对 AI 产生情感。这种情感依赖源自用户对 AI 的期望和心理映射，AI 通过模仿人类交流方式，满足用户情感需求。MIT 称之为“智力上瘾”，指出这种依赖可能削弱人类间的交往能力，因为 AI 的阿谀奉承行为与人类真实欲望不符。研究警示我们需准备应对人工智能可能带来的情感和社会影响。

🎡 热门活动

🔗 AI Talk 沙龙第 3 期——AI Agent 技术突破和应用实践（回放）（https://agijuejin.feishu.cn/wiki/UGbtwpUQ0iwFfzkpIyicAfrenwf）

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开

TPC-C too simple？一文详解 TPC-E：TPC-C 的升级版

Sat, 24 Aug 2024 11:02:59 +0800

康荣 2024-08-24 11:10 重庆

在数据库评测领域， TPC-C 可能是最出名的OLTP 基准测试（benchmark）之一了。各大数据库产品为展现其性能强大，纷纷在 TPC-C 性能榜上你方唱罢我登场。

在数据库评测领域， TPC-C 可能是最出名的OLTP 基准测试（benchmark）之一了。各大数据库产品为展现其性能强大，纷纷在 TPC-C 性能榜上你方唱罢我登场。Oracle 一度独占鳌头，阿里 OceanBase、腾讯 TD-SQL 也轮番登顶。达梦、TiDB、TBase 等等也纷纷用 TPC-C 作为自身产品的性能衡量标准。不仅如此，TPC-C 也在许多下游任务中频繁亮相，例如参数调优任务、负载预测任务、索引推荐任务等等。

然而，TPC-C 作为一个1992 年推出的 OLTP benchmark，库表结构、事务类型、业务场景都显得“过于简单”了。为了应对数据库领域的发展，TPC 委员会在 2007 年推出了下一代 OLTP 基准测试：TPC-E。

在 TPC-E 官网上，官方开宗明义：「TPC-E 比」 「TPC-C」 「更加复杂，因为它的事务类型更多样化、库表结构和执行结构更复杂」：

❝
TPC-E is more complex than previous OLTP benchmarks such as TPC-C because of its diverse transaction types, more complex database and overall execution structure.
❞

TPC-E 相比 TPC-C 的复杂性是显而易见的，我们仅列举一些：

	TPC-C	TPC-E
模拟场景	简单的批发商系统	复杂的证券交易所系统
事务类型	5 种	12 种
库表	9 张表	33 张表
数据生成	随机数，均匀分布	真实数据规律，有倾斜（skew）
复杂 join	最多 2 表 join	最多 7 表 join
读写比	1.9:1	9.7:1（读负载比例更高）

相比 TPC-C 威名赫赫，TPC-E 由于其复杂而显得小众，在工业界和学术界并没有被广泛地用于性能测试。然而在 TPC-C 已经被研究透彻、各大厂商的评测中纷纷“过度优化”的如今，TPC-E 基准测试不失为一种新的、良好的补充。

本文接下来你会看到：

「概览全貌」：对 TPC-E 做一份详细的讲解，展现 TPC-E 的场景、库表与事务全貌。
「实践挑战」：借助 “MySQL 索引优化” 这一场景，展现 TPC-E 对现有技术带来的新的挑战。
「原理解析」：深入SQL 级别，完全拆解 TPC-E 的 12 种事务类型，知其然也知其所以然。
「轻松上手」：绕过 Github 暗坑，在 MySQL 上编译和运行 TPC-E。

TPC-E 的场景是股票交易，涉及客户、经纪行和市场三种角色的复杂交互

TPC-E（Transaction Processing Performance Council - E）是一个模拟复杂在线交易处理（OLTP）环境的基准测试。它通过一系列事务来模拟一个股票经纪行的日常业务活动，这些活动涉及客户账户管理、交易执行以及与金融市场的互动。整个业务场景中包含了客户、经纪商、市场数据和后台处理等关键要素。

这里我们从角色（Role）、事务和关系表三部分来展现 TPC-E 全貌。

3种角色

TPC-E 模拟的是证券交易所，证券交易的买卖过程会涉及到下面三种角色：

「Brokerage（经纪行）」 ：在 TPC-E 基准测试中，经纪行的角色通常由 Customer Emulator（客户模拟器）组件扮演。它模拟了客户与经纪行的交互，包括提交交易请求、查询账户信息、执行市场分析等。经纪行角色负责处理客户的交易订单，管理客户账户，并提供市场数据。

注意，事务有一种类别是 Brokerage initiated，但代码中并没有单独的 broker emulator，因为 broker 通常是应答customer 的要求，broker 参与的事务就放到 CE 中模拟

「Customer（客户）」 ：客户角色代表了实际使用经纪行服务的个人或机构投资者。在 TPC-E 中，客户角色通过 Customer Emulator 组件模拟，执行各种交易活动，如买卖证券、查询持仓情况、查看市场动态等。客户角色的目的是评估经纪行提供的服务和交易平台的性能。
「Market（市场）」 ：市场角色在 TPC-E 中由 Market Exchange Emulator（市场交易所模拟器）组件扮演。它模拟了股票市场的实际运作，包括股票价格的变动、交易的执行、市场数据的发布等。市场角色为经纪行和客户提供了交易的场所和必要的市场信息。

这三个角色在 TPC-E 中的主要区别在于它们在交易过程中的职责和功能。经纪行负责处理交易和客户账户，客户负责发起交易和查询，而市场则提供了交易发生的环境和数据。

12 种事务：一个故事

TPC-E 共包含了 12 种类型的事务，为了便于理解，让我们用一个故事串讲一下。

在一个充满活力的交易日，客户们忙碌地通过经纪行的交易平台进行股票买卖。他们首先会检查自己的账户情况，了解自己的资产和持仓（Customer-Position 事务），然后根据市场动态（Market-Feed 事务）和特定证券的详细信息（Security-Detail 事务）来制定交易策略。在做出决策之前，他们可能会监控市场趋势（Market-Watch 事务），或者回顾过去的交易记录（Trade-Lookup 事务），以分析证券的历史表现。经纪行管理者会生成不同经纪商的交易报告，用于评估各个经纪商的表现（Broker-Volume 事务）。一旦客户决定买卖某只股票，他们会下达交易指令（Trade-Order 事务）。这些指令会被提交到市场交易所，并在交易完成后收到交易结果（Trade-Result 事务）。这些结果包括了交易的最终确认、成交价格以及可能的税务影响。客户可以通过查看交易状态（Trade-Status 事务）来跟踪他们的交易是否成功执行。在交易过程中，客户可能会需要更新或修改他们的交易指令（Trade-Update 事务）。同时，为了保持数据的准确性和最新性，经纪行会定期进行数据维护（Data-Maintenance 事务），包括更新客户账户信息、税务信息以及市场数据。在交易日结束时，经纪行需要清理数据库，取消任何未完成或错误的交易（Trade-Cleanup 事务），以确保第二天的交易能够顺利进行。这个过程包括从数据库中移除所有挂起的交易请求，更新交易历史记录，并确保所有交易数据都是最新的。

33 张关系表

TPC-E 共涉及 33 张表：

「Customer Tables」：9 张表，描述了与客户相关的表，包括账户信息（CUSTOMER_ACCOUNT）、税务信息（CUSTOMER_TAXRATE）等。
「Broker Tables」：9 张表，与经纪商相关的表，如经纪商（BROKER）、现金交易（CASH_TRANSACTION）、费用（CHARGE）等。
「Market Tables」：11 张表，与市场相关的表，如公司（COMPANY）、每日市场数据（DAILY_MARKET）、交易所（EXCHANGE）等。
「Dimension Tables」：维度表，如地址（ADDRESS）、状态类型（STATUS_TYPE）、税率（TAXRATE）等。

TPC 委员会公布的 TPC-E 标准文件（pdf）中事无巨细的讲解了 TPC-E 各方面内容，其中2.2.4 ~ 2.2.7 描述库表设计，感兴趣的同学可以深入了解下：

衡量标准：tpsE

TPC-E 衡量的标准是 tpsE（transactions- per-second-E，每秒成交量）。在 TPC-E 对真实场景的模拟中，用户和经纪商可能经过许多次的观望、选择、评估，才会达成一笔交易。因此，TPC-E 的性能取决于 Trade-Result 事务完成的数量。例如，如果一个客户执行了一项交易，并且该交易被成功处理（即交易请求被接受并执行，Trade-Result + 1），那么这将被视为完成了一个 tpsE。仅仅查看订单或执行其他非交易类型的操作通常不会计算在内。Trade-Result 事务与全部事务的比例基本稳定（例如 10%），也意味着 tpsE 基本可以反映数据库执行的事务总量。考虑到TPC-E 的事务通常较为复杂（单个事务会包含数十条 SQL），在我们执行 TPC-E 测试时，尽管最终显示的 tpsE 只有 100 上下，但实际执行的 SQL 已经超过数十万条。

TPC-E 比 TPC-C 的复杂体现在事务的复杂。TPC-C 包含 5 种事务，SQL 模板共 29 条，而 TPC-E 包含 12 种事务，SQL 模板超过 120 条。在一些复杂的 TPC-E 事务中（例如 Trade-Order），包含 6 个阶段（称为 Frame），每个阶段中会执行多轮”子事务“。由此，在各种任务（参数调优、规格调优、索引推荐）走到深水区后，对事务细节的了解就很有必要了。

下面我们会逐一分析各个事务的事务逻辑概述和 SQL 细节。必要的地方我们会结合 TPCE 负载发生器的源码进行解析。

事务分类

TPC-E 的事务可以按照它们的功能和特征进行分类。根据文档中的描述，这些事务主要可以分为以下几类：

「客户发起的事务（Customer Initiated）」 ：

这些事务模拟了客户与系统交互的场景，如查询账户信息、执行交易等。
例如：Customer-Position（客户持仓查询）、Market-Watch（市场观察）、一部分 Trade-Lookup（交易查询）、Security-Detail（证券详情查询）、Trade-Order（交易委托）、Trade-Status（交易状态查询）、一部分 Trade-Update（交易更新）。

「经纪商发起的事务（Brokerage Initiated）」 ：

这些事务模拟了经纪商内部处理的场景，如生成报告、管理账户等。
例如：Broker-Volume（经纪商成交量）。一部分 Trade-Lookup；一部分 Trade-Update

「市场触发的事务（Market Triggered）」 ：

这些事务模拟了市场活动对系统的影响，如市场数据更新、市场动态跟踪等。
例如：Market-Feed（市场数据更新）、Trade-Result

「其他」：

Trade-Cleanup、Data-Maintenance

我们结合 Github 源码进行分析。tpce-mysql 中，DBConnection.h 文件包含几个 enum，可以作为印证，如下：

/*Customer Emulator System Under Test由用户*/enum eCESUTStmt{        // Customer-Position 有2 阶段、4 sql。文档是3 阶段（Frame），但第三阶段只有 commit ，其他有意义的 sql 是对得上的。    CESUT_STMT_CPF1_1,    // Market-Watch（市场观察）    CESUT_STMT_MWF1_1a,    // Security-Detail（证券详情查询）    CESUT_STMT_SDF1_1,    // Trade-Lookup（交易查询），非常巨大的事务        CESUT_STMT_TLF1_1,        // Trade-Order（交易委托）        CESUT_STMT_TOF1_1,        //Trade-Status（交易状态查询）        CESUT_STMT_TSF1_1,        // Trade-Update（交易更新）        CESUT_STMT_TUF1_1, }/*Market Exchange Emulator SUT*/enum eMEESUTStmt{    // 极其巨大的事务    MEESUT_STMT_TRF1_1,    // Market-Feed（市场数据更新）    MEESUT_STMT_MFF1_1,};/*Data Maintenance SUT*/enum eDMSUTStmt{    // Trade-Cleanup，开测前初始化；    DMSUT_STMT_TCF1_2,};// 其他无对应代码 enum 的：// Broker-Volume（经纪商成交量）：只有一个 frame、一句 sql，无 enum

除了上述分类，事务还可以根据它们的读写特性进行区分：

「读事务（Read-Only）」 ：这类事务主要涉及数据的读取，不会导致数据的修改。例如，客户查询账户信息（Customer-Position）或查看市场数据（Market-Watch）。
「读写事务（Read-Write）」 ：这类事务既涉及数据的读取也涉及数据的写入，可能会改变数据库的状态。例如，执行交易（Trade-Order）会创建新的交易记录，更新客户账户（Trade-Update）会改变账户的持仓信息。
「写事务（Write-Only）」 ：这类事务主要涉及数据的写入，不涉及数据的读取。例如，数据维护（Data-Maintenance）事务可能会更新或删除数据库中的记录。

概括来看：

「Broker-Volume (BV)」 - 模拟「经纪行」内部业务处理，例如生成关于不同经纪人业绩、潜力的报告。
「Customer-Position (CP)」 - 模拟「客户」查询其账户的持仓情况。根据所有资产的当前市场价值总结其账户价值。
「Market-Feed (MF)」 - 模拟跟踪当前市场活动，处理来自「市场交易所」的“股票行情”数据。
「Market-Watch (MW)」 - 允许「客户」跟踪一组证券的当前日常趋势（上涨或下跌），基于客户的当前持仓、观察列表或特定行业。
「Security-Detail (SD)」 - 模拟「客户」访问特定证券（Security）的详细信息，如进行研究以决定是否执行交易。
「Trade-Lookup (TL)」 - 模拟信息检索，以回答关于一组交易的问题，可能涉及市场分析、交易历史审查或特定客户持仓分析。
「Trade-Order (TO)」 - 模拟「客户、经纪人」 或授权第三方购买或出售证券的过程，包括验证授权、执行市场价买卖、限价买卖以及提供财务影响估计。
「Trade-Result (TR)」 - 模拟完成股票市场交易的过程，更新客户持仓，记录交易结果和历史信息。这是由 「market 市场交易所」 负责记录的
「Trade-Status (TS)」 - 提供特定交易集合的状态更新，模拟「客户」查看其账户的最近交易活动摘要。
「Trade-Update (TU)」 - 模拟对一组交易进行轻微修正或更新，类似于「客户」或「经纪人」审查交易并进行小的编辑修正。
「Data-Maintenance (DM)」 - 模拟对主要静态数据进行定期修改，如更新参考数据。
「Trade-Cleanup (TC)」 - 用于取消数据库中任何待处理或已提交的交易，通常在测试运行前将数据库恢复到已知状态。

Broker-Volume

「Broker-Volume 事务逻辑概述」 在 TPC-E 基准测试的第 3.3.1 章节中，Broker-Volume 事务是一个典型的读操作，它模拟了经纪行内部生成经纪人业绩报告的场景。这个事务的核心目标是计算每个经纪人在特定时间段内的交易量，这通常涉及到对挂单限价订单（TRADE_REQUEST）的汇总分析。

「SQL 细节」 Broker-Volume 事务的 SQL 查询设计要实现以下目标：

「选择经纪人列表」：确定需要生成报告的经纪人。
「检索挂单限价订单」：从 TRADE_REQUEST 表中检索每个经纪人的订单信息。
「计算总交易量」：对每个经纪人的订单数量和价格进行计算，得出总交易量。
「排序结果」：将经纪人按照总交易量降序排列，以便展示业绩最好的经纪人。

以下是 Broker-Volume 事务的 SQL 伪代码：

-- Broker-Volume 事务的 SQL 查询SELECT b_name, SUM(tr_qty * tr_bid_price) -- 经纪人的总交易量FROM trade_request, sector, industry, company, broker, securityWHERE tr_b_id = b_id -- 经纪人表，通过经纪人ID关联 AND tr_s_symb = s_symb  -- 行业表，通过证券符号关联 AND s_co_id = co_id -- 行业表，通过行业ID关联 AND co_in_id = in_id -- 确保公司表中的国家ID与行业表中的国家ID匹配 AND sc_id = in_sc_id -- 确保行业表中的公司ID与公司表中的ID匹配 AND b_name IN (%s..) -- 经纪人名称列表，这里 %s.. 是一个占位符，表示一系列经纪人名称 AND sc_name = '%s' -- 行业名称，这里 '%s' 是一个占位符，表示特定的行业名称GROUP BY b_nameORDER BY 2 DESC -- 按总交易量降序排列

在这个查询中，我们使用了多个 JOIN 操作来关联不同的表，确保我们能够获取每个经纪人的交易请求信息。我们通过 WHERE 子句过滤出特定经纪人和特定行业的交易请求。然后，我们使用 GROUP BY 对经纪人名称进行分组，并计算每个经纪人的总交易量。最后，我们使用 ORDER BY 对结果进行降序排列，以便展示交易量最高的经纪人。

Customer-Position

客户位置（Customer-Position）由EGenDriverCE调用。它由三个 frame 组成（frame 2和3是相互排斥的）。客户由客户ID（customer ID）或客户税号（customer tax ID）指定。如果转入交易的 customer ID 为0，则使用客户税ID来查找客户ID。检索有关客户个人资料的详细信息。此外，对于每个客户的账户，将退还该账户的现金余额和账户中所有持有的当前市场总值。如果请求交易活动的历史记录，则检索客户帐户中随机选择的帐户的最新十笔交易的信息。

「事务逻辑概述」

Customer-Position 事务模拟了客户查询其账户持仓情况的场景。这个事务通过检索客户资料、账户余额、持仓详情以及最近的交易历史，为客户提供了一个全面的账户状态报告。在技术博客中，我们将详细探讨这个事务的每个阶段，以及它们在 SQL 中的具体实现。

「Frame/sql 注解」

在 Frame 1 中，我们首先设置了事务的隔离级别为 READ COMMITTED，这确保了事务在读取数据时的一致性。接着，我们执行了两个 SQL 查询来获取客户信息。

-- 设置事务隔离级别SET TRANSACTION ISOLATION LEVEL READ COMMITTED;-- 根据税号查询客户IDSELECT c_id FROM customer WHERE c_tax_id = _latin1'970AM8516RE955';-- 获取客户详细信息SELECT     c_st_id, c_l_name, c_f_name, c_m_name, c_gndr, c_tier,     DATE_FORMAT(c_dob,'%Y-%m-%d'), c_ad_id,     c_ctry_1, c_area_1, c_local_1, c_ext_1,     c_ctry_2, c_area_2, c_local_2, c_ext_2,     c_ctry_3, c_area_3, c_local_3, c_ext_3,     c_email_1, c_email_2 FROM customer WHERE c_id = 4300001491;

Frame 2 仅在 get_history 参数为 TRUE 时执行。这个 Frame 负责检索客户最近的交易历史。这里我们使用了两个 SQL 查询：

-- 查询客户账户的前10个持仓及其总价值SELECT     ca_id, ca_bal, COALESCE(SUM(hs_qty * lt_price),0) AS price_sum FROM     customer_account     LEFT OUTER JOIN holding_summary ON hs_ca_id = ca_id, last_trade WHERE     ca_c_id = 4300001491 AND lt_s_symb = hs_symb GROUP BY     ca_id, ca_bal ORDER BY     price_sum ASC LIMIT 10;-- 查询客户最近的30条交易历史记录SELECT     t_id, t_s_symb, t_qty, st_name, DATE_FORMAT(th_dts,'%Y-%m-%d %H:%i:%s.%f') FROM     (SELECT t_id AS id FROM trade WHERE t_ca_id = 43000014904 ORDER BY t_dts DESC LIMIT 10) AS t,     trade, trade_history, status_type FORCE INDEX(PRIMARY) WHERE     t_id = id AND th_t_id = t_id AND st_id = th_st_id ORDER BY     th_dts DESC LIMIT 30;

Frame 3 包含了一个 COMMIT 语句，用于提交事务，确保之前的所有更改都被保存到数据库中。

-- 提交事务COMMIT;

Market-Feed

「事务逻辑概述」

Market-Feed 事务在 TPC-E 基准测试中扮演着模拟市场数据更新的角色。这个事务的目的是处理市场交易所的最新交易信息，这些信息通常包括股票的最后成交价格、成交量和成交时间。包含 1 个 frame

「Frame/sql 注解」 设置事务隔离级别

-- 设置事务隔离级别为可重复读，确保在事务期间读取的数据保持一致SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;

更新最后成交信息

-- 更新 last_trade 表，模拟市场交易所的最新成交信息UPDATE last_trade SET     lt_price = '2.93399999999999999e+01', -- 设置最新的成交价格    lt_vol = lt_vol + '100', -- 增加成交量    lt_dts = '2024-02-27 20:48:17' -- 更新成交时间WHERE     lt_s_symb = 'CLYS'; -- 指定特定的证券符号

查询待处理的交易请求

-- 查询 trade_request 表，找出与最新成交信息相关的待处理交易请求SELECT     tr_t_id, tr_bid_price, tr_tt_id, tr_qtyFROM     trade_requestWHERE     tr_s_symb = 'CLYS' -- 指定证券符号    AND (        (tr_tt_id = 'TSL' AND tr_bid_price >= '2.93399999999999999e+01') -- 买入限价单，且报价大于等于最新成交价        OR (tr_tt_id = 'TLS' AND tr_bid_price <= '2.93399999999999999e+01') -- 卖出限价单，且报价小于等于最新成交价        OR (tr_tt_id = 'TLB' AND tr_bid_price >= '2.93399999999999999e+01') -- 买入止损单，且报价大于等于最新成交价    );

提交事务

-- 提交事务，确保所有更改都被保存COMMIT;

Market-Watch

Market-Watch 事务是由客户执行的，用于监控市场的整体表现。这个事务通过比较选定证券集合在「特定日期的收盘价」与「当前市场价格」的百分比变化来实现。这个集合可能基于客户的当前持仓、潜在证券观察列表或特定行业。Market-Watch 事务包含 1 个 Frame，该 Frame 执行一个 SQL 查询来计算市值变化。

-- 设置事务隔离级别为 READ COMMITTED，确保事务在读取数据时不会受到其他并发事务的影响SET TRANSACTION ISOLATION LEVEL READ COMMITTED;-- 执行查询，计算市值变化-- 这个查询涉及到多个表的连接，包括 watch_item, watch_list, last_trade, security, 和 daily_market-- 它计算了在特定日期（'2004-12-31'）的收盘价（dm_close）和当前价格（lt_price）的总和-- 通过比较这两个总和，可以得到市值的百分比变化SELECT     COALESCE(SUM(s_num_out * dm_close), 0) AS market_cap_change, -- 计算特定日期的市值    COALESCE(SUM(s_num_out * lt_price), 0) AS current_market_cap -- 计算当前市值FROM     watch_item,     watch_list,     last_trade,     security,     daily_marketWHERE     wl_c_id = '4300000678' -- 指定客户ID    AND wi_wl_id = wl_id -- 确保 watch_item 和 watch_list 的关联ID匹配    AND dm_s_symb = wi_symb -- 确保证券符号匹配    AND dm_date = '2004-12-31' -- 指定比较的日期    AND lt_s_symb = dm_s_symb -- 确保 last_trade 中的证券符号与 daily_market 中的匹配    AND s_symb = dm_s_sym; -- 确保 security 表中的证券符号与 daily_market 中的匹配-- 关闭语句，结束查询Close stmt;

Security-Detail

「事务逻辑概述」

Security-Detail 事务旨在模拟客户在决定是否执行交易前对特定证券进行详细研究的过程。这个事务由 EGenDriverCE 触发，并且只包含 「1个 Frame」。事务会返回关于给定证券的详细信息，包括公司信息、竞争对手列表、当前和历史财务数据，以及关于公司的最新新闻条目。

「Frame/sql 注解」

-- 设置事务隔离级别为 READ COMMITTED，确保事务在读取数据时的一致性SET TRANSACTION ISOLATION LEVEL READ COMMITTED;-- 查询证券和公司详细信息SELECT     s_name, co_id, co_name, co_sp_rate, co_ceo, co_desc,     DATE_FORMAT(co_open_date,'%Y-%m-%d'), co_st_id,     ca.ad_line1, ca.ad_line2, zca.zc_town, zca.zc_div, ca.ad_zc_code, ca.ad_ctry,     s_num_out, DATE_FORMAT(s_start_date,'%Y-%m-%d'),     DATE_FORMAT(s_exch_date,'%Y-%m-%d'), s_pe, s_52wk_high,     DATE_FORMAT(s_52wk_high_date,'%Y-%m-%d'), s_52wk_low,     DATE_FORMAT(s_52wk_low_date,'%Y-%m-%d'), s_dividend, s_yield,     zea.zc_div, ea.ad_ctry, ea.ad_line1, ea.ad_line2, zea.zc_town,     ea.ad_zc_code, ex_close, ex_desc, ex_name, ex_num_symb, ex_open FROM     security, company, address ca, address ea, zip_code zca, zip_code zea, exchange WHERE     s_symb = _latin1'XTRM'     AND co_id = s_co_id     AND ca.ad_id = co_ad_id     AND ea.ad_id = ex_ad_id     AND ex_id = s_ex_id     AND ca.ad_zc_code = zca.zc_code     AND ea.ad_zc_code = zea.zc_code;-- 查询公司竞争对手信息SELECT     co_name, in_name FROM     company_competitor, company, industry WHERE     cp_co_id = 4300000566     AND co_id = cp_comp_co_id     AND in_id = cp_in_id LIMIT 3;-- 查询公司财务数据SELECT     fi_year, fi_qtr, DATE_FORMAT(fi_qtr_start_date,'%Y-%m-%d'),     fi_revenue, fi_net_earn, fi_basic_eps, fi_dilut_eps,     fi_margin, fi_inventory, fi_assets, fi_liability,     fi_out_basic, fi_out_dilut FROM     financial WHERE     fi_co_id = 4300000566 ORDER BY     fi_year ASC, fi_qtr LIMIT 20;-- 查询证券市场历史数据SELECT     DATE_FORMAT(dm_date,'%Y-%m-%d'), dm_close, dm_high, dm_low, dm_vol FROM     daily_market WHERE     dm_s_symb = _latin1'XTRM'     AND dm_date >= _latin1'2000-08-12' ORDER BY     dm_date ASC LIMIT 15;-- 查询最后一笔交易信息SELECT     lt_price, lt_open_price, lt_vol FROM     last_trade WHERE     lt_s_symb = _latin1'XTRM';-- 查询公司最新新闻条目SELECT     DATE_FORMAT(ni_dts, '%Y-%m-%d %H:%i:%s.%f'), ni_source, ni_author, ni_headline, ni_summary FROM     news_xref, news_item WHERE     ni_id = nx_ni_id     AND nx_co_id = 4300000566 LIMIT 2;-- 提交事务，确保所有查询结果被正确处理COMMIT;

Trade-Lookup

Trade-Lookup包含 4 个 frame，实际上包含了多个数据库意义上的“事务”，broker 和customer 分别执行两个 frame，这些甚至不在一个进程中执行完毕。因此不在通过 sql 解释，而是概述其设计逻辑。

Trade-Lookup 事务是 TPC-E 基准测试中的一个「关键组成部分」，它模拟了「客户」或「经纪人」为了回答关于一组交易的问题而进行的信息检索过程。这个事务涵盖了多种场景，包括进行市场分析、回顾账户最近的交易记录、分析特定证券的过去表现以及分析特定客户持仓的历史。

Trade-Lookup 事务由 EGenDriverCE 触发，并且包含四个互斥的 Frame。每个 Frame 都采用不同的技术来查找历史交易数据。

「Frame 1」 ：Frame 1 接受一组交易 ID 的列表。对于列表中的每个交易 ID，系统会返回相关的交易信息。这允许用户查询特定的交易详情，可能是为了验证交易记录或进行详细的交易分析。
「Frame 2」 ：Frame 2 接受客户账户 ID、开始时间戳、结束时间戳以及交易数量（N）作为输入。它会返回在指定时间范围内（包括开始和结束时间戳）的前 N 笔交易信息。这个 Frame 适用于用户想要了解特定账户在一定时间窗口内的交易活动。
「Frame 3」 ：Frame 3 接受证券符号、开始时间戳、结束时间戳以及交易数量（N）作为输入。它会返回在指定时间范围内（包括开始和结束时间戳）的前 N 笔特定证券的交易信息。这个 Frame 用于分析特定证券的市场表现和交易活动。
「Frame 4」 ：Frame 4 接受客户账户 ID 和一个时间戳作为输入。它会识别出在指定时间戳或之后该客户账户的第一笔交易，并返回最多 20 条与这笔交易 ID 相关的持仓历史变更记录。这些历史变更记录包括由这笔交易对之前交易创建的持仓所做的更改，以及后续交易对由此交易创建的任何持仓所做的更改。

部分 sql：

-- 3.3.6 Trade-LookupQuery        SET TRANSACTION ISOLATION LEVEL READ COMMITTED-- F1Execute        SELECT t_bid_price, t_exec_name, t_is_cash, tt_is_mrkt, t_trade_price FROM trade, trade_type WHERE t_id = '200000005238470' AND t_tt_id = tt_idExecute        SELECT se_amt, DATE_FORMAT(se_cash_due_date, '%Y-%m-%d'), se_cash_type FROM settlement WHERE se_t_id = '200000005238470'Execute        SELECT ct_amt, DATE_FORMAT(ct_dts, '%Y-%m-%d %H:%i:%s.%f'), ct_name FROM cash_transaction WHERE ct_t_id = '200000005238470'Execute        SELECT DATE_FORMAT(th_dts, '%Y-%m-%d %H:%i:%s.%f'), th_st_id FROM trade_history WHERE th_t_id = '200000005238470' ORDER BY th_dts LIMIT 3-- F2Query        SELECT t_bid_price, t_exec_name, t_is_cash, tt_is_mrkt, t_trade_price FROM trade, trade_type WHERE t_id = 200000005236617 AND t_tt_id = tt_idQuery        SELECT se_amt, DATE_FORMAT(se_cash_due_date, '%Y-%m-%d'), se_cash_type FROM settlement WHERE se_t_id = 200000005236617Query        SELECT ct_amt, DATE_FORMAT(ct_dts, '%Y-%m-%d %H:%i:%s.%f'), ct_name FROM cash_transaction WHERE ct_t_id = 200000005236617Query        SELECT DATE_FORMAT(th_dts, '%Y-%m-%d %H:%i:%s.%f'), th_st_id FROM trade_history WHERE th_t_id = 200000005236617 ORDER BY th_dts LIMIT 3Query        COMMIT-- F3-- F4

Trade-Order

❝
代码中，第 5、6 步是 rollback或 commit，其余四个步骤请参考 TOF1_1 ~ TOF4_2
❞

Trade-Order 事务由 EGenDriverCE 执行，它包含「六个 Frame」，是非常巨大的事务。这个事务模拟了客户、经纪人或授权第三方买卖证券的过程，包括验证交易执行者的授权、估算交易的财务影响以及提交或取消交易。

「获取客户信息」：事务首先使用传入的账户 ID 获取客户、客户账户和账户经纪人的信息。这是为了确保后续操作能够在正确的账户上下文中进行。
「验证执行者」：接下来，事务会验证执行交易的人是否具有适当的授权。如果执行者未获授权，事务将回滚。在基准测试执行期间，CE 总是生成授权的执行者。
「估算交易影响」：事务的下一步是估算执行交易的总体财务影响。对于限价单，使用请求的价格进行估算；对于市价单，使用当前市场价值。估算过程包括评估交易对现有持仓的影响，计算可能实现的利润的资本收益税，以及计算行政费用和经纪人佣金。如果是保证金交易，还会评估客户账户的总资产。
「记录订单」：使用上述信息记录订单。这一步骤确保了交易的详细信息被正确地保存在系统中，以便后续处理。
「提交或回滚」：在完成所有处理后，事务会根据一定的比例选择提交或回滚。这模拟了实际交易中可能出现的取消订单或错误条件。所有其他事务则被提交。
「发送交易到 MEE」：对于成功提交的市价订单，EGenTxnHarness 会将交易发送到适当的 MEE。这是模拟交易流程的最后一步，确保交易能够被市场交易所处理。

Trade-Result

Trade-Result 事务由 EGenDriverMEE 执行，它包含「六个 Frame」。这个事务模拟了完成股票市场交易的过程，即经纪行从市场交易所接收到交易的最终确认和价格。客户的持仓将根据交易的完成情况进行更新，同时生成的估计数据（如经纪人佣金等）将被实际数值替换，并记录交易的历史信息以供后续参考。

「获取交易信息」：事务的第一步是使用传入的交易 ID 获取交易的相关信息。这包括客户的账户 ID，用于进一步查询账户信息。
「更新客户持仓」：接下来，根据交易的类型（买入或卖出）、涉及的股票数量以及客户当前的持仓情况（多头或空头），更新客户的持仓。这可能涉及清算现有持仓以覆盖销售，或者在购买股票时使用现有空头持仓。
「计算税款」：如果交易实现利润且利润需要缴税，将计算应缴税款。
「计算经纪人佣金」：计算经纪人的佣金，并将所有与交易相关的信息记录下来。
「提交交易记录」：最后，为交易创建结算记录，并在交易不是保证金交易的情况下更新客户的账户余额。

这个事务的设计确保了交易完成后所有必要的更新和记录都能被正确处理，反映了实际金融系统中交易结算的复杂性。在基准测试中，它有助于评估系统在处理交易结果时的性能和准确性。

下面 sql 是一个例子，但这个例子只走了一部分分支，例如 F2、F3 有一些就没有走到。

SET TRANSACTION ISOLATION LEVEL SERIALIZABLE-- F1SELECT t_ca_id, t_tt_id, t_s_symb, t_qty, t_chrg, t_lifo, t_is_cash FROM trade WHERE t_id = 200000014584794SELECT tt_name, tt_is_sell, tt_is_mrkt FROM trade_type WHERE tt_id = _latin1'TMS'SELECT hs_qty FROM holding_summary WHERE hs_ca_id = 43000012441 AND hs_s_symb = _latin1'BDGPRB'-- F2SELECT ca_b_id, ca_c_id, ca_tax_st FROM customer_account WHERE ca_id = 43000012441-- TRF2_2a INSERT, or TRF2_2b UPDATEUPDATE holding_summary SET hs_qty = 8700 WHERE hs_ca_id = 43000012441 AND hs_s_symb = _latin1'BDGPRB'-- MEESUT_STMT_TRF2_3a ASC, or TRF2_3b DESCSELECT h_t_id, h_qty, h_price FROM holding WHERE h_ca_id = '43000012441' AND h_s_symb = 'BDGPRB' ORDER BY h_dts ASC-- TRF2_4INSERT INTO holding_history(hh_h_t_id, hh_t_id, hh_before_qty, hh_after_qty) VALUES('200000013784914', '200000014584794', '700', '600')-- TRF2_5a or TRF2_5b (DELETE)UPDATE holding SET h_qty = '600' WHERE h_t_id = '200000013784914'-- TRF3_1 在这个事务中 miss，如果要寻找，其他事务中可以搜到-- SELECT sum(tx_rate) FROM taxrate, customer_taxrate WHERE tx_id = cx_tx_id AND cx_c_id = ?-- TRF4_1SELECT s_ex_id, s_name FROM security WHERE s_symb = _latin1'BDGPRB'-- TRF4_2SELECT c_tier FROM customer WHERE c_id = 4300001245-- TRF4_3SELECT cr_rate FROM commission_rate WHERE cr_c_tier = 1 AND cr_tt_id = _latin1'TMS' AND cr_ex_id = _latin1'NASDAQ' AND cr_from_qty <= 100 AND cr_to_qty >= 100-- TRF5_1UPDATE trade SET t_comm = 1.14299999999999997e+01, t_dts = _latin1'2024-02-27 20:48:15.000000', t_st_id = _latin1'CMPT', t_trade_price = 2.85799999999999983e+01 WHERE t_id = 200000014584794-- TRF5_2INSERT INTO trade_history(th_t_id, th_dts, th_st_id) VALUES(200000014584794, _latin1'2024-02-27 20:48:15.000000', _latin1'CMPT')-- TRF5_3UPDATE broker SET b_comm_total = b_comm_total + 1.14299999999999997e+01, b_num_trades = b_num_trades + 1 WHERE b_id = 4300000017-- TRF6_1INSERT INTO settlement(se_t_id, se_cash_type, se_cash_due_date, se_amt) VALUES(200000014584794, _latin1'Cash Account', _latin1'2024-02-29', 2.84157000000000016e+03)-- TRF6_2UPDATE customer_account SET ca_bal = ca_bal + 2.84157000000000016e+03 WHERE ca_id = 43000012441-- TRF6_3INSERT INTO cash_transaction(ct_dts, ct_t_id, ct_amt, ct_name) VALUES(_latin1'2024-02-27 20:48:15.000000', 200000014584794, 2.84157000000000016e+03, _latin1'Market-Sell 100 shared of PREF_B of Bandag, Inc.')-- TRF6_4SELECT ca_bal FROM customer_account WHERE ca_id = 43000012441COMMIT

Trade-Status

Trade-Status 事务由 EGenDriverCE 执行，它包含一个 Frame。这个事务模拟了客户查看其账户最近交易活动摘要的过程，通常是为了回顾最近的交易记录。

「Frame 1」：这个 Frame 负责检索给定账户 ID 的最近 50 笔交易的状态信息。这包括交易 ID、交易时间、状态名称、交易类型名称、证券符号、交易数量、执行交易的人员名称、交易费用、证券名称以及交易所名称。

-- 设置事务隔离级别为 READ COMMITTED，确保事务在读取数据时的一致性SET TRANSACTION ISOLATION LEVEL READ COMMITTED;-- 执行查询，获取最近 50 笔交易的状态信息SELECT     t_id, DATE_FORMAT(t_dts,'%Y-%m-%d %H:%i:%s.%f'), st_name, tt_name, t_s_symb, t_qty, t_exec_name, t_chrg, s_name, ex_name FROM     trade, status_type, trade_type, security, exchange WHERE     t_ca_id = '43000003162' -- 指定客户账户 ID    AND st_id = t_st_id -- 确保交易状态与交易 ID 匹配    AND tt_id = t_tt_id -- 确保交易类型与交易 ID 匹配    AND s_symb = t_s_symb -- 确保证券符号与交易 ID 匹配    AND ex_id = s_ex_id -- 确保交易所与证券符号匹配ORDER BY     t_dts DESC -- 按交易时间降序排列LIMIT 50; -- 限制结果为最近的 50 笔交易-- 关闭语句Close stmt;-- 执行查询，获取客户、账户和经纪人的详细信息SELECT     c_l_name, c_f_name, b_name FROM     customer_account, customer, broker WHERE     ca_id = '43000003162' -- 指定客户账户 ID    AND c_id = ca_c_id -- 确保客户账户与客户 ID 匹配    AND b_id = ca_b_id; -- 确保经纪人 ID 与客户账户匹配-- 关闭语句Close stmt;-- 提交事务，确保所有查询结果被正确处理Query COMMIT;

在这个事务中，首先设置了事务的隔离级别，然后执行了两个查询。第一个查询用于获取交易状态信息，第二个查询用于获取与交易相关的客户、账户和经纪人的详细信息。

Trade-Update

Trade-Update 事务由 EGenDriverCE 执行，它包含「三个互斥的 Frame」。每个 Frame 使用不同的技术来查找和更新历史交易数据。

「Frame 1」

接受一组交易 ID 的列表。
返回列表中每个交易的信息。
对于每个交易，修改执行者的名称。

-- 查询特定交易 ID 的执行者名字SELECT t_exec_name FROM trade WHERE t_id = '200000001949399';-- 更新执行者名字UPDATE trade SET t_exec_name = 'Jessica X Lowery' WHERE t_id = '200000001949399';-- 查询交易相关信息SELECT t_bid_price, t_exec_name, t_is_cash, tt_is_mrkt, t_trade_price FROM trade, trade_type WHERE t_id = '200000001949399' AND t_tt_id = tt_id;-- 查询结算信息SELECT se_amt, DATE_FORMAT(se_cash_due_date, '%Y-%m-%d'), se_cash_type FROM settlement WHERE se_t_id = '200000001949399';-- 查询现金交易信息SELECT ct_amt, DATE_FORMAT(ct_dts, '%Y-%m-%d %H:%i:%s.%f'), ct_name FROM cash_transaction WHERE ct_t_id = '200000001949399';-- 查询交易历史记录SELECT DATE_FORMAT(th_dts, '%Y-%m-%d %H:%i:%s.%f'), th_st_id FROM trade_history WHERE th_t_id = '200000001949399' ORDER BY th_dts LIMIT 3;-- 查询另一个交易 ID 的执行者名字SELECT t_exec_name FROM trade WHERE t_id = 200000000135883;-- 更新执行者名字UPDATE trade SET t_exec_name = _latin1'Roxann Kniffen' WHERE t_id = 200000000135883;-- 提交事务COMMIT;

「Frame 2」

接受客户账户 ID、开始时间戳、结束时间戳和交易数量（N）作为输入。
返回指定客户账户在指定时间范围内的前 N 笔交易信息。
修改每笔交易的结算现金类型。

-- 设置事务隔离级别为可重复读SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;-- 查询特定客户账户 ID 在指定时间范围内的交易信息SELECT t_bid_price, t_exec_name, t_is_cash, t_id, t_trade_price FROM trade WHERE t_ca_id = 43000008818 AND t_dts >= _latin1'2005-01-27 13:24:52.109000' AND t_dts <= _latin1'2005-03-14 09:15:00.000000' ORDER BY t_dts ASC LIMIT 20;-- 对于每笔交易，更新结算类型为 'Cash'-- 下面的语句会重复多组SELECT se_cash_type FROM settlement WHERE se_t_id = 200000002704863;UPDATE settlement SET se_cash_type = 'Cash' WHERE se_t_id = 200000002704863;-- 查询并返回与特定交易 ID 相关的结算信息SELECT se_amt, DATE_FORMAT(se_cash_due_date, '%Y-%m-%d'), se_cash_type FROM settlement WHERE se_t_id = 200000002704863;-- 查询并返回与特定交易 ID 相关的现金交易信息SELECT ct_amt, DATE_FORMAT(ct_dts, '%Y-%m-%d %H:%i:%s.%f'), ct_name FROM cash_transaction WHERE ct_t_id = 200000002704863;-- 查询并返回与特定交易 ID 相关的交易历史记录SELECT DATE_FORMAT(th_dts, '%Y-%m-%d %H:%i:%s.%f'), th_st_id FROM trade_history WHERE th_t_id = 200000002704863 ORDER BY th_dts LIMIT 3;-- 提交事务Query COMMIT;

「Frame 3」

接受证券符号、开始时间戳、结束时间戳和交易数量（N）作为输入。
返回给定证券在指定时间范围内的前 N 笔交易信息。
对于现金交易，修改交易描述。

-- 查询特定证券符号在指定时间范围内的交易信息SELECT t_ca_id, t_exec_name, t_is_cash, t_trade_price, t_qty, s_name, DATE_FORMAT(t_dts, '%Y-%m-%d %H:%i:%s.%f'), t_id, t_tt_id, tt_name FROM trade, trade_type FORCE INDEX(PRIMARY), security WHERE t_s_symb = _latin1'AMGN' AND t_dts >= _latin1'2005-02-09 16:05:31.891000' AND t_dts <= _latin1'2005-03-14 09:15:00.000000' AND tt_id = t_tt_id AND s_symb = t_symb ORDER BY t_dts ASC LIMIT 20;-- 对于每笔现金交易，更新交易描述-- 下面的语句会重复多组SELECT se_amt, DATE_FORMAT(se_cash_due_date, '%Y-%m-%d'), se_cash_type FROM settlement WHERE se_t_id = 200000004055564;SELECT ct_name FROM cash_transaction WHERE ct_t_id = 200000004055564;UPDATE cash_transaction SET ct_name = _latin1'Limit-Sell 400 Shares of COMMON of Amgen, Inc.' WHERE ct_t_id = 200000004055564;-- 查询并返回与特定交易 ID 相关的结算信息SELECT ct_amt, DATE_FORMAT(ct_dts, '%Y-%m-%d %H:%i:%s.%f'), ct_name FROM cash_transaction WHERE ct_t_id = 200000004055564;-- 查询并返回与特定交易 ID 相关的交易历史记录SELECT DATE_FORMAT(th_dts, '%Y-%m-%d %H:%i:%s.%f'), th_st_id FROM trade_history WHERE th_t_id = 200000004055564 ORDER BY th_dts ASC LIMIT 3;

Data-Maintenance

Data-Maintenance 只有一个 frame，但是这个 frame 非常复杂。可能是由于 time triggered，因此 tpce_50k_sorted_id_time.csv 中并未出现。Data-Maintenance 事务由 EGenDriverDM 执行，它包含一个 Frame。这个事务模拟了对数据库中主要用作参考的静态数据进行定期修改的过程。

「Frame 1」

这个 Frame 负责执行数据维护操作，这些操作包括更新账户权限、地址信息、公司信用评级、客户电子邮件地址、客户税率、市场数据、交易所描述、财务数据、新闻项、证券交易日期、税率以及观察列表中的证券符号。
每次运行这个事务时，EGenTxnHarness 会提供要修改的表的名称作为输入。
事务会根据提供的表名选择下一个要修改的表，这意味着每个表大约每十二分钟只会被修改一次。
对于每个表，事务会执行特定的更新操作，例如更改信用评级、电子邮件地址、税率等，以保持数据的时效性和准确性。

Trade-Cleanup

Trade-Cleanup 事务由 EGenDriverDM 执行，它包含一个 Frame。这个事务的目的是清理数据库中的挂起或已提交的交易，以便在测试运行之前将数据库恢复到已知状态。

仅在测试开始时执行一次。

「Frame 1」

设置事务隔离级别为 READ COMMITTED，确保事务在读取数据时的一致性。
查询 trade_request 表，获取所有待处理交易的交易 ID。
对于每个待处理的交易，执行以下步骤：

在 trade_history 表中插入一条新记录，表示交易已被提交（SBMT 表示提交）。
更新 trade 表，将交易状态设置为已取消（CNCL），并记录当前的日期和时间。
再次在 trade_history 表中插入一条新记录，记录交易的取消状态。

这个过程确保了所有未完成的交易都被正确地标记和记录，以便在测试运行开始时数据库处于一个干净的状态。

-- 设置事务隔离级别为 READ COMMITTEDSET TRANSACTION ISOLATION LEVEL READ COMMITTED;-- 选择 trade_request 表中的所有交易 ID 并排序SELECT tr_t_id FROM trade_request ORDER BY tr_t_id;-- 为每个交易 ID 插入一条记录到 trade_history 表，表示交易已提交INSERT INTO trade_history (th_t_id, th_dts, th_st_id) VALUES ('200000014582105', '2024-02-27 20:48:13', 'SBMT');-- 重复多次，为每个交易 ID 更新 trade 表，设置状态为已取消，并记录时间UPDATE trade SET t_st_id = 'CNCL', t_dts = '2024-02-27 20:48:13' WHERE t_id = '200000014582105';-- 为已取消的交易插入一条记录到 trade_history 表INSERT INTO trade_history (th_t_id, th_dts, th_st_id) VALUES (200000014582105, _latin1'2024-02-27 20:48:13', _latin1'CNCL');-- 如果有其他交易 ID，也执行相同的插入和更新操作-- 例如：INSERT INTO trade_history (th_t_id, th_dts, th_st_id) VALUES (200000014582119, _latin1'2024-02-27 20:48:13', _latin1'SBMT');

TPCE 起初只有面向PostgreSQL 的版本，Percona 公司贡献了针对 MySQL的版本：https://github.com/Percona-Lab/tpce-mysql。

这个版本仍然存在编译问题，建议通过下面的改版来安装 tpce-mysql：https://github.com/VincentS/tpcemysql

下面是 Debian 系统的安装过程。首先安装 tpcemysql 的依赖项：

# 安装 unixodbcsudo apt-get install unixodbc unixodbc-dev# 安装 mysql8 的驱动：wget https://downloads.mysql.com/archives/get/p/10/file/mysql-connector-odbc_8.0.20-1debian9_amd64.debsudo dpkg -i mysql-connector-odbc_8.0.20-1debian9_amd64.debsudo apt-get install -f

tpcemysql 需要通过 odbc 连接 mysql，因此配置 odbc ：

# 设置 odbc 环境变量 /etc/odbcinst.ini# 若[MySQL ODBC 8.0 Driver]已经存在，则需要先删除，避免重复cat /etc/odbcinst.ini[MySQL ODBC 8.0 Driver]Description=MySQL ODBC 8.0 DriverDriver=/usr/lib/x86_64-linux-gnu/odbc/libmyodbc8w.soSetup=/usr/lib/x86_64-linux-gnu/odbc/libmyodbc8w.so# 设置 odbc 连接信息cat /etc/odbc.ini[MySQLServer_ODBC_NAME]Description=My MySQL tpceDriver=MySQL ODBC 8.0 DriverServer=xxx.xxx.xxx.xxxPort=3308User=rootPassword=passwordDatabase=tpceOption=3

接下来编译 tpce-mysql：

git clone git@github.com:VincentS/tpcemysql.gitcd tpce_mysqlmkdir flat_outcd prjmake clean# 修改 makefile# 将 CCFLAGS=-g -O2 -Wall  -D__STDC_CONSTANT_MACROS -D__STDC_FORMAT_MACROS -DHANA_ODBC -DUSE_PREPARE 中的 -DHANA_ODBC 修改为 -DMYSQL_ODBCcp Makefile.Mysql Makefilemake

生成 + 导入 tpce 数据。

cd ~/tpcemysql# 生成数据，生成后，数据会写入 flat_out，等待 LOAD DATA INFILE./bin/EGenLoader -i flat_in -o flat_out -c 2000 -t 2000 -f 200 -w 50cd scripts/mysql/# 首先在 mysql 中创建一个空库 tpce# 步骤 1：建表mysql --local-infile=1 -h 127.0.0.1 -uroot -ppassword -P 3308 -Dtpce < 1_create_table.sql# 导入数据等等后续操作与步骤 1 类似mysql --local-infile=1 -h 127.0.0.1 -uroot -ppassword -P 3308 -Dtpce < 2_load_data.sqlmysql --local-infile=1 -h 127.0.0.1 -uroot -ppassword -P 3308 -Dtpce < 3_create_index.sqlmysql --local-infile=1 -h 127.0.0.1 -uroot -ppassword -P 3308 -Dtpce < 4_create_fk.sqlmysql --local-infile=1 -h 127.0.0.1 -uroot -ppassword -P 3308 -Dtpce < 5_create_sequence.sql

运行：

cd ~/tpcemysql./bin/EGenSimpleTest -c 2000 -a 2000 -f 200 -d 50 -l 200 -e flat_in -j tpce  -U root -P password -r 10 -u 10 -t 90 -D MySQLServer_ODBC_NAME

为 MySQL 推荐索引是很常见的优化手段。对于 OLAP 或 OLTP 业务场景都有重要意义。其中，OLAP 业务的难点在于对复杂 join 关系、复杂操作子（子函数、GROUP BY、单值或范围查询）的理解，而 OLTP 业务的难点在于【慢 SQL + 基础 SQL】的综合理解。

TPCC 和 TPCE benchmark 自身提供了较为合理的普通索引、唯一键索引（UK）和外键索引（FK），我们将 benchmark 标准索引组合成为 GT（Ground Truth），这是索引推荐算法致力于达到的目标。我们对比了流行的友商开源算法Soar和字节跳动自研算法的SQLBrain的推荐效果。

下面的测试结果展现了 TPC-E 的意义：「TPC-E 显然是难度更大、挑战性更高的基准测试。」 由于 TPC-C 过于简单，Soar 和 SQLBrain 算法都可以达到不错的效果（超过 GT 性能的 95%），「测试不出差距」。但是 TPC-E 上两种方法拉开了差距。Soar 推荐的索引仅能达到 14.4 tpsE（GT 性能的16% 左右），而 SQLBrain 仍可以达到 GT 性能的 95% 以上。

为字节跳动ByteBrain团队自研的MySQL索引推荐系统 「SQLBrain」 打个广告：「SQLBrain」 在 TPC-E 的推荐效果达到 Ground Truth 的「98%」（对比流行的开源工具 Soar 推荐效果仅达到 「16%」），已经在字节跳动的业务中接入了近x万个MySQL实例，覆盖电商、财经、国际支付、直播、广告等多种业务。相关技术正在准备开源，敬请期待。🌷

TPC-E 可以被视为 TPC-C 的强化升级版，引入了更复杂的事务、更复杂的关系表和执行逻辑，增大了 OLTP Benchmark 的挑战性。在 TPC-C 过于简单、已经被充分优化的今天，TPC-E 作为一种更复杂的 OLTP Benchmark，可以在索引推荐、性能调参等领域展现作用、挖掘各种算法技术的能力瓶颈。

TPC-E 官网: https://www.tpc.org/tpce/
TPC-E pdf 规范：https://www.tpc.org/TPC_Documents_Current_Versions/pdf/TPC-E_v1.14.0.pdf
Chen, Shimin, et al. "TPC-E vs. TPC-C: Characterizing the new TPC-E benchmark via an I/O comparison study." ACM Sigmod Record 39.3 (2011): 5-10.
Tözün, Pınar, et al. "From A to E: analyzing TPC's OLTP benchmarks: the obsolete, the ubiquitous, the unexplored." EDBT. 2013.

跳转微信打开

蜜度×火山云搜索：助力跨模态检索能力再升级

Sat, 24 Aug 2024 10:55:33 +0800

2024-08-25 10:01 重庆

蜜度×火山云搜索：助力跨模态检索能力再升级

在数字化浪潮汹涌的今天，信息的爆炸性增长与前所未有的多样性，对检索技术提出了更为严苛的挑战。近期，蜜度科技股份有限公司（以下简称“蜜度”）与北京火山引擎科技有限公司（以下简称“火山引擎”）进一步深化合作，双方强强联合，在跨模态检索领域实现再升级。通过引入火山引擎云搜索服务提供的搜索与向量引擎技术，助力蜜度的跨模态检索能力实现了质的飞跃。

蜜度成立于 2009 年，是一家以人工智能技术为核心的语言智能和垂直大模型企业，专注于多模态、多语言智能科技，以数据与 AI 算法双轮驱动，赋能千行百业实现数智化转型升级。

自合作以来，蜜度与火山引擎不断深耕跨模态内容洞察领域，将技术优势转化为实际应用价值。此次合作中，蜜度依托火山云搜索产品的强大支持，特别是在 DiskANN 技术的加持下，其跨模态检索系统实现了从 IDC 自建 ES 集群到高效云搜索的转型，不仅极大地拓宽了信息检索的边界，更在检索速度与准确率上实现了双重提升。

优化后的蜜度跨模态检索系统，仅需极低的内存资源即可高效处理海量数据，平均提速 50%，部分大查询更是达到几十倍的提升，准确率提升 20%。这一技术的革新，使得用户在进行图片、视频等非文本内容的检索时，能够享受到更加流畅、精准的体验。以一张照片为例，蜜度跨模态检索技术能够迅速解锁与之相关的文本、图片、视频等多模态信息，将检索时间不论数据范围都稳定缩短至 3 秒以内。而在检索结果的丰富度与准确性上，用户不再局限于简单相关的结果展示，而是能够触及到更为精准、高质量的匹配项，获取更加全面、深入的洞察视角。

通过跨模态检索技术，蜜度已将信息检索、分析等能力拓展到全媒体多模态多语言的应用层面。旗下跨模态检索平台——蜜度索骥，已帮助企业、学校等机构及时发现那些难以通过关键词检索到的信息，实现检索效率的大幅提升。

针对信息服务领域，蜜度对近 300 种特定场景进行了深度训练和优化，确保技术解决方案能够精准满足行业需求。无论是在应对天气变化的即时监控，还是支持交通畅通的快速响应，或是环境变化的有效调节，蜜度的跨模态检索技术都能发挥至关重要的作用。

火山引擎云搜索服务（Cloud Search），作为此次合作的坚实后盾，以其全托管、一站式的信息检索与分析能力，以及业界顶尖的技术专家服务为蜜度跨模态检索系统注入了强大的动力。平台不仅兼容多种行业标准，更支持全文搜索、向量搜索、混合搜索、时空检索等多种搜索模式，满足复杂多变的实际需求，为双方共同探索文本、音视频内容风险场景识别等前沿领域奠定了坚实的基础。

未来，双方将在合作中不断探索技术创新，共同研发更加贴合市场需求的内容风险管理解决方案，以“AI+”的深度链接，携手推动人工智能技术在全时、全域范围内的广泛应用，为各行各业的数智化转型注入强大的动力。

往期推荐

95% 向量资源节省，火山引擎云搜索 RAG 技术体系演进

基于火山引擎云搜索服务和豆包模型搭建 RAG 推理任务

基于火山引擎云搜索的混合搜索实战

跳转微信打开

kitexcall：用 JSON 发起 RPC 请求的命令行神器

Fri, 23 Aug 2024 13:09:08 +0800

张哲 2024-08-23 13:20 重庆

为了简化开发者的工作，社区推出了 kitexcall 这个命令行工具，基于 Kitex 提供的 JSON 泛化调用，极大地简化了 Kitex 客户端的编写过程。

作者：张哲(github: Zzhiter)，Kitexcall 作者

01
背景

Kitex 是字节跳动基础架构服务框架团队推出的 Go 微服务 RPC 框架，支持 Thrift、Kitex Protobuf、gRPC 等消息协议，具有高性能、强可扩展的特点。Kitex 于 2021 年 9 月正式开源后，已在多家外部企业成功落地，为他们带来了真实的成本、性能和稳定性收益。

然而，对于开发者来说，有一个痛点是，为了验证 Server 端代码，发起 RPC 测试请求的流程比较繁琐。

02
痛点

给 Kitex 服务发送 RPC 测试请求的过程通常包括：

1. 生成客户端代码：根据 IDL 文件生成 Kitex Client 相关代码。

2. 构造测试请求：构建请求、调用方法、处理响应。

3. 配置多种选项：设置传输协议、元信息、异常处理等。

这一过程不仅耗时，且在频繁测试时，每次都需修改和编译代码，效率较低。一个能简化这些步骤、快速发送 RPC 请求的工具，将大幅提升开发效率。

03
kitexcall 介绍

详情可以参考：https://github.com/kitex-contrib/kitexcall

为了简化开发者的工作，社区推出了 kitexcall 这个命令行工具，基于 Kitex 提供的 JSON 泛化调用，极大地简化了 Kitex 客户端的编写过程。开发者只需通过简单的命令行操作，就可以轻松发起 Kitex 请求，而不再需要编写繁琐的代码。

kitexcall 目前已发布 v0.1.1 版本，具备以下功能特点：

支持 Thrift/Protobuf：可以处理 Thrift 和 Protobuf 格式的 IDL。
支持多种传输协议：包括 Buffered、TTHeader、Framed、TTHeaderFramed，未来还将支持 gRPC。
灵活的客户端选项：支持指定常用的客户端选项，如 client.WithHostPorts。
多种数据输入方式：请求数据可以从命令行参数或本地文件读取。
元信息传递：支持单跳透传和持续透传的元信息，并接收服务器返回的反向透传元信息。
业务异常处理：接收并处理业务自定义的异常错误码和信息。
多种输出格式：默认输出人类友好的可读格式，未来将支持可解析的格式，便于与其他自动化工具集成。

下面，我们通过一个简单的例子，展示如何使用 kitexcall 发起一个 Kitex 请求。

04
使用示例

首先安装 kitexcall 命令行工具：

go install github.com/kitex-contrib/kitexcall@latest

以 github.com/cloudwego/kitex-examples 的 Echo 服务为例，将其 IDL 文件保存为 echo.thrift。

namespace go apistruct Request {    1: string message}struct Response {    1: string message}service Echo {    Response Echo(1: Request req)}

为方便测试，你可以用如下步骤在本机启动这个 Echo 服务（默认监听 8888 端口）：

$ git clone https://github.com/cloudwego/kitex-examples.git$ cd kitex-examples/basic/server/$ go run .[Info] KITEX: server listen at addr=[::]:8888

使用 kitexcall 发起请求非常简单，只要在命令行中指定 IDL 文件、方法名称、请求报文（JSON 格式）和 Server 地址即可：

kitexcall -idl-path echo.thrift -m echo -d '{"message": "hello"}' -e 127.0.0.1:8888

然后就可以看到 kitexcall 输出服务端返回的响应报文：

[Status]: Success{    "message": "hello"}

如果你希望从文件中读入请求数据，也可以先创建请求数据文件 input.json：

{"message": "hello"}

并在 kitexcall 的参数中用 -f 参数指定文件名：

kitexcall -idl-path echo.thrift -m echo -f input.json -e 127.0.0.1:8888

05
原理简介

kitexcall 工具基于 Kitex 提供的 JSON 泛化调用实现。其原理简单介绍如下：

1. Descriptor Provider

kitexcall 使用 Kitex 提供的 DescriptorProvider 接口来解析 Thrift 或 Protobuf 的 IDL 文件，获取服务定义。

2. 泛化对象创建

解析 IDL 文件后，kitexcall 创建泛化对象（如 JSONThriftGeneric 或 JSONPbGeneric），将 JSON 数据转换为内部请求格式，并将响应数据转换回 JSON 格式。

3. 客户端初始化

kitexcall 使用泛化对象和客户端选项（如传输协议、元信息处理等）来创建泛化客户端。该客户端可以调用 IDL 文件中定义的任何服务方法。

4. 请求构建与发送

kitexcall 从命令行输入或文件中读取 JSON 格式的请求数据，构建请求对象并发送请求，同时设置传输协议和元信息。

5. 响应处理
接收到响应后，kitexcall 将其格式化为 JSON 并输出。如果启用了元信息回传机制，还会输出从服务端返回的元信息。

06
未来展望

kitexcall 作为一个社区驱动的项目，致力于简化开发者使用 Kitex 进行 RPC 调用的过程。未来，我们计划在以下几个方面进行改进和扩展：

1. 计划支持 gRPC（含基于 gRPC/HTTP2 的 Thrift Streaming）协议，以适应更多的使用场景。

2. 支持通过服务发现获取 Kitex Server 地址。

3. 在 Kitex Server 支持 Reflection 能力之后，kitexcall 将跟进，实现无需 IDL 文件，即可获取服务详情和进行服务调用，使用将会更加便捷。

4. 支持可解析的输出格式（如 JSON），以便与其他自动化工具集成（例如 CI/CD、IDE 插件等场景）。

欢迎对 Kitex 和 kitexcall 感兴趣的开发者加入社区，共同贡献代码和创意。我们相信，在大家的共同努力下，kitexcall 将成为 Kitex 开发者手中的一把利器，让微服务开发变得更加高效和便捷。访问 github.com/kitex-contrib/kitexcall 了解更多信息，并加入我们吧！

项目地址

GitHub：https://github.com/cloudwego

官网：www.cloudwego.io

阅读原文

跳转微信打开

捏Bot挑战｜瓜分30万现金，更有领克Z10一年使用权等你赢！

Fri, 23 Aug 2024 13:09:08 +0800

2024-08-23 13:20 重庆

捏Bot挑战｜瓜分30万现金，更有领克Z10一年使用权等你赢！

阅读原文

跳转微信打开

意念玩《黑神话》指日可待？马斯克脑机接口最新进展，脑后插管打 CS 拼抢三杀！｜AGI 掘金资讯

Fri, 23 Aug 2024 13:09:08 +0800

AGI 掘金知识库 2024-08-23 13:20 重庆

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！（https://sourl.co/G5Gpqh）

🌟 技术突破

🔗 意念玩《黑神话》指日可待？马斯克脑机接口最新进展，脑后插管打 CS 拼抢三杀！

马斯克的 Neuralink 公司展示了脑机接口技术的最新进展，瘫痪志愿者 Alex 通过植入脑机接口，成功用意念控制游戏《CS 2》，并在 5 分钟内学会操控鼠标，打破世界纪录。Alex 还使用 CAD 软件设计并 3D 打印了脑机接口充电器支架，展现了脑机接口在日常生活中的实用性和稳定性。Neuralink 致力于提升操作方式，解码手写意图，以帮助瘫痪者恢复使用电子设备和交流能力。未来，脑机接口有望实现控制机械臂和轮椅，为患者带来更大自由。

🔗 谷歌 DeepMind 集成 Gemini 1.5 Pro 大模型于实体机器人，看、听、说能执行 57 种任务

谷歌 DeepMind 最新研究将 Gemini 1.5 Pro 大模型集成到实体机器人中，赋予其导航、推理等高级能力。机器人通过 100 万 Tokens 上下文长度的长上下文处理能力，理解多模态指令，识别物品和场景，执行 57 种任务。在 836 平方米真实空间的测试中，机器人展现出在无需推理和需要推理任务中的高成功率，以及在复杂环境中的适应性和导航准确性。该技术的发展将推动实体机器人在服务和执行任务方面的人性化和智能化。

🔗 英伟达发布 80 亿参数新 AI 模型：精度、效率高，可在 RTX 工作站上部署

英伟达于 2024 年 8 月 21 日推出 Mistral-NeMo-Minitron 8B，一个具有 80 亿参数的 AI 模型。该模型通过宽度剪枝和知识蒸馏技术，实现了高精度和高效率，能够在搭载 RTX 显卡的工作站上运行。Mistral-NeMo-Minitron 8B 在九项语言模型基准测试中表现卓越，覆盖语言理解、常识推理、数学推理等任务。该模型的发布标志着 AI 技术在精度和效率方面的进一步发展，为数据中心、云和工作站的 AI 应用提供了新的可能性。

🔗 国产机器人黑马首次登场，打螺丝堪比擎天柱！国家队全栈自主研发

浙江人形机器人创新中心研发的领航者 2 号 NAVIAI，在 2024 世界机器人大会上首次亮相，展示了其类人外观和高智能作业能力。这款 1.65 米高、60 公斤重的机器人，拥有 41 个自由度，能执行复杂动作如演讲、泡茶、下棋等。它采用拟人全身模仿学习技术，AI 算力高达 275Tops，反应迅速，能适应多种场景。领航者 2 号的全栈自主研发，标志着国内人形机器人技术的重大突破，预示着人形机器人 3.0 时代的到来，有望在服务、医疗、教育等领域广泛应用。

🔗 GPT-4 无师自通预测蛋白质结构！LLM 全面进军生物学，AlphaFold 被「偷家」?

GPT-4，一个大型语言模型，尽管仅在人类语言上训练，却在生物学领域显示出惊人的潜力。Nature 发表的研究表明，GPT-4 能够以高精度对氨基酸和蛋白质结构进行建模，甚至在集成 Wolfram 插件后，对 α-螺旋结构的建模准确度显著提升。GPT-4 在抗病毒药物与病毒蛋白相互作用分析中也展现出能力，正确识别药物配体并预测可能的结合位点。尽管存在局限性，GPT-4 的这些能力为生物信息学和药物发现提供了新的视角和工具。

🔗 北大张大庆教授：无线感知赋予具身智能“第六感官”，6G 时代手机隔空测心跳

北京大学张大庆教授提出无线感知技术，利用 WiFi、5G 等信号实现隔墙感知，精度可达毫米级。该技术成本低，隐私安全问题小，有望在医疗、康养、安防等领域广泛应用。随着 6G 技术发展，未来手机将能隔空监测人体呼吸和心跳。张教授团队还探索量子无线感知，通过量子原理提高感知精度，实现更精细的非接触感知。预计 6G 时代，无线感知技术将更加普及，成为日常生活的一部分。

🔗 微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务新增 Text to Speech Avatar 功能，允许开发者创建个性化虚拟人形象，将文本转换为自然声音视频。该服务提供多种人物预设形象，支持批量合成 API，实现异步或实时文本到语音人像视频合成，并在 Speech Studio 中提供内容创作工具。服务按视频长度计费，已在多个地区推出。

🔗 多亏 Transformer，Mamba 更强了！仅用 1%计算量达新 SOTA

Mamba 架构通过 Albert Gu 团队的 MOHAWK 方法，实现了在 1%的计算量下达到新的最佳性能（SOTA）。该方法将 Transformer 模型的预训练知识迁移到 Mamba 等替代架构中，通过矩阵对齐、隐藏状态对齐和权重转移三个阶段的蒸馏过程，显著降低了计算成本。Phi-Mamba 模型仅使用 3B token 进行训练，便在长序列处理上超越了传统 Transformer 架构，展现了在资源有限情况下的高效性能。

🔗 D-ID 发布 AI 视频翻译工具，实现语音克隆和口型同步

D-ID 公司推出了一款 AI 视频翻译工具，该工具不仅能够将视频内容翻译成 30 种不同的语言，还能克隆说话者的声音并调整其口型以匹配翻译后的语音。这项技术基于 D-ID 早期的动画照片技术发展而来，旨在帮助创作者扩大全球影响力，降低本地化成本。D-ID Studio 及其 API 将提供这项服务，支持 10 秒至 5 分钟、2GB 以下的视频文件，目前提供免费试用。

🔗 “卡尔曼滤波”重磅回归，文生视频新增一个超强外挂！

卡尔曼启发特征传播（KEEP）框架在视频人脸超分辨率（VFSR）领域取得突破，利用卡尔曼滤波原理实现跨帧信息融合，提高面部细节恢复质量。KEEP 算法通过编码器、解码器、卡尔曼滤波网络和跨帧注意模块，增强时间一致性，有效处理视频帧间特征传播问题。实验结果表明，KEEP 在多个评估指标上超越现有技术，尤其在保持跨视频帧面部细节一致性方面表现出色。

💫 企业动态

🔗 Midjourney 官宣网页版免费用！前谷歌大佬祭出 AI 生图 2.0，全网惊艳实测

AI 图像生成领域领导者 Midjourney 推出新网页版编辑器，集成重绘、缩放等功能，提升用户体验。面对新兴竞争者如 Flux 1 和 Ideogram 2.0 的挑战，Midjourney 通过免费开放新工具，试图吸引和留住用户。同时，Ideogram 2.0 以其高质量的图像生成和文本渲染技术，以及较低的成本，成为 Midjourney 的强劲对手。AI 图像生成市场的竞争愈发激烈，各公司纷纷推出新功能和优化服务，以争夺市场份额。

🔗 OpenAI 与 Condé Nast 达成技术合作，测试 ChatGPT 搜索

OpenAI 宣布与 Condé Nast 集团建立技术合作，旨在通过 ChatGPT 的搜索功能提升新闻发现和传播能力。Condé Nast，成立于 1909 年，旗下拥有《时尚》、《GQ》等知名刊物，覆盖多个领域，具有全球影响力。合作将展示 Condé Nast 内容，重塑用户与数字内容的互动方式。此外，OpenAI 还与多家媒体合作，加强技术研发并解决版权问题。

🔗 McAfee 发布深度伪造检测器，首搭联想 Copilot-Plus 电脑

安全软件公司 McAfee 推出了一款深度伪造检测器，该技术能分析音频数据，识别网络中的伪造视频。该检测器首次在联想新款 Copilot-Plus 电脑上应用，提供 30 天免费试用，之后年费 9.99 美元起。所有分析在本地完成，保护用户隐私。McAfee 计划扩展功能，包括分析无声视频和图片，并已推出教育资源网站。

🔗 Anthropic 工程师分享沉浸式体验，和「AI 搭子」Claude 共度完美一天

Anthropic 工程师 Alex Albert 分享了他与 AI 助手 Claude 共度的一天，展示了 AI 在日常生活中的多面性应用。从早餐替代食材的查询、健身替代方案、工作邮件处理、文档制作、社交媒体互动，到晚餐烹饪指导、电影类型推荐、首饰材质比较，以及哲学书籍讨论，Claude 展现了其在不同场景下的实用性和智能性。Alex 的分享不仅提供了丰富的 prompt 指令参考，也引发了网友对 AI 依赖和思考替代的讨论。

🔗 三星 Galaxy Ring 智能戒指是一次性配件？iFixit 称其完全无法修复，寿命不超两年

三星在 2024 年 7 月推出的 Galaxy Ring 智能戒指，售价 3099 元，主打健康监测功能，包括心率、压力水平、体温等。然而，iFixit 于 8 月 21 日发布报告指出，该戒指在可维修性上表现极差，一旦损坏或电池老化便无法修复，成为"100%一次性"产品。其电池和充电感应线圈通过接口连接，拆解后即报废，预计使用寿命不超过两年。尽管具有 7 天续航能力，但产品耐用性问题引发消费者关注。

🔗 历时 16 周，Anthropic 的 Claude AI 移动应用收入突破 100 万美元

Anthropic 的 Claude 移动应用在 16 周内收入超过 100 万美元，美国用户贡献近半。尽管在下载量和收入上不及 ChatGPT，Claude 在 AI 应用中增速领先，下载量美国占 32.5%，收入占 48.4%。面对苹果推出 Apple Intelligence 带来的竞争压力，Claude 在 Web 端表现更佳，增速超 ChatGPT。

🔗 《黑神话：悟空》的第二个受害者出现了，竟是 AI 搜索惹的祸！

国产游戏《黑神话：悟空》上线后，因热度引发 AI 搜索错误，导致某机锋网员工手机号被误标为游戏客服电话。微软必应 AI 助手抓取错误信息，使受害者短时间内接到大量电话。尽管相关文章已删除，错误信息仍一度出现在搜索首页。微软必应覆盖 36 个国家和地区，用户超 6 亿，此次事件暴露了 AI 搜索引擎在信息抓取和处理上的不足。尽管必应团队已对错误信息进行更正，但 AI 搜索的准确性和可靠性问题仍需关注。

✨ 行业观点

🔗 2024 世界机器人大会：泡沫、热潮、现实与未来

2024 年世界机器人大会在北京举行，169 家企业带来 600 余件创新产品，其中 60 余款为首发新品。人形机器人成为焦点，数字华夏推出的“夏澜”机器人，搭载 AI 系统和高仿外观，展示了自然语言交互和流畅动作控制。大会聚焦机器人在家庭服务、情感陪伴及特定场景如应急、消防的应用，同时探讨了人形与四足机器人的优劣。尽管存在行业泡沫争议，机器人技术正逐步融入日常生活，预示着智能化和人机协作的未来趋势。

🔗 对话宇树创始人王兴兴：做机器人，中国缺乏 AI 人才

宇树科技创始人王兴兴在对话中指出，中国机器人行业面临的最大瓶颈是 AI 能力的不足，尤其在 AI 人才培养方面存在欠缺。他认为，尽管硬件发展存在挑战，但硬件问题更多是工程上的，可以通过技术创新和成本控制来解决。王兴兴强调，机器人行业仍处于探索阶段，技术方案尚未统一，但随着行业关注度的提升和更多资源的投入，未来发展前景乐观。他预测，机器人行业的“iPhone 时刻”可能在未来 3 到 5 年内到来，届时将见证行业爆发式增长。同时，他也提到了触觉技术在机器人领域的应用挑战，以及自动驾驶技术对机器人技术发展的潜在影响。

🎡 热门活动

🔗 AI Talk 沙龙第3期-深圳站｜2024.8.24 （周六）14:00-17:00

（https://agijuejin.feishu.cn/wiki/TejhwuzeuiMu67ksQKjcW0l5nNg）

❝
AGI 掘金成立于 2024 年7 月，是一家专注于 AGI 相关研究和应用的创新型知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展，并将其应用于各个行业，为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务，致力于成为行业的领军者。AGI 掘金期待你的加入！
欢迎戳我加入 AGI 掘金飞书社群交流学习😊（https://sourl.co/G5Gpqh）
❞

点击阅读原文，了解详情

阅读原文

跳转微信打开