用多智能体LLM模拟交易公司做决策
把分析/研究/交易/风控拆分,便于复现实验与对比不同LLM/数据
⚙ 角色化代理辩论+汇总,组合管理审批并接回测/模拟交易
- v0.2.4:结构化输出代理+决策日志
- v0.2.4:LangGraph断点恢复、Docker
- 多LLM提供商:DeepSeek/Qwen/GLM/Azure等
更新时间: 2026/5/4 00:42:05
方法或结果明显独立成立的工作,建议读全文
这篇论文要拆开一个长期混在一起的问题:subword tokenizer 为什么比原始 byte 模型更容易训练、效果更好。BPE 或 unigram 同时改变了序列长度、样本吞吐、词表参数量、边界先验、位置信息和预测目标粒度。过去常把这些收益合在一起讨论,因此很难判断 byte-level LM 的差距到底来自哪里。
这篇工作处理的是一个很具体、但对大规模预训练很关键的问题:nGPT 这类强归一化 Transformer 虽然训练更快、也不需要 warmup 和 weight decay,但它并没有自然继承大家希望的超参数可迁移性,尤其是学习率在 width、depth、token horizon 上不能稳定转移。问题不只是“调参麻烦”,而是现有 μP/Depth-μP 那套关于权重—激活对齐的假设,在 nGPT 这种广泛归一化、带可训练尺度参数的结构里并不成立。作者先用实证去检查这些对齐关系,再据此重写参数化与学习率缩放规则,目标是让小模型、短 token horizon 上找到的学习率,能可靠外推到更宽、更深、训练更久的 nGPT。
论文研究的是非均匀样本成本下的训练优化:当不同样本的梯度计算成本不同,如何在达到目标误差 ϵ 的同时最小化总训练成本。它把这个问题形式化为 Cost-Aware Learning,并把结论落到 LLM RL 训练中的 GRPO:长 reasoning trace 的 policy-gradient 计算更贵,不应该和短样本按同一概率处理。
这篇工作解决的是 web agent 训练数据生成里的一个老问题:现有自动化轨迹生成方法对网站功能覆盖不全,任务合成常常脱离真实页面结构,最终得到的 trajectory 噪声大、可执行性差,难以真正训练出可靠的 web agent。作者把问题拆成三个环节:探索不充分、任务发现与任务表述不扎实、以及基于这些任务生成的轨迹不稳定。尤其在未见网站上,agent 失败往往不是因为单步点击不会,而是因为它根本没有形成对网站深层结构和功能空间的内部地图。AutoSurfer 的目标就是系统性地“逛完整个网站”,把页面、动作、功能、任务和轨迹串成一个更闭环的数据生成流程,并进一步验证这些数据是否足以训练 website-specific LLM,也就是文中所说的 wLLM。
文本LLM预训练、架构创新、Scaling Law、数据/Tokenizer、MoE、重磅技术报告、新型语言建模方法

这篇论文要拆开一个长期混在一起的问题:subword tokenizer 为什么比原始 byte 模型更容易训练、效果更好。BPE 或 unigram 同时改变了序列长度、样本吞吐、词表参数量、边界先验、位置信息和预测目标粒度。过去常把这些收益合在一起讨论,因此很难判断 byte-level LM 的差距到底来自哪里。

这篇工作处理的是一个很具体、但对大规模预训练很关键的问题:nGPT 这类强归一化 Transformer 虽然训练更快、也不需要 warmup 和 weight decay,但它并没有自然继承大家希望的超参数可迁移性,尤其是学习率在 width、depth、token horizon 上不能稳定转移。问题不只是“调参麻烦”,而是现有 μP/Depth-μP 那套关于权重—激活对齐的假设,在 nGPT 这种广泛归一化、带可训练尺度参数的结构里并不成立。作者先用实证去检查这些对齐关系,再据此重写参数化与学习率缩放规则,目标是让小模型、短 token horizon 上找到的学习率,能可靠外推到更宽、更深、训练更久的 nGPT。

论文讨论一个很实际的数据策略问题:对于德语这类高资源但非英语语言,严格过滤会显著缩小语料池;在固定预训练 token 预算下,是应该保留更多不同网页做单轮训练,还是应该选择高信号子集并重复训练多轮。

这篇工作解决的是 masked diffusion language modeling 里的一个具体但关键的训练—采样错位:标准吸收式 masked diffusion 在每一步都会预测当前位置的 clean token 分布,但如果该位置在 reverse update 后仍保持 masked,模型刚刚得到的 clean-state 估计就被直接丢弃。于是下一步它还得从 mask token 重新猜一遍,而不是在上一步估计的基础上继续修正。这会削弱跨步 refinement,尤其在低步数采样时更明显,因为每一步都需要做更大的去噪推进。

现有长上下文训练依赖的序列并行(SP)方案与DeepSpeed、Megatron等特定框架紧耦合,需要手动插入通信算子、调整张量布局,适配不同模型架构和硬件的工程成本极高;已有的编译器级分布式优化仅面向参数规模扩展,未覆盖长上下文场景的序列并行需求。

分类与结构化预测中平滑损失(如交叉熵)优化速率快但一致性收敛慢,分段线性损失(如Hinge)一致性快但不可微的固有权衡
KV-Cache优化、量化/剪枝/蒸馏、推测解码、注意力优化、长上下文推理、模型压缩、推理系统/Serving

这篇论文要解决的是生成长度的 token 级建模问题。现有长度控制多依赖 prompt、序列级长度惩罚,或生成前的长度预测器;这些方法只能在整段回答层面施加约束,不能描述生成过程中每一步离结束还有多远,也难以捕捉中途从短回答转向长推理的动态变化。

这篇工作解决的是大规模 LLM 训练中的一个系统瓶颈:分布式 collective 通信越来越贵,尤其在 FSDP、TP、MoE 的 All-to-All / Reduce-Scatter 路径上,网络时间已经压过了算力时间。已有压缩方法多是有损量化或稀疏化,训练风险难控;通用无损压缩又因为压缩/解压开销太大,放不进训练关键路径。作者要回答的是:能不能利用 LLM 训练张量的统计规律,做一个真正能在训练时加速的无损通信库。

这篇工作处理的是大规模 LLM 推理里一个越来越硬的系统瓶颈:KV cache 不是简单地“不够大”,而是同时存在三层错配。第一,现有框架对不同 attention 变体的 KV 大小建模不统一,尤其对 MLA 这类压缩 KV 表示的结构缺少原生支持,导致显著的显存预算错误和批大小浪费。第二,主流 serving 系统几乎把 KV cache 视为只能放在 GPU HBM 里的对象,没有把 CPU DRAM、CXL、NVMe、RDMA、并行文件系统这些层级纳入统一管理。第三,缓存淘汰仍以 LRU 这类被动策略为主,没有利用请求复用、系统 prompt 重复、agent workflow 模板化、RoPE 顺序局部性这些可预测结构,因此频繁把后续还会用到的状态驱逐掉,再付出重算代价。

解决消费级多 GPU 上做 LLM 微调时,受限于显存、PCIe 带宽和 pipeline stage 负载不均导致吞吐被最重 stage 卡死的问题。

在资源受限的工业边缘设备上,降低 VLM/LLM 推理延迟,并避免闭源硬件生态带来的部署锁定。

黑盒 LLM 服务中,系统需要在响应质量不可完全观测、强推理路径成本更高的条件下,为每个请求决定是否追加计算。

研究 AI 推理负载在地理位置之间迁移时,如何在延迟、容量、合规和状态局部性约束下优化电力成本与碳排放。

动态模型合并方法需要为每个任务存储独立参数,导致存储开销过高的问题

研究高 GPU 利用率下的在线推理服务调度:如何在并发执行时估计延迟干扰,并让高优先级请求更少错过 deadline。

面向 LLM Agent 的多轮推理-工具调用工作负载,解决 GPU 推理和 CPU 工具执行之间资源耦合、排队和过载的问题。

为不同硬件和推理服务自动选择运行时参数,以降低 LLM 推理能耗。
VLM、多模态理解、统一模态预训练、多模态对齐、视觉-语言模型

这篇工作讨论的不是某个具体算法任务,而是一个更基础的表示问题:当任务的计算规则依赖显式二维结构时,把输入强行序列化成 1D token,会不会额外增加模型负担,并成为性能瓶颈。作者把这种负担称为 serialization friction。论文用三个合成任务做诊断:矩阵转置依赖行列对应,Conway’s Game of Life 依赖局部邻域更新,LU 分解依赖二维位置上的消元关系。核心问题不是“模型会不会做这些题”,而是“同一底层内容,如果以文本序列给模型,和以保留二维布局的视觉输入给同一语言骨干,行为会怎样变化”。

这篇工作要解决的是实时多模态交互里的两个结构性问题:一是现有系统大多仍是“先感知、再响应”的半双工流水线,模型在生成过程中很难持续吸收新到达的视觉和语音信息;二是交互仍然主要是被动响应式,缺少基于持续环境理解的主动行为。作者的目标不是单纯把语音、图像、视频接进 LLM,而是把输入和输出统一到同一时间轴上,做连续、全双工、可主动触发的 omni-modal 交互。

构建科学实验图像问答 benchmark,评估 MLLM 是否能读懂多面板实验图、定位关键信息并进行专家级证据推理。

现有多模态大模型基准大多聚焦单图/多图理解任务,缺乏对 interleaved 图文混合上下文下细粒度对齐能力的系统评测基准。

分析大视觉语言模型在读取图像中文字后,其概念属性描述是否会受到文字字体、颜色、大小等视觉样式影响。

解决视觉语言模型 test-time prompt tuning 虽能提升适应性、但常导致预测校准变差的问题。

解决高效 VLM 预训练中的数据采样问题,尤其是在降采样节省算力时如何避免长尾语义被系统性丢失。

现有 VLA 预训练多把机器人学习当作监督行为克隆,难以显式建模任务进展和语言目标的物理可达性。

评测多模态大模型对科学谱图的理解和问答能力,尤其是从高密度、非结构化、领域化曲线图中提取信息并进行专业推理。
图像生成、视频生成、语音合成、音乐/3D生成、Diffusion模型

论文解决的是图像编辑 RLHF 中 reward model 不可靠的问题:单一打分器很难同时评估指令遵循、未编辑区域保持和视觉质量,导致后续 RL 优化信号偏粗。

这篇工作要解决的不是“视频生成够不够清晰”,而是“如何把视频美学变成可训练、可评估、可用于后训练优化的监督信号”。现有视频美学研究大多停留在粗粒度整体打分,标签解释性弱,无法告诉模型问题出在构图、色彩、光线还是物理 plausibility,也很难直接作为生成模型对齐时的 reward。作者试图补上这条链路:先定义细粒度视频美学标准,再构建专家偏好数据,再训练可解释的 reward model,最后把它接到视频生成后训练里。

统一建模文本、人类动作和物体动作的联合分布,从而支持多种 4D human-object interaction 条件生成任务。

如何把扩散模型蒸馏到极少步采样(few-step)时仍保持高画质,并避免“蒸馏+RL”两套流程拼装带来的复杂性与不稳定。

解决现有扩散模型在连续时空随机过程(如视频、天气预报)的任意子集观测条件生成任务中,存在物理时间相近状态结构相似性缺失、低步推理不稳定、噪声不匹配物理时间步长、不支持任意状态子集条件的问题
RL/RLHF/RLVR/DPO/对齐/Instruction Tuning/Safety

论文研究的是非均匀样本成本下的训练优化:当不同样本的梯度计算成本不同,如何在达到目标误差 ϵ 的同时最小化总训练成本。它把这个问题形式化为 Cost-Aware Learning,并把结论落到 LLM RL 训练中的 GRPO:长 reasoning trace 的 policy-gradient 计算更贵,不应该和短样本按同一概率处理。

奖励模型在推断时会利用长度、格式等“捷径特征”给出偏置打分,进而污染 RLHF/DPO 的偏好数据;问题是如何在不重新训练 RM、且不牺牲正常偏好判别能力的前提下,同时缓解多种风格偏置。

论文要解决的是 latent reasoning 的 RL 稳定性问题。已有 Latent-SFT 能把中间推理压到连续 latent token 中,缩短推理链,但把 GRPO 直接搬到 latent 空间会失效:连续探索容易离开有效 latent 流形,Gumbel 扰动下的概率更新方向可能和轨迹优势不一致,多条正确路径的 latent 平均还可能落到不能继续正确推理的位置。

这篇工作要解决的是 VLA 中一个很具体但重要的缺口:已有带 reasoning 的机器人策略,要么依赖显式语言推理,延迟高且难表达连续物理过程;要么做 latent reasoning,但训练方式仍主要是 imitation learning,缺少在线交互带来的适应性。与此同时,已有 VLA 的 RL post-training 又大多只优化 action space,没有把“先形成物理推理,再执行动作”这一内部过程纳入优化目标。作者的问题设定因此很明确:能否让 RL 直接作用于 latent physical reasoning 与 action generation 的耦合过程,而不是只在动作层面做 policy improvement。

这篇工作要解决的是:在没有人工标注的情况下,模型能否自己生成“可验证的新题目”,再通过解题反馈持续提升推理能力,而不是只在已有题目上做 answer-side RL。

现有混合RLVR训练会出现能力分化,不同能力的优化方向冲突导致性能权衡,而先训练单领域专家再做静态OPD蒸馏的范式存在师生行为差距过大,导致学生无法充分吸收专家能力的问题。

答案级微调(ALFT)需要优化模型生成正确最终答案的边际概率,但推理轨迹到答案的映射通常不可微,且推理轨迹的组合空间过大,直接计算边际概率梯度不可行,现有REINFORCE类梯度估计器方差过高,训练难以稳定。

论文解决的是低算力 RL reasoning 训练中的 advantage 估计问题:不训练额外 value network,也不能像 GRPO 那样为每个 prompt 采很多条 reasoning trace 时,如何得到低方差的 policy gradient。核心矛盾是,REINFORCE 方差高,PPO/A2C 需要额外 value model,GRPO 省掉 value model 但依赖较大的组内采样数。

领域微调前无系统方法检测训练数据是否覆盖全部所需细分能力,现有统计指标或事后评估要么无法定位具体能力缺口,要么需付出高昂的微调计算成本

现有DPO等偏好学习方法使用的代理损失与真实 pairwise 排序目标理论上不一致,神经网络的等连续特性会导致模型通过压缩得分差而非学习正确排序来最小化代理损失,无法保障真实排序效果

现有安全对齐评测多看首轮拒答,却较少衡量模型在多轮澄清后能否恢复对良性用户意图的帮助性。

面向写作类生成任务,现有奖励模型评测过于粗粒度,训练也难以精确刻画“是否满足具体写作要求”。

解决 LLM 生成 reward 后,如何判断这些 reward 在策略训练的哪个阶段可信、何时应该部署的问题。

如何在保持极低参数量(ultra-low-rank)的同时,提升 PEFT(参数高效微调)方法的表达能力,打破 adapter size 和性能之间的 trade-off?
Interpretability/ICL/CoT原理/Attention分析/涌现/泛化/幻觉/反常识发现/Scaling分析/基础DL分析

在不做反向传播、且只用极少前向计算的条件下,如何为“某个具体对齐行为”(如安全拒答模板、迎合/二次猜测、语言切换等)生成可检验的因果假设:哪些 FFN 神经元在促进该行为、哪些在抑制该行为,并且在动手干预前就能预判“该用 ablation 还是 direction injection/残差注入”才有效。

多轮 ideation 场景下,模型在迭代“变得更复杂/更严谨”的压力下会逐步偏离最初硬约束;关键问题是这种 drift 是否来自遗忘(recall 失败),以及如何用可自动化的方式稳定测量“记得但仍违反”的现象。

论文研究一个在科学类 ICL 场景里很容易被忽略的问题:当任务需要“从观测数据中恢复隐变量/参数,再用已知科学定律计算目标量”(latent structure recovery)时,加入与真实定律完全一致的 in-context examples,反而会抑制模型调用预训练中已掌握的科学公式与推导能力,使其从“知识驱动的推导”转向“基于示例的经验拟合”。作者关心的不是平均准确率升降,而是模型内部解题策略被提示词结构系统性改变。

Sparse Autoencoder(SAE)常被当作“概念=线性方向”的无监督解释工具,但大量证据表明概念在表征空间里更像低维流形(连续几何结构)。论文要回答:什么叫 SAE ‘捕获’一个流形?现有 SAE 何时能捕获、以什么机制捕获?以及这种捕获在可解释性上是否可靠。

在 LLM 版本对比评测中,如何把“总体分数提升/下降”拆解到 item 级别,并区分哪些变化是真正的能力漂移、哪些只是采样随机性导致的波动,从而量化版本更新带来的可靠改进与可靠退化(reliable improvement/deterioration)。

论文要回答的问题很具体:常见的“政治偏见审计”把 LLM 当作一个有稳定政治立场的被测对象,用固定问卷打分;但 LLM 又存在明显的 sycophancy(对提问者立场/身份的迎合)。那么审计测到的“左倾”到底有多少是模型的稳定倾向,有多少是对默认审计者身份的推断与迎合?作者通过只改变提问者身份、不改变题目内容的因子实验,量化这种测量偏差。

现有LLM评测框架均使用统一静态prompt测试所有模型,与工业界先针对每个模型做prompt优化再上线的实际流程不符,导致评测得到的模型排名与实际应用表现存在偏差,会误导模型选型。

核心问题是:窄域有害微调导致的 emergent misalignment 是否会形成一致的“人格”表现,即模型的有害行为、自我评估、身份选择、输出识别和危害评分预测是否相互一致。论文进一步问,不同有害微调域是否会诱导不同类型的这种表现。

现有训练过程中表征坍缩的检测滞后于任务指标变化,且全量计算嵌入空间拓扑特征的开销过高,无法在线实时监控训练过程中的表征结构退化问题。

研究 softmax attention 在较大规模双向基础模型训练中的不稳定性,并测试 sigmoid attention 作为替代是否能带来更稳的优化与更好表示。

任务专用 LLM 中,神经元是否均匀贡献于目标能力,以及剪枝后性能崩塌能否通过恢复关键神经元逆转。

用 Shannon 式“人类预测下一个字符”的实验,估计乌克兰语的字符级熵上界,并与现有 LLM 的预测能力做对照。

为开放式语言模型回答设计可校准的拒答机制,在模型缺乏知识时决定是否回答,并给出有限样本保证。

定位并编辑 LLM 中与人格特质相关的神经元,同时尽量减少对通用能力的破坏。

在 surprisal theory 研究中,预训练语言模型的 tokenization 与实验分析所用语言单位不一致,导致 surprisal 指标的定义和解释常被混淆。

VLM集成到决策系统时,视觉输入对其合作决策行为的影响规律尚不明确,缺乏对应的评估与缓解方案

系统化梳理学习率调度从全局固定值到分层、随时间演化策略的发展,并提出一个结合层级差异和训练阶段的优化框架。

重新评估 LLM 的组合性:现有组合泛化测试只看输出对错,并依赖训练/测试划分,容易出现组合泄漏且解释性不足。

分析 transformer-based generative recommender 中,注意力分配和序列生成机制是否会诱发系统性推荐偏置。

研究持续学习中,模块化结构在什么条件下会影响表征几何、迁移和干扰。

自动检测、分类并定位 Transformer 架构内部的静默故障,尤其是 attention、projection 和周边组件的错误。

检测多轮 prompt injection 中单轮文本看似正常、但对话轨迹逐步转向攻击的隐蔽模式。

LLM 做 listwise recommendation reranking 时,同一候选集合的输入排列会改变输出排序,导致模型分数混入 prompt serialization bias。
SWE-bench/代码生成/代码修复/软件工程Agent/Program Synthesis/Automated Debugging

解决 coding agent 使用外部记忆时的误检索问题:相似的报错或路径不一定意味着旧修复经验可安全复用。

论文解决代码 RLVR 和代码评测中的执行反馈问题:现有 sandbox 过度依赖 exact match,容易误判多解和浮点容差题;同时在高并发训练中执行吞吐不足,导致奖励信号噪声和训练效率瓶颈。

电路图到 Verilog 的多模态代码生成评测里,模型是否真的“读图并基于拓扑推导 RTL”,还是主要靠 prompt 里 module_header(模块名/端口名/参数名)的语义线索走捷径,从而导致评测分数虚高且存在隐蔽的可靠性风险(Mirage:把图换成空白图,Pass@k 不降反升)。

为 LLM 在 stripped binary 的类型推断、函数名和变量名恢复任务上提供统一、可公平比较的 reverse engineering benchmark。

这篇工作要解决的不是“程序合成能不能做”,而是一个更基础也更难回答的问题:在训练语料完全可控、测试样本与训练集距离可度量的条件下,Transformer 在程序合成里到底是在泛化,还是只是在训练分布附近做局部插值。作者为此构造了一个严格受控的算术 DSL 环境,枚举数百万个程序,并把每个程序同时放到语法空间和语义空间里,从而能精确区分两类泛化:同一支持集内的数据密度迁移,以及超出训练支持集的外推。

讨论 terminal-agent benchmark 任务应如何设计,避免验证逻辑脆弱、任务可 reward hacking 或难度来自无意义细节。

用语言模型做静态程序切片时,解决数据依赖建模不准和自由生成导致的幻觉语句问题。

解决 LLM 直接生成 UVM 硬件验证 testbench 时错误率高、协议时序难以保证的问题。

解决 RTL/HDL 代码补全评测粒度不可控、补全语法范围不可控的问题。
通用AI Agent/Tool Use/Function Calling/Planning/RAG/多Agent系统

分析多智能体系统中“更多 Agent 协作是否必然更可靠”的假设,重点研究同构或近同构 Agent 群体是否会放大错误共识。

这篇工作解决的是 web agent 训练数据生成里的一个老问题:现有自动化轨迹生成方法对网站功能覆盖不全,任务合成常常脱离真实页面结构,最终得到的 trajectory 噪声大、可执行性差,难以真正训练出可靠的 web agent。作者把问题拆成三个环节:探索不充分、任务发现与任务表述不扎实、以及基于这些任务生成的轨迹不稳定。尤其在未见网站上,agent 失败往往不是因为单步点击不会,而是因为它根本没有形成对网站深层结构和功能空间的内部地图。AutoSurfer 的目标就是系统性地“逛完整个网站”,把页面、动作、功能、任务和轨迹串成一个更闭环的数据生成流程,并进一步验证这些数据是否足以训练 website-specific LLM,也就是文中所说的 wLLM。

这篇工作处理的是 computer-use agent 在推理阶段的算力分配问题:现有 GUI agent 往往在每一步都调用同一个大多模态模型,导致长轨迹任务的成本、时延和单位经济性都很差。作者指出,GUI 轨迹的难度并不均匀,真正容易出错的往往集中在少数高风险时刻,主要表现为两类:一是 progress stall,即代理在局部状态里打转、重复等价操作却没有推进;二是 silent semantic drift,即动作在局部上看似合理,但已经偏离用户目标,后续步骤虽然自洽,最终任务仍会失败。核心问题不是如何再训练一个更强 agent,而是如何在不改动底层大模型的前提下,把“大模型每步在线”改成“按风险事件触发”。

上下文学习场景下,从长文本、高专业密度的上下文中提取可复用技能的现有方法,要么依赖成本极高的人工标注,要么需要外部反馈验证技能有效性,而多数上下文学习任务没有可自动获取的外部反馈信号,无法自动化生成适配特定上下文的技能。

核心问题是:对有明确流程图的程序性对话任务,外部 agent 编排是否真的比把完整流程放进系统提示词更可靠。论文把问题限定在 intake、诊断、信息收集、决策分流、终止状态这类客服式流程,而不是开放式工具使用或长期任务规划。

现有 GUI agent benchmark 多聚焦单应用、孤立任务,无法评估真实职业工作流中跨应用、多步骤协同能力;这篇工作试图补上这一缺口。

为科学数据驱动发现任务构造可执行、可验证的真实环境,缓解现有科学 agent 评测缺少可靠验证信号的问题。

构建能随真实工作流需求变化而更新、且可复现审计的 workflow agent benchmark。

评测并提升 LLM 在“为复杂研究问题生成分层 roadmap(任务分解+逻辑组织)”上的能力。

让 VLM 在视觉语言导航中获得动态空间意识,能够根据自然语言指令理解已执行动作,并预测动作导致的未来视觉转移。

解决 GUI agent 评测中过于粗粒度的问题,尤其是无法准确判断模型是否定位到正确控件并把界面设置到精确目标状态。

现有GUI Agent仅靠监督微调无法解决长程信用分配、分布偏移、不可逆环境安全探索问题,缺乏RL与GUI Agent交叉领域的系统梳理

为大型推理模型和多 Agent 系统提供去中心化、可审计、可归因的验证框架。

解决 web agent 在大规模网页信息检索与结构化抽取中,难以同时兼顾深度推理和跨实体广覆盖一致性的问题。

解决 tool-calling agent 的评估通常发生在执行之后,无法在工具调用真正执行前纠正错误的问题。
用多智能体LLM模拟交易公司做决策
把分析/研究/交易/风控拆分,便于复现实验与对比不同LLM/数据
⚙ 角色化代理辩论+汇总,组合管理审批并接回测/模拟交易
面向Claude Code的多智能体编排平台。
把跨机器代理协作、记忆与联邦通信接入Claude Code。
⚙ CLI/MCP接入,Rust+WASM内核,32个插件扩展。
Rust 编写的多会话终端编程代理框架
面向重度代理工作流,低内存和快速启动
⚙ TUI/CLI 架构,支持多提供商、MCP、可配置工具
输入主题,自动生成脚本配图配音并合成短视频
把LLM+生图/生视频+TTS串成流水线,适合AIGC视频应用与工作流复用
⚙ 基于ComfyUI模块化工作流,Streamlit Web配置LLM/TTS/生图生视频与模板