transformers - 搜索 News

来自MSN5 天

FFN在Transformer里面主要是对多头注意力矩阵升维，非线性过滤，然后再降回原来的维度。这个通常的比喻是：FFN就像个人的思考空间—— Attention Layer帮助模型正确的分配注意力，然后FFN 帮助模型仔细的思考，提取更加抽象的特征。这个比喻很好很形象，听到这儿往往会感觉恍然大悟，然后感慨模型设计精妙，唯一的问题是什么实质都没有解释。

17 小时

苹果机器人新突破：赋予机器人“灵动”手势，和人类一样有魅力

在人与人的交流中，手势、面部表情和身体语言常常能传递比语言更丰富的情感信息。而在机器人与人类的互动中，这一点同样重要。当前，机器人虽然能够执行一些简单的预设手势，但这些动作往往缺乏灵活性，难以根据不同的社交情境做出合适的反应。为了突破这一瓶颈，苹果A ...

10 小时

2025人工智能行动峰会：全球科技巨头共商AI未来与应用机会

此外，人工智能的未来应用更是广阔。人们讨论的内容涉及文化创作、教育领域、商业决策乃至医疗健康等多个层面。全球许多科研机构与企业正联合进行AI伦理的研究，以确保当前的科技发展不会对社会产生负面影响。在快速迭代的技术背景下，保持对道德与伦理的重视尤为重要。

腾讯网18 小时

DeepSeek问世，对Crypto AI是福是祸？

作者：BUBBLE，BlockBeats2025 年 1 月，DeepSeek R1 的问世掀起了 AI 界的震荡，同时它也真正改变了 Crypto AI 生态。过去一个周期，Crypto AI 主要围绕 AI Agent 展开，而 DeepSeek ...

腾讯网1 天

阿里挖来AI大牛许主洪，接下来目标明确：要靠多模态打通AI应用了

作者｜summer邮箱｜huangxiaoyi@pingwest.com随着AI竞争加剧，消费市场成为各大科技公司的必争之地。在文心一言、豆包、Kimi等产品疯狂争夺C端用户的当下，如何打开AI消费市场，成为阿里巴巴的紧迫课题。2月6日，多家媒体消息 ...

on.cc東網5 天

铜锣湾变形金刚主题餐厅撤出香港去年传寻求顶租

座落铜锣湾罗素街复式地铺的变形金刚主题餐厅“Transformers The ARK”周三(5日)，在网上社交媒体发文公布，将于2月8日完成在本港的任务，将于今年5月搬至深圳罗湖区一个广场内，意味该公司将撤出香港市场。

3 天

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1） ...

3 天

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey ...

16 天

重磅揭晓：《星际战士2》DLSS 4提升游戏画质的革命性对比

DLSS 4的革新之处在于将传统的卷积神经网络（CNN）替换为Transformers。这一转变使得DLSS在图像超分辨率处理上取得了显著进步。根据外媒的评测，在DLSS 4的性能模式下，游戏画面比DLSS ...

6 天

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

「性能优化是一个无止境的过程，」翟季冬教授表示，在中国面临算力资源挑战的背景下，通过系统软件创新提升算力效能，是产业突围的关键。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面发力，更需要建立起完整的基础软件体系。

36氪13 天

Deepseek又出连招：刚发布了超越DALL-E3的多模态模型

尤其是 Janus Pro 的 1B 模型，只使用了 15 亿参数。外网上已经有用户将对模型的支持添加到了 transformers.js。这意味着模型现在可以在 WebGPU 上的浏览器中 100％运行！

14 天

紧握大模型契机寒武纪主动出击

寒武纪 14 日晚间披露业绩预告显示，2024 年度预计实现营业收入10. 7 亿元到 12 亿元，较 2023 年同期相比，增长 50.83%到 69.16%。2024 年度归属于母公司所有者扣除非经常性损益后的净利润预计亏损7. 65 亿元到9.

一些您可能无法访问的结果已被隐去。

显示无法访问的结果