Kimi

访问网站

Kimi-VL与Kimi-VL-Thinking是由国内知名人工智能公司Moonshot AI（月之暗面）于近期开源发布的两款视觉语言模型。这两款模型以其轻量级的架构和卓越的多模态理解与推理能力，迅速在行业内引起了广泛关注。它们不仅在多项基准测试中超越了包括GPT-4o在内的众多大型模型。

Kimi-VL系列模型是什么？

Kimi-VL与Kimi-VL-Thinking是由国内知名人工智能公司Moonshot AI（月之暗面,Kimi AI）于近期开源发布的两款视觉语言模型。这两款模型以其轻量级的架构和卓越的多模态理解与推理能力，迅速在行业内引起了广泛关注。它们不仅在多项基准测试中超越了包括GPT-4o在内的众多大型模型，还展现了强大的应用潜力，为未来的多模态智能应用奠定了坚实基础。

参数性能

Kimi-VL与Kimi-VL-Thinking均采用了MoE（Mixture-of-Experts，混合专家）架构，这一设计使得它们在保持强大性能的同时，激活参数仅约30亿，远低于传统大型模型的数百亿甚至千亿参数。这意味着它们在运行和部署上更加高效，对计算资源的要求也更低，为实际应用提供了更大的便利。

在具体性能上，Kimi-VL在MathVision基准测试中取得了36.8%的成绩，这一表现足以媲美参数量远超其十倍的大型模型。而在ScreenSpot-Pro任务上，Kimi-VL的得分更是高达34.5%，展现了其在智能体操作方面的出色潜力。

主要功能

Kimi-VL与Kimi-VL-Thinking具备多项强大功能，包括但不限于：

多模态理解与推理：能够同时处理和理解文本、图像、视频等多种输入形式，为复杂的人工智能任务提供新的解决方案。
高分辨率图像处理：得益于MoonViT架构，这两款模型能够原生支持高分辨率图像，实现高效的图文识别与理解。
长上下文理解：支持高达128K tokens的上下文输入，能够处理更长的文档、视频等复杂长文本信息，并进行深入的理解和分析。
智能体操作能力：在理解复杂用户界面并执行相应操作方面表现出色，为未来开发更智能的人机交互应用奠定了基础。

主要架构

Kimi-VL与Kimi-VL-Thinking的架构主要由三大部分构成：

MoonViT视觉编码器：负责处理图像输入，提取视觉特征。它能够原生支持高分辨率图像，无需复杂的切割和拼接操作。
MLP投影器：将MoonViT提取的视觉特征投影到语言模型的嵌入空间，确保视觉信息能够无缝融入语言生成过程。
MoE语言模型：基于Moonlight框架构建，采用MoE架构，仅激活少量参数即可实现强大的语言生成和理解能力。

核心优势

轻量级架构：激活参数少，运行和部署效率高，对计算资源要求低。
多模态理解与推理能力：能够同时处理多种输入形式，为复杂任务提供新的解决方案。
高分辨率图像处理：原生支持高分辨率图像，提升图文识别与理解的准确性。
长上下文理解：支持长文本输入，能够处理更复杂的任务场景。
开源共享：Moonshot AI通过开源的方式发布这两款模型，吸引更多社区开发者参与应用开发，共同探索多模态智能的未来。

总结

Kimi-VL与Kimi-VL-Thinking的开源发布标志着国产AI模型在多模态智能领域取得了重要突破。这两款模型以其轻量级架构、卓越的多模态理解与推理能力以及开源共享的理念，为未来的多模态智能应用提供了无限可能。我们期待更多开发者加入这一领域，共同探索多模态智能的未来。

相似站点

Gemini

谷歌Gemini是一款由Google开发的多模态人工智能语言模型，它具备卓越的自然语言理解和生成能力，能够处理包括文本、图像、音频、视频和代码在内的多种信息类型。于2023年12月6日正式推出，包含了三种不同规模的模型：Gemini Ultra、Gemini Nano和Gemini Pro。谷歌Gemini是什么？谷歌Gemini是一款由Google开发的多模态人工智能语言模型，它具备卓越的自…

未名
文心一言

文心一言是百度推出的新一代知识增强大语言模型，属于文心大模型家族的新成员。这个模型能够与人进行对话互动、回答问题、协助创作，旨在帮助人们高效便捷地获取信息、知识和灵感。文心一言是什么? 文心一言是百度公司研发的生成式ai对话助手，属于文心大模型家族的重要成员。它基于知识增强、检索增强和对话增强技术，依托飞桨深度学习平台和文心知识增强大模型进行研发。通过海量数据训练，结合知识图谱与检索技术，实现语…

未名
通义千问

阿里通义千问是阿里云自主研发的超大规模语言模型，它经过海量数据训练，具备跨领域的知识和语言理解能力。无论是知识问答、学习辅导，还是技术咨询、创作辅助，通义千问都能提供全面、准确的信息和答案。在教育辅导、客户服务、内容创作与编辑等多个领域，通义千问都展现出了其强大的应用价值。通义千问是什么？阿里通义千问是阿里云自主研发的超大规模语言模型，它经过海量数据训练，具备跨领域的知识和语言理解能力。无论是…

未名
腾讯元宝

腾讯元宝是一款基于基于混元与DeepSeek双模型打造的全能AI助手，深度融合微信生态，提供搜索、文档解析、创作等多模态服务，覆盖工作学习生活全场景。腾讯元宝是什么？腾讯元宝是一款基于基于混元与DeepSeek双模型打造的全能AI助手，深度融合微信生态，提供搜索、文档解析、创作等多模态服务，覆盖工作学习生活全场景。主要特点响应速度快：吐字速度提升一倍，首字时延降低 44%，能够实现“秒回”…

未名
豆包

豆包是抖音最新推出的免费AI智能助手，具备对话交流、图片生成等功能。用户可以与其进行互动，获取信息和学习帮助，同时体验AI生成的多样化图片。该助手旨在通过智能化服务提升用户体验，增加互动乐趣。豆包提供网页端、桌面端、iOS和Android端应用程序，可使用手机号和抖音账号登录。豆包可以做什么？ 1、智能对话与交互自然聊天：支持日常闲聊、情感陪伴，可回应生活分享、心情倾诉，如陪用户聊天解闷、分…

未名
DeepSeek

DeepSeek‌是由幻方量化于2023年4月创立的一家AI公司，专注于开发高性能的大语言模型。DeepSeek的DeepSeekChat已经通过了北京市生成式人工智能服务备案，并计划向公众开放服务。‌ DeepSeek是什么？ DeepSeek（深度求索）是一家专注于AI模型和相关技术的高科技企业，由杭州深度求索人工智能基础技术研究有限公司于2023年7月成立，DeepSeek的母公司是国内量化…

未名
ChatGPT

GPT-5是OpenAI最新发布的革命性大语言模型，提供GPT-5标准版、Mini版和Nano版三个版本。集成多模态能力、推理功能和验证器技术，支持免费使用，为用户提供更智能的AI对话、内容创作和编程辅助体验。 GPT-5是什么 GPT-5是OpenAI公司于2025年8月正式发布的第五代生成式预训练变换器模型，代表了人工智能技术的最新突破。作为GPT系列的最新力作，GPT-5不仅是一个单纯的语言…

未名

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

TOP1

AI漫剧制作全流程拆解教程，人人都可以做爆款AI漫剧短视频
1月12日
TOP2

AI短剧入门教程，角色一致性短剧视频教程全流程
1月12日
TOP3

AI视频运镜提示词分享，教你成为个人AI电影导演
1月12日
AI短剧入门教程，快速学会短剧剧本拆解指南
1月12日
一个人就能拍一部AI短片，AI短剧制作全流程保姆级攻略
1月1日

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部