Midjourney 是一款由独立研究实验室 Midjourney Inc. 开发的 AI 图像生成平台,自 2022 年发布以来,凭借其卓越的美学品质、强大的风格控制和活跃的社区生态,迅速成为 AI 图像生成领域的标杆产品之一。本文全面介绍 Midjourney 的发展历程、核心技术、使用方法和最佳实践。
Midjourney 是由 David Holz(Leap Motion 联合创始人)于 2022 年创立的 AI 图像生成服务。与 DALL-E 和 Stable Diffusion 不同,Midjourney 最初完全基于 Discord 机器人运作,用户通过向 Discord 服务器中的 Midjourney Bot 发送文本提示(Prompt)来生成图像。
核心定位: 追求美学品质和艺术风格,而非机械的写实还原。Midjourney 的设计哲学是"帮助人类探索想象力的边界",其模型默认会为图像添加风格化的艺术处理。
| 时间 | 里程碑 | 说明 |
|---|---|---|
| 2022年2月 | 进入公测 beta | 首个公开版本,基于 Discord 运作 |
| 2022年3月 | V1 发布 | 基础的文本到图像生成 |
| 2022年4月 | V2 发布 | 显著改进的图像质量和风格多样性 |
| 2022年7月 | V3 发布 | 更强的内容理解能力 |
| 2022年11月 | V4 发布 | 重大架构升级,支持多风格,质量飞跃 |
| 2023年3月 | V5 发布 | 更高分辨率、更好的手部和细节处理 |
| 2023年12月 | V6 发布 | 更强的提示词理解和细节控制 |
| 2024年 | 网页版 Alpha | 推出独立网页界面,减少对 Discord 的依赖 |
| 2025年4月 | V7 Alpha | 完全重建的系统架构,引入视频生成 |
| 2025年6月 | V7 正式版 | V7 成为默认模型 |
早期版本奠定了 Midjourney 的基础能力。V1 的生成质量相对粗糙,但已经展现出了出色的色彩感知和构图能力。每个版本迭代都带来了显著的图像质量提升:
V4 是 Midjourney 历史上的一个重要转折点。它引入了全新的底层模型架构,带来了质的飞跃:
V5 在 V4 的基础上进一步优化了细节处理:
V6 是 Midjourney 在提示理解和细节控制上的又一次重大升级:
V7 是 Midjourney 迄今为止最大的架构升级,于 2025 年 4 月发布 Alpha,同年 6 月成为默认版本。
| 维度 | V6 | V7 |
|---|---|---|
| 模型架构 | 基于 V6 架构 | 完全重新设计的架构,更新训练数据集 |
| 提示精度 | 较好 | 大幅提升,更准确理解自然语言 |
| 图像质量 | 优秀 | 更好的照片级真实感和细节精度 |
| 速度 | 标准 | 更快的处理速度 |
| 3D 能力 | 不支持 | 引入 NeRF-like 3D 格式 |
| 视频生成 | 不支持 | 支持文本到视频、图像到视频 |
| 个性化 | 基础风格设置 | 个性化评分系统 + Moodboards |
| Draft Mode | 不支持 | 支持,GPU 成本减半 |
| Omni Reference | 不支持(有 cref) | 替代 cref,更通用的对象/人物引用 |
1. Draft Mode(草稿模式):
2. 个性化(Personalization):
3. Moodboards(情绪板):
4. Omni Reference(--oref):
5. Profiles(个人资料页):
Midjourney V7 引入了基于图像生成技术的视频创作能力:
Niji 是 Midjourney 与日本团队合作开发的专门面向动漫/二次元风格的模型:
--niji 5 或 --niji 6 参数调用这是 Midjourney 最基础也是最核心的功能。用户输入文本提示词(Prompt),模型生成对应的图像。
基本工作流程:
/imagine prompt: [你的描述]使用现有图像作为参考来引导生成方向:
/imagine prompt: [图像URL] [文本描述]
--iw(Image Weight)参数控制图像的影响力(0-3)允许用户使用特定图像的"风格"来引导生成:
/imagine prompt: 一只安静的猫 --sref [图像URL]
关键参数:
| 参数 | 作用 | 取值范围 | 默认值 |
|---|---|---|---|
--sref |
风格参考图像/代码 | URL 或数字代码 | - |
--sw |
风格权重 | 0-1000 | 100 |
--sv |
风格版本 | 4(V6传统)或 V7 | V7 |
SREF 代码库:
Midjourney 内部维护了庞大的风格代码库。著名的 Midlibrary 项目收录了超过 2,500+ 个精选 SREF 代码。使用方式:
/imagine prompt: 艺术品 --sref 2584644034
--sref random 可以随机应用一个内部风格代码。
注意: V7 更新后,旧版 SREF 代码可能不再产生相同的风格效果。如需使用旧代码,请添加
--sv 4参数或切换到 V6。
Character Reference(--cref,V6):
/imagine prompt: 一位骑士 --cref [人物图像URL]
--cw(Character Weight)控制参考强度(0-100)Omni Reference(--oref,V7):
V7 中引入的升级版本,替代了 --cref:
--ow(Omni Weight)控制参考强度| 功能 | 说明 | 支持版本 |
|---|---|---|
| Inpainting(局部修改) | 选定图像区域,用提示词重新生成该区域 | V6+ |
| Outpainting(扩展画布) | 扩展图像边界,智能填充周围区域 | V6+ |
| Remix(混合变体) | 在生成变体时修改原始提示词 | V5+ |
| Pan(平移扩展) | 向指定方向扩展图像内容 | V6+ |
| Zoom Out(缩小) | 显示场景的更大视野 | V6+ |
| Vary(变体生成) | 在保持核心构图的前提下生成细微差异 | V6+ |
| Custom Zoom(自定义缩放) | 2x / 1.5x 等自定义缩放比例 | V6+ |
随着网页版 Alpha 的推出,Midjourney 提供了比 Discord 更丰富的功能:
2025 年末推出的社交功能:
Midjourney 提供了丰富的参数来控制生成结果。以下是完整的参数速查表:
| 参数 | 简写 | 说明 | 取值范围 | 默认值 |
|---|---|---|---|---|
--aspect |
--ar |
宽高比 | 如 16:9, 9:16, 4:3, 3:2, 2:1, 1:1, 3:4, 5:4, 6:11, 21:9 | 1:1 |
--chaos |
--c |
随机性程度 | 0-100 | 0 |
--quality |
--q |
渲染质量/时间 | 0.25, 0.5, 1 | 1 |
--seed |
- | 随机种子(可复现结果) | 0-4294967295 | 随机 |
--stylize |
--s |
艺术化程度 | 0-1000 | 100 |
--version |
--v |
模型版本 | 1-7 | 7 |
--no |
- | 排除某些元素 | 逗号分隔的列表 | - |
| 参数 | 说明 | 取值范围 | 默认值 |
|---|---|---|---|
--iw |
图像提示权重 | 0-3 | 1 |
--sref |
风格参考 | URL 或数字代码 | - |
--sw |
风格权重 | 0-1000 | 100 |
--cref |
角色参考(V6) | URL | - |
--cw |
角色权重(V6) | 0-100 | 100 |
--oref |
全息参考(V7) | URL | - |
--ow |
全息权重(V7) | 0-100 | - |
--style |
风格预设 | raw, 4a, 4b 等 | - |
--tile |
无缝平铺 | - | - |
--weird |
--w |
古怪/非传统效果 | 0-3000 |
--draft |
草稿模式(V7) | - | - |
--profile |
--p |
个性化 Profile | 名称或 ID |
--repeat |
--r |
生成多个集合 | 1-40 |
| 模式 | 命令 | 说明 |
|---|---|---|
| Fast Mode | /fast 或 --fast |
最快速度,消耗 Fast GPU 时间 |
| Relax Mode | /relax 或 --relax |
免费无限使用(速度较慢,等待队列) |
| Turbo Mode | --turbo |
4倍速但消耗 2 倍 GPU 额度 |
| Draft Mode | --draft |
V7 专属,半价 GPU 成本 |
| 比例 | 典型用途 | 示例参数 |
|---|---|---|
| 1:1 | 社交媒体正方形图 | --ar 1:1 |
| 16:9 | 宽屏壁纸、视频封面 | --ar 16:9 |
| 9:16 | 手机壁纸、短视频 | --ar 9:16 |
| 4:3 | 幻灯片、标准显示 | --ar 4:3 |
| 3:2 | 摄影标准 | --ar 3:2 |
| 2:1 | 全景横幅 | --ar 2:1 |
| 21:9 | 超宽屏、电影画幅 | --ar 21:9 |
| 4:5 | Instagram 纵向 | --ar 4:5 |
| 3:4 | 竖版照片 | --ar 3:4 |
一个好的 Midjourney 提示词通常包含以下几个要素:
[主体/场景] + [细节描述] + [环境/光线] + [色调/色彩] + [构图] + [风格/参考]
示例:
一个赛博朋克风格的未来都市街景,霓虹灯光在水洼中倒映,
夜晚潮湿的氛围,紫蓝色调,广角镜头,电影感光影质感
--ar 16:9 --s 250 --v 7
--stylize(简写 --s)控制 Midjourney 应用艺术化处理的程度:
| --s 值 | 效果说明 | 适用场景 |
|---|---|---|
| 0 | 严格遵循提示词,几乎无艺术处理 | 产品展示、精确说明文档 |
| 50 | 轻度风格化 | 商业摄影风格 |
| 100 | 默认值,平衡美学和提示精度 | 大多数通用场景 |
| 250 | 中度风格化 | 艺术创作、概念设计 |
| 500 | 强风格化,可能偏离提示词 | 抽象艺术、创意探索 |
| 1000 | 最大风格化,提示词仅为参考 | 纯艺术探索 |
--s 0:提示词"一只玻璃花瓶中的向日葵",生成结果会更接近一张静物摄影照片--s 500:同样的提示词,生成的图像可能带有印象派绘画风格,色彩更加丰富,构图可能更具创意--no 文字, 水印, 模糊, 低质量
注意:
--no item1, item2等价于在多提示中使用负权重item1::-.5, item2::-.5。
添加 --style raw 可以禁用 Midjourney 的默认美化处理:
使用 :: 分隔符可以为提示词的不同部分赋予不同的权重:
/imagine prompt: 宏伟的城堡::2 宁静的湖泊::1 日落天空::1.5
:: 后的数字代表该部分的权重树::-.5(减少树出现的概率)使用 --seed 可以在不同的提示词之间保持结构一致性:
场景示例:
--seed 12345--seed 12345结果:两幅图像的底层布局结构(构图、光源位置、大体形状分布)会保持相似,但内容完全不同。
实用技巧:
Midjourney 提供四个主要的付费层级(价格可能随地区和时间调整,以下为参考价):
| 方案 | 月费(月付) | 月费(年付) | Fast GPU 时间/月 | 并发作业 | 隐私模式 |
|---|---|---|---|---|---|
| Basic | $10/月 $96/年($8/月) | 3.3 小时 | 3 | 不支持 | |
| Standard | $30/月 $288/年($24/月) | 15 小时 | 3 + Relax 无限 | 不支持 | |
| Pro | $60/月 $576/年($48/月) | 30 小时 | 12 + Relax 无限 | ✅ Stealth Mode | |
| Mega | $120/月 $1,152/年($96/月) | 60 小时 | 12 + Relax 无限 | ✅ Stealth Mode |
Fast GPU 时间:
Relax Mode:
Stealth Mode(隐身模式):
商用条款:
| 使用场景 | 推荐方案 |
|---|---|
| 个人爱好、偶尔创作 | Basic |
| 设计师日常使用 | Standard |
| 小型工作室、商业项目 | Pro |
| 高强度批量生成、团队 | Mega |
| 维度 | Midjourney V7 | DALL-E 3 | Stable Diffusion | Adobe Firefly |
|---|---|---|---|---|
| 开发方 | Midjourney Inc. | OpenAI | Stability AI | Adobe |
| 访问方式 | Discord + Web | Web (ChatGPT/Bing) | 本地部署/Web | Adobe 生态 |
| 图像质量 | ⭐⭐⭐⭐⭐ 最佳美学 | ⭐⭐⭐⭐ 准确写实 | ⭐⭐⭐ 依赖模型 | ⭐⭐⭐⭐ 良好 |
| 风格多样性 | ⭐⭐⭐⭐⭐ 极其丰富 | ⭐⭐⭐ 中等 | ⭐⭐⭐⭐⭐ 最高 | ⭐⭐⭐ 有限 |
| 提示词理解 | ⭐⭐⭐⭐⭐ V7 大幅提升 | ⭐⭐⭐⭐⭐ 最佳 | ⭐⭐⭐ 依赖工程 | ⭐⭐⭐ 中等 |
| 手部/细节 | ⭐⭐⭐⭐ 良好 | ⭐⭐⭐⭐ 良好 | ⭐⭐⭐ 可能出问题 | ⭐⭐⭐⭐ 良好 |
| 文字渲染 | ⭐⭐⭐ 一般 | ⭐⭐⭐⭐⭐ 最佳 | ⭐⭐⭐ 一般 | ⭐⭐⭐⭐⭐ 最佳 |
| 可定制性 | ⭐⭐⭐ 参数可控 | ⭐⭐⭐ 低 | ⭐⭐⭐⭐⭐ 最高 | ⭐⭐⭐⭐ 较高 |
| 视频生成 | ✅ V7 支持 | ❌ | ✅ 社区方案 | ✅ Firefly Video |
| 本地部署 | ❌ | ❌ | ✅ 完全支持 | ❌ |
| 免费使用 | ❌ 无免费版 | ✅ Bing 免费 | ✅ 完全开源 | ✅ 有限免费 |
| 隐私保护 | ⭐⭐⭐(Pro+) | ⭐⭐⭐ 默认不公开 | ⭐⭐⭐⭐⭐ 本地运行 | ⭐⭐⭐⭐ |
| 学习曲线 | ⭐⭐ 中等 | ⭐ 低 | ⭐⭐⭐⭐ 高 | ⭐ 低 |
| 价格 | $10-120/月 $20/月(ChatGPT Plus) | 免费(本地) | 积分制 |
Midjourney 的核心优势:
DALL-E 3 的核心优势:
Stable Diffusion 的核心优势:
| 场景 | 首选工具 | 理由 |
|---|---|---|
| 艺术创作、概念设计 | Midjourney | 最佳美学和风格控制 |
| 精确写实的商业图像 | Midjourney + 后期 | 高精度 + 风格统一 |
| 需要文字/Logo 的图像 | DALL-E 3 | 最佳文字渲染 |
| 批量自动化生产 | Stable Diffusion | 开源 + API 支持 |
| Adobe 生态集成 | Firefly | 与 PS/AI 无缝衔接 |
| 预算有限但需大量使用 | Stable Diffusion | 免费本地运行 |
电影/游戏概念图:
角色设计:
室内/建筑设计可视化:
--style raw 获得更精确的建筑效果--ar 16:9 用于宽屏展示营销素材:
电商产品展示:
出版/媒体:
| 行业 | 应用方式 | 效果 |
|---|---|---|
| 游戏开发 | 角色、场景概念草图生成 | 缩短前期设计周期 50%+ |
| 广告营销 | 社交媒体视觉素材批量生成 | 降低素材制作成本 60%+ |
| 建筑设计 | 室内外效果图快速迭代 | 方案探索效率提升 3-5 倍 |
| 教育培训 | 课程插图、教学课件可视化 | 丰富的视觉素材支持 |
| 出版 | 图书封面、章首插图 | 降低插画外包成本 |
目前 Midjourney 不再提供主服务的大规模免费试用。不过网页版 Alpha 曾经提供限量的免费体验额度(通常可生成约 25 张图像),Niji Journey 移动端也有有限的试用。具体情况请以官方最新政策为准。
V7 更新后旧 SREF 代码可能产生不同效果。添加 --sv 4 参数可使用 V6 版本的风格系统;或切换到 V6(--v 6)使用旧代码。
--cref [人物图像URL] --cw 100--oref [人物图像URL] --ow 100--seed [固定种子号] 增加结构一致性Midjourney V6+ 对中文有基本理解能力,但强烈建议使用英文提示词获得最佳效果。可以使用翻译工具将中文描述转为英文后再输入。
Midjourney 在生成结果的消息上会显示种子号。在 Discord 中,可以通过点击信封表情 Envelope ✉️ 让 Bot 私信发送种子号和其他作业信息。
Midjourney 作为 AI 图像生成领域的标杆产品,经历了从 V1 到 V7 的快速迭代。V7 的发布标志着 Midjourney 从一个纯粹图像生成工具向多模态创作平台的转变——引入视频生成、3D 内容处理和更个性化的用户体验。
关键洞察:
未来展望:
本文更新于 2026 年 5 月。Midjourney 持续快速迭代,建议关注 官方文档 和 Release Notes 获取最新信息。