如何在 Windows11 电脑安装 hermes agent,并在社交软件里使用


动机:想在本地搞一个小龙虾,看看它能做什么。希望通过这个过程了解目前 agent 的使用场景,看看 agent 可否解放生产力。

简单调研后,发现 hermes 认可度似乎比 openclaw 更高,就选用了 hermes。



01 如何安装 Hermes Agent

windows 的话,直接在 PowerShell(而不是 cmd)中运行:

iex (irm https://hermes-agent.nousresearch.com/install.ps1)

这个过程中,会连到一个叫做 Nous 的 api 管理器(?)可以在上面充值,直接获取一些 api。但我们假设已经有可用的 api 了,所以跳转这个网页后,我们直接在 powershell 里 ctrl+C,让它跳过这个 Nous 登录过程,继续安装。

在安装的过程中,就可以配置社交软件的 bot,支持飞书、微信,还有一些 🌍 软件,如🟦色✈️软件。我配置了最后一个,但是好像没配置成功,后续又重新配置了一遍。

Hermes 常用命令(感觉跟 cc 差不多):/model, /clear, /new, /title, /compress。

配置 hermes 的 wsl:

  1. 安装 wsl,好像用一个命令就可以安装了,具体有些忘记了【】
  2. 改 wsl 网络模式,让它也可以挂-代·理-,https://zhuanlan.zhihu.com/p/15762609815
  3. 未完待续【】

02 如何配置模型 api(以 glm coding plan 为例)

我还是不太会在 cli 里配 api,所以直接打开 hermes/ 目录,去编辑 config 文件了。

请参考:Hermes Agent 中文社区 | 配置

hermes/ 的目录结构,⭐ 是我目前用到的文件 / 目录:

~/.hermes/
├── config.yaml     # 配置项(模型、终端、TTS、压缩等)⭐
├── .env            # API 密钥与敏感信息 ⭐
├── auth.json       # OAuth 提供商凭证(Nous Portal 等)
├── SOUL.md         # 主 Agent 身份(系统提示中的第 1 槽位)⭐
├── memories/       # 持久记忆(MEMORY.md、USER.md)⭐
├── skills/         # Agent 创建的技能(由 skill_manage 工具管理)
├── cron/           # 定时任务
├── sessions/       # 会话
├── hermes-agent/   # Agent 代码,可以直接从 GitHub 里拉下来最新的代码
└── logs/           # 日志(errors.log、gateway.log——自动脱敏)

我的 config(这里放了一些 api url 和模型配置,不确定这样配是最好的,但目前能用):

model:
  default: glm-5-turbo
  provider: auto
  base_url: https://open.bigmodel.cn/api/anthropic
  api_mode: anthropic_messages
providers: {}
auxiliary:
  vision:
    base_url: https://open.bigmodel.cn/api/anthropic
    api_key: ${GLM_API_KEY}
    timeout: 120
    extra_body: {}
    download_timeout: 30
    name: glm-5v-turbo
    model: glm-5v-turbo
  web_extract:
    provider: auto
    model: ''
    base_url: ''
    api_key: ${GLM_API_KEY}
    timeout: 360
    extra_body: {}
  compression:
    provider: auto
    model: ''
    base_url: https://open.bigmodel.cn/api/anthropic
    api_key: ${GLM_API_KEY}
    timeout: 120
    extra_body: {}
    name: glm-4.7
  summarization:
    provider: auto
    name: glm-4.7
    base_url: https://open.bigmodel.cn/api/anthropic
    api_key: ${GLM_API_KEY}

然后在 .env 文档里,配置以下内容(比如 api key 之类):

# =============================================================================
# LLM PROVIDER (z.ai / GLM)
# =============================================================================
# z.ai provides access to ZhipuAI GLM models (GLM-4-Plus, etc.)
# Get your key at: https://z.ai or https://open.bigmodel.cn
GLM_API_KEY="your_api_key_here"
GLM_BASE_URL=https://open.bigmodel.cn/api/anthropic
# 这些内容在 .env 的文件模板里有,可以直接 ctrl+F 找 GLM_API_KEY

H-T·T-P_P-R-O·X·Y=http://127.0.0.1:7890  # 7890 需要改成-代·理-软-件·实际使用的端口
H·T·T-P·S_P·R-O-X·Y=http://127.0.0.1:7890
#(请忽略这些奇怪的连字符,包括 - 和 ·)

此外,还可以在 SOUL.md 里配置它的人格、通过 memories/ 目录管理它的 memory 等。

03 如何配置社交软件

其实感觉,配好 api 后,直接问 hermes“我想装 xx 社交软件的 bot,请帮我装”,让它自己修自己,会比较 work。

因为配的是 ✈️ 软件的 bot,所以这里就不说那么详细了。大概是先通过 @BotFather 创建一个 bot,定义它的名字,得到它的一串 token,Hermes 让我把这个 token 给它,它就把自己配好了。

还遇到在 ✈️ 群聊里,1. hermes 无差别回复所有人的消息,2. hermes 不回复任何消息,3. hermes 只回复我 at 它的消息,不回复其他人 at 它的消息,这些问题。也就是说,我希望:hermes 可以看到群聊消息,但仅当有人(不一定是我)at 它,它才能说话。

可以这样设置:(感谢 kimi 教我)

1 在 @BotFather 里,/mybots → 点选 bot → Bot Settings → Group Privacy → disable Privacy mode,这一步是为了让 bot 能读取所有消息上下文,而非只读到 at 它的那一条消息。

2 在 .env 里配置:

[masked]_BOT_TOKEN=[masked_token]  # hermes 自己配置的 bot token
[masked]_ALLOWED_USERS=[user_id_me],[user_id_1],[user_id_2], ... # 这个是关键,这里放上 希望 at hermes 它就能回复的人,枚举这些人的 id
[masked]_GROUP_ALLOWED_CHATS=-[group_chat_id]  # 这个负号应该是 群里所有人都能触发 bot 的意思(?)我也不太清楚
[masked]_HOME_CHANNEL=[user_id_me]  # hermes 与我的私聊

3 最后,在 config.yaml 里配置:

[masked]:
  reactions: false
  channel_prompts: {}
  allowed_chats: ''
  extra:
    rich_messages: true
    require_mention: true  # 这个是关键,让 hermes 只能被 at 才回复,不会无差别回复消息

后续又配置了一下微信的 bot,可以 follow 官方教程 + 让 hermes 自己修自己。但是微信 bot 不能拉入群聊,只能给我发私聊,功能比较受限。

04 关于目前性能边界的思考

目前还没有尝试让 hermes 帮我自动做什么事情。【】接下来会持续探索。

让 ai 们帮我搜了一下,目前真实人类用 agent 解放生产力的案例是什么样的。感觉可以分为三类:

  1. 处理一些复杂但是重复的事情,比如整理数据、重命名。
    • 感觉这种事情,如果每天都需要做,确实会有“写个程序把这些自动化”的想法。在这个场景中,agent 的好处是,1. agent(比如 cc)可以帮忙写程序,2. llm 相比硬编码的程序,可以处理更复杂、更模糊的情况。
    • 如果接下来遇到这个场景,处理流程 可能从“写个 prompt 让 ai 帮我写自动化程序”变成“带 agent 做一遍这个流程,然后让它整理成自动化程序 + skill”,花的精力或许少一点。
  2. 自动整理知识、生产内容,比如用 obsidian 管理知识库、自动写知乎回答。
    • 生产内容是一种很好的盈利方式,但我写博客是为了自己看的,如果博客是 agent 批量生产,而我不去介入、用人脑过一遍,那对我来说,可能就没什么用处了。
    • 但是,agent 可以帮我检索博客,变成所谓“知识库”;对于一大堆文档(比如下载下来的论文),检索跟某个主题最相关的;以及自动生成一部分博客里的格式化内容,比如索引几篇内容相关的博客、插入链接;这些内容应该还是可以做的。
  3. 接入社交软件,帮忙联络客户和谈判;帮忙发邮件、回复邮件。
    • (印象深刻的是,忘记从哪里看到,有一个人用小龙虾 自动联络客户,对于所有的邮件,都让龙虾写一版回复草稿,只等待用户检查发送;他去健身 / 旅游,龙虾一直在干活)
    • 可能确实是一个有意义的应用场景,这个场景值得多探索。
    • 对于有明确目标和意图的社交工作,比如帮忙沟通协调多方时间、帮忙砍价,甚至一些更 routine 的事情,比如批量联络客户,感觉 agent 有潜力完全代理。但是,如果意图和目标不明确,比如大家在讨论推动项目,但是每个人有各不相同的考量,感觉这时需要人类介入,注入当前的意图和目标。


posted @ 2026-06-15 14:47  MoonOut  阅读(58)  评论(0)    收藏  举报