摘要: | 本站链接 | 标签 | 归档 | 笔记 | 随笔 | 杂的文 | 留言板 | 相册 | :postbox:关于 | | : : | : : | : : | : : | : : | : : | : : | : : | : : | | Code | modelscope | huggingface 阅读全文
posted @ 2021-01-20 16:03 Xu_Lin 阅读(155) 评论(0) 推荐(1)
摘要: 环境与设备配置:H20*8(96G) MODEL_ID=Qwen/Qwen3-VL-30B-A3B-Instruct MODEL_NAME=Qwen3-VL-30B-A3B-Instruct python3 -m vllm.entrypoints.openai.api_server \ --mode 阅读全文
posted @ 2025-10-11 18:29 Xu_Lin 阅读(801) 评论(3) 推荐(0)
摘要: 1、https://github.com/yaof20/Flash-RL 🔗 GitHub:https://github.com/yaof20/Flash-RL 🔗 Blog:https://fengyao.notion.site/flash-rl 2、verl by 字节:https://gi 阅读全文
posted @ 2025-08-13 15:55 Xu_Lin 阅读(131) 评论(0) 推荐(0)
摘要: 项目快速启动 1.运行环境 首先,确保你的开发环境已安装 Git 和 Python 3.7 及以上版本。接下来,通过以下命令克隆安装项目: 建议Python使用3.7及以上,这里用的是3.11; 建议预先安装Pytorch、Transformers、flash-attn等基础Python库,避免冲突 阅读全文
posted @ 2025-08-06 00:00 Xu_Lin 阅读(286) 评论(0) 推荐(0)
摘要: 【vibe coding】AI IDE配置 Cursor windsurf Trae codeBunny Argument Claude-code gemini-cli qwen-code iflow cursor windsurf trae codebunny gemini-cli qwen if 阅读全文
posted @ 2025-08-01 17:54 Xu_Lin 阅读(39) 评论(0) 推荐(0)
摘要: 1. 对于不具备多模态能力的大模型,有哪些方式可以让之得到多模态感知能力?哪一种效果最好? 常见方式有: Adapter/Prompt Tuning(适配器/提示微调) 在原有大模型(如LLM)前面加上专门的多模态适配器(如视觉编码器),将图片、音频等模态的信息编码为文本token或embeddin 阅读全文
posted @ 2025-07-31 19:49 Xu_Lin 阅读(348) 评论(0) 推荐(0)
摘要: OpenSeek 致力于联合全球开源社区,推动算法、数据和系统方面的协作创新,目标是开发超越 DeepSeek 的下一代模型。 📌 项目概况 OpenSeek 是由北京人工智能研究院 (BAAI) 发起的开源项目,旨在联合全球开源社区,推动算法、数据和系统方面的协作创新,开发超越 DeepSeek 阅读全文
posted @ 2025-06-27 16:09 Xu_Lin 阅读(84) 评论(0) 推荐(0)
摘要: 视觉语言模型 2025:更好、更快、更强 动机 视觉语言模型(VLMs)已成为当今人工智能领域的热门话题。自2024年4月的前一篇博客文章以来,该领域发生了巨大变化。模型变得更小但更强大,出现了新的架构和能力(推理、代理、长视频理解等)。与此同时,诸如多模态检索增强生成(RAG)和多模态代理等全新范 阅读全文
posted @ 2025-06-20 17:34 Xu_Lin 阅读(1312) 评论(0) 推荐(1)
摘要: 二、大模型的数据 2.1用来训练大模型的开源数据集有哪些(9)? 训练大语言模型(LLM)和其他大模型(如图文多模态模型)需要海量、多样化的高质量数据。开源社区贡献了许多宝贵的数据集,覆盖文本、代码、多模态等不同领域。以下是一些重要且常用的开源数据集分类整理: 🧀 一、大规模通用文本数据集(预训练 阅读全文
posted @ 2025-06-04 21:03 Xu_Lin 阅读(555) 评论(0) 推荐(0)
摘要: Lemon提供macOS和Windows桌面应用程序,可在我们的官方网站上下载:www.lemonai.cc。 Lemon是一个开源的通用AI Agent,能够自动化从需求规划到结果交付的整个过程。它能够独立思考和系统规划,在虚拟环境中灵活调用各种工具,如编写和执行代码,智能浏览网页,操作Web应用 阅读全文
posted @ 2025-06-02 21:36 Xu_Lin 阅读(325) 评论(0) 推荐(0)
摘要: 一、语义表达 1.1词向量如何建模语义信息?稀疏词向量和稠密词向量有什么区别(1)? 词向量(Word Embedding)通过将自然语言中的词语映射到低维连续向量空间中,从而建模语义信息。其核心思想是:语义相似的词语在向量空间中距离更近,并通过向量间的几何关系(如方向、距离)反映语义关联。以下是词 阅读全文
posted @ 2025-05-26 11:51 Xu_Lin 阅读(693) 评论(0) 推荐(1)
摘要: 在深度学习领域,我们经常用到嵌入向量、表征和潜空间这些术语,这些概念之间有哪些共性,又有哪些不同呢? 1-1.假设我们正在训练一个包含五个卷积层和三个全连接层的卷积网络,这个神经网络的设计与AlexNet相似。我们可以将这些全连接层视为多层感知机中的两个隐藏层和一个输出层。在这个神经网络的哪些层上, 阅读全文
posted @ 2025-05-22 12:04 Xu_Lin 阅读(262) 评论(0) 推荐(0)
摘要: 清理进程 ps aux | grep '/usr/local/python/bin/python3.8' | grep -v grep | awk '{print $2}' | xargs kill -9 阅读全文
posted @ 2025-05-06 10:37 Xu_Lin 阅读(16) 评论(0) 推荐(0)
摘要: 多模态大语言模型的总结 结构与原理 结构示意图 多模态输入 → 特征提取与对齐 → 语义理解与推理 → 多模态输出生成 MLLM架构组件 模型组件 作用及介绍 模态编码器(Modality Encoder) 将不同模态的输入(如图像、音频、视频)编码为特征表示。常用的视觉编码器包括CLIP ViT、 阅读全文
posted @ 2025-04-26 17:32 Xu_Lin 阅读(687) 评论(0) 推荐(0)
摘要: Grounding与Embedding:多模态人工智能中的关键概念 在多模态人工智能领域,Grounding和Embedding是两个至关重要的概念。它们在模型中扮演着不同的角色,共同协作以实现对多模态数据的深入理解和处理。 Grounding:语言与视觉的桥接 Grounding,通常指将抽象、符 阅读全文
posted @ 2025-03-19 22:41 Xu_Lin 阅读(410) 评论(0) 推荐(1)
摘要: 多模态大语言模型的发展与未来展望 目录 引言 历史发展 当前状态 技术架构 应用场景 挑战与限制 未来趋势 结论 参考文献 引言 人工智能领域正经历着前所未有的变革,而多模态大语言模型(Multimodal Large Language Models,MLLMs)作为这一变革的核心驱动力,正在重塑我 阅读全文
posted @ 2025-03-19 19:49 Xu_Lin 阅读(3203) 评论(2) 推荐(1)
摘要: import os from typing import Dict import torch from filelock import FileLock from torch import nn from torch.utils.data import DataLoader from torchvi 阅读全文
posted @ 2025-03-05 16:51 Xu_Lin 阅读(63) 评论(0) 推荐(0)
摘要: 环境配置 LM-Studio 官网:https://lmstudio.ai/ 修改“镜像源” cd /opt/apps/ai.lmstudio/files/LM_Studio/resources/app/.webpack/main 使用vscode打开进行编辑, ./resources/app/.w 阅读全文
posted @ 2025-02-02 11:37 Xu_Lin 阅读(203) 评论(0) 推荐(0)
摘要: 官网: https://www.moonbitlang.cn/download/ curl -fsSL https://cli.moonbitlang.cn/install/unix.sh | bash 阅读全文
posted @ 2025-01-11 20:55 Xu_Lin 阅读(106) 评论(0) 推荐(0)
摘要: 元旦将近,显然又是一年岁末。 同事开始讨论中午吃什么,以及晚上的跨年计划之类的大问题。 我开始努力回想自己的2024,秉承着毕业以来每年写个人总结的习惯, 也因为近年来自己的节奏和生活越来越快,只能在年终的节点停下来回顾下自己的历程。 前言 我打开了自己的相册,下面且慢慢说来。 一些流水账 因为时间 阅读全文
posted @ 2025-01-01 10:52 Xu_Lin 阅读(2341) 评论(6) 推荐(19)
摘要: 大语言模型(Large Language Models,LLM)是一种由包含数百亿以上权重的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标记文本进行训练。自2018年以来,包含Google、OpenAI、Meta、百度、华为等公司和研究机构都纷纷发布了包括BERT、GPT等在内多种模型, 阅读全文
posted @ 2024-12-27 12:15 Xu_Lin 阅读(430) 评论(0) 推荐(0)