科技助残共享美好生活（十二）丨人工智能让视障者拥有“会思考的眼睛”

黄婷陈曦中国残疾人杂志社 2024-07-08 14:27:37

科技化、数字化

是中国科技高质量发展的主旋律。

2024年《政府工作报告》明确指出

要加快发展新质生产力，

开展“人工智能+”行动，

这标志着

人工智能已成为引领新质生产力发展的关键引擎 。

人工智能多模态大模型

是人工智能领域中的一项重要技术，

是一项战略性新兴产业，

可以推动科技跨越发展、产业优化升级、生产力整体跃升。

在人工智能多模态大模型服务场景中，

残疾人的生活正在随之变化 。

现在，

在人工智能的帮助下，

视障人士出行时可以通过摄像头，

将眼前的画面随时转化成语言，

耳机中描绘即时场景，

提示着可能出现的风险。

复旦大学自然语言处理实验室

基于人工智能多模态大模型“复旦·眸思”（mousi），

已经开放上线测试，

供视障人士使用。

人工智能让“眼睛会思考”

“眸思”顾名思义，

会思考的眼睛，

眸思能够理解并识别图片内容，

它致力于成为视障者的一双眼睛。

基于“眸思”的“听见世界”app，为视障者日常生活需求量身打造，设计以下三种模式——

街道行走模式

“眸思”如一位忠实的向导

红绿灯、十字路口、障碍物……

它将细致扫描道路情况

提示潜在风险

陪伴视障者安全通行

“看不见”的漫漫长路

自由问答模式

“眸思”则是一位贴心的朋友

走进博物馆、艺术馆、公园……

捕捉四周景象的每个细节

用声音构建丰富的生活场景

传递每一处日常之美

寻物模式

“眸思”将成为一名可靠的管家

被移动的手杖、最爱口味的牛奶……

日常物件的寻觅过程

变得轻松无压力

【视频】听见世界（来源：复旦大学中工互联）

“眸思”项目由学生打造

复旦大学眸思项目团队

“眸思”项目的主导者实际上都是“初出茅庐”的学生们，

整个团队25人，

全部由复旦大学的学生组成。

为了更好地感受视障者的难处，

团队成员同样模拟真实情境，

蒙眼探索视障者“黑暗”世界，

并邀请视障人士加入，

进一步摸清真实而具体的需求。

在基于几亿张图片训练出的“眸思”大模型基础上，

针对视障者提出的各类需求，

团队又用上万张图片进行特殊样本训练，

使“眸思”具备能够适配更多场景的能力。

项目由复旦大学自然语言实验室张奇教授带队，

张奇说：“人工智能发展日新月异，

科技应该要改变更多人的生活，

希望‘眸思’能够帮助视障人士走出家门，

让他们可以尝试更多工作，

为人生书写更多可能”。

链接：什么是人工智能多模态大模型

人工智能多模态大模型指能够处理和融合包括文本图像、语音等多种模态数据在内的人工智能模型，通过将不同类型的数据输入到同一个模型中，实现对多种感知信息的综合理解和处理多模态大模型结合自然语言处理计算机视觉、语音识别等多个领域的技术，具有更高的表征能力和智能化水平，能够应用于诸如语言理解、图像识别、多模态推理、内容生成等多个领域。

作者：黄婷陈曦

责编：黄伊婷

一审：黄伊婷

二审：张马良

三审：熊佳斌

来源：中国残疾人杂志社

我要问