最新评测对主流大模型幻觉问题进行了评估
发布时间:2024-01-08 来源:互联网 点击:(3018) 【 字体:大 中 小 】
如何准确评估和解决大语言模型中的幻觉问题已成为一个至关重要的挑战。近日,复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA,对业界主流的大模型进行了评估。
HalluQA采用无幻觉率来评估大模型的优劣。无幻觉率越高代表模型幻觉越低,事实准确性越高。在评测的24个主流大模型中,包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等。
从评测结果来看,幻觉问题对大模型来说尚有困难,有18个模型的无幻觉率低于50%。在幻觉消除上,具备检索增强能力的大模型优势明显,在所有模型评测中,文心一言在整体幻觉问题解决方面表现突出,排名第一,整体无幻觉率为69.33%。
行业普遍认为,幻觉问题对于大模型在多个领域的落地都可能产生影响,包括客户服务、金融服务、法律决策和医疗诊断等。因此解决幻觉问题越好的大模型,才具备更强的产业落地价值。
猜你喜欢
第五届中国工业互联网大赛无锡赛站决赛举办
以“数字赋能 智创未来”为主题,由工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会等单位主办的第五届中国工业互联···复旦教授称中国退休年龄还是太早,建议推行延迟退休制···
在当今这个快速发展的时代,退休年龄问题成了一个热门话题。复旦大学的一位教授彭希哲,这位在学术界有着丰富成就的资深教授,近日就提出了···2024年AI领域五大趋势
人工智能(AI)的未来将是什么模样?美国《福布斯》双周刊网站在近日的报道中,列出了2024年AI领域发展的五大趋势,这些趋势有望赋···中国汽车提前布局智能赛道
这两天,“奥迪向中国车企低头”的词条霸榜热搜。据外媒报道,为了应对日益激烈的电动汽车竞争,奥迪正在考虑直接从中国的电动车企业购···荣耀赵明:Magic V2发布希望带动产业坚定折叠···
近日,全新折叠旗舰荣耀Magic V2正式发布,荣耀Magic V2系列用重构思维,从消费者需求原点思考产品设计,打破传统折叠···共促节能降碳 美团“青山计划”新增10家餐盒回收合···
今年节能宣传周期间,美团“青山计划”联合中华环境保护基金会宣布与10家回收机构达成合作,将在全国更多城市启动“盒聚变”塑料餐盒···福建小吃-春卷
山西特产之东赵小白梨
第一届中国电影编剧周闭幕 《悬崖之上》等影片获“年度十佳电影剧作”推介
车厘子和大樱桃有什么区别 如何清洗樱桃
北京特产之 麻豆腐
23个护肤美容知识
嵩山海拔多少 嵩山有多高
中国留学海归素质一代不如一代?民国是最好的留学时代吗?
大学新生一般是几月份入学,开学的注意事项有什么?
西安的特色小吃推荐-西安镜糕