在线中文字幕网站-在线中文字幕视频-在线中文字幕日韩-在线中文字幕观看-蜜桃成人在线视频-蜜桃成人在线

聚慕 - 專業醫療器械服務商
設為首頁 收藏本頁 人事招聘 關于聚慕
400-901-5099
全部商品分類
openai發布最新開源框架:醫療大模型評估瞄準現實情況
發布時間:2025-05-19 09:12:17

OpenAI近日發布了一款開源基準測試工具,旨在衡量大型語言模型在醫療健康領域的性能和安全性。

該公司在周一的博客文章中表示,這個名為HealthBench的大型數據集超越了傳統的考試式提問,它基于醫學專家認為最重要的內容,測試人工智能模型在真實醫療場景中的表現。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發和部署得當,大型語言模型有潛力擴大健康信息的獲取途徑,支持臨床醫生提供高質量的醫療服務,并幫助人們維護自身及其社區的健康。"

公司高管在博文中表示:"評估對于理解模型在醫療環境中的表現至關重要。學術界和業界雖已付出巨大努力,但許多現有評估未能反映真實場景,缺乏基于醫學專家意見的嚴格驗證,或者未能給最先進的模型留下改進空間。"

該公司表示,該評估框架是與來自60個國家的262名執業醫師合作構建的。

HealthBench內置了5000個真實的醫療對話,并根據醫生制定的評分標準對模型的回應進行評分,評估其安全性、適當性和準確性。

77411747366336684

該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫生之間的互動,這些對話通過合成生成和人工對抗測試產生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫療服務提供者的角色,跨越了多個醫學專業和背景,并根據難度進行了篩選。"

HealthBench評估了48562項獨特的評分標準,涵蓋多個健康情境和行為維度,如準確性、指令遵循和溝通能力。

模型的回應由一個基于模型的評分器進行評估,以判斷是否滿足每個評分標準。基于滿足的標準所獲總分,與可能獲得的最高分數進行比較,得到模型回應的總體得分。

HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

OpenAI 健康人工智能團隊負責人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開發面向兩大受眾:一是AI研究界,旨在"形成共同標準并激勵開發有益于人類的模型";二是醫療機構,旨在"提供高質量證據,以更好地理解當前和未來的用例及局限性。"

OpenAI表示,HealthBench的開發旨在遵循幾項核心原則來評估醫療領域的AI系統。首先,該公司稱,評分應反映現實世界的影響。OpenAI在博文中表示:"這應超越考題范圍,捕捉復雜的現實生活場景和工作流程,以反映個人和臨床醫生與模型互動的方式。"

同時,評估還應反映醫療專業人士的標準和優先事項,為改進AI系統提供堅實的基礎。該公司指出:"應顯示出巨大的改進空間,從而激勵模型開發者持續提升性能。"

斯坦福AI 研究與科學評估中心執行主任Ethan Goh表示,HealthBench是推動醫療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(如MedQA, MultiMedQA, MedMCQA, USMLE)依賴于選擇題,這些題目通常來自醫生資格考試。這些基準現已飽和,對于衡量AI模型改進的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務級評估的基準彌補了這一空白,涵蓋了患者和臨床醫生的使用場景。"

Goh表示,許多行業參與者早已將其模型用于各種醫療保健應用,但坦率地說,在對AI回答進行穩健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫療服務提供者的使用場景中可能具有極高的風險。

OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。總體而言,OpenAI 的 o3 模型表現最佳。但值得注意的是,也有行業人士警告稱,一家公司自行制定基準,并顯示其模型在該基準上表現最佳,這一做法存在風險。如果不公開其模型及數據集以供公眾審查,那無異于同時扮演法官、陪審團和行刑者的角色。在像醫療這樣討論生死的敏感領域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。

54901747366342543

OpenAI在醫療健康領域動作頻頻,該公司正與賽諾菲和Formation Bio合作,構建一款由AI驅動的工具,旨在通過加速臨床試驗招募來改進藥物研發。Iodine Software也正與OpenAI合作,將包括GPT-4在內的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開發了生成式AI工具,包括一款AI驅動的癌癥輔助診療應用,雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學健康科學中心 (UTHealth Houston) 也與OpenAI合作,構建和部署用于醫學培訓和患者床旁的算法。


注:文章來源于網絡,如有侵權,請聯系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調
  • 其他
* 手機號碼:
* 姓名:
主站蜘蛛池模板: 啊嗯啊嗯啊嗯啊| 情侣视频| 抓特务| 冷血惊魂| 同性gay在线| 泰剧谁的青春不乱爱| 我和我的父辈 电影| 帕巴拉呼图克图| 重口视频| 好看的拉片| 大追捕在线完整免费观看| 祈今朝电视剧| dnf代码大全| 遥远的天熊山电影完整版在线观看| 五年级脱式计算题100道| 正发生电影| 林智妍上流社会| 忍石| 2024微信头像| 跟班服务| 誓不忘情 电影| 日韩大胆视频| 爱情陷阱| 女怕嫁错郎演员表| 对称度| intel集成显卡天梯图| 19岁女性写真| 王牌御史| 夫妻性视频| 宝悦| 膨腹爱好者撑肚子视频| 欧美比基尼美女| 3s游戏交易平台| 老爸的筒子楼 电视剧| 爱情与灵药 电影| 地缚少年花子君第一季免费观看| 野蛮人电影| 免费微信对话生成器| 崔哲浩| 明宰铉身高| 音乐僵尸|