博客
生命科学生成AI:评估LLMs/GPT归纳初级市场研究
Arpit Rajauria爵士AI工程师IQVIA
Lauren Poole助理校长
Sandip Ghosh管理者AI工程IQVIA
苏尼尔库马尔辛格AI工程主管IQVIA
Raja Shankar主管IQVIA X
14街2023号

自2022年11月启动以来,至2023年1月,AI驱动QA引擎已经聚集超过1亿用户,导致许多人视之为下一个搜索引擎革命 — — 甚至(至少暂时性地)导致中学和大学论文需求重组

iqvia网站使用GPT等大语言模型多用案例, 以图为客户提供最佳服务

必威手机APP委托IQVIA完成的很大一部分战略工作依赖应用域际专门知识,并辅以由行业专家、决策人和影响者(不限于支付医保系统前支付者、关键舆论主管和药剂师)进行的假设驱动初级研究假设验证至关紧要,但综合分析结果过程,特别是样本广度时,可能繁琐。

使用一系列快速工程技术 可能涉及设计精炼输入, 我们创建了一个新的GPT工具 帮助团队合成整理数据点击按钮汇总

GPT访问笔录-评析质量

获取更多内部买入工具, 我们希望未来用户盲目评估自身质量发布内部调查(n=30)时,受访者评估四大摘要项目团队生成2项,GPT3.5生成2项(text-davini-003)。每一摘要都不同,即随着人类回文响应变化,GPT不时发布逐字响应

评估依据如下标准:

  • 相关性:一致性汇总多强
  • 事实性 :生成摘要是否只包含源文本衍生语句
  • 一致性性 :文本从句子到句子
  • S级语义覆盖从原创文本中重要信息有多少包含在生成摘要中

结果令人印象深刻

调查构建时,我们严格使用即时工程技术,尚未使用索引化方法,更不用说微调法(GPT缺少整体项目内容的大背景),但它能从原输入数据中生成事实汇总回答者指出GPT摘要中有一个比人生成版本更加一致,总体评分质量与人相似

研究失明后,应答者被要求标注摘要是人工生成或GPT生成可能不奇怪,他们能识别模型生成的 完全基于事实 即它是如此清晰化 缺少更非正式人生成版本

还有什么我们学到

友情乐观使用GPT笔试证明有益, 增加策略咨询师应用批判思维的时间, 我们知道模型输出物会变质, 少微分分量甚至偶发性'Hallucation',模型输出看似一致文本时,事实错误换句话说,GPT无法直接使用生命科学框外详细解释一下,

GPT显示各种语言任务令人印象深刻的性能,但由于几个原因仍需要索引化和即时工程

第一,GPT生成文本时仅基于上下文培训因此,关键是要向GPT提供能适当设置生成文本上下文的即时消息

第二,GPT处理块文本并编制索引对高效访问块十分必要GPTs架构依赖顺序令牌表示文本,索引化需要创建令牌与输入文本中位置间高效映射

最后,索引化快速工程可提高GPT具体任务的效率和效果举例说,在问答任务中,精练即时可帮助GPT快速生成简洁答案类似地,索引化可加速文本生成过程,从而有可能生成长复杂文本而不牺牲性能

去哪儿

在IQVIA这里,我们知道不自欺欺人 当我们做了很多进展

开始在敏感度较低的区域推广能力测试,我们已经转向成功主题生成并正在建立++++a能力进展显著,但我们继续保持人回路巩固模型并最后选择首选输出

大型语言模型像GPT然而,重要的是,我们评估这些模型的可靠性、安全性、信任度和偏向性,这样我们才能在我们所谈论的事情中可信化。因此,我们正在投入大量资金,以确保当我们应用GPT处理其他敏感使用案例时,差差值最小化

必威手机APP继续加速创新建设健康世界时,看着这个空间

详情请联系劳伦普尔

联系我们