「Alpha三人行」优化数据前处理 提升AI问答精准度 智能应用 影音
DForum0612
member

「Alpha三人行」优化数据前处理 提升AI问答精准度

  • 郑宇渟台北

「Alpha三人行」团队以创新AI问答系统拿下优胜,展现新时代技术实力与实战解题能力。DIGITIMES摄
「Alpha三人行」团队以创新AI问答系统拿下优胜,展现新时代技术实力与实战解题能力。DIGITIMES摄

生成式AI正快速重塑企业的营运流程、产品创新、商业模式与整体生态系,根据MIC公布的调查报告显示,2024年台湾五大行业有采用生成式AI意愿或相关移动的比例已达19%,金融保险业高达25%、制造业则以22%居次。

在运用生成式AI打造AI助理的浪潮下,也有企业发现投入大量资源建置的AI助理回应效果不如预期,选择将AI专案暂停,无形中导致整体竞争力下滑。

在「2025 云涌智生:台湾生成式AI应用黑客松竞赛」中, 从华新丽华「智能制造」组胜出的「Alpha三人行」认为,AI助理效果不佳主因源自于数据前处理的chunking过小所致,容易打断原有的文件段落脉络,导致AI模型出现理解偏差,回覆内容准确度不足。

为此,团队提出 以「单页 PDF 文字量」为Chunk单位的做法,借此保持自然段落结构与完整上下文,避免语意断裂。此做法顺利达成「增强语意连贯性,提升检索与回答准确率」、「减少幻觉风险」、「优化使用者查询体验」等三大效益,也获得评审委员的一致认同。

赛前教育训练课程佳  活用 AI 工具实现创意

「Alpha三人行」团队以钢材标准查询作为测试案例,询问「ASTM A276钢种316Ti是否符合EN 10088-3标准」的问题。系统检索到的内容完整覆盖了钢种的化学成分与标准对应,回覆内容忠于来源数据且针对性极高。此AI系统在「检索相关性」、「答案扎实度」、「回答相关性」等三项指标,测试结果均达到 1.0/1.0的最高评分,展现出在企业知识应用上的高度可靠性。

该团队运用Amazon Web Services(AWS)云端服务,打造完整的企业知识问答架构。第一阶段将 PDF、PNG、JPG 等文件上传至Amazon S3存储服务,第二阶段则是以大型语言模型为核心配合Flask API,提供实时查询服务。

第三阶段则利用生成式AI基础模型托管服务Amazon Bedrock串接大语言模型,确保回应速度与可扩展性。第四阶段则是采用云端运算服务Amazon EC2服务器支撑API运算,确保系统稳定高效 。整体系统设计兼顾数据上传、管理、检索与回覆,让用户能轻松提问与实时获得专业答案,也成为获胜的重要关键。

2024年才从台湾大学硕士班毕业的「Alpha三人行」团队指出,虽然三人都是信息相关科系毕业,面对生成式AI技术的迅速发展,均对时下主流AI工具完全不熟悉。

所幸在主办单位规划的一系列企业数据工作坊、 AWS生成式AI示范工作坊等专业培训下,加上华新丽华说明钢材标准的细节后,才能顺利在30小时内完整专案制作,并荣获优胜奖项。

关键字