:overjoyed:

This commit is contained in:
J. Renken 2025-11-10 18:40:38 +01:00
parent d6fe4fb1ea
commit 5627551739
5 changed files with 4 additions and 4 deletions

Binary file not shown.

BIN
Praktikumsbericht.zip Normal file

Binary file not shown.

Binary file not shown.

View file

@ -2,7 +2,6 @@
% !TeX program = xelatex
\documentclass{article}
\usepackage{./praktikumsbericht}
\setlength{\parskip}{0.05cm}
\begin{document}
\input{title}
@ -36,7 +35,7 @@
Moderne LLM basieren auf einem Ansatz des Transformers, welcher erstmals im Jahr 2017 von Google präsentiert wurde. Ein Transformer basiert auf dem Konzept der Aufmerksamkeit (auf englisch \enquote{attention}), hierbei werden Wörter oder Tokens als multidimensionale Vektoren encodiert, diese werden dann benutzt, um weitere Informationen des Textes erschließen, indem Aufmerksamkeit zwischen den Vektoren ausgeführt wird. Somit erhalten die Tokens mehr Informationen aus dem umliegenden Kontext und repräsentieren somit besser die eigentliche Bedeutung des Textes. Transformer eignen sich für die Übersetzung von Texten, wie im originalen Paper präsentiert, oder --- relevant für meine Arbeit --- für die Generierung von neuem Text mithilfe von generativen vortrainierten Transformern. Die Transformer Architektur eignet sich besonders für die massive Generierung von Daten, da sich Operationen wie Vektormultiplikation, welche für Aufmerksamkeit benötigt werden, mithilfe von besonderer Hardware sehr effektiv parallelisieren lässt. Transformer sind ein wichtiger teil vieler moderner Forschungsprojekte und spielen eine wichtige Rolle in mehreren Projekten im IAM nicht nur für die Sprachverarbeitung sondern auch in der Bildgebung \cite{vaswani2023attentionneed}.
\subsection{Eigene Ansätze}
In meiner Arbeit übernahm ich das Konzept der graphbasierten LLM Generierung, um medizinische multiple choice questions (MMCQ) zu beantworten. Hierfür nutzte ich den MedMCQA Datensatz, welche eine große Anzahl an realistischen MMCQ über verschiedene Themen wie Mikrobiologie, Psychiatrie, Radiologie, Anatomie u. v. m. enthält. Sowie die \enquote{ground truth}, hier die erwartete Antwort, durch welche ein objektiver Score berechnet werden konnte. Im Gegensatz zu KiMed, welches den Score durch weitere LLMs berechnete und somit keine ground truth besaß, da LLMs nicht deterministisch sind \cite{pmlr-v174-pal22a}. Das genutzte Sprachmodell war Qwen 2.5 14B Instruct 4bit da es eine gute Balance zwischen Performance und Antwortgenauigkeit darstellt \cite{yang2024qwen2technicalreport} \cite{qwen2.5}. Das Projekt wurde auf der Google Colab Plattform ausgeführt. Diese bietet eine Umgebung an, um mit der Python Programmiersprache mithilfe von kostenfreien --- aber zeitlich begrenzten --- Hardwarebeschleunigern wie Grafikkarten oder Tensor-Prozessoren zu verarbeiten, welche es mir Erlaubten das Qwen Modell auszuführen. Für die Beantwortung der Fragen wurde fünf Agenten genutzt, welche jeweils die vorherige Antwort erhielten, sowie die originale Frage und Antwortoptionen. Die fünf Agenten erhielten jeweils individuelle Aufgaben durch ihren Prompt, ein Text, welcher die Aufgabe und andere Informationen enthält. Ihre jeweiligen Aufgaben waren:
In meiner Arbeit übernahm ich das Konzept der graphbasierten LLM Generierung, um medizinische multiple choice questions (MMCQ) zu beantworten. Hierfür nutzte ich den MedMCQA Datensatz, welche eine große Anzahl an realistischen MMCQ über verschiedene Themen wie Mikrobiologie, Psychiatrie, Radiologie, Anatomie u. v. m. enthält. Sowie die \enquote{ground truth}, hier die erwartete Antwort, durch welche ein objektiver Score berechnet werden konnte. Im Gegensatz zu KiMed, welches den Score durch weitere LLMs berechnete und somit keine ground truth besaß, da LLMs nicht deterministisch sind \cite{pmlr-v174-pal22a}. Das genutzte Sprachmodell war Qwen 2.5 14B Instruct 4bit da es eine gute Balance zwischen Performance und Antwortgenauigkeit darstellt \cite{yang2024qwen2technicalreport} \cite{qwen2.5}. Das Projekt wurde auf der Google Colab Plattform ausgeführt. Diese bietet eine Umgebung an, um mit der Python Programmiersprache mithilfe von kostenfreien --- aber zeitlich begrenzten --- Hardwarebeschleunigern wie Grafikkarten oder Tensor-Prozessoren zu \hspace{10pt} verarbeiten, welche es mir Erlaubten das Qwen Modell auszuführen. Für die Beantwortung der Fragen wurde fünf Agenten genutzt, welche jeweils die vorherige Antwort erhielten, sowie die originale Frage und Antwortoptionen. Die fünf Agenten erhielten jeweils individuelle Aufgaben durch ihren Prompt, ein Text, welcher die Aufgabe und andere Informationen enthält. Ihre jeweiligen Aufgaben waren:
\begin{enumerate}[itemsep=-1.5mm]
\item Ausschließen von Ähnlichen Antworten,
\item erzeugen von Informationen,

View file

@ -17,8 +17,9 @@
\RequirePackage{hyperref}
\addbibresource{citations.bib}
\RequirePackage[a4paper, bmargin=2cm, tmargin=2.5cm, lmargin=2.5cm, rmargin=2.5cm]{geometry}
%\RequirePackage{microtype}
%\hyphenpenalty=750
\RequirePackage{microtype}
\hyphenpenalty=1000
\setlength{\parskip}{0.05cm}
\defaultfontfeatures{Mapping=tex-text}
\setmainfont{Arial}
\fontsize{11}{16.5}