Az embedding model (beágyazó modell) lényegében egy „fordítógép”, ami az emberi fogalmakat a számítógépek számára érthető matematikai nyelvvé alakítja.
Mivel a számítógépek nem értenek a szavakból, képekből vagy hangokból, mindent számokká kell konvertálnunk nekik. Az embedding modellek abban különlegesek, hogy nem csak véletlenszerű számokat rendelnek a dolgokhoz, hanem megőrzik a jelentésbeli összefüggéseket.
Hogyan működik?
Képzeld el a világ összes szavát egy hatalmas, több száz dimenziós térben (ez a vektortér). Az embedding modell minden szóhoz hozzárendel egy koordinátát, amit vektornak nevezünk.
A modell lényege a közelség:
- A hasonló jelentésű szavak (pl. „kutya” és „kutyus”) egymáshoz nagyon közel kerülnek ebben a térben.
- A teljesen eltérő fogalmak (pl. „kutya” és „kvantumszámítógép”) messze lesznek egymástól.
Matematikai varázslat
Az embeddingek lehetővé teszik, hogy „számoljunk” a jelentésekkel. A leghíresebb példa erre a következő vektorművelet:
vkirály – vférfi + vnő ≈ vkirálynő
Ez azt jelenti, hogy ha a „király” koordinátáiból kivonjuk a „férfiasság” dimenzióját, és hozzáadjuk a „női” dimenziót, eredményül egy olyan pontot kapunk, ami a „királynő” szó közelében van.
Miért jobb ez, mint egy sima szótár?
Régebben a számítógépek „one-hot encoding”-ot használtak, ahol minden szó egy egyedi azonosítót kapott. Ennek két nagy hibája volt:
- Helypazarlás: Ha 50 000 szavad volt, minden szót egy 50 000 elemű listával kellett leírni.
- Nulla összefüggés: A gép számára a „hamburgert eszem” és a „sajtburgert fogyasztok” mondatoknak semmi köze nem volt egymáshoz.
Az embedding modellek (mint a Word2Vec, BERT vagy az újabb Ada modellek) tömörítik az információt (általában 768 vagy 1536 dimenzióba), és meg is értik a kontextust.
Hol találkozol vele a gyakorlatban?
- Keresőmotorok: Amikor beírod, hogy „finom olasz tészta”, a kereső az embeddingek segítségével tudja, hogy a „recept” és a „spagetti” szavakra is érdemes rákeresnie, még ha nem is írtad le őket.
- Ajánlórendszerek: A Netflix vagy a Spotify azért tud neked hasonló filmeket/zenéket ajánlani, mert azok „közel vannak” egymáshoz az embedding térben.
- LLM-ek (pl. ChatGPT): Ez az alapja annak, ahogy a mesterséges intelligencia feldolgozza a kérdéseidet.
Vektoradatbázisok és szemantikus keresés
A vektoradatbázisok és a szemantikus keresés alkotják a modern MI-alkalmazások (mint a ChatGPT vagy az egyedi vállalati keresők) memóriáját.
1. Szemantikus keresés alapjai
A hagyományos keresés kulcsszavakat néz (ha beírod, hogy „eb”, nem biztos, hogy kiadja a „kutya” találatot). A szemantikus keresés ezzel szemben a jelentést (kontextust) figyeli.
- A folyamat: Amikor felteszel egy kérdést, az embedding modell azonnal egy számsorrá (vektorrá) alakítja azt.
- A cél: A rendszer nem betűegyezést keres, hanem olyan dokumentumokat, amiknek a vektorai matematikailag közel állnak a te kérdésed vektorához.
- Előnye: Érti a szinonimákat, a többjelentésű szavakat és a kérdésed mögötti szándékot is.
2. Vektoradatbázisok működése
A vektoradatbázis (pl. Pinecone, Milvus, Weaviate) egy speciális tároló, amit arra optimalizáltak, hogy több millió vagy milliárd vektort kezeljen villámgyorsan.
Hogyan működik a „keresés” benne? Mivel egy vektoradatbázisban nem lehet „ABC-sorrendbe” rendezni az elemeket, speciális indexelési technikákat használnak:
- Vektortérbe helyezés: Minden dokumentumot (vagy képet/hangot) beágyaznak a sokdimenziós térbe.
- Indexing (Pl. HNSW): Olyan „térképet” rajzol a pontok közé, hogy ne kelljen minden egyes elemet összehasonlítani a kérdéssel (ez túl lassú lenne).
- Távolságmérés: Kiszámolja a kérdésed és a tárolt adatok közötti távolságot (leggyakrabban Cosine Similarity vagy Euklideszi távolság alapján).
- Találat: Visszaadja a „legközelebbi szomszédokat” (Nearest Neighbors).
Gyakorlati példa (RAG): Amikor egy MI-nek adsz egy 500 oldalas PDF-et, azt először kis darabokra vágja, vektorokká alakítja, és beteszi egy vektoradatbázisba. Amikor kérdezel tőle, az MI kikeresi a legrelevánsabb bekezdéseket a közelség alapján, és csak azokat olvassa el, hogy válaszolni tudjon neked.
A RAG (Retrieval-Augmented Generation – magyarul: lekéréssel bővített tartalomgenerálás) az a technológia, ami hidat képez a mesterséges intelligencia általános tudása és a te saját, friss adataid között. A RAG-ra azért van szükség, mert a nyelvi modelleknek (LLM), mint a ChatGPT vagy a Gemini, két fő problémája van:
- Hallucináció: Ha nem tud valamit, néha magabiztosan kitalál egy választ.
- Elavult tudás: A modellek tanítása egy ponton lezárult (például egy 2024-es modell nem tudhatja, mi történt tegnap a világban).
A RAG ezt a problémát úgy oldja meg, hogy mielőtt az MI válaszolna, kikeresi a releváns információt a megadott dokumentumokból, és annak alapján fogalmazza meg a választ.





