Comtegra GPU Cloud RAG to zaawansowany system AI, który wykorzystuje Retrieval-Augmented Generation (RAG), aby zwiększyć wydajność dużych modeli językowych (LLM) poprzez integrację wiedzy z różnych źródeł. System ten automatyzuje transformację dokumentacji w gotową do użycia przez AI bazę wiedzy, wykorzystując GitLab CI/CD, modele do osadzania (embedding) oraz bazę danych wektorowych Weaviate. Zasilany przez nasze wewnętrzne API do inferencji LLM, dostarcza precyzyjnych, kontekstowych odpowiedzi dostępnych przez interfejsy internetowe, audio i czat. Umożliwia integrację z różnego rodzaju usługami internetowymi, botami i aplikacjami.
RAG, czyli Retrieval-Augmented Generation, to framework AI, który zwiększa wydajność dużych modeli językowych (LLM) poprzez włączanie zewnętrznych baz wiedzy. Łączy on tradycyjne wyszukiwanie informacji z generatywnymi LLM, aby zapewnić bardziej precyzyjne, aktualne i kontekstowo trafne generowanie tekstu.
Proces rozpoczyna się od repozytorium dokumentacji użytkownika CGC. To repozytorium zawiera pliki źródłowe w formacie Markdown dla dokumentacji opublikowanej na stronie docs.cgc.comtegra.cloud
Gdy aktualizacje są wypychane do głównej gałęzi, automatycznie uruchamiany jest pipeline CI/CD w GitLabie.
Gdy nowa wersja dokumentacji użytkownika CGC jest wypychana, pipeline CI/CD buduje i wydaje nową usługę internetową, oczyszcza dokumentację z metadanych i tworzy bazę wiedzy gotową dla AI, którą można przesłać do bazy danych wektorowych.
Modele do osadzania (embedding models) konwertują dane tekstowe na osadzenia wektorowe. Proces ten jest kluczowy do wypełniania bazy wiedzy, przekształcając dokumenty w format, który system RAG może zrozumieć i przeszukiwać.
Podczas interakcji z użytkownikiem modele te również osadzają przychodzące zapytania. Wynikowe osadzenia zapytań są następnie używane do przeszukiwania bazy wiedzy i pobierania najbardziej trafnych informacji w celu odpowiedzi na pytanie użytkownika.
Gotowa do użycia w AI, korporacyjna baza danych wektorowych, która umożliwia korzystanie z wielu zewnętrznych modeli do osadzania. Połączona przez Comtegra LLM API dla łatwiejszej integracji. Pozwala na łatwe tworzenie i wykorzystywanie kolekcji dokumentów dla wielu różnych języków.
Deweloperzy aplikacji nie muszą martwić się o osadzanie zapytań użytkowników, ponieważ są one obsługiwane przez samą bazę danych.
Wewnętrzne, otwarte API do inferencji LLM, które pozwala na używanie wielu modeli na jednym punkcie końcowym. Kompatybilność z API OpenAI zapewnia łatwość użycia z istniejącymi i nowymi aplikacjami AI oraz bazami danych.
Obsługuje punkty końcowe dla uzupełnień czatu, modeli, osadzeń i transkrypcji audio.
Jeden z punktów końcowych tworzy/przebudowuje kolekcję naszych dokumentów z pliku JSON wysłanego przez GitLab. Przyjmuje nazwę kolekcji i listę obiektów do hurtowego wstawienia ich do Weaviate. CGC Web pozwala również użytkownikom na interakcję z naszym utworzonym RAG pod `/chat`.
Architektura Comtegra GPU Cloud RAG została celowo zaprojektowana, aby oferować potężne, a jednocześnie elastyczne rozwiązanie. Nasz wybór komponentów kieruje się zaangażowaniem w otwartość, elastyczność i łatwość użycia, umożliwiając Ci budowanie i skalowanie zapewniające:
Priorytetowo traktujemy technologie open-source i standardowe interfejsy. Komponenty takie jak GitLab do CI/CD, Weaviate (baza danych wektorowych open-source) oraz nasze wewnętrzne, otwarte API do inferencji LLM zapewniają, że zachowujesz kontrolę. Używaj swoich ulubionych silników inferencyjnych, takich jak SGLang, Lamma.cpp, vLLM czy NVIDIA NIMs.
Masz swobodę adaptacji, modyfikacji i rozbudowy systemu w miarę ewolucji Twoich potrzeb, bez bycia związanym z zastrzeżonymi ekosystemami.
Wierzymy, że potężna AI nie powinna wymagać nadmiernej złożoności. GitLab automatyzuje pipeline tworzenia bazy wiedzy. Weaviate upraszcza rozwój, obsługując wewnętrznie osadzanie zapytań. Nasze API do inferencji LLM oferuje kompatybilność z OpenAI, co sprawia, że integracja z istniejącymi aplikacjami i tworzenie nowych jest proste, niezależnie od tego, czy chodzi o usługi internetowe, boty czy inne aplikacje. Możliwość wyboru różnych modeli do osadzania oznacza również, że możesz wybrać najlepsze dopasowanie bez stromej krzywej uczenia się zastrzeżonego systemu.
To modułowe podejście oznacza, że każda część pipeline'u RAG może być zoptymalizowana lub nawet wymieniona, jeśli Twoje wymagania się zmienią. Możesz wybierać różne modele do osadzania, łączyć się z różnymi źródłami danych poza dokumentacją i wdrażać różnorodne LLM za pośrednictwem naszego API do inferencji. CGC Web (lub Twoja niestandardowa warstwa aplikacji) służy jako elastyczny interfejs, pokazując, jak te komponenty można bezproblemowo zintegrować, aby dostarczać możliwości RAG przez interfejsy internetowe, audio i czat, dostosowane do Twojego konkretnego przypadku użycia.
Ostatecznie, ta strategia komponentów umożliwia budowanie zaawansowanych, niezawodnych i przyszłościowych rozwiązań RAG, dostosowanych do Twoich unikalnych wymagań, bez kompromisów w zakresie kontroli czy adaptacyjności.
Stworzone i utrzymywane przez Comtegra S.A.