SpeakLeash /ˈspix.lɛʂ/ a.k.a. Spichlerz jest nową inicjatywą utworzenia Polish Large Language Model (LLM). Są to modele o wielu zastosowaniach, oparte na transformerach, używane do generowania i przetwarzania języka naturalnego.
Naszym celem jest zbudowanie nowego i skatalogowanie istniejących zbiorów danych aby zapewnić naukowcom możliwość prowadzenia najnowocześniejszych badań nad modelowaniem języka. Zbiory danych opracowane w ramach SpeakLeash są dostarczane z manifestami opisującymi licencjonowanie oraz zawierającymi statystyki, aby zapewnić lepsze dopasowanie do prowadzonych badań.
Dzięki bezpośrednim rozmowom z zagranicznymi deweloperami LLM, m.in. Big Science (BLOOM), EleutherAI (GPT-J/GPT-NeoX-20B), otrzymaliśmy szereg szczegółowych informacji i dostęp do (otwartych) narzędzi do budowania zróżnicowanych zbiorów danych tekstowych. Mamy nadzieję, że dołączymy nasze zbiory danych do tych grup badawczych, co zaowocuje pierwszorzędnym wsparciem dla języka polskiego w bieżących i przyszłych projektach.
Zastosowania LLM są praktycznie nieograniczone, począwszy od generowania treści, m.in. artykułów, czasopism, notatek, po bardzo zaawansowane prognozy w medycynie, m.in. przewidywanie kolejnych wariantów COVID-19. Co ty z tym zrobisz?