Phi-2: искусственный интеллект от Microsoft
Чтобы получить представление о масштабе, Phi-2 может похвастаться 2,7 миллиарда параметров, в то время как GPT-4 будет иметь около 1,7 миллиарда.
Microsoft объявила о выпуске Phi-2, модели Small Language (SML), способной превзойти Llama 2 и других конкурентов. Разработанная Microsoft Research, модель продемонстрировала отличные способности к рассуждению и пониманию языка. Исследователи провели несколько тестов и обнаружили, что в некоторых задачах он работает лучше, чем искусственный интеллект от Meta* (запрещена на территории РФ) и Google.
Phi-2 является частью семейства моделей на основе трансформаторов, которые имеют меньшее количество параметров. По словам Microsoft, идея его разработки основана на предпосылке, что можно достичь производительности, близкой к более обширным моделям, таким как Llama или Mistral. Чтобы получить представление о масштабе, Phi-2 может похвастаться 2,7 миллиарда параметров, в то время как GPT-4 будет иметь около 1,7 миллиарда.
Несмотря на это ограничение, искусственный интеллект Microsoft соответствует или превосходит модели в 25 раз большего размера. В серии тестов по математике и программированию Phi-2 показал лучшие результаты, чем Llama 2, Meta AI. Разработчики пошли еще дальше и поставили его перед Gemini Nano 2, где ему удалось решать физические задачи способом, похожим на искусственный интеллект Google.
Phi-2 предлагает менее токсичные и предвзятые ответы, чем Flama 2
Как удалось достичь этих результатов с меньшим количеством параметров? Секрет в обучении. Phi-2 обучался с использованием набора, включающего синтетические тексты НЛП, подмножества кода, полученные в результате переполнения стека, навыки программирования и многое другое.
Microsoft упомянула, что качество обучающих данных играет решающую роль в производительности модели. В отличие от GPT-4, Microsoft выполняет обработку веб-данных, которые фильтруются в соответствии с их образовательной ценностью. Команда исследователей использовала набор “качества учебника” - стратегию, применяемую с первой версии Phi.
Обучение Phi-2 заняло 14 дней, было использовано 96 видеокарт NVIDIA A100. Несмотря на то, что никаких дополнительных уточнений внесено не было, SML обеспечивает меньшую токсичность и предвзятость в своих ответах по сравнению с Llama 2. Microsoft Research прокомментировала, что они провели обширное тестирование с использованием академических тестов, а также внутренних инструментов.
К сожалению, Phi-2 будет доступен только для исследовательских проектов. SML будет предлагаться как часть Azure AI Studio для поощрения разработки языковых моделей. Текущая лицензия не позволяет использовать его в коммерческих приложениях, таких как ChatGPT.