Ссылки по теме выпускной работы
-
Серёженко А.А. Исследование методов анализа тональности на примере текстов песен
Описание: Персональный сайт на портале магистров ДонНТУ, 2021 г.
Руководитель: к.т.н., доц. кафедры Компьютерной инженерии Ниценко Артем Владимирович
Консультант: к.т.н., ст. пр. Коломойцева Ирина Александровна
-
Гума С.Н. Исследование методов сравнительного анализа текстов на примере рекомендательной системы фильмов
Описание: Персональный сайт на портале магистров ДонНТУ, 2019 г.
Руководитель: к.ф-м.н., доц. Скворцов Анатолий Ефремович
Консультант: ст. пр. Коломойцева Ирина Александровна
-
Бердюкова С.С. Исследование методов анализа тональности текстов для характеристики восприятия обществом новостей из области культуры
Описание: Персональный сайт на портале магистров ДонНТУ, 2021 г.
Руководитель: к.т.н., доцент кафедры компьютерной инженерии Ниценко Артем Владимирович
Консультант: ст. преп. Коломойцева Ирина Александровна
-
A Survey on LoRA of Large Language Models
Авторы: Mao Y., Ge Y., Fan Y., Xu W., Mi Y., Hu Z., Gao Y
Описание: В статье рассматривается обзор текущих достижений в области Low-Rank Adaptation (LoRA), включая методы улучшения производительности на downstream-задачах, кросс-задачного обобщения и повышения эффективности вычислений.
-
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Авторы: Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebron, and Sumit Sanghai
Описание: В статье рассматривается метод повышения качества многозапросного внимания (MQA) с помощью метода "uptraining" и введение группового запросного внимания (GQA), которое использует промежуточное количество голов ключей-значений, достигая качества, близкого к многоголовому вниманию, при скорости, сопоставимой с MQA.
-
L-Eval: Instituting Standardized Evaluation for Long Context Language Models
Авторы: Chenxin An, Shansan Gong, Ming Zhong, Mukai Li, Jun Zhang, Lingpeng Kong, and Xipeng Qiu
Описание: В статье рассматривается разработка стандартизованной оценки для моделей с длинным контекстом (LCLM), включая создание набора данных с 20 подзадачами и более 2 000 человеко-меченых пар запрос-ответ, а также анализ эффективности метрик для оценки таких моделей.
-
Quantifying memorization across neural language models
Авторы: Nicholas Carlini, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Florian Tramer, and Chiyuan Zhang
Описание: В статье рассматривается, как модели глубокого обучения могут запоминать данные из обучающих выборок, что может нарушать конфиденциальность, снижать качество и справедливость, а также как различные факторы, такие как размер модели, частота повторений примеров и контекст, влияют на степень такого запоминания.
-
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Авторы: Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova
Описание: В статье рассматривается новый языковой модель BERT (Bidirectional Encoder Representations from Transformers), которая использует двусторонние представления для предобучения на неразмеченных текстах и демонстрирует передовые результаты в ряде задач обработки естественного языка, таких как ответ на вопросы и выводы.
-
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?
Авторы: Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, and Jonathan Herzig
Описание: В статье рассматривается влияние введения новой фактической информации через дообучение на способность больших языковых моделей использовать уже существующие знания, с выводом, что такие модели усваивают новые факты медленно и это увеличивает вероятность их галлюцинаций.
-
Gemini: A Family of Highly Capable Multimodal Models
Авторы: Gemini Team Google
Описание: В статье рассматривается новая серия мультимодальных моделей Gemini, демонстрирующих высокие результаты в понимании изображений, аудио, видео и текста.
-
Training Compute-Optimal Large Language Models
Авторы: Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W Rae, Oriol Vinyals, and Laurent Sifre
Описание: В статье рассматривается оптимальный размер модели и количество токенов для обучения трансформерных языковых моделей с учетом вычислительных затрат, выявляется, что модели нынешнего размера недообучены, и предлагается гипотеза, согласно которой для оптимального обучения необходимо увеличивать модель и количество токенов пропорционально.
-
Scaling Laws for Neural Language Models
Авторы: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei
Описание: В статье рассматриваются эмпирические законы масштабирования производительности языковых моделей, показывающие зависимость потерь по перекрестной энтропии от размера модели, объема данных и вычислительных ресурсов, а также оптимальное распределение вычислительных ресурсов для эффективного обучения.
-
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs
Авторы: Aly M. Kassem, Omar Mahmoud, Niloofar Mireshghallah, Hyunwoo Kim, Yulia Tsvetkov, Yejin Choi, Sherif Saad, and Santu Rana
Описание: В статье рассматривается метод оптимизации черного ящика с использованием атакующего LLM-агента для выявления более высокого уровня запоминания в модели-мишени, чем при прямом использовании данных обучения, и предлагается итеративный процесс оптимизации для создания инструктивных запросов, которые вызывают утечку данных обучения.
-
A Survey of Reinforcement Learning from Human Feedback
Авторы: Timo Kaufmann, Paul Weng, Viktor Bengs, and Eyke Hullermeier
Описание: В статье рассматривается область обучения с подкреплением на основе человеческой обратной связи (RLHF), которая исследует взаимодействие агентов RL с человеческим вводом и их применение для улучшения адаптивности и согласования целей интеллектуальных систем с человеческими ценностями.
-
ImageNet Classification with Deep Convolutional Neural Networks
Авторы: Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton
Описание: В статье рассматривается обучение глубокої сверточной нейронной сети для классификации изображений из соревнования ImageNet LSVRC-2010, с достижением значительного улучшения показателей ошибок по сравнению с предыдущими результатами.
-
API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs
Авторы: Minghao Li, Yingxiu Zhao, Bowen Yu, Feifan Song, Hangyu Li, Haiyang Yu, Zhoujun Li, Fei Huang, and Yongbin Li
Описание: В статье рассматривается новый бенчмарк API-Bank для оценки эффективности использования инструментов в моделях большого языка (LLM), а также предложены методы улучшения их способности использовать инструменты и преодолеть существующие препятствия.
-
arXiv
Архив статей по математике, физике, компьютерным наукам, статистике, финансам.
-
Hugging Face
Платформа для работы с моделями обработки текста.
-
OpenAI
Исследовательская организация, предоставляющая доступ к моделям GPT и другим инструментам ИИ.
-
PyTorch
Сообщество и инструменты для глубокого обучения.
-
AI Dungeon
Пример использования ИИ для генерации интерактивных сюжетов.
-
GitHub
Платформа для размещения репозиториев.
-
Towards Data Science
Популярный блог на Medium о данных и ИИ.
-
OpenDataScience
Сообщество и блог о данных, машинном обучении и ИИ.
-
The Gradient
Блог о последних исследованиях и трендах в ИИ.