Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Быстродействующие многопортовые статические КМОП ОЗУ Кириченко Павел Григорьевич

Быстродействующие многопортовые статические КМОП ОЗУ
<
Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ Быстродействующие многопортовые статические КМОП ОЗУ
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кириченко Павел Григорьевич. Быстродействующие многопортовые статические КМОП ОЗУ : Дис. ... канд. техн. наук : 05.13.05 : Москва, 2003 161 c. РГБ ОД, 61:04-5/841

Содержание к диссертации

Введение

1. Основные элементы многопортовых статических КМОП ОЗУ 12

1.1. Многопортовые ячейки памяти 12

1.2. Выбор методов приема и передачи данных в критических цепях 23

1.3. Сравнительный анализ схем выборки и хранения данных 31

1.4. Адресный тракт 44

Выводы 44

2. Переключательные и динамические характеристики ячеек памяти статических многопортовых КМОП ОЗУ 46

2.1. Статические характеристики ячеек памяти 46

Однофазная запись: определение Uwoі HUWIO 48

Однофазная запись: определение Uboi HUMO 61

Дифференциальные схемы 68

Основные результаты анализа переключательных характеристик ячеек памяти 73

2.2. Динамические характеристики ячеек памяти 73

Динамические характеристики однофазных схем в режиме чтения 74

Динамические характеристики дифференциальных схем в режиме чтения 77

Динамические характеристики ячеек памяти в режиме записи 84

Основные результаты анализа динамических характеристик 86

Выводы 86

3. Линии связи в быстродействующих многопортовых ОЗУ 88

3.1. Битовые шины 90

Секционирование 90

Предзаряд битовых шин 99

Обработка приоритетности портов 107

Методика учета перекрестных помех в парафазных шинах при моделировании 110

3.2. Шины питания 114

Рекомендации по трассировке шин питания 114

Методика моделирования импульсных помех по шинам земли и питания 119

3.3. Влияние электромиграции на трассировку шин 122

3.4. Методика проектирования многопортовых статических ОЗУ с учетом влияния проводников 124

Выводы 128

4. Практические результаты разработки многопортовых регистровых файлов 130

4.1. Архитектурные решения 131

Временная диаграмма регистрового файла 131

Варианты реализации регистрового файла 134

4.2. Некоторые схемотехнические решения 137

Усилитель чтения 137

Усилитель записи 138

4.3. Результаты проектирования 139

Быстродействие 139

Потребляемая мощность 141

Площадь 142

4.4 Система параметров, характеризующих качество многопортовых ОЗУ 142

Выводы 145

Заключение 147

Список литературы

Введение к работе

Подавляющее большинство современных вычислительных систем проектируется на основе процессоров с производительностью более 1 миллиарда операций в секунду. Такие процессоры базируются на архитектуре сверхдлинных команд VLIW (Very Long Instruction Word) или суперскалярной архитектуре. Сверхдлинная команда процессора на самом деле состоит из нескольких RISC-инструкций, каждая из которых задает операцию на своём исполнительном устройстве. Число таких команд равно количеству вычислительных устройств - от 8 до 20. В результате возникает серьёзная проблема: необходимо иметь устройство памяти (регистровый файл), которое будет обеспечивать обмен данными между всеми вычислительными устройствами. Такое же устройство необходимо и в суперскалярных микропроцессорах.

В работе [1] показано, что существуют три решения этой задачи:

1. общий однопортовый регистровый файл, подключенный к шине, объединяющей вычислительные устройства;

2. отдельный однопортовый регистровый файл для каждого устройства;

3. многопортовое ЗУ, к которому обеспечен одновременный высокоскоростной доступ.

Наиболее существенный недостаток первого варианта — это ограниченная пропускная способность общей шины. Чтобы преодолеть это ограничение, организовывается конвейерное выполнение команд различных устройств для оптимального использования ими общей шины. Это усложняет и программную, и аппаратную часть системы. Второй вариант позволяет преодолеть ограничения, свойственные первому. Однако он приводит к дублированию массивов ЗУ, то есть к увеличению площади и потребляемой мощности, и к появлению необходимости копирования данных после каждой операции во все регистровые файлы. Это тоже усложняет программную и аппаратную реализацию микропроцессора. Третий вариант наиболее привлекателен [2], однако его проектирование сложно из-за ограничений по площади и трудности в обеспечении высокого быстродействия [1]. Такое решение означает наличие нескольких полных и независимых наборов адресов, данных и логики чтения/записи, а также ячеек памяти, приспособленных к чтению/записи несколькими устройствами.

Возможные области применения многопортовых ЗУ помимо процессоров общего назначения включают специальные микропроцессорные системы реального времени для управляющих, графических и DSP-систем, а также векторные сопроцессоры для вспомогательных целей в компьютерах общего назначения [3]. Векторные вычисления тоже подразумевают проведение любой вычислительной работы с большим количеством одновременно выполняемых операций. Если в системе имеется память, позволяющая нескольким устройствам произвольно и асинхронно читать (или писать) по разным адресам в один момент времени и в один массив ЯП, то для процессов, которые могут выполняться параллельно, вычислительные устройства могут быть запрограммированы для одновременной работы с различными частями данных, хранящимися в ЗУ.

Во всех этих приложениях многопортовый регистровый файл играет роль и быстрого статического ОЗУ, и связки между вычислительными устройствами, обрабатывающими общие данные.

Принимая во внимание вышеизложенное, можно утверждать, что многопортовый регистровый файл является ключевым компонентом для обеспечения высокой пропускной способности при обмене данными, уменьшения длительности такта и/или возможности выполнения нескольких операций за такт. Он находится на так назьюаемом «критическом пути» процессора, делая тем самым минимизацию своего времени доступа принципиально важной целью [4]. Операции обмена с памятью управляются непосредственно процессором после дешифрации инструкций. Регистровый файл отрабатывает команду со скоростью процессора, обычно за один такт. Поэтому высокопроизводительный процессор требует быстродействующего регистрового файла.

Для повышения производительности регистровые файлы обычно имеют всего несколько портов, например, два порта записи и один чтения [5, 6]. Появление суперскалярных и VLIW архитектур микропроцессоров, как уже упоминалось выше, привело к возникновению необходимости наличия большего числа портов. Это требование находится в противоречии с общими целями проектирования СБИС: получение высокой плотности размещения элементов на кристалле, высокой производительности и легкости тестирования.

Для преодоления этого противоречия предлагались различные подходы с использованием дорогостоящих технологий, таких как БиКМОП [5] или КМОП с несколькими значениями пороговых напряжений транзисторов [6]. Скорость операций чтения/записи также предлагалось повышать за счет применения сложной структуры многопортовой ячейки памяти, как описано в работе [7]. Однако желательно использовать максимально простую технологию (обычный КМОП) и схемотехнику, чтобы уменьшить затраты на изготовление и увеличить процент выхода годных. Поэтому в данной диссертации рассматривается только обычная КМОП технология с одним значением пороговых напряжений транзисторов.

В настоящее время разрабатываемые СБИС стали такими сложными, что проектировать их без сложных и дорогостоящих средств САПР практически невозможно. В работах [8, 9] показаны основные тенденции в развитии и применении систем автоматизированного проектирования. Традиционный маршрут проектирования выглядит следующим образом. Вначале создается принципиальная схема какого-либо блока, затем она моделируется при помощи таких средств, как, например, Star-HSPICE или Spectre. Результаты моделирования используются либо для подгонки размеров транзисторов, либо для внесения изменений в схему устройства с последующим повторным моделированием. После получения требуемого быстродействия, потребляемой мощности и т.д. разрабатывается топология блока, из которой экстрагируются паразитные параметры. Эти параметры вносятся в схему, которая снова моделируется. Если соответствие результатов измерений требованиям, предъявляемым к блоку, сохранилось, то его проектирование считается завершенным.

Такой метод оправдывает себя при разработке устройств, к которым не имеется предельных требований по быстродействию, площади или потребляемой мощности. Если же такие требования есть, или проектируемая система обладает большой функциональной сложностью, то данный маршрут проектирования может вообще не обладать сходимостью по одному или нескольким параметрам [10, 11]. Это приводит к потере времени и, как следствие, определенного сегмента рынка. Следует также отметить, что, во-первых, современные программы моделирования, способные рассчитать схемы, состоящие из тысяч и десятков тысяч транзисторов, дорогостоящи и требуют больших вычислительных ресурсов, а во-вторых, модели транзисторов для современных технологий содержат большое количество параметров, зависящих от конкретного производителя, что делает невозможным машинный расчет без заключения договора с фабрикой.

В этой связи желательно иметь достаточно простые инженерные формулы, позволяющие на самых ранних стадиях проектирования оценить «на листке бумаги» возможность разработки блоков, лежащих на критическом пути, и способы улучшения их характеристик. Погрешность вычислений по этим соотношениям может быть не очень низкой (в пределах 10%), но они должны давать четкое представление о том, какой элемент схемы влияет в большей или меньшей степени на рассматриваемый параметр. А после того, как оценена реализуемость выбранной схемы и получено представление об имеющихся узких местах и резервах можно проводить моделирование с высокой точностью при помощи средств САПР.

Отдельные вопросы, касающиеся теории и практики ячеек и устройств памяти, помехоустойчивости и быстродействия тригтерных схем (в число которых входят и ЯП), синтеза цифровых устройств, физического проектирования и верификации, рассматривались отечественными и зарубежными учеными.

В литературе к моменту начала работы над диссертацией (2000 год) отсутствовали обобщенные показатели качества многопортовых ОЗУ, в полной мере отражающие их возможности с учетом присущих только им специфических параметров и особенностей. Не уделялось достаточного внимания передаче по битовым шинам сигналов малым перепадом, который позволяет существенно экономить мощность и повысить быстродействие. Была недостаточно проработана методика оценки влияния секционирования битовых шин на быстродействие, потребляемую мощность и площадь кристалла при использовании малого перепада напряжения для передачи данных. Отсутствовала простая методика моделирования возникающих из-за переключения большого количества блоков импульсных помех по шинам земли и питания без предварительного выполнения топологии и экстракции паразитных параметров.

Таким образом, получение инженерных соотношений, которые позволяют сделать вручную базовые оценки быстродействия, помехоустойчивости и прочих параметров отдельных блоков и всего многопортового регистрового файла, является актуальной научно-технической задачей.

Цель диссертации - разработка методологии проектирования многопортовых ОЗУ, основанной на приближенной оценке характеристик и позволяющей на ранних стадиях разработки проводить оптимизацию схем отдельных блоков и всего ОЗУ в целом с учетом влияния паразитных параметров линий связи.

Достижение данной цели предусматривает решение следующих задач:

4. выбор схемы основного элемента многопортового ОЗУ, многопортовой ячейки памяти, в процессе которого проводится исследование различных структур, их свойств и особенностей, сравнение по основным параметрам, уточнение существующих и получение новых математических выражений для оценки помехоустойчивости, быстродействия, мощности и площади;

5. определение наилучшего способа обмена данными между массивом запоминающих ячеек и периферийными устройствами регистрового файла с точки зрения быстродействия, помехоустойчивости и простоты реализации;

6. уточнение существующих и получение новых целевых функций для оптимизации структуры массива ячеек памяти. Целевые функции должны включать величины амплитуд и задержек передаваемых сигналов, а также площадь и потребляемую мощность схем, связанных различными шинами;

7. выбор оптимального напряжения и схемы предзаряда битовых шин для ячеек памяти, использующих малый логический перепад для передачи сигналов по битовым шинам;

8. разработку методики проектирования цепей питания и анализа на самых ранних этапах их работоспособности в соответствии с ограничениями, накладываемыми электромиграцией, предельно допустимым омическим падением напряжения и удобством трассировки на кристалле.

Основной научный результат работы состоит в развитии методологии проектирования статических многопортовых КМОП ОЗУ.

Научная новизна

9. Развита методология проектирования многопортовых ОЗУ, основанная на приближенной оценке характеристик ячеек ОЗУ и позволяющая сократить время проектирования и улучшить совокупность параметров ОЗУ.

10. Впервые введены обобщенные параметры качества, позволяющие более точно оценить параметры различных многопортовых ОЗУ.

11. Предложены новые целевые функции, позволяющие оценить и улучшить статические и динамические характеристики многопортовых ячеек памяти, а также снизить площадь и потребляемую мощность.

12. Подробно исследовано применение малого (порядка пороговых напряжений транзисторов) перепада напряжения на битовых шинах, который позволяет повысить быстродействие ОЗУ. Предложено и обосновано использование значения напряжения предзаряда, приблизительно равного пороговому напряжению п-МОП транзисторов, что позволяет уменьшить на 10% мощность, потребляемую этими схемами.

13. Для ячеек памяти, использующих малый перепад напряжения на битовых шинах, разработана методика оптимизации структуры массива памяти с учетом площади, потребляемой мощности, скорости нарастания и амплитуды сигнала на битовых шинах. Данная методика позволяет увеличить амплитуду передаваемых сигналов в 2 и более раз, уменьшить задержки, потребляемую мощность и площадь ОЗУ на 30...50%.

14. Разработана методика учета влияния на передачу сигналов паразитных параметров линий связи и электро миграции на самых ранних этапах разработки, что позволяет проектировать цепи питания без нарушений целостности сигналов с первого раза.

Практическая ценность

Разработаны алгоритм вычислений и программа, реализующие предложенную в диссертации методику параметрической оптимизации принципиальных схем ячеек памяти и структуры массива ячеек памяти на основе полученных в диссертации целевых функций. Данная программа может использоваться как вычислительное ядро для создания компиляторов многопортовых статических ОЗУ.

Разработан простой алгоритм вычислений импульсных помех в цепях питания ОЗУ на этапе схемотехнического синтеза.

Реализация результатов диссертации

Диссертация выполнена на кафедре электроники МИФИ. Результаты диссертации были использованы в ОКР «Многопроцессорный вычислительных комплекс Эльбрус-ЗМ», проводимой в ИМВС РАН, что позволило сократить время разработки многопортовых ОЗУ (регистровых файлов) для микропроцессора общего назначения по сравнению с циклами разработки аналогичных зарубежных устройств фирм Intel и IBM.

На защиту выносится следующее

Обобщенные параметры качества многопортовых статических ОЗУ, позволяющие по совокупности основных параметров проводить объективное сравнение устройств данного класса.

Рекомендации по оптимизации и результаты оптимизации многопортовых ячеек памяти на основе предложенных целевых функций, учитывающие требования по быстродействию, минимизации потребляемой мощности и площади, а также учитывающие влияние паразитных параметров линий связи.

Метод повышения быстродействия и снижения потребляемой мощности многопортовых статических ОЗУ при использовании величин малых перепадов сигнала и величин напряжения предзаряда, близких к пороговым напряжениям транзисторов.

Секционирование битовых шин, сигнал по которым передается малым перепадом, для повышения быстродействия ОЗУ должно осуществляться установлением экстремума полученных целевых функций для оценки площади, быстродействия и потребляемой мощности массива памяти, а также амплитуды сигналов на битовых шинах.

Минимизацию импульсных помех в цепях питания ОЗУ на этапе схемотехнического синтеза следует осуществлять с учетом регулярности структуры ОЗУ, состоящей из ограниченного количества одновременно срабатывающих блоков.

Алгоритм и программа оптимизации параметров транзисторов ячеек памяти и структуры массива ячеек памяти на основе предложенных целевых функций.

Материал диссертации распределен по главам следующим образом.

В первой главе проводится обзор существующих методов проектирования и тенденций развития схемотехники ключевых блоков и цепей многопортовых ОЗУ. Рассматриваются способы повышения быстродействия и снижения потребляемой мощности.

Во второй главе проведен анализ статических и динамических характеристик ЯП с целью уточнения существующих соотношений для оценки помехоустойчивости, быстродействия, площади и потребляемой мощности и получения новых, пригодных для схем, использующих малый логический перепад на битовых шинах.

В третьей главе предложены методики учета влияния линий связи на передачу различных сигналов и способы, позволяющие уменьшить негативное влияние их паразитных параметров.

Четвертая глава посвящена результатам проектирования различных вариантов многопортового регистрового файла. 

Выбор методов приема и передачи данных в критических цепях

В передовых субмикронных технологиях межсоединения (и связанные с ними цепи приема и передачи) отвечают за постоянно возрастающую долю потребляемой мощности в интегральных схемах. Так, в работе [23] показано, что для устройств на основе библиотечных элементов мощность, рассеиваемая в линиях связи, может достигать 40% от потребляемой всем кристаллом мощности соответственно.

Очевидно, что необходимы методики проектирования, позволяющие уменьшить эту долю потребляемой мощности. Одним из наиболее эффективных способов является использование малого перепада напряжения в линиях связи, соединяющих устройства, расположенные на одном кристалле [24]. Очевидно, что при этом существенно более острой становится проблема обеспечения высокой пемехоустойчивости схем. В статье [25] рассмотрены различные методы приема-передачи данных с помощью малого перепада. Было отмечено, что рассматриваемые варианты имеют существенные отличия по таким параметрам, как структурная сложность, надежность и производительность. Это имеет большое значение при выборе той или иной схемы и вносит дополнительные трудности с точки зрения обеспечения максимально объективного сравнения различных вариантов.

При расчетах на Star-HSPICE использовалась тестовая схема, приведенная на рис. 1.2.1,а. Передатчик (У1) преобразует полный логический перепад сигнала, приходящего на его вход с инвертора DD1, в сигнал с уменьшенным перепадом и перезаряжает шину с подключенной к ней емкостью нагрузки Сь

Этот сигнал считывается с другого конца шины приемником (У2) и преобразуется в импульс полного перепада. Выход У2 нагружен на инвертор DD2. Линия связи моделируется в виде распределенной RC-цепи с П-образными звеньями (см.рис. 1.2.1,6). Дополнительная емкость нагрузки CL также, как и собственная удельная емкости шины Cw, считается распределенной. Инверторы перед передатчиком (DD1) и после приемника (DD2) были добавлены для обеспечения максимально приближенных к реальности условиям работы схемы: таким способом на вход блока У1 подается не идеальный импульс, задаваемый в SPICE-модели источником напряжения с бесконечной нагрузочной способностью, а выходной сигнал DD1, имеющий определенные параметры. Аналогично, выход У2 работает не на холостом ходу, а на нагрузку, определяемую входной емкостью DD2.

При сравнении различных типов схем (динамических и статических) требуется принимать во внимание различия в активности данных а, которая определяется как количество переключений входного сигнала за один такт синхросигнала. Оценка общей потребляемой энергии должна включать в себя энергию, потребляемую как передатчиком, так и приемником. Токи короткого замыкания и утечки менее важны по сравнению с доминирующей энергией переключения, но также должны учитываться. Надежность. Тремя основными источниками ухудшения надежности являются отклонение техпроцесса от номинального, шум источников и сетки питания и наводки.

В работе [25] для определения степени надежности схем используется метод, использующий расчет наихудшего случая. В соответствии с этим подходом шумовое напряжение определяется как иш = Кшис+инш, (1.2.2) где член KinUc обозначает те источники шума, которые пропорциональны сигналу Uc (наводки и зависящие от передаваемого сигнала помехи по цепям питания), a Unm - независимые от него (входное смещение приемника, чувствительность приемника и не связанные с сигналом помехи по цепям питания). Рассмотрим каждую из этих составляющих.

1. Наводки. Предположим, что рядом проходят две линии связи, по одной из которых (Ш) передается сигнал. Этот проводник имеет емкостную связь со второй линией (Л2). Возможны два варианта взаимодействия. В первом случае Л2 в момент воздействия помехи не подключена ни к какому источнику сигнала (имеет плавающий потенциал). Тогда на ней будет наводиться сигнал такой же по форме, как и на Л1, но меньший по амплитуде. Коэффициент передачи такой системы определяется емкостью второго проводника Сг и взаимной емкостью Си и равен Кц = Сіг/(Сі2+Сі). В другом случае Л2 может быть подключена к источнику с внутренним сопротивлением R. Тогда возникает переходный процесс с постоянной времени т = ЩСп+Сг). В статических схемах можно добиться ослабления влияния наводок за счет увеличения длительности сигналов и, следовательно, восстановления потерь заряда. В динамических схемах такой возможности нет, поэтому в [25] коэффициент ослабления наводок статических схем устанавливается равным Кон = 0,2, а для динамических Кон = 1.

Помехи питания. Для хорошо разработанной сетки питания помехи, распространяемые по ней и не связанные с рассматриваемым сигналом, считаются равными Кип = 5% от напряжения питания. Вызванные же сигналом шумы полагаются не более Квлип = 5% для однофазной передачи и, соответственно, Квл.ип = 10% для парафазной. Однако, учитывая высокий коэффициент ослабления синфазного сигнала в дифференциальных схемах, можно считать для них Квлип не превьппает 1%. Коэффициент ослабления напряжения питания определяется как изменение порогового напряжения приемника, вызванное единичным изменением напряжения питания Коп = AUnop/AUdd Неидеальность передатчиков и приемников сигнала. Отклонения технологического процесса от номинального приводят к возникновению напряжения входного смещения приемника UCMJIP. ДЛЯ получения его значения необходимо промоделировать схему при различных технологических отклонениях, чтобы определить максимальный разброс входных пороговых напряжений. Естественно, что дифференциальные схемы имеют на порядок меньшее значение UCMJIP, чем однофазные, поскольку для них оно зависит только от локального несовпадения размеров и пороговых напряжений дифференциальной пары транзисторов. Чувствительность приемника Uq.np определяется как половина ширины переходной области на его передаточной характеристике. Напряжение смещения передатчика UCMJIEP— зависит от несовпадения пороговых напряжений передатчика и приемника и смещения уровня опорного напряжения. Его величину можно принять равной 5%. В соответствии с этими определениями получаем следующую формулу для вычисления наихудшего значения шумового напряжения: Um = ( Кон Кн+ Квл.ип)Цс+ Коп Кип+ UcM.np+ UCMIIEP+ Uq.np. (1-2.3)

Исходя из этого, можно сформулировать требования к схемам приема/передачи данных: необходимо применять только статические передатчики, чтобы избавиться от связей с неопределенными («плавающими») потенциалами, особенно при наличии длинных проводников; приемник должен обладать минимальным входным смещением, высокой крутизной передаточной характеристики и высоким коэффициентом ослабления синфазного сигнала; статические передатчики предпочтительнее также и потому, что их использование приводит к уменьшению активности переключений; хотя дополнительные источники напряжения питания могут быть легко изготовлены на одном кристалле, желательно свести их количество к минимуму; также желательно минимизировать количество управляющих сигналов.

Основные результаты анализа переключательных характеристик ячеек памяти

Основными динамическими характеристиками любых схем являются задержки и потребляемая мощность. В нашем случае речь идет о мощности, затрачиваемой на переключение ячейки при записи и на перезаряд битовых шин при чтении, и о задержках считывания и переключения. В упомянутых выше работах, посвященных ячейкам памяти, динамические характеристики практически не рассматриваются. Единственное упоминание о токе разряда битовых шин сделано для дифференциальной ячейки в статье [12], при этом авторы данной работы полагают, что величина этого тока остается неизменной, так как транзисторы ячейки находятся в пологой области в течение всего цикла считывания. Такой подход не оправдывает себя в случае, когда ток транзистора недостаточно велик, чтобы можно было пренебречь скоростью и характером изменения сигналов на битовых шинах, что имеет место в современных БИС ОЗУ. А при считывании данных малым перепадом этот подход вообще неприменим, так как транзисторы, через которые ячейка перезаряжает битовые шины, могут работать и в крутой области ВАХ, что оказывает существенное влияние на скорость и характер изменения потенциалов шин. Кроме того, авторы указанной работы не рассматривают процесс динамического уменьшения напряжения в узлах триггера дифференциальной ячейки в режиме чтения. В этой связи необходимо подробно рассмотреть динамические характеристики выбранных ячеек памяти.

Схемы типа ЯШ в режиме чтения не потребляют тока от источника питания (если не рассматривать подпороговые токи, которые есть и при отсутствии обращений к ячейке). Дифференциальные ячейки потребляют ток в любом режиме. Задержки записи (переключения) сильно зависят от выбранной схемы драйвера битовых шин и могут быть уменьшены за счет увеличения его выходных транзисторов.

При рассмотрении режима чтения будем считать, что запись уже полностью завершена, то есть триггер ячейки находится в устойчивом состоянии, и все переходные процессы в нем закончились. Обычно усилители словарных шин достаточно мощны, чтобы обеспечить существенно более короткие фронты напряжения на затворах проходных транзисторов, чем фронты сигналов на битовых шинах, поэтому можно считать, что на затворы проходных транзисторов подается идеальный перепад напряжения.

Динамические характеристики однофазных схем в режиме чтения В данных схемах отсутствует такое понятие, как задержка чтения высокого уровня. Это вызвано тем, что изначально битовые шины портов считывания предзаряжаются до напряжения питания, и если в ячейку была записана единица, то на затворы усилительных транзисторов портов чтения через инвертор подается низкий уровень, битовые шины не подключаются к триггеру ячейки, и их потенциалы не изменяются.

При чтении низкого уровня емкость битовой шины разряжается через транзисторы порта чтения до нуля. Если считать, что схемы синхронизации устройства памяти функционируют нормально, т.е. сигнал на словарные шины чтения приходит после окончания записи (перехода ячейки в устойчивое состояние), то емкость стока усилительного транзистора VTra (см. рис. 1.1.2) уже будет разряжена до нуля, и исток VTr можно считать «виртуальной землей». Это означает, что битовая шина фактически разряжается через VTr. Этот транзистор для уменьшения площади массива ячеек стараются сделать минимально возможной ширины, что для глубоко субмикронных технологий означает высокое сопротивление канала (порядка единиц килоом) [69]. А сопротивления проводников как минимум на порядок ниже, поэтому они не вносят существенного вклада в задержку чтения. То есть можно считать, что емкость линии, включающая емкости стоков всех проходных транзисторов ячеек, подключенных к шине, является сосредоточенной. При этом паразитными емкостями внутренних узлов ячейки можно пренебречь по сравнению с емкостью шины.

Получение математического описания процесса разряда емкости через п-МОП транзистор детально описано в книге [61], поэтому здесь мы приведем лишь окончательные выражения. Вначале VTr находится в пологой области, и потенциал битовой шины Ub меняется в соответствии с выражением (2.2.1): Ub(t,PrtCb) = U -A-(Udd-Ujt, (2.2.1) где рг- крутизна транзистора VTr; Съ - емкость битовой шины. После того, как выходное напряжение уменьшится до Ub = Udd-Utn, проходной транзистор перейдет в крутую область ВАХ. Это произойдет в момент времени to:

Для технологии 0,18 мкм результаты моделирования и расчетов напряжения на битовой шине чтения по формулам (2.2.1), (2.2.3) представлены на рис.2.2.1. Индексом "sp" обозначены данные, полученные моделированием на Star-HSPICE.

Считывание данных из ячейки полным перепадом

Битовая шина моделировалась в виде распределенной линии связи с распределенной же нагрузкой. Суммарная емкость шины полагалась равной Съ = 0,18пФ. Ширина транзистора VTra была одинаковой с шириной VTr и равной Імкм. В соответствии с этими данными момент перехода проходного транзистора из пологой области в крутую равен to = 235пс. Максимальное несоответствие результатов теоретических расчетов и моделирования не превышает 40мВ. Из приведенного графика также видно, что интервала времени 1нс достаточно для считывания сигнала из такой ячейки полным перепадом.

Методика учета перекрестных помех в парафазных шинах при моделировании

Результаты моделирования описанной выше схемы, состоящей из четырех пар шин, представлены в табл.3.1.2. Измерялись четыре основных параметра сигналов, передаваемых по битовым шинам, - задержки чтения tr и записи tw и амплитуда дифференциального сигнала на битовых шинах при чтении VrMflKC и записи Vw_MaKo. Задержки определялись от момента времени, когда напряжение на словарной шине достигло половины напряжения питания, до момента, когда разность потенциалов битовых шин составит 200мВ. Как было определено в разделе 1.2, такой перепад на шинах гарантирует правильное считывание данных из ячейки и правильную запись в нее независимо от технологии [31]. шинах (режим 3) могут в наихудшем случае измеряться десятками милливольт, что требует повышенного внимания к помехоустойчивости ячеек памяти. В нашем случае запас помехоустойчивости ячеек при низком уровне на входе инвертора питания в несколько раз превышает приведенные в табл.3.1.2 значения помех (см. главу 2).

Исходя из полученных данных, для проведения предварительных расчетов можно предложить использовать следующую методику оценки влияния перекрестных помех. Для наилучшего случая все взаимные емкости исключаются и рассматривается только собственная емкость шины, включающая емкости диффузионных областей транзисторов, т.е. Сш = Q+N CD, где Сш - емкость шины, СІ - собственная емкость проводника относительно подложки, N p - количество транзисторов, подключенных к шине, CD - емкость стока одного транзистора. При рассмотрении среднего случая для парафазных линий (или наихудшего для однофазных) у всех взаимных емкостей, подключенных к шине, вторые обкладки можно считать заземленными и вычислять задержки, амплитуды и прочие параметры с использованием выражения Сш = CJ+N CD+СЩ- Результаты для такого расчета приведены в табл.3.1.2 под номером 5 и хорошо согласуются с результатами для режима 2. При рассмотрении наихудшего случая для дифференциальных шин взаимные емкости должны входить в суммарную с коэффициентом 2: Сш — Q+NipCD+2Cm. Этот вариант моделировался под номером 6 и тоже показал хорошее соответствие максимально приближенному к реальности для такого случая режимом 4.

В результате получены простые формулы для учета взаимных емкостей линий связи, позволяющие проводить инженерные расчеты без привлечения сложного математического аппарата или специальных программ.

При разработке микропроцессоров требуется уделять внимание трассировке сеток земли и питания еще на этапе создания планировки кристалла. В противном случае, после схемотехнического проектирования или синтеза (разработки) топологии может потребоваться коренная переработка части, а в худшем случае и всего кристалла [91]. При расчетах сеток питания требуется учитывать такие факторы, как падение напряжения на длинных проводниках, ширину проводников, плотность их трассировки, необходимость прокладки дополнительных трасс и т.д. Например, конечность сопротивления проводников является причиной постоянного смещения уровней напряжений питания. В идеальном случае для питания и земли отводится по одному слою, как это делается для многослойных печатных плат.

Однако очевидно, что такое решение неприемлемо для СБИС, несмотря на то, что подобное решение встречается в разработках на основе современных техпроцессах с большим (7-8) количеством слоев металлизации: промежуточные слои, выполненные, как правило, в виде сетки и соединенные с выводом земли используются для экранирования сигнальных слоев от наводок, вызываемых переключением элементов [92]. Для технологий с двумя слоями металлизации рекомендации по трассировке шин питания и земли приведены в работах [93] и [94].

В качестве варианта для современных технологий с большим количеством слоев можно предложить использование в качестве глобальных шин широких проводников, проведенных в верхнем слое металлизации с большими промежутками, чтобы дать возможность проложить между ними другие трассы. При этом по сравнению с остальными сигнальными линиями трассировка глобальных шин должна обладать преимуществом для обеспечения их регулярности, а значит, и низкого сопротивления [95]. Во втором от поверхности слое металлизации проводятся шины, обеспечивающее питание элементов внутри крупных устройств. Поскольку устройства имеют разные геометрические размеры, возникает проблема стыковки их сеток питания. Например, при размещении на кристалле шины питания одного устройства могут проходить в одной горизонтали с шинами земли другого. Чтобы избежать таких проблем, разработчики разных устройств должны договариваться между собой о способах трассировки шин питания.

Этот способ непродуктивен. В качестве альтернативы предлагается следующий метод. Необходимо окружить устройства кольцевыми проводниками земли и питания, которые затем легко соединить между собой перемычками [96].

Варианты реализации регистрового файла

По сигналу S3 в режиме записи (низкий уровень Clk) запускается и усилитель шины питания ячеек памяти (сигнал PL). Одновременно с PL генерируется строб записи, по которому входные данные Din, принятые усилителем записи, передаются на битовые шины.

Выходные триггеры схемы приоритета, обеспечивающей обработку коллизий при попытке одновременного доступа к одному слову по разным портам, стробируются сигналом LClk, и хранят полученные данные в течение такта. Если на каком-либо выходе схемы приоритета (В), управляющей генератором стробов усилителей чтения, будет низкий уровень, то в режиме чтения генератор запустится, и на шине питания усилителей данного порта (SA) появится низкий, активный, уровень. Через время, равное задержке срабатывания усилителя, данные поступят на выходные буферы, которые также стробируются своими сигналами В.

Варианты реализации регистрового файла

Как указывалось во введении к данной главе, помимо основной модификации регистрового файла - для рабочей частоты 1 ГГц — были созданы два маломощных устройства, работающих на частоте 400 Мгц, один из которых обладает такими же структурными параметрами, а второй - меньшим количеством портов и разрядов. Ниже рассматриваются их характерные черты.

В «низкочастотном» варианте основой является статическая КМОП схемотехника, что позволяет при выполнении требований по быстродействию добиться минимальной потребляемой мощности и занимаемой на кристалле площади. Далее, поскольку на наиболее критичную по времени операцию — чтение данных из ячеек — отводится половина такта, то было решено в этом варианте не использовать секционирование массива ЯП по битовым шинам, чтобы не усложнять разработку добавлением оборудования. Как показано в табл.4.1.1, необходимый уровень дифференциального сигнала - 200 мВ — без секционирования битовых шин достигается за время чуть большее 1,16 не, в то время, как длительность полутакта, отведенная на считывание, равна 1,25 не. Исполнение массива памяти цельным блоком позволяет разместить усилители чтения и записи сверху и снизу от него. Благодаря этому сигналы с внешних контактов регистрового файла не проходят над массивом памяти, что дает возможность использовать эту область металлизации использовать для внутренних сигналов.

В то же время, потребовалось разбить словарные шины на 2 части из-за того, что драйверы с транзисторами максимально допустимой по предельному току ширины не способны были обеспечить требуемые длительности фронтов на этих шинах. Можно было увеличить ширину шин и, следовательно, ширину выходных транзисторов драйверов, однако это привело бы к увеличению вертикального размера ячеек, то есть к удлинению битовых шин. Поэтому было решено расширить только шины отключения питания ячеек памяти и разделить регистровый файл на 2 секции по полусловам [83]. Это разбиение также необходимо в соответствии с пунктом 1.2 технического задания - для обеспечения независимого обращения к половинам слов. Фактически были изготовлены два одинаковых регистровых файла на 256 слов по 32 разряда, и в каждом порте их входы адресных разряды с 0 по 7 были объединены, а восьмые, разрешающие, были оставлены независимыми, что дает возможность обеспечить независимый доступ к старшей и младшей половинам слова.

Что же касается устройства, работающего на частоте 1 ГГц, то на технологии 0,18 мкм создать подобный многопортовый регистровый файл на основе статической логики невозможно. Поэтому было решено использовать динамическую логику с автовосстановлением (self-reset logic). Пример вентиля И-НЕ в данном семействе схем приведен на рис.4.1.2.

Во-первых, в подобных схемах в отличие от традиционной динамической логики типа «домино» отсутствуют специальные транзисторы для цепей синхронизации, что приводит к уменьшению задержек. Во-вторых, в таких

логических элементах вырабатываются короткие выходные импульсы, длительность которых определяется цепочкой обратной связи. При этом схемы с автовосстановлением позволяют поддерживать на одну и ту же ширину импульса независимо от характера входных сигналов, тогда как в статических схемах каждый последующий каскад лишь устраняет завал фронтов, но не восстанавливает требуемую ширину импульса. В-третьих, схемы с автовосстановлением имеют больший запас помехоустойчивости, чем традиционные динамические схемы типа «домино».

Передачу входных сигналов адреса и данных по длинным (до 2мм) проводникам из внешних устройств на частоте 1 ГТц за полтакта не удается произвести полным перепадом. Поэтому для повышения быстродействия и помехоустойчивости пришлось использовать малые парафазные входные сигналы. Это повлекло за собой удвоение входных контактов адреса и данных, а регистры адреса и хранящая входные данные часть усилителя записи выполнялись на базе триггеров типа дифференциальных усилителей чтения (см. раздел 1.3).

Для обеспечения режима независимого доступа к половинам слов и в этом варианте применялось разбиение на два идентичных устройства по 32 разряда с объединением младших 8 битов входных адресов и разделением разрешающих девятых разрядов. Также из-за высокой частоты помимо деления по словарным шинам потребовалось разбить массив ЯП на секции еще и по битовым шинам на 4 сегмента.

Помимо маломощного 64-разрядного регистрового файла был разработан дополнительный 16-разрядный с количеством портов чтения и записи соответственно 7 и 6. Основным архитектурным отличием этих блоков от 64-разрядных является видоизмененная ячейка памяти. Из десяти пар внешних проходных транзисторов оставлены семь, и к одной из пар битовых шин не подключается усилитель записи.

Похожие диссертации на Быстродействующие многопортовые статические КМОП ОЗУ